156
Las pruebas ENLACE para educación media superior Una evaluación para el Instituto Nacional para la Evaluación de la Educación ANEXO

Analisi s prueba enlace ems 2015

Embed Size (px)

Citation preview

Page 1: Analisi s prueba enlace ems 2015

Las pruebas ENLACE para educación media superior

Una evaluación para el Instituto Nacional para la Evaluación de la Educación

ANEXO

Page 2: Analisi s prueba enlace ems 2015
Page 3: Analisi s prueba enlace ems 2015

ANEXOCuaderno de investigación

Felipe Martínez RizoCoordinador

Luis Ángel Contreras Niño • Eugenio GonzálezJesús M. Jornet Meliá • Ma. Regina Martínez Casas

J. Felipe Martínez Fernández • María Guadalupe Pérez Martínez Francisco E. Reyes Jiménez • Lucrecia SantibáñezGuillermo Solano Flores • Marianne Sandy Taut

Agustín Tristán López

Universidad Autónoma de Aguascalientes

40

Una evaluación para el Instituto Nacional para la Evaluación de la Educación

Las pruebas ENLACE para educación media superior

Page 4: Analisi s prueba enlace ems 2015

D.R. © Instituto Nacional para la Evaluación de la EducaciónBarranca del Muerto 341, Col. San José Insurgentes, Del. Benito Juárez; C.P. 03900 México, D.F.

EditoraMaría Norma Orduña Chávez

Corrección de estiloHugo Soto de la Vega

FormaciónHeidi Puon Sánchez

Impreso y hecho en México. Distribución gratuita. Prohibida su venta.

Consulte el catálogo de publicaciones en línea: www.inee.edu.mx

La elaboración de esta publicación estuvo a cargo de la Dirección General de Difusión y Fomento de la Cultura de la Evaluación. El contenido, la presentación, así como la disposición en conjunto y de cada página de esta obra son propiedad del INEE. Se autoriza su reproducción parcial o total por cualquier sistema mecánico o electrónico para fines no comerciales y citando la fuente de la siguiente manera:

Martínez Rizo, F. (Coord.) (2015). Las pruebas ENLACE para educación media superior. Una evaluación para el Instituto Nacional para la Evaluación de la Educación. México: INEE.

Las pruebas ENLACE para educación media superiorUna evaluación para el Instituto Nacional para la Evaluación de la EducaciónPrimera edición, 2015ISBN: En trámite

CoordinadorFelipe Martínez Rizo

Luis Ángel Contreras Niño, Eugenio González, Jesús M. Jornet Meliá, Ma. Regina Martínez Casas, J. Felipe Martínez Fernández, María Guadalupe Pérez Martínez, Francisco E. Reyes Jiménez, Lucrecia Santibáñez, Guillermo Solano Flores, Marianne Sandy Taut, Agustín Tristán López

Page 5: Analisi s prueba enlace ems 2015

5

Índice

Presentación .................................................................................................................. 7

Introducción ................................................................................................................ 11

Alineación a los referentes ......................................................................................... 14Aspectos técnicos ........................................................................................................ 45Atención a la diversidad ............................................................................................. 63Aplicaciones ................................................................................................................ 78Usos y consecuencias .................................................................................................. 99

Conclusiones y recomendaciones ............................................................................ 136

Referencias bibliográficas ......................................................................................... 147

Anexos1. Criterios y subcriterios de evaluación ........................................................................................ 11492. Informe de estudios especiales de comités de expertos

y entrevistas cognitivas sobre reactivos de enlace-ms3. Microanálisis de una muestra de reactivos de enlace-ms4. Información de entidades sobre aplicaciones5. Resultados de encuesta de autoridades estatales sobre usos y consecuencias6. Material de entrevistas con autoridades estatales y federales sobre usos y consecuencias7. Revisión de prensa

Page 6: Analisi s prueba enlace ems 2015

DIRECTORIO

JUNTA DE GOBIERNO

Sylvia Irene Schmelkes del ValleCONSEJERA PRESIDENTA

Eduardo Backhoff EscuderoCONSEJERO

Gilberto Ramón Guevara NieblaCONSEJERO

Margarita María Zorrilla FierroCONSEJERA

Teresa Bracho GonzálezCONSEJERA

Page 7: Analisi s prueba enlace ems 2015

7

Presentación

En diciembre de 2009 la Universidad Autónoma de Aguascalientes (UAA) y el Instituto Na-cional para la Evaluación de la Educación (INEE) firmaron un convenio, en cuyo marco el INEE encomendó a la UAA la realización del Estudio de validación de las pruebas ENLACE y EXCALE de educación básica, para lo cual el 1 de octubre de 2013 se firmó un Anexo de Ejecución del convenio mencionado.

Dicho Anexo de Ejecución precisa que el estudio analizará varios aspectos de las pruebas ENLACE y EXCALE,

con base en la documentación que sobre su diseño, aplicación, resultados y la utilización y consecuencias de los mismos aporten la SEP [Secretaría de Educación Pública] y el INEE y, en la medida en que sea necesario, en información adicional proporcionada por personas de la SEP, el INEE y los sistemas educativos de las entidades federativas del país, en relación con aspectos de los que no haya elementos suficientes en la información documental que se recabe.

Se añade que el estudio incluirá recomendaciones

que tengan en cuenta las mejores prácticas internacionales […] de manera que el desarrollo del sistema nacional de evaluación de México, en lo relativo a educación básica, incluya evaluaciones de aprendizajes en gran escala que, por la calidad de su diseño y aplicación, así como por el uso que se haga de sus resultados, contribuyan en la mayor medida posible al propósito de mejorar la calidad de la educación mexicana.

El Anexo precisa que los aspectos que comprenderá el estudio serán:

1. La alineación al currículo de la educación básica de México, revisando el grado en que las pruebas atienden adecuadamente y según la naturaleza de una evaluación en gran escala, los campos formativos, las asignaturas y los niveles de demanda cognitiva consi-derados en los planes y programas de estudio de la educación básica nacional.

2. Los aspectos técnicos de las pruebas, como la calidad de los reactivos que las integran, la de las versiones de las pruebas, las escalas y modelos psicométricos utilizados, las técnicas de equiparación, entre otros.

3. La forma en que las pruebas atienden las diferencias culturales y lingüísticas que hay entre los estudiantes de un sistema educativo de grandes dimensiones, en un país que se define como multicultural, y las implicaciones de lo anterior.

4. La forma en que se llevan a cabo las aplicaciones de las pruebas, tanto censales como muestrales, y las implicaciones que tienen para la calidad de los resultados.

5. La forma en que se difunden los resultados de las pruebas, los análisis de factores aso-ciados y el uso que se hace de dichos resultados, así como las consecuencias que ha traído consigo su utilización en el sistema educativo.

Page 8: Analisi s prueba enlace ems 2015

8

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

El Anexo de octubre 2013 consideraba cuatro etapas, pero en abril de 2014 el INEE solicitó incluir las pruebas ENLACE de educación media superior (ENLACE-MS en adelante), para lo que en junio se suscribió un Addendum al Anexo, con lo que el trabajo comprende cinco etapas, de las cuales la cuarta corresponde al análisis de ENLACE-MS y la quinta a conclusiones y reco-mendaciones generales.

A diferencia de las pruebas que se refieren a educación básica, las que se aplican a estudiantes de enseñanza media superior no pueden utilizar como referente para su construcción un cu-rrículo nacional, dado que no lo hay. Lo que existe es un marco común de competencias que todos los subsistemas que comprende el sistema educativo nacional en este tipo educativo deben atender.

Por ello, para el análisis de las pruebas ENLACE-MS, el grupo de especialistas juzgó adecuado llevar a cabo dos actividades —que no se consideraron necesarias en el caso de los otras prue-bas—, para explorar el grado en que los ítems evalúan competencias que no se limiten a las más elementales, sino que incluyan algunas que impliquen niveles de demanda cognitiva como los que se espera que alcancen los alumnos de ese tipo educativo: por una parte, la formación de comités de validación conformados por profesores de media superior y otros expertos en las dos áreas que cubren las pruebas de ENLACE-MS (matemáticas y lectura), y por otra, la realización de entrevistas cognitivas con estudiantes del nivel.

Las demás actividades fueron similares a las de las etapas anteriores, por lo que se describen sintéticamente como sigue:

• Una vez que el grupo de trabajo estuvo de acuerdo en añadir una etapa relativa a EN-

LACE-MS, y sin esperar a la firma del Addendum al Anexo de Ejecución, Luis Ángel Contreras, con apoyo de Jesús Jornet y Guillermo Solano, aceptó hacerse cargo de la coordinación de las dos tareas especiales a las que se ha hecho referencia.

• De inmediato se solicitó a la Dirección General de Evaluación de Políticas (DGEP) de la SEP la información documental disponible sobre las pruebas de ENLACE-MS.

• Aprovechando la reunión presencial del 16 y 17 de junio en que se revisó la primera versión del informe sobre EXCALE, se invitó a personal de la DGEP y el Centro Nacional de Evaluación para la Educación Superior (CENEVAL), buscando ampliar la información documental recibida en un primer momento.

• Los comités de validación con profesores y otros expertos tuvieron lugar en Ensenada del 7 al 10 de julio 2014, y las entrevistas cognitivas del 23 al 25 del mismo mes, en la Ciudad de México. En los comités participaron 8 profesores de media superior, 2 especialistas para el área de lectura, y otros tantos para la de matemáticas. Los estudiantes que parti-ciparon en las entrevistas cognitivas fueron 18, 9 para cada área.

• Personal de la UAA llevó a cabo nuevas entrevistas a funcionarios de seis entidades fe-derativas y de las direcciones generales de la Subsecretaría de Educación Media Superior a cargo de los principales subsistemas federales de ese tipo educativo; asimismo envió cuestionarios en línea a todas las entidades y revisó diarios de circulación nacional.

• En julio y agosto de 2014 cada par de especialistas trabajó revisando la documentación sobre ENLACE proporcionada por el CENEVAL, por conducto de la DGEPE.

• El 29 de agosto los subgrupos de especialistas hicieron llegar una primera versión del análisis de ENLACE-MS a la coordinación, que integró los avances en un documento que se envió al grupo el 5 de septiembre.

Page 9: Analisi s prueba enlace ems 2015

9Presentación

• La primera versión del texto integrado se discutió en reunión presencial de todos los miembros del grupo los días 8 y 9 de septiembre.

• Los especialistas prepararon luego una segunda versión del análisis de ENLACE-MS, y el 3 de octubre enviaron sus respectivos productos a la coordinación, que elaboró esta versión final integrada del cuarto informe.

Como en los casos anteriores, se contemplaba que la entregada en el mes de octubre no fuera la versión definitiva del análisis de las pruebas ENLACE de educación media superior, y que sus conclusiones podrían ser complementadas en el informe final a entregarse en diciembre. Sin embargo en este caso los autores no consideramos necesario hacer modificaciones a la versión anterior, por lo que ésta retoma sin cambios la entregada en el mes de octubre.

Reiteramos que nuestros análisis y valoraciones se refieren siempre a nuestro objeto de estudio y de ninguna manera a las numerosas personas involucradas en su desarrollo, su aplicación y el procesamiento de resultados. También señalamos de nuevo que este informe es producto del trabajo colectivo del grupo, si bien cada par de especialistas tuvo una participación principal en el apartado que le correspondía. Los momentos de discusión colectiva permitieron enriquecer las aportaciones de cada persona con la visión del resto, lo que llevó a un grado de consenso considerable, aunque no absoluto.

Felipe Martínez RizoAguascalientes, diciembre de 2014

Page 10: Analisi s prueba enlace ems 2015
Page 11: Analisi s prueba enlace ems 2015

11

Introducción

Los dos informes anteriores del proyecto incluyeron sendos apartados en los que se precisa la noción de validación, las de confiabilidad y validez, y los criterios de evaluación que se utilizan en el análisis encomendado al grupo. En este tercer informe no consideramos necesario reiterar la presentación de dichas nociones, pero sí los criterios de evaluación utilizados.

En el primer informe, a partir de una revisión de la literatura especializada, se llegaba a la pro-puesta de 72 criterios particulares que serían la base para llevar a cabo el estudio, sin contar tres criterios adicionales de carácter general. De esos criterios 11 se referían a lo que en ese mo-mento se caracterizó como validez de contenido, y en particular a la alineación de las pruebas al currículo; 16 a la validez de constructo, y otros aspectos técnicos de las pruebas; 12 a la validez cultural; 16 tenían que ver con las aplicaciones y sus implicaciones para confiabilidad y validez; y 17 se referían a la validez de usos y consecuencias de las pruebas.

A lo largo del trabajo el listado de criterios definido inicialmente se modificó, para quedar en 59 criterios y 102 subcriterios. Por último, al hacerse el análisis de las pruebas ENLACE de educa-ción media superior se hizo un nuevo ajuste, quedando finalmente 58 criterios y 97 subcriterios.

Además de ajustar el número de criterios y subcriterios, a partir del cuarto informe se decidió modificar la manera de designar los cinco aspectos a considerar, para lo que inicialmente se utilizaban expresiones que incluían el término validez, con diversas precisiones. Considerando las discusiones entre los especialistas al respecto, y siguiendo el criterio expresado desde 1999 en los estándares de la Asociación Estadounidense de Investigación Educativa, la Asociación Estadounidense de Psicología y el Consejo Nacional de Evaluación en Educación (AERA, APA y NCME, por sus siglas en inglés, respectivamente), el cual se ratificó en la versión más reciente de esos estándares, difundida en agosto de 2014, se decidió finalmente usar una terminología que no implique posturas específicas sobre la noción de validez.

La tabla siguiente presenta la distribución de los criterios utilizados en este informe sobre ENLA-

CE de educación media superior, que será la misma que se utilice en el informe final.

Aspecto Áreas Criterios Subcriterios

1 Alineación a los referentes 11 25

2 Aspectos técnicos 8 33

3 Atención a la diversidad 12 —

4 Aplicaciones 16 39

5 Usos y consecuencias 11 —

TOTALES 58 97

Tabla 1 Áreas, criterios y subcriterios de evaluación utilizados

Page 12: Analisi s prueba enlace ems 2015

12

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

A continuación puede verse un listado de los 58 criterios utilizados, enunciados en forma sin-tética; en el anexo 1 se podrá encontrar su formulación in extenso, con los subcriterios corres-pondientes.

ALINEACIÓN A LOS REFERENTES

1. Teoría de contenido, curricular u otro.2. Definición de especificaciones.3. Determinación de la importancia relativa de contenidos.4. Representatividad de ítems y subescalas frente a subdominios y dominio.5. Complejidad cognitiva del contenido.6. Manual de diseño de reactivos.7. Comité de redacción de ítems.8. Manual de análisis de reactivos.9. Comité de revisión de reactivos.10. Sistema de revisión lógica de ítems.11. Alineación de la prueba al currículo en general.

ASPECTOS TÉCNICOS

1. Documentación de evidencias de diversos tipos de validez.2. Procesos para desarrollo de las pruebas, equivalencia y periodicidad.3. Calibración y análisis psicométrico de las pruebas.4. Confiabilidad.5. Análisis psicométrico y calidad de ítems.6. Calidad de los bancos de ítems.7. Calificación.8. Niveles de desempeño e interpretación de resultados.

ATENCIÓN A LA DIVERSIDAD

1. Marco conceptual de la prueba.2. Especificación de las poblaciones.3. Estrategia sobre diversidad cultural, lingüística y socioeconómica.4. Especificación de ítems. 5. Profesionales involucrados en el desarrollo de los ítems.6. Representación de poblaciones diversas en las muestras para piloto.7. Validación cognitivo-cultural.8. Revisión de ítems.9. Análisis de sesgo. 10. Estudios de generalizabilidad.11. Tiempos y calendarios.12. Mecanismos de corrección.

Page 13: Analisi s prueba enlace ems 2015

13Introducción

APLICACIONES

1. Listado de escuelas actualizado y confiable.2. Muestras con diseño sólido.3. Coincidencia universo planeado-real.4. Coincidencia muestra obtenida muestra planificada.5. Planificación de aplicaciones.6. Manuales para personal a cargo de las aplicaciones.7. Minimización de carga de respuesta.8. Motivación de los sujetos para responder.9. Cuidado de no respuesta.10. Cuidado con copia u otras formas de fraude.11. Control de calidad de las aplicaciones.12. Manuales para procesamiento de datos.13. Personal para manejo de los datos.14. Cuidado de la calidad de las bases de datos.14. Lectura, procesamiento y verificación de los datos.16. Notificación de irregularidades.

USOS Y CONSECUENCIAS

1. Soporte de usos y consecuencias previstas.2. Documentación de consecuencias previstas.3. Oportunidad de difusión y equidad de acceso a resultados.4. Desarrollo de capacidad de interpretación de resultados.5. Comunicación de propósitos, características, usos y consecuencias.6. Claridad y precisión del lenguaje.7. Marco normativo para evaluar el desempeño de los examinados.8. Minimización de interpretaciones incorrectas o estigmatizantes.9. Atención de usos o interpretaciones inapropiadas imprevistas.10. Documentación de usos o consecuencias imprevistas.11. Investigación y corrección de usos inapropiados.

Las cinco partes principales del informe presentan los resultados del análisis hecho por los es-pecialistas según estos criterios. Después de las conclusiones se incluyen los anexos listados en la tabla de contenido.

Page 14: Analisi s prueba enlace ems 2015

14

1 Alineación a los referentes

CONSIDERACIONES PREVIAS

Para el caso de las pruebas ENLACE-MS nuestro análisis consideró los siguientes aspectos:

• Como ya se señaló cuando se analizaron las pruebas ENLACE de educación básica, las pruebas censales presentan una condición inicial que influye decisivamente en la repre-sentatividad del dominio curricular que buscan evaluar: las exigencias en cuanto a los medios e infraestructura necesarios para llevar su aplicación determinan que tengan necesariamente una longitud limitada, por lo que cualquier prueba censal parte de esta condición desventajosa.

• A pesar de lo anterior, el grado de representatividad de una prueba censal puede propi-ciarse mediante procedimientos rigurosos. Así, nuestro análisis buscará determinar si los procesos utilizados se han llevado a cabo con el rigor requerido para asegurar la calidad de la representatividad curricular de la prueba.

• La prueba ENLACE-MS viene desarrollándose desde 2008 y hasta 2014. Durante ese periodo se aprecia una evolución importante en sus procesos metodológicos, particular-mente para ajustarse a la reforma curricular de la educación media superior de 2011. No obstante, en este trabajo no se pretende efectuar una valoración histórica de su diseño, sino de comprobar el nivel de calidad que la prueba ha alcanzado en su versión actual.

• En consecuencia, consideramos que las evidencias más relevantes para valorar la ca-lidad de la prueba son el último manual técnico publicado (Manual_Tecnico_ENLA-

CEMS_2011_2012) y el recientemente difundido para docentes y directivos escolares (Manual_Docente_ENLACEMS_2014), así como los documentos técnicos complementa-rios que fue necesario solicitar a la Dirección General de Evaluación de Políticas (DGEP) de la Secretaría de Educación Pública (SEP). Otras evidencias anteriores a las mencionadas se emplearán únicamente como vía para entender y explicar mejor los factores asociados a su diseño, los cuales han tenido impactos positivos o negativos en su calidad actual. En todo caso, este comité ha tenido en cuenta todas ellas.

ANÁLISIS DEL CURRÍCULO U OTRO REFERENTE CUYO DOMINIO SE EVALÚA

1. Se cuenta con un documento que revisa la teoría del contenido (curricular u otro)

y es el marco teórico que orienta el desarrollo de la prueba.

tt Presenta una revisión de la teoría acerca del contenido o marco teórico que orienta el desa-rrollo de la prueba.

Page 15: Analisi s prueba enlace ems 2015

15Alineación a los referentes

Un factor decisivo para juzgar en qué medida ENLACE-MS refleja el contenido curricular y su marco teórico, es la amplia dispersión del currículo de la educación media superior (EMS) en México. A diferencia de las pruebas ENLACE de educación básica y EXCALE, que tuvieron como referente para su diseño un currículo de la educación básica único a nivel nacional, las prue-bas ENLACE-MS no tuvieron un referente curricular único. El documento “Manual_Tecnico_ ENLACEMS_2011_2012” da cuenta de la gran diversidad de subsistemas que hay en el bachille-rato y la existencia de más de 200 currículos en el ámbito nacional (pág. 18). En consecuencia, inicialmente se optó por un diseño de las pruebas

abocado a habilidades generales que son parte fundamental en la EMS y en todos los perfiles de egreso: Habilidad Lectora y Habilidad Matemática. Estas habilidades son trans-versales, es decir, se desarrollan a lo largo de la historia escolar y fuera de ella, además se manifiestan de modo diferencial en los individuos, lo que permite identificar diferentes niveles de dominio. Entre 2008 y 2010, la evaluación significó un diagnóstico del desarrollo de los sustentantes en esas dos áreas de habilidad [pág. 18].

No obstante, tras la aparición del Acuerdo 442 de la SEP (Diario Oficial de la Federación, 26 de septiembre de 2008), por el que se establece el sistema nacional de bachillerato en un marco de diversidad, las instituciones que imparten la educación media superior en el país adoptaron, de manera gradual y progresiva entre 2009 y 2011, un Marco Curricular Común (MCC) con base en competencias. De este modo, el Centro Nacional de Evaluación para la Educación Superior (CENEVAL), organismo que ha desarrollado la prueba ENLACE-MS por encargo de la DGEP de la SEP, pudo contar con elementos para estructurar un nuevo marco de referencia de la prueba, el cual estuvo caracterizado por retomar

únicamente aquellos aspectos del MCC que pueden ser evaluados mediante una prueba diagnóstica, objetiva, estandarizada, de bajo impacto y con reactivos de opción múltiple, cuya aplicación es censal y se realiza en sesiones de 50 minutos. Además, uno de los principales objetivos del instrumento es entregar un reporte de resultados individual a los alumnos donde se identifica su nivel de dominio en cada una de las áreas evaluadas [CENE-

VAL, 2013a: 14].

Para transitar de la versión de ENLACE-MS que estuvo vigente hasta 2010 a la nueva versión de la prueba, que se aplicó desde 2011, el CENEVAL y su Consejo Técnico “establecieron la im-portancia de dar continuidad al proceso evaluativo y a las especificaciones técnicas propias del perfil original, pero instituyeron como propósito prioritario obtener información acerca del de-sarrollo de los alumnos en relación con los objetivos y competencias determinadas por la RIEMS [Reforma Integral de la Educación Media Superior]” (CENEVAL, 2013a: 33).

No obstante, para desarrollar la prueba ENLACE-MS solo se incluyó como referente una porción de la competencias que incluye la estructura del MCC de la RIEMS (Manual_Docente_ENLA-

CEMS_2014: 8), misma que se muestra sombreada en el cuadro 1.1.

Además, lo anterior significó definir como el nuevo objetivo de la prueba ENLACE-MS “brindar un diagnóstico del nivel de dominio de los sustentantes en dos de los cuatro campos disci-plinares básicos incluidos en la RIEMS: Comunicación (Comprensión lectora) y Matemáticas” (CENEVAL, 2013a: 21).

Page 16: Analisi s prueba enlace ems 2015

16

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Cuadro 1.1 Competencias que se promueven mediante el MCC

Competencias Descripción

Genéricas Comunes a todos los egresados de la EMS.

DisciplinaresBásicas

De caracter propedeútico, dependen del subsistema.Extendidas

ProfesionalesBásicas Formación elemental para el trabajo.

Extendidas Para el ejercicio profesional.

La documentación revisada no permite determinar en qué medida las decisiones generales respecto a los componentes del MCC de la RIEMS que deberían ser evaluados por ENLACE-MS fueron tomadas únicamente por el CENEVAL y su Consejo Técnico, aunque al parecer fue así, según se establece en el documento aportado por la DGEP que lleva por título “Delimitación del objeto de medida ENLACE-MS RIEMS. Tareas de adaptación del perfil original y alineación al MCC” (s/f), donde se establece que

la adaptación de la prueba ENLACE-MS implicó que el Consejo Técnico se ocupara del diseño de la evaluación y revisara el perfil referencial (PR) establecido en 2008 para definir los aspectos que se mantendrían y aquellos que, en congruencia con la RIEMS, orientarían las actividades de medición hacia el nivel de desarrollo de los sustentantes en relación con el MCC (pág. 4).

Tampoco se comenta si también involucraron la participación de la DGEP o de representantes de las instituciones de EMS que serían afectadas por la evaluación. Lo que menciona el Manual técnico ENLACE Media Superior 2011-2012 es que fueron invitados a participar en los comités académicos, el comité diseñador y el de validación, profesores y especialistas en el currículo de diversas instituciones de bachillerato tecnológico, general y bivalente quienes, en el primer caso

estudiaron las áreas, contenidos temáticos y procesos cognitivos de la ENLACE-MS prueba ENLACE-MS anterior, los referentes técnicos y operativos de la RIEMS y diferentes marcos teóricos de pruebas estandarizadas nacionales e internacionales, entre ellas PISA (Programa Internacional de Evaluación de Alumnos), TIMSS (Estudio de las Tendencias en Matemáticas en Ciencias), SABER, ACREDITA-BACH, entre otras (pág. 35).

Asimismo no se hace explícito cómo procedieron a efectuar

una revisión de los planes y programas de diferentes modalidades y direcciones de EMS: DGB (Dirección General de Bachilleratos), CONALEP (Colegio Nacional de Educación Profe-sional Técnica), CCH (Colegio de Ciencias y Humanidades), Bachilleres y Bachilleratos Tec-nológicos, con la finalidad de identificar los contenidos comunes a todas las opciones de EMS y establecer el contexto que apoyaría la redefinición de los mismos y los procesos cognitivos por evaluar [pág. 35].

Por su parte, el comité de validación procedió a convalidar algunas de esas decisiones; en par-ticular la “pertinencia y relevancia de los contenidos y taxonomía establecida para cumplir con los propósitos de ENLACE-MS” (pág. 36).

Page 17: Analisi s prueba enlace ems 2015

17Alineación a los referentes

Lo cierto es que la prueba ENLACE-MS solo evalúa uno de los cuatro tipos de competencias que establece el MCC de la RIEMS: las disciplinares básicas; y de ellas solo evalúa el dominio de dos de los cuatro campos disciplinares básicos incluidos en la reforma: Comunicación (Comprensión lectora) y Matemáticas. Además, del campo de Comunicación (Comprensión lectora), retoma solo 7 de las 12 competencias que establece el perfil de egreso en el MCC, y en el campo de Matemáticas se retomaron 6 de las 8 competencias que establece el MCC.

El Manual técnico ENLACE Media Superior 2011-2012 (pág. 23) ofrece una comparación entre las pruebas ENLACE-MS que operaron durante el periodo 2008-2010 y las nuevas que operan a partir de 2011, la cual se presenta en el cuadro 1.2.

Cuadro 1.2 Características de los perfiles de la prueba ENLACE MS

Características 2008-2010 2011-2012

Generales

Evalúa dos habilidades básicas:• Habilidad lectora• Habilidad matemática

Presenta un total de 140 reactivos: 50 y 90, respectivamente.

Se evalúa con base en contenidos (tipos de texto) y en grupos de procesos cognitivos.

Evalúa indicadores de competencias de dos campos disciplicares:• Comunicación

(comprensión lectora)• Matemáticas

Presenta un total de 110 reactivos: 50 y 60, respectivamente.

Se evalúa con base en contenidos (tipos de texto) y en grupos de procesos cognitivos.

Habilidad lectora/Comunicación (comprensión lectora)

Se utilizan cuatro tipos de texto:• Apelativo• Argumentativo• Expositivo• Narrativo

Con tres procesos jerarquizados en niveles de dificultad:• Extracción• Interpretación• Reflexión y evaluación

Se utilizan cuatro tipos de texto:• Apelativo• Argumentativo• Expositivo• Narrativo

Con tres procesos jerarquizados en niveles de dificultad:• Extracción• Interpretación• Reflexión y evaluación

Habilidad matemática/Matemáticas

Se evalúan cuatro contenidos:• Cantidad• Espacio y forma• Cambios y relaciones• Matemáticas básicas

Con tres procesos jerarquizados en niveles de dificultad:• Reproducción• Conexión• Reflexión

Se evalúan cuatro contenidos:• Cantidad• Espacio y forma• Cambios y relaciones

Con tres procesos jerarquizados en niveles de dificultad:• Reproducción• Conexión• Reflexión

El documento también señala (págs. 21 y 22) que a pesar de tales cambios, se preservó la manera en que se concibieron los constructos implicados. Así, en el caso de la Comprensión lectora la evaluación

continúa realizándose a partir de cuatro tipos de textos (expositivo, narrativo, argumen-tativo y apelativo) y tres procesos cognitivos (extracción, interpretación, y reflexión y eva-

Page 18: Analisi s prueba enlace ems 2015

18

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

luación). El total de reactivos asociados a esta área también se conservó (50), aunque se redistribuyeron los subtotales por tipo de texto. La redistribución de reactivos por grupo de procesos implicó eliminar, construir y modificar algunas especificaciones para conformar la nueva estructura. En total se eliminaron 13 especificaciones, se crearon otras 13, se hicie-ron modificaciones mínimas a 11 y 26 se dejaron sin cambio.

Para el caso del campo formativo de Matemáticas, el documento precisa que

se conservaron tres de los cuatro contenidos (cantidad, cambios y relaciones, espacio y for-ma). Se eliminó por completo el contenido de matemáticas básicas puesto que correspon-de con competencias disciplinares extendidas y la nueva prueba busca evaluar únicamente los contenidos compartidos entre las diferentes opciones de bachillerato. Por lo anterior, se redujo el total de reactivos de 90 a 60; se eliminaron 20 especificaciones de matemá-ticas básicas, 5 especificaciones del área de cantidad y otras 5 de cambios y relaciones por considerar que evaluaban habilidades meramente académicas sin aplicación en la vida cotidiana [pág. 22].

El manual comenta también (pág. 23) que la

adaptación del instrumento implicó diversos procesos integrados y sistematizados median-te diez fases propias de la metodología CENEVAL: diseño, delimitación del objeto de me-dida, construcción, verificación, ensamble, aplicación, calificación, emisión de resultados, mantenimiento del examen y del material complementario (CENEVAL, 2011). El desarrollo de casi todas las tareas fue responsabilidad del Centro, con excepción de aquellas asociadas a la aplicación, calificación y emisión de reportes, que estuvieron a cargo de la DGEP-SEP.

Cabe hacer notar la diferencia en cuanto al tratamiento del contenido cuyo dominio se evalúa en ambas competencias. En el caso del campo formativo de Matemáticas, los contenidos (can-tidad, cambios y relaciones, espacio y forma) corresponden a la estructura del campo discipli-nario. En cambio, para la Comprensión lectora, en ocasiones se consideran como contenidos, o reciben un tratamiento como tales, los tipos de texto (expositivo, narrativo, argumentativo y apelativo) que pueden incluir o no contenidos que corresponden a la estructura disciplinaria. Al respecto, obsérvese en el cuadro 1.3 ejemplos que ilustran la ambigüedad de las referencias que se hacen en la documentación revisada al delimitar, caracterizar u operacionalizar el constructo Comprensión lectora.

En todo caso, tales referencias ambiguas no contribuyen a una clara definición del constructo a partir del marco teórico curricular. Como se verá más adelante, esta situación tuvo un impacto en el diseño de la estructura de la prueba, el desarrollo de las especificaciones de ítems y en la elaboración de éstos.

No obstante, puede decirse que siempre se contó con documentación que expusiera la teoría del contenido curricular y que fuera el marco teórico que orientara el desarrollo de la prueba. Los principales referentes mencionados en el Manual técnico ENLACE Media Superior son los propios de la prueba ENLACE-MS anterior, los de otras pruebas nacionales e internacionales como PISA, TIMSS, SABER, ACREDITA-BACH, entre otros referentes de los que se menciona que fueron estudiados, y desde luego el citado Acuerdo 442 de la SEP y la documentación que se generó en el marco del proceso de adopción de la RIEMS por parte de las instituciones de educación media superior, así como la propia experiencia en el rediseño de su currículo para

Page 19: Analisi s prueba enlace ems 2015

19Alineación a los referentes

adaptarlo a la RIEMS, por parte de las instituciones del bachillerato que fueron convocadas por CENEVAL para participar en la parte inicial del desarrollo de la prueba.

Cuadro 1.3

DocumentoReferencias a los tipos de texto como contenidos de la prueba

Referencias a contenidos disciplinarios que se retoman para la prueba

Manual técnico ENLACE Media Superior 2011-2012

Contenidos (subáreas). El contenido por evaluar está asociado con el tipo de texto del que se desprenden los reactivos que miden la Comprensión lectora. Los cuatro tipos de texto que contiene la prueba ENLACE-MS se eligieron por considerarse representativos del nivel educativo, y porque reflejan funciones importantes de la lengua. (pág. 37)

Siete competencias disciplinares básicas:• Identifica, ordena e interpreta las ideas, datos y conceptos

explícitos e implícitos en un texto, considerando el contexto en que se generó y en el que se recibe.

• Evalúa un texto mediante la comparación de su contenido, sus conocimientos previos y nuevos.

• Identifica el uso normativo de la lengua, considerando la intención y la situación comunicativa.

• Analiza un argumento preciso, coherente y creativo.• Relaciona ideas y conceptos en composiciones coherentes y

creativas, con introducciones, desarrollo y conclusiones claras.• Evalúa la secuencia o relación lógica en el proceso comunicativo• Identifica e interpreta la idea general y posible desarrollo

de un mensaje escrito, recurriendo a conocimientos previos y al contexto cultural (36 y 37).

Manual técnico ENLACE Media Superior 2011-2012

(pág. 44)

“Comité académico diseñador: es el responsable de la definición de los contenidos por evaluar, los grupos de procesos cognitivos y niveles de complejidad que explora la prueba y determinan su estructura” (pág. 24).

La evaluación objetiva de la habilidad lectora en la educación media superior. Marcos de referencia 2

“La habilidad lectora se definió en términos del contenido o estructura del conocimiento que los estudiantes necesitan adquirir a lo largo de su trayectoria escolar y los procesos que se requieren llevar a cabo para comprender un texto” (pág. 36).

(pág. 42)

Page 20: Analisi s prueba enlace ems 2015

20

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

tt Se incluye análisis de áreas a evaluar que precise subdominios, contenidos, competencias y niveles de demanda cognitiva que se deberán cubrir.

Otro elemento esencial para observar cómo aseguraron los diseñadores de ENLACE-MS que la prueba representa de manera apropiada los subdominios curriculares y los niveles de demanda cognitiva que éstos significan para el alumnado se encuentra en la metodología que siguieron para ello. Como ya señalamos, los requerimientos metodológicos necesarios se ubican en el ám-bito de desarrollo de pruebas referidas a un criterio (Hambleton, 1994; Nitko, 1995; Li y Sireci, 2005; Cizek, 2007; Sireci, 2009). En este enfoque evaluativo los principales procesos que deben tenerse en cuenta para asegurar la representatividad son:

• Efectuar un análisis explícito del currículo como universo de medida. Ello implica utilizar algún procedimiento de análisis y estructuración del dominio curricular, y documentar como evidencia los dominios y subdominios involucrados y las relaciones entre ellos y sus contenidos.

• Proporcionar el marco de referencia de la prueba que derivó del análisis curricular, mismo que se evidencia en una tabla que refleje de manera formal la estructura de la prueba, así como en tablas de especificaciones donde se hagan explícitos los componentes del contenido y del nivel de demanda cognitiva que constituye cada unidad curricular para el alumnado.

• El análisis debe ser realizado por un comité de especialistas, y validado posteriormente por un comité diferente del anterior. Al integrar los comités se recomienda la inclusión de especialistas diversos, entre ellos los que representan la diversidad socioeducativa y cultural, en este caso, de México.

• Además, debe hacerse explícito cómo son capacitados los comités para llevar a cabo estas tareas, y los procedimientos seguidos para producir los procesos de juicio y el esta-blecimiento de decisiones (consenso intersubjetivo, síntesis cuantitativa, etcétera).

Tras revisar las evidencias aportadas al respecto, podemos realizar los siguientes comentarios y señalar sus evidencias:

• Los manuales técnicos de ENLACE-MS 2008-2010 (pág. 36) y 2011-2012 (págs. 43-44) incluyen una sección que presenta la estructura general de la prueba. Como puede ob-servarse en el cuadro 1.4, dicha estructura se muestra en una tabla donde aparecen el número de ítems por área disciplinaria, el tipo de contenido y el proceso cognitivo que se evaluaron en la prueba.

Las únicas diferencias entre esta tabla y la que aparece en el manual de 2008-2010, se deben al proceso seguido para la adaptación al MCC de la RIEMS; estas diferencias incluyeron principal-mente: cambiar el foco de la medición (evaluación de habilidades) y la designación de Habilidad lectora y Habilidad matemática, por la noción de indicadores de competencias en los campos disciplinares Comunicación (Comprensión lectora) y Matemáticas (CENEVAL, 2013a: 22); elimi-nar el contenido Matemáticas Básicas; y reducir de 90 a 60 el número de ítems para evaluar el campo disciplinar Matemáticas. El documento señala que se preservó cerca de 70% de los contenidos y procesos de la primera versión en la segunda.

Page 21: Analisi s prueba enlace ems 2015

21Alineación a los referentes

Cuadro 1.4 Estructura ENLACE MS 2011-2012

Campo disciplinar ContenidoNúmero de reactivos por procesos

TotalExtracción Interpretación Relexión y evaluación

Comunicación (Comprensión lectora)

ArgumentativoNarrativoExpositivoApelativo

4352

5772

6531

1515155

Reactivos por proceso 14 21 15 50

Reproducción Conexión Reflexión

Matemáticas CantidadEspacio y formaCambios y relaciones

665

788

767

202020

Reactivos por proceso 17 23 20 60

Total de reactivos de la prueba 110

Como las tablas son muy generales y no permiten observar el producto que evidencie el análisis que se llevó a cabo de las áreas del MCC, cuyo dominio evalúa la prueba, ni precisan los sub-dominios y contenidos que se cubren en ella, se solicitó a la DGEP información más específica sobre tales aspectos. Dicha dependencia nos proporcionó otros documentos1 que permitieron observar algunos detalles adicionales al respecto. Por ejemplo, un cuadro presenta una sección de la tabla que aparece en el documento denominado “ENLACE MEDIA SUPERIOR RIEMS” (pág. 9) en la cual se muestran, a manera de objetivos, aspectos del contenido de las subáreas que corresponden a las dos áreas evaluadas. En algunos casos, la columna llamada “ACOTA-

MIENTO” de esa misma tabla ofrece información más detallada sobre el contenido, pero no es sistemática y al parecer se trata más bien de elementos de la especificación para producir los ítems, lo cual se comentará más adelante y en el siguiente apartado.

Otro ejemplo que ilustra una presentación con más detalle del contenido cuyo dominio se evalúa en la prueba aparece en el cuadro 1.5, correspondiente a una sección de la tabla que se presenta en el documento denominado “Especificaciones alineadas (mayo 2008)”, el cual se refiere a la planeación de la prueba que estuvo vigente en el periodo 2008-2010.

En síntesis, no se observa una verdadera estructuración del dominio del contenido a evaluar, más allá de asociar enunciados simples a manera de objetivos de aprendizaje con las subáreas que corresponden a las dos áreas evaluadas.

• Respecto al trabajo de análisis curricular y estructuración del dominio del contenido a evaluar, realizado por un comité de especialistas y validado después por un comité de especialistas diferente del anterior, a fin de contar con elementos para asegurar la va-lidación de la prueba, el Manual técnico ENLACE Media Superior 2011-2012 menciona dentro del listado de cuerpos colegiados que colaboran en la construcción de la prueba la participación del Comité Académico Diseñador como el “responsable de la definición de los contenidos por evaluar, los grupos de procesos cognitivos y niveles de complejidad que explora la prueba y determinan su estructura. A partir de ello, elabora las especifica-ciones que son revisadas por el comité académico validador de especificaciones” (pág. 24). En estas definiciones, el documento menciona también la participación del Consejo

1 Algunos de esos documentos son de carácter confidencial por lo que no es posible presentarlos en este informe.

Page 22: Analisi s prueba enlace ems 2015

22

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Técnico, que tiene entre sus funciones asesorar “a las autoridades educativas y a los co-mités académicos en el diseño, análisis y seguimiento de la prueba impulsando acciones que permitan respaldar su transparencia y confiabilidad; valida su estructura y sus con-tenidos” (pág. 24). No obstante, las funciones generales y diversas que tiene asignadas el Consejo Técnico y el perfil de sus integrantes hacen poco probable que este cuerpo colegiado haya funcionado como el comité de especialistas que validó técnicamente el trabajo de análisis curricular y estructuración del dominio del contenido a evaluar realiza-do por el Comité Académico Diseñador.

Por otra parte, el manual establece que “La pertinencia y relevancia de los contenidos y taxono-mía establecida para cumplir con los propósitos de ENLACE-MS fueron revisadas por especialis-tas reunidos en comités académicos de validación (ver Anexo B, Tabla B2). […] La propuesta final

Cuadro 1.5

SubáreaClave de

especificaciónTema Subtema

Argumentativo

ARCM206

A partir de un ensayo identificar qué tipo de relación existe entre dos ideas.

El texto seleccionado deberá incluir, por lo menos, dos ideas en las cuales exista algún tipo de relación como: problema-solución; causa-efecto; comparación-contrate, premisa-conclusión, ejemplificación, descripción, negación, etcétera.

AREC210A partir de un ensato, identificar dos explicaciones sobre un tópico específico.

El texto deberá contar al menos con dos explicaciones.

AREC311A partir de un ensayo, identificar el contrargumento.

En la opciones de respuesta se presentan 4 contrargumentos.

Narrativo

NAIN212

A partir de un texto narrativo, identificar el motivo por el que un personaje actuó de determinada manera.

El contexto general de la narración es el que permite identificar la motivación del personaje.

NACM103

A partir de cuatro fases dadas, identificar la que resuma lo que está pasando en una parte de la narración.

En el reactivo se dice explícitamente a qué parte de la narración se refiere.

NACM204

A partir de un texto narrativo, elegir la frase que exprese por qué un personaje actuó de determinada manera.

La situación de los personajes se refiere a estados físicos (qué les está pasando, qué están haciendo) y a estados emocionales (qué están sintiendo, qué están pensando). Las razones deben estar explícitas en el texto.

NAIN211A partir de un texto narrativo identificar el significado de una palabra señalada.

Se marcará en el texto una palabra o frase poco usual. El estudiante deberá elegir, entre varias opciones, el significado de la palabra (o frase).

NAIN313

A partir de las acciones y descripciones de una narración, inferir el lugar en el que están ocurriendo los hechos.

En el texto NO se dice en qué lugar se están desarrollando los hechos, pero hay algunas pistas que hacen imaginarse al lector de qué se trata. Se debe comprender toda la lectura para la realización de este reactivo.

NAIN108A partir de un texto narrativo, indivar el significado de una frase ambigua.

El texto contará con alguna frase ambigua, o usará palabras de modo poco usual.

Expositivo

EXIN110A partir de una palabra dada en un artículo de divulgación, determinar qué significado quiso darle el autor.

La palabra debe ser poco usual y se incluye en el glosario, pero ahí se define de dos maneras. El estudiante tendría que inferir a cuál definición se refiere el auto.

EXIN213A partir de un artículo de divulgación, indicar qué relación tienen entre sí dos claúsulas dadas.

Las distintas relaciones pueden ser una que una parte contradice, repite, explica, ilustra o da una solución a la otra parte. Las cláusulas deben estar dispersas a lo largo del texto.

Apelativo APCM303A partir de una carta, elegir el asunto ceentral que se plantea en ella.

La opción correcta presentará el asunto central, mientras que las otras opciones se referirán a asuntos que se tratan en la carta pero que no son lo más importante.

Page 23: Analisi s prueba enlace ems 2015

23Alineación a los referentes

fue aprobada por el Consejo Técnico el día 3 de septiembre de 2010.” (pág. 36). Sin embargo, el cuadro 1.6 muestra que el comité al que se hace referencia es el que validó las especificacio-nes de ítems, tal como se mencionó anteriormente al comentar la responsabilidad del Comité Académico Diseñador.

Cuadro 1.6 Comité Académico Validador de Especificaciones

Comunicación (Comprensión lectora)

Especialista Adscripción

Dra. Nancy Mazón Parra UNAM

Mtra. Silvia Teresa Lizárraga Rocha UNAM

Matemáticas

Mtro. Salvador Zamora MuñozAct. Erick Mier Moreno

IIMASAMAT

Al parecer la explicación de estas ambiguas referencias es que el Comité Académico Diseñador hizo ambas definiciones; es decir, el análisis curricular y la estructuración del dominio del conte-nido a evaluar, así como el diseño de las especificaciones para producir los ítems. Por su parte, el Comité Académico Validador de Especificaciones validó no solo las especificaciones de ítems, sino también el análisis curricular y la correspondiente estructuración del dominio del contenido a evaluar. Dos referencias apoyan lo anterior: la primera aparece en el Manual Técnico de 2011-2012: “La estructura fue validada por el Comité Académico validador antes de su aprobación por parte del Consejo Técnico. El criterio principal fue asegurar que con ella se obtuviera una muestra representativa de lo que todo bachiller debe dominar en congruencia con el MCC y el perfil de egreso de la RIEMS” (pág. 44). La segunda referencia se encuentra en una presenta-ción denominada “Capacitación Comité Diseñador” que nos fue proporcionada por la DGEP, la cual se utilizó en la capacitación del Comité Académico validador de especificaciones.

Independientemente del escaso número de especialistas de los comités académicos validadores de especificaciones (tres en el comité de Comunicación y dos en el de Matemáticas) y de su falta de representatividad (tres de la UNAM, uno del INEE y uno de Applied Mathematics and Ac-tuary Training [AMAT]), esta forma de proceder no es la que se sugiere en la literatura especia-lizada, donde se enfatiza la necesidad de que grupos independientes de especialistas en áreas diversas y complementarias, que representen la diversidad socioeducativa y cultural, analicen y estructuren unos el dominio del contenido a evaluar; otros juzguen otros tales decisiones; otros más elaboren las especificaciones técnicas para producir los ítems, y unos más validen tales productos; todo ello como parte de un proceso metodológico gradual, progresivo y coherente que haga posible acumular evidencias de validez relacionadas con el contenido de la prueba.

• En cuanto a la manera en que fueron capacitados los comités académicos diseñadores para analizar y estructurar el dominio del contenido a evaluar, y los procedimientos que se siguieron para efectuar las operaciones de juicio y adoptar las decisiones, no se en-contró referencia alguna al respecto en los manuales. La única información relacionada aparece en uno de los documentos adicionales que fueron solicitados a la DGEP. Se trata de una presentación que se utilizó en su capacitación, que ilustra de manera general aspectos que se consideraron para analizar el MCC o la manera en que se procedió para establecer el perfil referencial y determinar la estructura de la prueba.

Page 24: Analisi s prueba enlace ems 2015

24

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

En síntesis la situación descrita no corresponde con las prácticas de análisis curricular y de detección y estructuración del contenido importante a evaluar en una prueba de estas características. Tam-poco se han basado en una estrategia de validación del análisis del universo de medida que incluya aportes de validación de grupos interdisciplinarios de especialistas (en currículo, la disciplina cuyo dominio se evalúa, psicometría, operación del currículo en las aulas, en lenguaje, en cultura y en teoría cognoscitiva), que actúen de manera independiente y sucesiva. Por ello, consideramos que el procedimiento seguido no permite asegurar la representatividad del contenido a evaluar.

ALINEACIÓN DE LA PRUEBA CON EL REFERENTE

2. Se presenta evidencia de la forma en que se definen las especificaciones de la prueba

en términos de objetivos, competencias u otro referente.

Otro aspecto necesario para obtener evidencias de validez relacionadas con el contenido de la prueba es el análisis de la estructura del dominio educativo que hace posible elaborar las es-pecificaciones de contenido que orientan el diseño de los ítems. Esta estrategia es habitual en las pruebas referidas a un criterio, y debe incluir tanto la información estructural de la prueba, como las especificaciones de unidades del dominio. También permite contar con una visión precisa del universo de medida para orientar el muestreo de contenidos (Jornet y Suárez, 1989).

En el caso de ENLACE-MS, el manual técnico de 2008-2010 establece que:

Las especificaciones de reactivos tienen como propósito proporcionar un marco normativo, claro y significativo, que aporte los elementos necesarios para que los elaboradores cons-truyan reactivos adecuados para evaluar los contenidos y procesos cognitivos, así como los detalles técnicos para que los ítems resulten efectivos en la población objetivo y permitan generar interpretaciones válidas (pág. 37).

No obstante, entre los documentos recibidos inicialmente y en la entregada posteriormente no encontramos alguno en el que se presenten especificaciones técnicas para producir los ítems de la prueba.

Al parecer las tablas a las que se ha hecho referencia tienen una doble función: como tabla de especificaciones de la prueba y como especificaciones para producir los ítems. La información en las columnas denominadas “Acotamiento” y “Subtema”, comúnmente se presenta en una especificación de ítems. Sin embargo, se observan varios problemas: en ciertos casos aparece alguna indicación sobre ciertas características que deben poseer los estímulos o las respuestas que se presentan a los examinados (por ejemplo, sobre los atributos de la información contex-tual como textos o figuras que es válido o no emplear; o bien sobre las instrucciones necesarias para responder; o bien sobre las características que debe tener la respuesta correcta para serlo, o los rasgos con que deben contar los distractores para ser efectivos). En otros casos no apa-rece alguno de esos detalles, sino solo una delimitación del contenido a evaluar. De hecho, en ninguno de los casos se encuentra alguno de esos tipos de indicaciones de manera completa o sistemática. Tampoco se incluye algún ejemplo de ítem que ilustre el cumplimiento de tales

Page 25: Analisi s prueba enlace ems 2015

25Alineación a los referentes

indicaciones. El único referente que aparece en todos los casos, es la mención del contenido (redactado como objetivo de aprendizaje) cuyo dominio se evalúa.

En otras secciones de los manuales aparecen elementos con información que generalmente también se incluye al elaborar una especificación para producir un ítem. Por ejemplo, los cua-dros 1.7 y 1.8 presentan dos tablas contenidas en el Manual técnico ENLACE Media Superior 2011-2012 (págs. 22 y 27), mismas que contienen referentes para elaborar los reactivos de Comprensión lectora y Matemáticas. Ambas tablas presentan los contenidos (competencias es-pecíficas a evaluar) organizados por “niveles de complejidad específicos que permitieran evaluar la variabilidad en el nivel de dominio de los sustentantes” (pág. 16), y según el nivel del proceso cognitivo que se moviliza en cada caso, de conformidad con una taxonomía que se elaboró para cada campo disciplinar, la cual clasifica los “procesos cognitivos a través de los cuales los susten-tantes exhiben su nivel de dominio de distintas competencias disciplinares básicas” (pág. 15).

Cuadro 1.7 Definición de niveles de complejidad por grupo de proceso cognitivo Comunicación (Comprensión lectora): ENLACE MS

22

Tabla 3Definición de niveles de complejidad por grupo de proceso cognitivo Comunicación (Comprensión Lectora): ENLACE MS

Niveles

Proceso cognitivo

Extracción Interpretación Reflexión y evaluaciónDesarrollo de la

comprensiónDesarrollo de la interpretación de la forma del contenido

1 Identificar y seleccionar un elemento (hecho, fenómeno, acción, tópico, concepto, entre otros) que se encuentre en el texto de manera explícita. Será muy evidente para el lector y se puede encontrar en cualquier parte del texto.

Identificar el tema central de un párrafo, el cual NO está explícito e implica una inferencia local. Distinguir el carácter de dos o más proposiciones en un mismo párrafo.

Identificar el significado de una palabra o frase corta basándose en el contexto.

Identificar la estructura formal del texto. Determinar si los recursos gráficos (cursivas, viñetas, subtítulos, etcétera) utilizados por el autor contribuyen a la organización del texto a nivel local.

Identificar de manera global el propósito o la postura del autor, los cuales NO están explícitos.

2 Identificar y seleccionar dos elementos relacionados (hechos, fenómenos, acciones, tópicos, conceptos, entre otros) que se encuentran a lo largo del texto de manera explícita y que carecen de marcadores.

Integrar diferentes partes de un texto para identificar la idea central. Reconocer una relación (problema-solución; causa-efecto; comparación-contraste, premisa-conclusión, concepto-ejemplo, etcétera).

Inferir relaciones entre los párrafos (problema-solución; causa-efecto; comparación-contraste, premisa-conclusión, etcétera) y distinguir e identificar el sentido de las analogías, metáforas y otro tipo de figuras retóricas.

Identificar la correspondencia de la estructura del texto con el contenido. Establecer el propósito de los recursos gráficos (cursivas, viñetas, subtítulos, etcétera) a nivel de dos o más párrafos.

Identificar los recursos discursivos (datos, ejemplos, citas, argumentos, hechos, gráficas, metáforas, comparaciones, hipérboles o adjetivación, entre otros) que utiliza el autor para lograr su propósito y/o apoyar su punto de vista. Contrastarargumentos.

3 Identificar y seleccionar tres o más elementos relacionados (hechos, fenómenos, acciones, tópicos, conceptos, entre otros) y distinguirlos, a partir de un criterio determinado, de otros elementos semejantes que se encuentran a lo largo del texto de manera explícita.

Seleccionar unresumen o hacer otro tipo de inferencias que impliquen coherencia global para demostrar una comprensión completa y detallada de todo el texto.

Vincular la estructura, funciones y/o elementos del texto para realizar inferencias globales.

Identificar la correspondencia de la estructura, el léxico y los recursos gráficos utilizados, con las intenciones comunicativas del texto, el destinatario del mismo y su contexto.

Establecer una comparación entre el texto o un fragmento, y su relación con información externa. Identificar los contraargumentos que se incluyan en el texto.

Estructura

La estructura de ENLACE MS Comunicación (Comprensión Lectora) se determinó en

congruencia con la definición del constructo previamente establecida y los propósitos

de la prueba, por esta razón se procuró distribuir los reactivos en los procesos

cognitivos de acuerdo con los alcances y función comunicativa de cada tipo de texto.

Page 26: Analisi s prueba enlace ems 2015

26

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

No obstante, los elementos señalados no corresponden con los procedimientos, prácticas, for-matos y otros componentes técnicos que se detallan en la literatura especializada para la especi-ficación de ítems, y que son necesarios para propiciar y asegurar la producción de ítems válidos, equivalentes y efectivos.

tt Se presenta la estructura del dominio completo —de donde se muestrea el contenido de la prueba— así como la estructura del dominio evaluado.

Para orientar el desarrollo de una prueba resulta imprescindible hacer explícita la estructura del dominio educativo a evaluar (el currículo), e identificar en ella la estructura de la prueba. Si se cuenta con ambos elementos, es posible analizar mediante las operaciones de juicio de un co-mité ad hoc si la estructura de la prueba responde adecuadamente a la del universo de medida. De esta manera, el análisis que aporta el comité constituye una evidencia de validez relacionada con el contenido de la prueba.

27

Tabla 5Definición de niveles de complejidad por grupo de proceso cognitivoMatemáticas: ENLACE MS

NivelesProceso cognitivo

Reproducción Conexión Reflexión

1 Resolución de tareas directas que implican identificar conceptos matemáticos en el mismo contexto en que se aprendencotidianamente, y se resuelven con un solo paso o cálculo matemático.

Resolución de problemas que se desprenden de situaciones cotidianas en donde la tarea se precisa de forma directa y se resuelve con un cálculo o tarea matemática, selección y/o relación de modelos.

Resolución de problemas que requieren de una interpretación antes de reconocer la técnica matemática que hay que utilizar; además implican transitar y discriminar entre diferentes formas de representación de las situaciones, y aplicar un proceso matemático.

2 Resolución de tareas directas que requieren realizar dos o tres cálculos o tareas matemáticas básicas y/o identificación de modelos.

Resolución de problemas que se desprenden de situaciones cotidianas en donde la tarea se precisa de forma directa. Los problemas se resuelven con dos o tres cálculos o tareas matemáticas diferentes, decodificación, recodificación, selección y/o relación de modelos.

Resolución de problemas que requieren de una interpretación antes de reconocer la técnica matemática que hay que utilizar; además implican codificar y transitar entre diferentes formas de representación de situaciones cotidianas complejas, y exigen la aplicación de dos o tres operaciones diferentes y/o dos procesos matemáticos.

3 Resolución de tareas directas que requieren realizar cuatro o más cálculos o tareas matemáticas básicas diferentes y/o aplicación de modelos establecidos.

Resolución de problemas que requieren identificar y aplicar las técnicas matemáticas necesarias. Los problemas se resuelven con cuatro o más cálculos o tareas matemáticas diferentes, procesos básicos y complejos, decodificación y/o recodificación de modelos y/o identificación de sus elementos faltantes.

Resolución de problemas en contextos que impliquen diferentes variables, que requieran reconocer diferentes estructuras antes de aplicar la técnica matemática pertinente y/o transitar entre diferentes formas de representación de situaciones; además, requieren de cuatro o más operaciones diferentes, tres o más procesos matemáticos similares.

Estructura

La asignación de reactivos que conforman la prueba de Matemáticas tomó en cuenta

el propósito sociofuncional de las competencias básicas y la definición del constructo,

por esta razón, si bien se incluyen ejercicios de todos los niveles de complejidad, la

estructura se aboca en mayor proporción a la medición de indicadores que requieren

de la puesta en práctica de procesos cognitivos relacionados con los grupos de

Conexión y Reflexión (v. Tabla 6). De acuerdo con la definición operacional de ambos

grupos, estos implican la resolución de problemas en contextos de la vida cotidiana.

Cuadro 1.8 Definición de niveles de complejidad por grupo de proceso cognitivo Matemáticas: ENLACE MS

Page 27: Analisi s prueba enlace ems 2015

27Alineación a los referentes

Como ya lo comentamos previamente, esta etapa del desarrollo de pruebas de gran escala referidas a un criterio está bien documentada en la literatura especializada, donde se expone la necesidad de que grupos independientes de especialistas, que incluyen expertos en currículo, evaluación, operación curricular en el aula, teoría cognoscitiva, aspectos culturales y la discipli-na cuyo dominio se evalúa analicen primero el currículo y detecten y estructuren el contenido importante a evaluar; y después, otro grupo independiente con un perfil semejante juzgue tales decisiones con base en protocolos técnicos definidos previamente por los desarrolladores de la prueba, quienes también deberán facilitar los trabajos de ambos comités y en general operar como el vínculo formal entre éstos y los demás comités especializados que participan en la construcción de la prueba.

En cuanto al proceso que llevaron a cabo los diseñadores de ENLACE-MS para hacer explícita la estructura del dominio educativo a evaluar (el MCC) e identificar en ella la estructura de la prue-ba, el manual técnico de 2011-2012 y los demás documentos que proporcionó la DGEP, ofrecen poca información. De hecho la única evidencia clara que pudimos observar aparece en una tabla en la que se especifican las competencias genéricas, disciplinares (básicas y extendidas) y profesionales (básicas y extendidas) que se promueven mediante el Marco Curricular Común de la Reforma Integral de la Educación Básica (RIEB). El texto que sigue a dicha tabla (Manual_Do-cente_ENLACEMS_2014: 8-9) argumenta sobre las dificultades o inconvenientes de evaluar las competencias genéricas, profesionales y disciplinares extendidas, por lo que se decidió centrar la evaluación en las competencias disciplinares básicas, y entre ellas solo las correspondientes a los campos disciplinares de Comunicación (Comprensión lectora) y Matemáticas. Al parecer, la decisión también estuvo matizada por razones de conveniencia, dado que se trata de una prue-ba “diagnóstica, objetiva, estandarizada, de bajo impacto y con reactivos de opción múltiple, cuya aplicación es censal y se realiza en sesiones de 50 minutos” (CENEVAL, 2013a: 14).

Además, en otras secciones del manual (págs. 18-19; 23-24) se delimitan los componentes de ambos campos disciplinares que se evalúan en la prueba ENLACE-MS: en Comprensión lectora, 7 de las 12 competencias que promueve la RIEB; en el campo disciplinar Matemáticas, 6 de las 8 competencias que establece la reforma.

Más allá de estas definiciones genéricas, no pudimos observar una representación de la estruc-tura del dominio curricular completo de la RIEMS, dentro de la cual se delimite la estructura del dominio curricular evaluado por la prueba ENLACE-MS. Si los miembros del Comité Académico diseñador efectuaron un análisis más detallado del MCC y de los procesos curriculares para adaptarlo que realizaron las instituciones de educación media superior que fueron invitadas a participar en el análisis, no lo hicieron explícito en los manuales o en la documentación que nos fue proporcionada. Ello constituye una carencia importante que afecta la valoración del grado de validez de contenido de la prueba.

3. Se explica el procedimiento para determinar la importancia de los contenidos a eva-

luar o se incluye análisis de unidades del dominio y densidad diferencial.

La integración de una prueba referida a un criterio orientado por el currículo, se basa en criterios de selección de los contenidos que permiten formular su importancia relativa como expresión de la relevancia de los aprendizajes logrados. En la literatura este aspecto se conoce como den-sidad diferencial del dominio curricular (Jornet y Suárez, 1989) y es difícil llevarlo a la práctica.

Page 28: Analisi s prueba enlace ems 2015

28

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Usualmente se basa en valoraciones hechas por comités de especialistas, que indican el peso diferencial que cada área del dominio curricular deberá tener en la prueba. Ello sirve también para seleccionar la cantidad de reactivos que se utilizarán.

Por ello se trata de un procedimiento crucial para definir el dominio a evaluar en una prueba. Diversos autores (Sireci, 2009; Cizek, 2007; Pope, citado por Cizek, 2007; Li y Sireci, 2005; Hay-nes, Richard y Kubany, 1995; Nitko, 1994; Guion, 1977) han hecho ver la necesidad de identi-ficar blancos curriculares esenciales, puesto que es imposible evaluar en un examen el dominio de todo el currículo, ni siquiera todo lo que es relevante. De ahí la importancia de seleccionar una muestra de contenido que represente el dominio curricular.

En el caso de la prueba ENLACE-MS, en el Manual técnico de ENLACE Media Superior 2011-2012 se afirma que la pertinencia y relevancia de los contenidos, que fue determinada por el Comité Académico diseñador, fueron revisadas por los comités académicos de validación (pág. 36). Sin embargo, no hemos observado en la documentación disponible el uso de algún procedimiento específico o criterio para determinar cuáles contenidos constituyen blancos cu-rriculares de primer orden que deben ser considerados para la evaluación; o bien para ponderar la densidad diferencial de los contenidos que constituyen el dominio curricular (MCC) que se evalúa, a fin de decidir lo que es importante evaluar en la prueba.

Por otra parte, el análisis de las tablas de contenido muestra que se enfatizaron aspectos di-ferentes del currículo y que se adoptaron criterios para determinar lo que era relevante. De hecho hay varias declaraciones en ese sentido, que ilustran que los constructores de la prueba fueron conscientes de esos aspectos. Por ejemplo, en el manual técnico de 2011-2012 se declara que “la evaluación se enfoca a un conjunto limitado de conocimientos y habilidades (y no a la totalidad de los que se indican en el MCC) que un grupo de expertos considera indicadores suficientes y representativos de las competencias básicas de dos campos disciplinares que de-ben dominar los sustentantes al egresar de bachillerato” (pág. 30). Lo mismo sucede con las dificultades o inconvenientes de evaluar determinados contenidos o las razones de conveniencia que se señalan en varias partes del manual (véase por ejemplo el último párrafo de la pág. 14 del manual). Sin embargo, en tales casos no fueron hechos explícitos por el Comité Académico diseñador los procedimientos o criterios que utilizaron para determinar tales aspectos o para decidir en cada situación.

4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdomi-

nios y el dominio definidos.

tt Para especificar dominio a evaluar se presenta análisis lógico-empírico de representación de ítems y subescalas respecto a subdominios y dominio.

Existen dos aproximaciones generales al análisis de reactivos: lógica y empírica. La primera requiere la participación de comités de jueces (especialistas en contenidos, docentes frente a grupo, especialistas en medición y evaluación, etcétera), quienes juzgan propiedades como la representatividad del ítem respecto del contenido a evaluar, su independencia de errores siste-máticos y sesgo, entre otros aspectos. Así, esta perspectiva contribuye de manera directa en la obtención de evidencias de validez de contenido de la prueba. Por su parte, las comprobacio-nes empíricas aportan información sobre la correspondencia de los ítems con la estructuración

Page 29: Analisi s prueba enlace ems 2015

29Alineación a los referentes

dimensional teórica que orientó el desarrollo de la prueba. En este apartado enfatizamos el análisis de la revisión lógica que realizaron los constructores de ENLACE-MS.

Ya hemos hecho referencia al Comité Académico Diseñador como responsable de analizar el MCC de la RIEMS y determinar los subdominios del dominio que evalúa la prueba, así como al rol que desempeñó el Comité Académico Validador de Especificaciones, al juzgar la pertinencia y relevancia de los contenidos de la prueba y de su estructura. También hemos mencionado la escasa documentación disponible sobre el uso de procedimientos o criterios técnicos por parte de ambos comités para realizar esas tareas o adoptar sus decisiones.

Sobre el aseguramiento de la representatividad de los ítems respecto al dominio y subdominios curriculares que se evalúan, en el Manual técnico ENLACE-MS 2011-2012 se hacen varias de-claraciones al respecto. Por ejemplo, se afirma que se “evalúa solo una muestra representativa de indicadores de competencias básicas que fueron definidos operacionalmente para que el instrumento permitiera seguir obteniendo información diagnóstica para los estudiantes de la EMS” (pág. 21); o bien se asevera que

en los diversos apartados [del Manual para docentes y directivos] se reitera que la prueba realiza la medición de una muestra representativa de los contenidos a través de los cuales se pueden evaluar indicadores de competencias disciplinares básicas (únicamente aquellos que pueden ser identificados con reactivos de opción múltiple), pero que de ninguna ma-nera incluyen todos los temas que forman parte del MCC (pág. 78).

También se asegura que “la prueba ENLACE-MS únicamente evalúa una muestra representativa de los indicadores de desarrollo de las competencias básicas correspondientes a dos campos disciplinares Comunicación (Comprensión lectora) y Matemáticas” (pág. 85); o bien que los “cuatro tipos de texto que contiene la prueba ENLACE-MS se eligieron por considerarse repre-sentativos del nivel educativo, y porque reflejan funciones importantes de la lengua” (pág. 37).

Respecto a los procedimientos o criterios empleados para asegurar dicha representatividad, el manual aclara que

Para describir los alcances de ENLACE-MS, es importante enfatizar que es una prueba refe-rida a criterio y con cobertura de dominio restringido, es decir, la evaluación se enfoca a un conjunto limitado de conocimientos y habilidades (y no a la totalidad de los que se indican en el MCC) que un grupo de expertos considera indicadores suficientes y representativos de las competencias básicas de dos campos disciplinares que deben dominar los sustentan-tes al egresar de bachillerato [pág. 30].

Se aclara además que

La estructura fue validada por el comité académico validador antes de su aprobación por parte del Consejo Técnico. El criterio principal fue asegurar que con ella se obtuviera una muestra representativa de lo que todo bachiller debe dominar en congruencia con el MCC y el perfil de egreso de la RIEMS. Para ello, los reactivos de la prueba cubren toda la gama de procesos cognitivos que se indican en la estructura, por lo que evalúan contenidos que exigen un desarrollo básico, intermedio y avanzado de las competencias disciplinares básicas [pág. 44].

Page 30: Analisi s prueba enlace ems 2015

30

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

No obstante, el mayor detalle que se aporta sobre la manera en que inicialmente se cuidó este aspecto, es referido a la cuarta parte del manual; donde se “explica con detalle la estrategia con que se modificó la estructura de ENLACE-MS para apoyar la evaluación de una muestra repre-sentativa de las competencias disciplinares básicas que promueve la RIEMS” (pág. 15). En esa sección (págs. 34 y 35) se establece que con el fin de “delimitar operacionalmente el objeto de evaluación, se deben seleccionar y definir las áreas, los contenidos y la taxonomía del examen”; y que para “delimitar el perfil de la prueba ENLACE-MS 2011-2012, se retomaron las definicio-nes de contenidos, áreas y procesos cognitivos correspondientes a la primera evaluación y se adaptaron según lo que marca la RIEMS”. Más adelante se indica que para ello fue convocado, para cada campo disciplinar, un comité académico diseñador en el que participaron represen-tantes de los “tres grandes subsistemas de EMS: bachillerato tecnológico, bachillerato general y bachillerato bivalente”; quienes deberían tener “experiencia en la docencia, la investigación y la planificación curricular (específicamente los encargados de la adaptación de programas a la Reforma)” y que en su selección se procuró “que los grupos representaran a diferentes plante-les y entidades de la República (ver anexo B, tabla B1)”. Enseguida se indica que los “expertos estudiaron las áreas, contenidos temáticos y procesos cognitivos de la prueba ENLACE-MS an-terior, los referentes técnicos y operativos de la RIEMS y diferentes marcos teóricos de pruebas estandarizadas nacionales e internacionales, entre ellas PISA, TIMSS, SABER, ACREDITA-BACH, entre otras”; y que también se hizo una “revisión de los planes y programas de diferentes mo-dalidades y direcciones de EMS: DGB, CONALEP, CCH, Bachilleres y Bachilleratos Tecnológicos, con la finalidad de identificar los contenidos comunes a todas las opciones de EMS y establecer el contexto que apoyaría la redefinición de los mismos y los procesos cognitivos por evaluar”. Finalmente, se afirma que

Con este marco de referencia, los especialistas sesionaron de una a dos semanas para acordar y definir los contenidos específicos de cada campo, su organización y el peso de cada uno en la evaluación de acuerdo con una taxonomía diseñada especialmente para ENLACE-MS. Dado que la prueba pretende ser un diagnóstico general del nivel de domi-nio de los sustentantes, se consideró únicamente una muestra representativa de todo el universo de conocimientos y habilidades que pudieran establecerse como indicadores de desempeño en cada campo disciplinar.

Como puede observarse en los párrafos anteriores, aunque no se aportan evidencias concre-tas sobre la manera en que procedieron ambos grupos o los criterios a partir de los cuales se tomaron las decisiones para asegurar la representatividad, la manera general de proceder sí corresponde a la que señala la literatura especializada, según lo comentamos al inicio de este apartado; es decir, las definiciones que hace un Comité Académico Diseñador, integrado por especialistas diversos, son luego revisadas por un Comité Académico Validador.

No obstante, hay que señalar varias limitaciones específicas: no se menciona que en el análisis del MCC y en el diseño de la prueba participaran expertos en contenido de los campos disci-plinarios de Comunicación (Comprensión lectora) y Matemáticas; ni se indica el modo en que fueron seleccionados los miembros de los comités diseñadores que aportaron las instituciones de EMS convocadas, o su perfil profesional de modo que pueda constatarse si en conjunto satis-ficieron las necesidades en cuanto a experiencia docente, investigación y planificación curricular en la adaptación de los programas a la RIEMS. Tampoco se aporta información técnica acerca de la metodología empleada para el análisis curricular del MCC, o para el jueceo (características a valorar en los ítems, criterios para tomar decisiones, protocolos para formalizar los juicios, determinación de la confiabilidad, entre otras). En particular, no se encontraron referencias, en

Page 31: Analisi s prueba enlace ems 2015

31Alineación a los referentes

los manuales técnicos de ENLACE-MS o en la documentación adicional presentada, sobre los criterios y procedimientos empleados por el Comité Académico Validador para analizar la repre-sentación de ítems y subescalas respecto a los subdominios evaluados y al dominio curricular completo que evalúa la prueba.

5. Se cuida la alineación en lo relativo a la complejidad cognitiva del contenido.

tt Se utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de los ítems, en relación con lo establecido en el referente.

tt Se refiere el uso de protocolos verbales con examinados para verificar que la complejidad cognitiva real corresponda a la esperada.

En una prueba referida a criterio, la manera en que las expectativas del currículo se relacionan con la forma en que se evalúa su dominio constituye una evidencia de validez de contenido. Dentro del proceso de alineamiento de la prueba al currículo, una consideración relevante para determinar el muestreo del contenido que cubrirá el instrumento, es si las demandas cognitivas que imponen los ítems a los sustentantes corresponden con el nivel de dominio del contenido que es pretendido por el currículo, y si la prueba evita incluir características irrelevantes al obje-tivo curricular al que se orienta cada ítem de la prueba.

Para este criterio evaluativo tenemos también dos clases de fuentes de evidencia: las basadas en juicios de un comité de especialistas (en la disciplina, currículo, teoría cognitiva, profesores en servicio), que generalmente son los diseñadores de la prueba, quienes analizan el nivel de dominio del contenido que pretende el currículo y lo formalizan con un sistema de clasificación o modelo taxonómico que permita regular el grado de demanda cognitiva que supone para el alumnado cada contenido, en la forma en que es evaluado por los ítems. Luego un comité independiente con perfil similar valida dicho sistema de clasificación. La segunda fuente de evidencias es el análisis del proceso de respuesta que ponen en acción los sujetos al responder los ítems, usualmente con grupos focales, laboratorios cognitivos o entrevistas con examinados apoyadas con protocolos verbales, para verificar que la complejidad cognitiva real corresponda con la esperada.

Como ya se comentó, en el Manual técnico ENLACE Media Superior 2011-2012 se establece que, como parte del diseño de la prueba, específicamente al construir la tabla de especificacio-nes del examen, se elaboró una taxonomía para cada campo disciplinar. Dicho sistema clasifica los “procesos cognitivos a través de los cuales los sustentantes exhiben su nivel de dominio de distintas competencias disciplinares básicas” (pág. 15). Para el caso del campo disciplinar Comunicación (Comprensión lectora), la taxonomía considera las categorías y subcategorías: Extracción, Interpretación (Desarrollo de la Comprensión, y Desarrollo de la Interpretación), y Reflexión y Evaluación (de la forma, y del contenido) (pág. 39). En cuanto al campo disciplinar Matemáticas, la clasificación considera las categorías: Reproducción, Conexión y Reflexión (pág. 43). También se comentó que la pertinencia y relevancia tanto de los contenidos como de la taxonomía, fueron revisadas por los especialistas de los comités académicos de validación, y que posteriormente la propuesta fue aprobada por el Consejo Técnico.

Aunque según el manual la taxonomía fue “diseñada especialmente para ENLACE-MS” (pág. 35), al parecer se trata de una adaptación del sistema de clasificación de grupos de compe-

Page 32: Analisi s prueba enlace ems 2015

32

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

tencias de PISA (cfr. PISA 2003 Assesment Framework, en: http://www.oecd.org/edu/school/programmeforinternationalstudentassessmentpisa/33694881.pdf). También hay evidencia, en el documento “ENLACE_MS Procesos específicos y niveles de complejidad”, de que cada ítem tuvo asignado un nivel taxonómico y un nivel de complejidad.

En consecuencia, puede decirse con seguridad que el desarrollo de la prueba ENLACE-MS contó con un sistema de clasificación de la demanda cognitiva que sirviera de referente para el desa-rrollo y la revisión de los ítems, en relación con lo establecido en el MCC de la RIEMS.

En cuanto al uso de grupos focales, laboratorios cognitivos o entrevistas con examinados apo-yadas con protocolos verbales, a fin de observar la correspondencia entre la complejidad cog-nitiva real (para el examinado) y la esperada (MCC), no pudimos encontrar evidencias de que se llevaron a cabo, ni alguna referencia al respecto en los manuales técnicos de ENLACE-MS o en la documentación adicional que nos fue proporcionada.

Además de lo dicho en los dos párrafos anteriores y otros comentarios hechos en este do-cumento sobre la alineación de la prueba al currículo, es sabido que los aprendizajes de alta demanda cognitiva son, desde luego, los más difíciles de alcanzar por parte de los estudiantes y los que plantean más problemas a los docentes, pero también los que resultan más difíciles de evaluar, en especial mediante pruebas en gran escala. Por ello, y por la circunstancia aña-dida de que en el caso de ENLACE-MS no se cuenta con un currículo nacional de referencia, sino con un marco curricular que define competencias de diversos tipos, muchas de las cuales no se prestan para su evaluación con este tipo de pruebas, se creyó conveniente realizar dos estudios especiales que aportaran evidencias de validez de constructo y contenido respecto a la alineación y los niveles de demanda cognitiva de la prueba, en relación con lo que establece su perfil referencial.

Estos estudios se basaron en estrategias de análisis de contenido basadas en juicios de comités de jueces expertos (profesorado experimentado, así como especialistas disciplinarios, en me-dición, investigación educativa y currículo), así como en entrevistas cognitivas con alumnos de educación media superior. Los resultados de este trabajo se sintetizan en los párrafos siguientes.

Cuando se compara la distribución por proceso cognitivo de los ítems relativos a la habilidad lectora que establecieron los comités del CENEVAL, como parte de la planeación de la prueba, con la distribución de esos mismos ítems que se basa en los juicios del comité de especialistas en lectura del estudio especial, se observa que son bastante similares. La similitud y propor-cionalidad de los ítems en las categorías identificadas pueden interpretarse como evidencias de validez de contenido y de constructo de la prueba, puesto que el comité convocado para el estudio hizo una evaluación independiente que presenta coincidencias importantes con los diseñadores de la prueba.

En el caso de la habilidad matemática se observa una distribución de ítems similar en cuanto a número de ítems y asignación proporcional a las categorías del dominio cognitivo, pero so-lamente en las categorías de Reproducción y Conexión, lo que también podría interpretarse como evidencia de validez de contenido y de constructo de la prueba, pero en forma limitada, ya que esto no ocurre en la mayoría de los ítems de la categoría de Reflexión, lo que pone de manifiesto una problemática asociada con esa categoría.

Page 33: Analisi s prueba enlace ems 2015

33Alineación a los referentes

Por otra parte, la dificultad y el poder discriminativo de los ítems no parecen relacionados con las categorías de procesos cognitivos en Comprensión lectora o Matemáticas de ENLACE-MS 2014. Tampoco están relacionados con los procesos y juicios de los comités de Lectura y Mate-máticas que evaluaron los ítems.

Por lo que se refiere a los resultados de las entrevistas cognitivas, se identificaron los niveles de complejidad desagregados por cada proceso cognitivo de cada una de las pruebas analizadas, lo que sirvió de referencia para comparar la congruencia del modelo taxonómico cognitivo y la estructura de la prueba con los resultados del estudio cognitivo. En el caso de la prueba de Habilidad Lectora, se identificaron 15 niveles de complejidad y en la prueba de Matemáticas, nueve. En cuanto a Habilidad Lectora se encontró que, de los 18 reactivos analizados, tres están sobreestimados en cuanto al nivel de complejidad que se plantea en las especificaciones; uno está sobresimplificado, ya que apela a un nivel más complejo de habilidad, y dos no evalúan el proceso cognitivo que deberían evaluar. En cuanto a la prueba de Matemáticas, solo dos de los 18 reactivos analizados fueron congruentes con la estructura teórica declarada en el marco de referencia de la prueba.

El fundamento de estas conclusiones sintéticas puede verse en el informe de los dos estudios es-peciales que se incluye como Anexo 2 de este documento. El primero de esos estudios fue coor-dinado por Luis Ángel Contreras N., y el segundo por Juan Carlos Pérez M. y Sofía Contreras R.

ESPECIFICACIÓN, GENERACIÓN Y ESCRITURA DE ÍTEMS

6. Existe un documento manual o guía de redacción o diseño de reactivos en el que se

especifican y justifican los procedimientos para formularlos

Una etapa crucial del proceso de desarrollo de una prueba es la redacción de ítems. En ella convergen los demás elementos de la planeación del instrumento que hemos comentado hasta este punto. De este modo, resulta necesario que los reactivos representen las unidades del dominio educativo (universo de medida) que se consideran relevantes en la evaluación, como muestra del desempeño. Para lograrlo es importante que se estructure un procedimiento formal de escritura de ítems, mediante el cual se cuide de manera rigurosa que los reactivos represen-ten el contenido por evaluar y que se adapten al nivel de desempeño que se da en la enseñanza, como expresión de las oportunidades de aprendizaje que se proporcionan a los estudiantes.

En consecuencia, es fundamental que los redactores de ítems tengan tanto una formación adecuada, como referentes claros que les permitan homogeneizar la producción de ítems y ajustarla a los niveles de calidad requeridos.

El procedimiento adecuado para lograrlo es contar con un manual de redacción de ítems, espe-cialmente diseñado para ajustarse al propósito y contenido de la prueba, y que contenga todos los elementos necesarios para que los diseñadores de reactivos puedan llegar a interiorizar el tipo de producción de ítems que se espera de ellos. Para ello, deben incluirse en el documento suficientes indicaciones y ejemplos que ilustren su cumplimiento. Al respecto, la manera en

Page 34: Analisi s prueba enlace ems 2015

34

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

que procedieron los constructores de ENLACE-MS, respecto a estos aspectos particulares que hemos considerado, se describe y comenta a continuación.

tt El manual describe y da ejemplos de todos los tipos de reactivos que tendrá la prueba, indi-cando cómo clasificarlos y justificarlos, y haciendo referencia a la relevancia de las respuestas de los sujetos para el dominio pretendido.

En los manuales técnicos de ENLACE-MS de 2008-2010 y 2011-2012 no se hace referencia a un manual o guía que se haya diseñado para elaborar los ítems de la prueba. Al respecto, en el manual de 2011-2012 solo se menciona que con la finalidad “de mantener la calidad de la prueba y contar con reactivos técnicamente adecuados, el CENEVAL imparte talleres de capa-citación basados en la metodología institucional y en los lineamientos para la elaboración de reactivos” (pág. 46).

Para conocer mayores detalles sobre dichos lineamientos, se solicitó a la DGEP el documento que los contiene. La dependencia nos facilitó dos archivos que presentan los lineamientos para la construcción de reactivos de opción múltiple correspondientes a 2011 y 2013.

Ambos documentos son muy similares y el más actual de ellos es un documento con 80 pági-nas, en las cuales presenta información general sobre el CENEVAL, como la integración de sus cuerpos colegiados, los tipos de exámenes que desarrolla, la metodología que sigue para el desarrollo de pruebas y bancos de reactivos, la selección de especialistas y sus responsabilidades como elaboradores de ítems. También incluye información sobre insumos requeridos para ela-borar reactivos, tales como el perfil referencial de un examen y la estructura que debe tener, así como sobre las especificaciones para producir ítems e instalarlos en su plataforma informática, a fin de administrar cada banco de reactivos.

Aunque el título del documento se refiere a los ítems de opción múltiple, los demás capítulos presentan información sobre varios tipos de ítems que son clasificados bajo dicha designación; como los tradicionales de opción múltiple, completamiento, cuestionamiento directo, elección de elementos, jerarquización, relación de columnas, independientes y multirreactivos. Además, hay una sección que presenta un decálogo de buenas prácticas del elaborador de reactivos, una más con preguntas frecuentes y otra con referencias sugeridas.

Aunque en los lineamientos no se mencionan cuáles tipos de ítems se presentan en la prueba ENLACE-MS, la versión 2014 del examen muestra que se aplicaron dos tipos de ítems: multi-rreactivos de base común para evaluar el dominio de los contenidos del campo disciplinar de Comunicación (Comprensión lectora), e ítems de opción múltiple para el campo de Matemáticas.

En consecuencia, revisamos lo que se dice sobre ambos tipos de ítems en la versión de 2013 del documento de lineamientos. En el apartado correspondiente a ítems de opción múltiple (págs. 27-30), se definen estos ítems y se identifican sus componentes: base, opciones y argumen-taciones (pág. 28). También se presentan lineamientos generales que deben seguir todos los reactivos, y los lineamientos para cada componente de este tipo de ítem (pág. 30), los cuales se muestran enseguida en el cuadro 1.9 Además, se ofrecen ejemplos que ilustran la aplicación de esos lineamientos.

Page 35: Analisi s prueba enlace ems 2015

35Alineación a los referentes

Cuadro 1.9

Por su parte, el cuadro 1.10 presenta el apartado con los lineamientos para los multirreactivos (págs. 67-69). En dicho apartado también se incluye un ejemplo de aplicación, el cual no se muestra en el cuadro.

Cuadro 1. 10

Page 36: Analisi s prueba enlace ems 2015

36

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Suponemos que el documento de lineamientos se proporciona a los participantes en los talleres para capacitar a los elaboradores de ítems. El Manual Técnico de ENLACE Media Superior 2011-2012 solo menciona que

En estos talleres los especialistas aprenden a elaborar reactivos de opción múltiple. Cada reactivo debe contar con una base y cuatro opciones de respuesta, una es la respuesta correcta y las otras tres son distractores. Adicionalmente se informa a los asistentes de la historia y objetivos del Centro y, sobre todo, de las particularidades de la prueba ENLACE-MS; esto es importante para que los ítems correspondan con el propósito, estructura y modelo taxonómico de la evaluación (pág. 46).

Respecto a la duración de la capacitación a los elaboradores de ítems, en una de las notas informativas que nos fueron proporcionadas sobre los talleres de elaboración de reactivos que se impartieron en 2013, se menciona que la duración de cada taller fue de tres horas y que se impartió en una sesión.

La revisión de la documentación mencionada nos permite afirmar que el documento de linea-mientos para la construcción de reactivos de opción múltiple describe y da ejemplos de todos los tipos de reactivos que tienen las pruebas que desarrolla el CENEVAL, y que también indica cómo clasificarlos y justificarlos. Sin embargo, estos aspectos no hacen referencia a la prueba ENLACE-MS, por lo que no se aportan evidencias sobre la relevancia de las respuestas de los examinados para el dominio pretendido por dicha prueba. Además, considerando lo que se especifica al respecto en la literatura especializada (véase por ejemplo Haladyna, 2004), los lineamientos que aparecen en el documento (cuadros 1.9 y 1.10) resultan muy generales, in-completos y poco explícitos para orientar el desarrollo de ítems efectivos. Da la impresión que fueron extraídos de un manual genérico de redacción de ítems.

tt El manual usa tablas o modelos de especificaciones precisas como guía para homogeneizar diseño de los tipos de ítems y hay documento o formato donde los diseñadores de reactivos hagan la captura y la modificación.

En la documentación disponible no pudimos encontrar una guía o formato que oriente el diseño de los dos tipos de ítems que contiene la prueba operativa de 2014 (opción múltiple y multi-ítem de base común). Tanto el manual técnico 2011-2012, como el documento de lineamientos antes mencionado, hacen una breve referencia al uso de la plataforma informática denominada Sistema de Administración de Bancos de Exámenes y Reactivos (SABER), para la elaboración y organización de reactivos, y para la elaboración de los cuadernillos de examen que se aplican a los examinados. En el portal del CENEVAL (http://www.cENEVAL.edu.mx/cENEVAL-web/content.do?page=5682), se aclara que el sistema “permite capturar los reactivos y realizar los ajustes necesarios derivados de los procesos de validación, revisión de estilo y revisión técnica. El siste-ma registra todas las actividades que se realizan con los reactivos, y los datos de quién y cuándo las efectuaron llevando un control estricto de los cambios”. No obstante, no sabemos cuáles elementos se incluyen en la pantalla que permite la captura de los ítems por parte de quienes los elaboran.

tt El manual fue desarrollado para la prueba y considera sus particularidades; no es aceptable uno genérico o tomado de otro sistema de evaluación.

Page 37: Analisi s prueba enlace ems 2015

37Alineación a los referentes

Como ya se mencionó, los lineamientos para la construcción de reactivos correspondientes a 2011 y 2013 son de naturaleza genérica y el CENEVAL los emplea como guías para la elabora-ción de los ítems en todas sus pruebas. Reflejan normativas usuales que pueden encontrarse en manuales de medición en general o de diseño de reactivos en particular, y se supone que se entregan a los diseñadores y revisores de ítems. Sin embargo, no contienen referencias específi-cas para el diseño de los reactivos de ENLACE-MS, y no se percibe una especificación suficiente que relacione el planteamiento de esas normas y recomendaciones, de manera particular con los elementos de la planeación de la prueba que hemos comentado en las secciones anteriores.

7. Los reactivos son diseñados por un comité seleccionado teniendo en cuenta la espe-

cialización académica, laboral y su representatividad respecto a la diversidad del país,

y estuvo coordinado por una persona calificada

Las características de la composición de comités que aquí utilizamos para valorar el cumplimien-to de este criterio son las mismas que mencionamos para los casos de las pruebas ENLACE Bási-ca y EXCALE. Comentamos que el perfil de los elaboradores de ítems ha sido bien documentado por expertos en medición, como Bormuth, Guttman, Hively, Tiemann, Markle, Williams, Roid y Haladyna, quienes sostienen que, en conjunto, este grupo de especialistas debe ser competente en la disciplina a la que se refiere el contenido curricular cuyo dominio se evalúa en la opera-ción del currículo en las escuelas y las aulas, en lingüística y teoría cognitiva, para cuidar que el leguaje en el ítem no incremente la complejidad pretendida en los ítems; debe, representar a grupos que potencialmente pueden ser ofendidos o penalizados injustamente por los ítems. En el grupo han de participar también especialistas en medición y evaluación educativas quienes coordinan y facilitan los trabajos.

tt El comité fue formado específicamente para realizar su labor, considerando todos los ele-mentos característicos del tipo de prueba a diseñar

En cuanto al perfil de los elaboradores de los ítems de la prueba ENLACE-MS en la tabla B3, denominada “Comité Académico de elaboración y validación de reactivos”, incluida en el anexo B del Manual Técnico ENLACE Media Superior 2011-2012, se proporciona el nombre y la institu-ción de adscripción de casi 150 personas que han participado en la elaboración o validación de ítems, pero no se hace referencia a su especialización académica, laboral o a su representativi-dad respecto a la diversidad del país. Tampoco se indica quiénes de ellos elaboraron los ítems, quiénes los validaron; o bien, en su caso, quiénes elaboraron unos ítems y validaron otros. Por ello, no puede decirse si este grupo de especialistas cubre con el perfil general de necesidades que comentamos en el párrafo anterior. La única referencia que pudimos encontrar sobre el perfil de los integrantes de ese comité, aparece en otra sección del manual (pág. 46), donde se afirma que a “los talleres de ENLACE-MS asistieron docentes y especialistas en la enseñanza de las asignaturas afines a los campos disciplinares básicos, de acuerdo con las líneas establecidas por la RIEMS. El requisito principal fue que los profesores contaran con experiencia en el aula y, de ser posible, en la implementación de la Reforma”, y que en “estos talleres los especialistas aprenden a elaborar reactivos de opción múltiple”.

tt La capacitación de redactores incluyó procesos metodológicos y referencias a taxonomías o sistemas de clasificación cognitiva usados.

Page 38: Analisi s prueba enlace ems 2015

38

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Cuando valoramos la prueba ENLACE-MS desde la perspectiva del segundo criterio, comenta-mos que las tablas que se muestran en los cuadros 1.7 y 1.8 tienen componentes que las hacen funcionar, a la vez, como especificaciones de la prueba y como especificaciones para producir los ítems. También comentamos que, aunque no se informa al respecto, suponemos que di-chas tablas se entregan a los elaboradores cuando reciben la capacitación de 3 horas a la que hemos hecho referencia. De hecho, no pudimos encontrar información que permitiera aclarar si las personas que elaboraron los ítems fueron capacitadas juntas o trabajaron de manera conjunta bajo la coordinación especialistas en medición y evaluación que facilitaran su trabajo. Más bien hay indicios tales como su amplio número, la breve duración de su capacitación, el hecho de mantener activa todo el año la elaboración de reactivos o el carácter genérico de los lineamientos para la elaboración de ítems que fueron utilizados, y de que lo hicieron de manera relativamente independiente. Lo que sí es seguro, es que se contó con un sistema de clasifica-ción cognitiva que orientara el desarrollo de los ítems. Las evidencias más claras de ello son las secciones de las tablas que aparecen en los cuadros 1.7 y 1.8, donde aparece la taxonomía que se utilizó, así como las secciones de las tablas que nos fueron proporcionadas posteriormente donde se identifican, para cada ítem de la prueba, el nivel de complejidad y el proceso cognitivo que fueron especificados para su diseño. No obstante, no se sabe cómo o cuándo recibieron dicha información los elaboradores de ítems.

CONTROL DE LA CALIDAD DE LOS ÍTEMS

Como también señalamos en los casos de ENLACE Básica y EXCALE, la validación de ítems mediante los juicios que formulan expertos es una etapa clave del desarrollo de pruebas para evaluar el aprendizaje que ha sido bien documentada en la literatura especializada por autores como Hambleton (1993), Nitko (1994), Popham (1980), Jornet y Suárez, (1990) y Solano-Flores et al. (2000, 2001 y 2002), quienes mencionan que los miembros del comité que realiza la validación de los ítems deben tener con un perfil general semejante al de quienes desarrollan los ítems, y que en conjunto deben representar al conocimiento disciplinario, el currículo y su operación en las aulas y escuelas, la lingüística, la teoría cognoscitiva y la psicometría, así como a los grupos socioculturales que potencialmente pueden verse afectados por el tratamiento verbal que se dio a los ítems en el examen.

En esta etapa, los especialistas deben analizar el alineamiento de cada ítem desarrollado contra la especificación que lo produjo, así como la correspondencia de ambos componentes con el plan general de evaluación, particularmente con la tabla de especificaciones del examen y la representación del universo de medida de la prueba, y en general con el currículo cuyo análisis sirvió de base para el desarrollo del instrumento. Además, deben identificar y corregir posibles errores conceptuales, fallas al cumplir los lineamientos de redacción técnica, sesgo y ofensa, complejidad cognitiva innecesaria y falta de representatividad curricular, entre otros problemas que pueden presentar los ítems.

En esencia, se trata de un comité similar pero independiente del anterior, que examina tanto la documentación que permitió elaborar los ítems, como a los propios ítems con la finalidad de liberarlos de posibles errores sistemáticos.

Page 39: Analisi s prueba enlace ems 2015

39Alineación a los referentes

8. Existe un manual o guía para el análisis de reactivos que señala los criterios de acep-

tación, revisión y modificación.

Ya hemos comentado en los casos de ENLACE Básica y EXCALE, que la capacitación del gru-po de jueces que evalúa los ítems requiere disponer de un manual que incluya protocolos y criterios de trabajo para revisar aspectos técnicos de orden conceptual y procedimental sobre validación de ítems, como son los tipos de evidencias relacionadas con el proceso de validación de ítems y los métodos que pueden emplearse para obtener tales evidencias; la estructura del formato de evaluación que emplearán; los lineamientos normativos a que deberán ajustarse y los procedimientos específicos que utilizarán para llevar a cabo la evaluación. De este modo, los subcriterios a considerar en este caso son:

tt Presenta estructura con funciones representadas en el comité evaluador.tt El manual describe procedimientos/criterios para revisar ítems por jueceo.

Este criterio ha sido valorado en función de las informaciones aportadas por CENEVAL en los manuales técnicos de ENLACE-MS, así como de la documentación adicional de carácter interno que nos proporcionó la DGEP. Al respecto, hay que destacar que si bien en los manuales técni-cos publicados no se presenta una descripción pormenorizada acerca de los procesos metodo-lógicos utilizados para la revisión de ítems, sí que se muestra una descripción genérica acerca del proceso de revisión por jueceo. Este proceso se alinea, según se indica, con los lineamientos que se derivan de los estándares desarrollados en por el Consejo Asesor Externo del CENEVAL (Martínez Rizo et. al, 2000). Se indica en cada caso, a qué estándar concreto se atiende en la revisión.

Asimismo, aquí mencionaremos como referencias más detalladas para todo el proceso que se siguió para la validación de reactivos, tres textos adicionales que nos fueron proporcionados: a) el documento interno confidencial denominado “ENLACE Media Superior. Procedimiento de Validación de Textos y Reactivos 2011-2013”; b) una presentación que se utilizó como material de apoyo en el Taller de Validación de Reactivos; y c) el documento denominado “Lineamientos para la Validación de Textos ENLACE Media Superior”.

El primer documento, señala en su primera página que el proceso de validación de textos y reactivos se “apega a los lineamientos técnicos de la Metodología CENEVAL, especificados en el Prontuario de Normas Técnicas y Estándares, Volumen I: Diseño y Construcción”, y que de acuerdo con dichos lineamientos “el objetivo de la validación es ‘verificar mediante un proceso de jueceo externo que el reactivo mida los conocimientos y habilidades que se pretende medir, que su contenido sea vigente y relevante, esté libre de sesgos y presente un lenguaje apropiado para la población sustentante’”, y que para ello los comités académicos de validación “se ase-guran de que los estímulos estén apegados a los contenidos definidos en el perfil referencial, el marco conceptual y las definiciones operacionales de las áreas del examen y las especificaciones de la prueba”.

En cuanto al proceso que siguieron los miembros del comité que validó los ítems, el segundo de los documentos mencionados, que fue utilizado como material de apoyo en el Taller de validación de reactivos, presenta el procedimiento general y las funciones que desempeñaron los miembros del comité validador, además de los criterios que utilizó el comité para validar los ítems y ejemplos de 2 de los 5 tipos de dictamen formulados.

Page 40: Analisi s prueba enlace ems 2015

40

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Por su parte, el tercer documento referido contiene lineamientos para la validación de textos apelativos, descriptivos, argumentativos y narrativos que se utilizan en la evaluación de los cam-pos disciplinares de Comunicación, Ciencias Sociales y Ciencias Experimentales. La estructura de las funciones del comité, los criterios utilizados y los tipos de dictamen que formulan son similares a los anteriores.

En consecuencia, aunque no se dan detalles sobre dónde o cuándo reciben los miembros de los comités la documentación completa con los productos de la planeación de la prueba que fueron previamente elaborados, puede decirse que los comités de validación de los ítems de ENLACE-MS contaron con la documentación mínima necesaria que guiara la formulación de sus juicios sobre los ítems, la cual incluyó una descripción de las actividades a realizar y los criterios para revisar, aceptar o modificar los ítems de la prueba y los textos incluidos en ellos.

9. Hay un comité de revisión calificado para aplicar lo que define el manual.

Otro factor clave para trabajar en pro de la validez de los reactivos y la prueba, es la cualificación de los integrantes de los comités de revisión.

La cualificación se apoya al menos en tres factores:

• profesional (dependiendo de la tarea a realizar, deberían ser especialistas en la disciplina, el currículo, profesorado frente a grupo —con experiencia y formación evaluativa—, lingüistas…);

• diversidad geográfica (como garantía para representar la diversidad de situaciones socio-culturales, económicas y escolares de México); y

• diversidad en cuanto a modalidad educativa en que realizan su trabajo —en el caso de profesorado frente a grupo— (como garantía para representar adecuadamente los factores característicos que pueden influir o darse en cada modalidad de la educación media superior).

Los criterios de selección de revisores deberían contemplar mínimamente los factores mencionados.

En cuanto a los subcriterios a considerar en este caso:

tt Se utilizaron criterios de selección de jueces con un perfil académico y laboral preciso y con representatividad de la diversidad del país.

En el documento denominado “Procedimiento de Validación de Textos y Reactivos 2011-2013”, que nos fue proporcionado por la DGEP, se indica que los “Comités de Validación Externa se conforman con especialistas expertos en cuatro de los campos disciplinares de Matemáticas, Comunicación (Comprensión lectora), Ciencias Experimentales y Ciencias Sociales” (pág. 1), y que “los especialistas deben contar con un grado superior en el dominio de los contenidos temáticos, y con experiencia en los procesos de planificación curricular, evaluación o enseñanza de las asignaturas afines a los campos disciplinares básicos y las directrices establecidas por la Reforma” (pág. 1). Además, se indica que “cada mesa de validación se conforma por dos o tres especialistas del mismo campo disciplinar y un representante del CENEVAL que funge como moderador” (pág. 2).

Page 41: Analisi s prueba enlace ems 2015

41Alineación a los referentes

No obstante, ni en dicho documento, ni en el anexo B del Manual Técnico ENLACE Media Su-perior 2011-2012 donde aparecen el nombre y lugar de trabajo de los participantes en dichos comités, no se hace referencia a su especialización académica o laboral, ni a su representativi-dad en cuanto a la diversidad del país o con respecto a las modalidades de educación media superior existentes. La única información que pudimos identificar al respecto está contenida en dos documentos adicionales que se nos entregaron: a) el denominado “Características de los comités académicos”, donde se establece en la página 4 que los miembros del Comité Acadé-mico de Validación de Reactivos “deben tener un grado mínimo de estudio de licenciatura, te-ner experiencia docente y/o de investigación en cada una de las áreas de la prueba ENLACE-MS (Comunicación, Matemáticas, Ciencias Experimentales y Ciencias Sociales)”, y donde además se señalan como criterios de selección que “deben provenir de diferentes instituciones y, de ser posible, de diferentes entidades en las que se aplica el examen”, así como que deben participar “en un proceso de capacitación impartido por personal autorizado del CENEVAL”; y b) las actas o notas informativas más recientes que nos fueron proporcionadas sobre algunas sesiones de validación de ítems (véase por ejemplo el cuadro 1.11), en las cuales se identifica el área de es-pecialidad de los participantes.

Cuadro 1.11

Por otra parte, y considerando el número de participantes en los comités, es difícil suponer la representatividad de la diversidad nacional o la modalidad educativa.

tt El comité de revisión está formado por jueces diferentes al de escritura.

Cuando se consideró el cumplimiento del primer subcriterio del criterio 7, se dijo que en la tabla B3 del anexo B del Manual Técnico ENLACE Media Superior 2011-2012, aparecen los nombres y adscripción institucional de casi 150 personas que colaboraron en el Comité Académico de elaboración y validación de reactivos, y se indicó que dicha tabla no contiene información que haga posible distinguir entre quienes han participado en la elaboración de los ítems y quienes han colaborado en la validación de ítems; o bien, en su caso, que permita identificar a quienes participaron en la elaboración de unos ítems y posteriormente en la validación de otros, dado

Page 42: Analisi s prueba enlace ems 2015

42

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

que ya tendrían una capacitación previa que les permitiría participar también como validadores de ítems. En todo caso, hay múltiples referencias y detalles particulares, en los manuales técni-cos y en la documentación adicional que nos fue entregada por la DGEP, que nos permiten afir-mar que los comités de revisión fueron externos y actuaron de manera independiente respecto a los comités que construyeron los ítems de la prueba.

tt Se detalla el procedimiento que se siguió para capacitar a los evaluadores.

Cuando en el criterio anterior comentamos los materiales utilizados para capacitar a los evalua-dores de los ítems, mencionamos tres documentos que en conjunto detallan el procedimiento a seguir para llevar a cabo la validación de ítems, y que también dejan ver detalles particulares sobre la manera en que se realizó la capacitación de los evaluadores: el documento “ENLACE Media Superior. Procedimiento de Validación de Textos y Reactivos 2011-2013”, una presenta-ción que se utilizó como material de apoyo en el Taller de Validación de Reactivos; y el docu-mento denominado “Lineamientos para la Validación de Textos ENLACE-MS”.

Además, también nos fue entregada otra presentación que fue utilizada en la capacitación de los evaluadores y que tiene por título “Instalación del Comité de Validación de la prueba ENLA-

CE Media Superior 2010”. Este documento incluye información sobre los aspectos de contenido que abarcó la capacitación: el contexto institucional, la evaluación, el MCC y los mecanismos de gestión de la RIEB, el proceso de diseño y construcción de la prueba ENLACE-MS 2010, y el procedimiento de validación del perfil referencial de la prueba, el cual incluyó la revisión de las competencias a evaluar, la definición del campo disciplinar, los contenidos generales y específi-cos, el modelo taxonómico utilizado, y las especificaciones.

10. El sistema de revisión lógica de cada ítem incluye análisis de:

tt Calidad técnica: formulación clara, adecuación al marco de prueba.tt Congruencia ítem-contenido o ítem-objetivo (subdominio).tt Posibles fuentes de sesgo: género, diversidad cultural, entre otras.tt Concordancia de juicio para selección de ítems o procedimientos para estimar la confiabili-

dad de los juicios de los evaluadores.

El análisis lógico de los ítems es un grupo de procedimientos que permiten asegurar la validez de una prueba. Su propósito es detectar y eliminar posibles errores sistemáticos en los ítems, antes de proceder a su pilotaje. Estos procedimientos para la revisión de reactivos incluyen aproxima-ciones tanto analíticas como sintéticas.

Para llevar a cabo la revisión lógica de los ítems, es necesario que los revisores cuenten con criterios específicos que orienten su atención al revisar los reactivos, entre ellos: a) los que permiten valorar la calidad técnica del ítem (como la formulación de la base del ítem, existencia de respuesta correcta y calidad de distractores, entre otros); b) los que hacen posible observar la adecuación del ítem a la unidad del dominio curricular que pretende medir (por ejemplo observar la relación ítem-especificación-contenido curricular a evaluar), y c) los que permiten detectar elementos socioculturales y lingüísticos que puedan constituir posibles fuentes de fun-cionamiento diferencial de ítems (DIF, por sus siglas en inglés), o bien que puedan considerarse sesgos indeseables en las pruebas que afectan a la justicia y equidad de la evaluación.

Page 43: Analisi s prueba enlace ems 2015

43Alineación a los referentes

Los criterios de revisión externa utilizados se describen en los documentos referidos, y de mane-ra concreta en la presentación que se utilizó como material de apoyo en el Taller de Validación de Reactivos y el documento denominado “Lineamientos para la Validación de Textos ENLACE Media Superior”.

Respecto a los subcriterios, se trabajó, según se indica, fundamentalmente sobre la calidad técnica de los reactivos (su formulación, características de los textos por utilizar, entre otras propiedades de los ítems), el proceso cognitivo que evalúa el ítem y la ausencia de sesgos so-cioculturales.

Sin embargo, no se utilizó un procedimiento cuantitativo de juicio independiente, sino que se procedió según un sistema de deliberación en el comité hasta que se llegó a un consenso acerca de la categorización o dictamen que correspondió a cada reactivo.

Las evidencias aportadas, como en los casos anteriores, son descriptivas respecto a la meto-dología, no pudiendo observar este comité otras particulares o específicas sobre alguno de los procesos de trabajo llevados a cabo.

11. Se cuida la alineación de la prueba en general.

En una prueba de referencia criterial como ENLACE-MS, su alineamiento al currículo y la repre-sentatividad de los ítems que la integran respecto al mismo, constituyen los criterios fundamen-tales para asegurar evidencias de validez relacionadas con el contenido; de ahí que también sean los referentes principales para orientar su construcción, así como en este caso su valoración. En esencia, el alineamiento se refiere tanto a la correspondencia como a la articulación entre los productos de su planeación y desarrollo. En consecuencia, se busca identificar primero el ajuste estricto de los ítems respecto a las especificaciones que los produjeron y después la correspon-dencia y armonización de ambos componentes con los contenidos curriculares cuyo dominio se juzgó importante evaluar. Lo anterior hace posible contar con evidencias que permitan hacer inferencias válidas acerca del nivel de dominio que tienen los examinados sobre el currículo.

Pasamos ahora a comentar las valoraciones respecto a este criterio.

tt Tras analizar ítems del piloto y desechar los que no cumplan criterios, se verifica que el con-tenido de las pruebas corresponda al dominio y los niveles de demanda cognitiva planeados.

tt Se cuida alineación ítems-test-currículo, ítems-test-estándar-interpretación y, de ser posible, ítems-test-enseñanza e ítems-test-evaluación en aula.

Algunos de los puntos incluidos en ambos subcriterios ya los comentamos en apartados an-teriores. Ahora queremos destacar que el alineamiento general del instrumento, con respecto al currículo de la RIEMS, es probablemente uno de los elementos que más pueden afectar la validez de la prueba ENLACE-MS. Téngase en cuenta que el hecho de que el MCC de referencia se haya establecido por consenso con representantes de instituciones de EMS, no asegura que ciertamente sea igualmente representativo de la enorme multiplicidad de currículos que se dan en este nivel educativo.

Page 44: Analisi s prueba enlace ems 2015

44

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Es más, ahondando en el problema, entendemos que hay preguntas fundamentales que no pueden responderse con la metodología utilizada en el desarrollo de la prueba. Por ejemplo:

• ¿El Dominio Curricular que representa la prueba es realmente común para todas las ins-tituciones educativas que imparten EMS?

• ¿Qué distancia existe entre el Dominio Curricular consensuado como referencia y el im-plementado en las instituciones educativas? ¿Esta distancia se ha valorado, aunque sea de manera muestral, para extraer algún indicio empírico acerca de ello?

• ¿Se tuvieron en cuenta los modos de enseñanza más habituales para orientar el formato evaluativo? ¿Hay algún estudio acerca de los modos de enseñanza en las instituciones que imparten EMS y su distancia respecto al modo en que se evalúa con la prueba?

• ¿Se tuvo en cuenta el modo en que se evalúa en las instituciones de EMS para el diseño de la prueba? ¿Existe distancia entre los modos de evaluación en el aula y el modo en que se evalúa en la prueba?

Obviamente no disponemos de información al respecto, por lo que las diferencias interinstitu-cionales pueden estar influidas por diversos factores de invalidez que no han sido controlados. Ello lo entendemos como una debilidad evidente, pero que no es responsabilidad última de los diseñadores de la prueba.

En cualquier caso, también queremos señalar que la evaluación, en general, y la medición —di-seño de instrumentos estandarizados—, en particular, no pueden suplir una carencia de ges-tión. No se puede pretender que existan unos contenidos mínimos o competencias básicas de referencia clara en las pruebas, con una multiplicidad organizacional en los currículos marcada por una inexplicable libertad de acción. Cuando se desea asegurar el derecho a la educación, los mínimos nacionales deben estar claramente establecidos como garantía de que no se den excesivas desigualdades.

Ante este panorama, únicamente queremos llamar la atención a las autoridades competentes acerca de ello: la evaluación no puede inventar lo que no existe. Hay que abordar de manera decidida la planificación de la EMS. Entonces, podremos ahondar con mayor claridad en la vali-dez de las pruebas. Hasta el momento, lo que se está aportando es “descubrir” un universo de medida que puede considerarse infinito, cambiante e inexplorado.

Page 45: Analisi s prueba enlace ems 2015

45

2 Aspectos técnicos

La prueba ENLACE-MS es desarrollada por el CENEVAL desde el año 2007 por encargo de la Secretaría de Educación Pública. Se puede clasificar a la documentación en la que se basa en dos conjuntos de fuentes: el primero organiza la información en el manual técnico de la prueba, del cual se cuenta con dos ediciones. El segundo conjunto se conforma de documentos complementarios propios de la producción de las pruebas en los diferentes años y en fuentes diversas de tipo informal o que están relacionadas más directamente con documentos internos del CENEVAL y que se encuentran en su página web; son de propósito general y no asociados específicamente con las pruebas ENLACE-MS.

En el caso particular de esta prueba, se cuenta con dos manuales técnicos: la primera edición hace referencia a los años 2008 a 2010, y la segunda edición se enfoca a los años 2011 y 2012, sin contarse con una versión disponible para las aplicaciones de 2013 y 2014. El contenido de las dos ediciones del manual técnico es básicamente el mismo, con la salvedad de que algunos elementos del manual 2008 no se incluyeron en la nueva versión (en lugar de actualizarse) y en otros casos se actualizan algunos datos sin contar con un marco de referencia.

No hay un acuerdo pleno entre los revisores de este trabajo sobre la forma de catalogar a los ma-nuales técnicos de ENLACE-MS. No pueden compararse contra los manuales técnicos de ENLACE-B, cuyas primeras dos ediciones indican aspectos por desarrollar, faltantes o por mejorar, que a partir de la tercera edición evolucionó hasta convertirse en un informe anual de la metodología disponible y de los resultados. No pueden compararse tampoco con el manual técnico de EXCALE que solo se ha editado en una ocasión y que estaba enfocado a definir las características de di-seño, conceptual y de desarrollo de las pruebas construidas por el INEE, pero que en lugar de ac-tualizarse dio lugar a documentos complementarios con informes de resultados o investigaciones.

Los manuales técnicos de ENLACE-MS, en cambio, presentan los elementos esenciales de acuer-do con lo que denominan “metodología CENEVAL” que, a su vez, parcialmente tienen como base un documento general denominado “Manual Técnico” publicado por el mismo CENEVAL en el año 2000. En algunos puntos se incluye información técnica pero en otros queda a nivel de divulgación de la citada “metodología” y no de las especificaciones o consideraciones técni-cas propias de la prueba ENLACE. Por otra parte, los documentos complementarios (investiga-ciones, proyectos de análisis, informes internos) son muy escasos. Es de suponer que las bases de datos contienen información valiosa para investigadores educativos, así como para las auto-ridades de la Secretaría de Educación Pública o para los directivos y docentes de cada plantel, pero no se cuenta con evidencias de su uso. A diferencia de la cantidad de publicaciones y do-cumentos sobre EXCALE que tiene el INEE, el proyecto ENLACE-MS tiene una baja productividad en publicaciones, semejante a la de ENLACE-B.

Se identifican fortalezas y debilidades del proyecto, haciéndose énfasis en los aspectos a mejo-rar o modificar.

Page 46: Analisi s prueba enlace ems 2015

46

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

CALIDAD DE LAS PRUEBAS

1. Se documentan las evidencias relativas a los diversos tipos de validez que se conside-

ran usualmente en la medida en que sean aplicables.

tt Se describe el procedimiento seguido para el análisis de validez de criterio, al menos en una de sus formas (predictiva, concurrente, discriminante, etcétera.) y se reportan los valores obtenidos en los estudios de validez de criterio.

No se presentan evidencias de análisis de la validez de criterio, por lo que tampoco se cuenta con resultados de este tipo de estudios, con excepción de los resultados de unas aplicaciones combinadas con preguntas de las pruebas ENLACE de bachillerato. Estos resultados integran una evidencia poco aceptable y hasta cierto punto contradictoria, ya que en principio son pro-ducto de la medición de competencias que no están basadas en el currículo (salvo la referencia a algunas de las competencias disciplinares básicas), pero que se espera que permitan reportar el valor agregado del proceso de aprendizaje dentro del ambiente escolar en media superior, como una evidencia de validez de criterio.

Estas evidencias parecen confusas: si se parte de la medición de un constructo independiente del currículo, parece poco apropiado emitir conclusiones sobre la contribución de la escuela al desarrollo de estas competencias, al igual que hace poner en duda el origen y la interpretación de los cambios ocurridos en el ciclo escolar como posible de ser medida por estas pruebas, habida cuenta que se aplican al final del bachillerato.

tt Hay evidencia documental del análisis de la validez de escala de la prueba y su pertinencia en relación con el constructo y el modelo del perfil a evaluar.

La documentación proporcionada incluye amplia información acerca de los marcos de referen-cia conceptuales de las pruebas en las que se presenta información detallada de los procesos y contenidos evaluados. Esta documentación esta complementada con un análisis de pruebas nacionales e internacionales con propósitos afines a las pruebas de ENLACE-MS. Los compo-nentes de la prueba están clasificados en dos dimensiones: una de contenido, y otra de proceso. Es de hacer notar que en los marcos de referencia solo describen los elementos que serán eva-luados en las pruebas, pero no se encontró información acerca de las proporciones que deberán representar cada uno de estos contenidos y procesos en la prueba final, por lo que se asume que todos estarán representados de manera relativamente proporcional. Como no es necesario reportar los resultados por contenido o proceso, se afirma que la prueba incluye una muestra representativa de preguntas que cubren los contenidos y procesos a medir. Sin embargo, no es claro el proceso de selección de las preguntas específicas, pero sí se indica que en la prueba final los contenidos y procesos están todos representados, teniendo algunos de ellos un poco más de énfasis o ponderación que otros.

No se cuenta con elementos numéricos detallados sobre la distribución de los ítems en la es-cala, teniéndose disponible solamente la media de dificultad en porcentaje de aciertos, pero no hay más valores descriptivos generales que permitan juzgar la similitud de la escala métrica entre pruebas. En los manuales técnicos se cita que para el diseño de los ítems las dificultades

Page 47: Analisi s prueba enlace ems 2015

47Aspectos técnicos

en modelo clásico deben distribuirse entre 20% y 80% de dificultad, pero no queda clara la justificación, lo cual contrasta con la documentación de ENLACE Básica, donde se explica la ra-cionalidad de esta distribución que no solamente es para fines de diseño sino para la revisión de la prueba una vez realizada su aplicación. Esto no aparece explicado o justificado de la misma manera en ENLACE-MS.

tt Se presenta documentación que muestra cómo se realizó el proceso para analizar la validez de constructo de la prueba y se presentan los resultados.

La validación del constructo se lleva a cabo a partir de los análisis de contenido de las pruebas, la comparación con otras pruebas nacionales e internacionales, y en parte con la validación de las preguntas y la prueba por medio de los análisis de confiabilidad y de Teoría de Respuesta del Ítem (TRI). Estos últimos proveen evidencia que las preguntas miden un constructo en común. Aparte de esto, no se presenta más documentación o evidencias de la validez de constructo.

2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar

las pruebas, definiendo equivalencia y periodicidad.

tt Se indica el procedimiento seguido para construir las pruebas a partir de las especificaciones y del banco de ítems.

En el MT2011 se señala el esquema de producción de las pruebas combinando ítems de los bloques del pre-test, pero no se tiene información específica de la forma de utilizar el sistema informático ni la base de datos del banco. El ensamble descrito en el MT2011 marca la distribu-ción de reactivos por cada bloque en los cuales se incluyen ítems calibrados en el pre-test. Con esta construcción se tienen varias versiones que siguen la tabla de la estructura de la prueba en número de ítems combinando dificultades semejantes entre las pruebas.

En el MT2011 se cita la existencia del software SABER, sobre la plataforma llamada BRAE (Banco de reactivos para asesores externos) desarrollada por el CENEVAL, para automatizar la construc-ción de las versiones. No hay detalles del software, pero puede suponerse que toma en cuenta la clasificación temática y por nivel para garantizar la equivalencia de contenido, así como para construir el instrumento tomando en cuenta la dificultad de los ítems calibrados previamente.

tt Se reportan pasos para producir formas o versiones de la prueba y delimitar su vigencia en el tiempo o según sedes o localidades.

En el MT2011 se detalla el proceso de ensamble de las pruebas piloto para tener instrumentos similares en cada año. Los bloques de contenido se distribuyen matricialmente en los cuader-nillos, balanceando el orden de presentación, así como los textos, para lo cual se construyen instrumentos que tienen de 26 a 30 reactivos en cada sesión.

Para la prueba operativa se hace una descripción menos detallada. En este caso se comenta que se comparan las curvas características de las pruebas para que sean similares entre años, pero no se especifica la forma de comparar dicha similitud ni la manera en que el software interviene en la construcción de las versiones.

Page 48: Analisi s prueba enlace ems 2015

48

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

La versión solo tiene vigencia para el año de aplicación, porque se distribuye entre los planteles aplicados.

tt Se cuenta con metodología de diseño para obtener versiones equivalentes y se reportan los valores de diseño y experimentales que demuestren dicha equivalencia. No es aceptable reportar los resultados de la prueba sin evidencias de equivalencia entre versiones o formas.

Para la construcción de las versiones de ENLACE-MS se deben cumplir las especificaciones da-das en la tabla denominada “estructura de la prueba”, donde se indica el número de ítems por cada área y las competencias y niveles de conocimiento. En esta fase se tiene la certeza de que las versiones son equivalentes en cuanto a contenido y nivel de complejidad. En el MT se descri-be esta metodología de forma general y se incluyen esquemas, pero no fue factible corroborar el procedimiento porque no se cuenta con los inventarios de los bancos ni las bases de datos, en consecuencia no es posible verificar las equivalencias ni disponer de un elemento objetivo de comparación entre las pruebas. Los informes de equiparación se manejan como un proceso especial que requiere de estudios adicionales, pero no se cuenta con un estudio en este sentido.

En una segunda fase se pide que la dificultad de las versiones sea similar, para lo cual se utilizan los valores de calibración obtenidos en los bloques del pre-test y se pide que las dificultades de los ítems en modelo clásico fluctúen de 20% a 80% (en el MT no se indica que los ítems se distribuyan de manera uniforme, pero podría suponerse que esa es la regla de construcción). Al momento de calificar se hace el escalamiento de resultados combinando los valores de ca-libración previa con la operación de trasladar la media al valor 0 y la desviación estándar a 1.

Por el conjunto de operaciones descritas hay elementos que no se reportan, como es el valor medio de la escala (ya que fue centrada por el programa) y se reportan en un anexo del MT2008 los valores medios de dificultad, en porcentaje de aciertos (como “esquema general de ensam-ble del pre-test”).

tt La periodicidad de aplicación se justifica con criterios teórico-metodológicos o logísticos sustantivos, distinguiéndolos de criterios políticos o de opinión.

El diseño de ENLACE-MS sigue de cerca el enfoque de la RIEMS, pero se establece una estruc-tura en función de la interpretación específica que incluye solo algunas de las competencias básicas. No se plantea en forma explícita la periodicidad, pero es de suponerse que a partir de esta premisa, la vigencia de la prueba depende de las especificaciones de la RIEMS y de los cambios que se planteen por el Sistema Nacional de Bachillerato, así como por alguna nueva consideración del Consejo Técnico o del propio CENEVAL.

tt Se especifica y justifica el marco metodológico que integra en forma coherente los procesos y métodos que guían el desarrollo de la prueba.

Según la documentación presentada, para el desarrollo de las pruebas se utiliza lo que denomi-nan la “metodología CENEVAL”, que aunque no pretende ser algo único u original, es una serie de pasos y procesos generalmente aceptados y disponibles en la literatura técnica adaptados por el CENEVAL para la elaboración de una prueba. De acuerdo a la “metodología CENEVAL”, se llevan a cabo diversos procesos integrados y sistematizados que incluyen las siguientes fases: diseño, delimitación del objeto de medida, construcción, verificación, ensamble, aplicación, calificación, emisión de resultados, mantenimiento del examen y del material complementa-

Page 49: Analisi s prueba enlace ems 2015

49Aspectos técnicos

rio. Estos principios son los que guían el desarrollo de una prueba y según la documentación proporcionada, estos fueron los pasos que se siguieron en el desarrollo de las pruebas de ENLACE-MS. Fuera de estas consideraciones, la documentación no está disponible por haber sido considerado por el CENEVAL como una metodología “confidencial”.

tt Se especifica y justifica el modelo psicométrico usado.

Se justifica la utilización del modelo de tres parámetros considerando que es “uno de los más recomendables cuando las muestras son grandes y se requiere que los resultados se distribuyan a lo largo de la escala de puntuaciones”. Aunque ésta representa una justificación que puede calificarse punto menos que modesta respecto del uso de este modelo, no se presenta más fundamentación del modelo psicométrico utilizado.

El modelo de TRI que se utiliza es consistente con el modelo utilizado en otras pruebas ENLACE y es el modelo que actualmente varios autores, sin que sea una opinión unánime, consideran como recomendable para analizar el tipo de resultados que se obtienen con este tipo de prue-bas, y hacer el tipo de reporte en escala común, tal y como se pretende hacer con estas pruebas. En particular es un modelo que permite obtener información de las preguntas que componen una prueba, antes que se haga la aplicación operativa, y con base en esta información armar un conjunto de preguntas que cubran el continuo de conocimiento o destrezas que se quieren medir, al tiempo que se pueden optimizar la medición alrededor de los puntos de corte en la distribución.

Para conocer la calidad estadística de los reactivos que integran el pre-test de ENLACE-MS, se hace su análisis con base en dos modelos: Teoría Clásica (TC) y TRI. De esta forma se cuenta con información suficiente para calibrar los reactivos y seleccionar los más adecuados para integrar las pruebas. Los análisis de los reactivos se llevan a cabo mediante el programa Iteman (TC) y Bilog-MG 3.0 (TRI); el primero permite analizar las opciones de respuesta y el segundo obtener los parámetros de TC, TRI y las curvas características de los reactivos. Considerando la cantidad de alumnos, la calibración para el piloteo de reactivos se hace con el modelo de dos o de tres parámetros de la TRI; mientras que los análisis de los reactivos que integran el pre-test y la prue-ba operativa se realizan con el modelo de tres parámetros.

tt Hay manuales técnicos que orientan de manera detallada todos los procesos involucrados en el desarrollo de la prueba.

Los MT2008 y 2011 detallan los procesos involucrados en el desarrollo de la prueba. Estos procesos también se detallan en materiales que se han elaborado para la interpretación de los resultados. Por ejemplo, los manuales técnicos de las pruebas ENLACE-MS contienen informa-ción detallada de los procesos que se siguieron para desarrollar la prueba, desde la definición del constructo que se quiere medir, los distintos grupos de expertos que fueron convocados para trabajar en el desarrollo de la prueba, al igual que los pasos seguidos a fin de evaluar la calidad de las preguntas, y en general de la prueba. En varias partes se hace referencia a un documento en el que se describe lo que denominan “metodología CENEVAL”. Aunque este documento no fue proporcionado para esta revisión (se obtiene de la página Web del CENE-

VAL), los puntos descritos como provenientes de este documento dan una idea bastante clara de los procesos y pasos seguidos a fin de desarrollar las pruebas ENLACE-MS que, como ya se ha dicho anteriormente, son pasos generalmente aceptados por diversas agencias evaluadoras para diseñar pruebas.

Page 50: Analisi s prueba enlace ems 2015

50

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

3. Se documentan los procedimientos utilizados para la calibración de las pruebas y

para el análisis psicométrico.

tt Se presentan los procedimientos psicométricos utilizados para determinar sesgo, funciona-miento diferencial e impacto adverso de la prueba.

No se encontraron estudios ni referencias para estos aspectos. El estudio del impacto positivo de la prueba como ganancia educativa sí es analizado y se considera su efecto en los puntos de corte y las descripciones de los desempeños académicos.

No hay estudios sobre funcionamiento diferencial de las pruebas ante grupos específicos, ni se menciona la posibilidad de que sea un tema de investigación a futuro. Una búsqueda detallada en los MT2008 y 2011 no revela interés en el tema. De hecho se indica en el MT2008, sección 6.2 “Usos y difusión de resultados” que se deben evitar las comparaciones entre alumnos y entre escuelas, lo cual tiene una justificación para que los usuarios no establezcan “rankings” inconvenientes, pero no la tiene en el sentido de que debieron haberse explorado las diferencias socioeconómicas, culturales, por género, entre otras. El uso del cuestionario de contexto indica que las variables que mejor predicen el desempeño son las del capital cultural y económico en el dominio familiar y la motivación sobre recursos no cognitivos, esta afirmación no se respalda por un reporte específico a este respecto.

Tampoco hay evidencias de que se tengan estudios de sesgo respecto de la prueba en su dise-ño, porque el único dato disponible es la media de dificultad, pero no se tiene la distribución de los ítems que permita determinar medidas de sesgo.

tt Se describen los análisis efectuados para detectar influencias de factores diversos en la calidad de la medición, como la habilidad de lectura o escritura, la comprensión espacial, la ansiedad, etcétera.

Si bien se aplican los distintos componentes de las pruebas siguiendo un esquema de rotación que permite estudiar efectos de posición y fatiga, no se cuenta con evidencias de estudios sobre ninguno de estos aspectos. Lo que se plantea son normativas de aplicación y administración de las pruebas con el objeto de reducir o eliminar las diferencias en las respuestas de los estudian-tes que pudieran adjudicarse a defectos en las condiciones de aplicación.

La aplicación se lleva a cabo en dos días, en sesiones de 50 minutos y un descanso de 10 minu-tos, pero no hay una consideración respecto de la fatiga o de la conveniencia de la duración y tampoco una justificación empírica o técnica.

Existe una nota en el MT 2008 que señala, con la información proporcionada por los aplicado-res, que puede pensarse en reducir a 45 minutos el tiempo de aplicación (sin dar de nuevo una evidencia de esta reducción).

4. Se ofrece información sobre la confiabilidad de las pruebas.

Page 51: Analisi s prueba enlace ems 2015

51Aspectos técnicos

tt Se describen los procedimientos usados para calcular la confiabilidad de las subescalas y versiones de la prueba. En particular se reportan los resultados del cálculo de consistencia interna de la prueba y sus subescalas.

El cálculo de alfa de Cronbach lo realiza Iteman y se obtiene una confiabilidad empírica con la varianza procedente de Bilog. El MT incluye las dos fórmulas asociadas con estos parámetros para mostrar que se obtienen datos muy semejantes, del orden de 0.83 a 0.87. Estos valores son del orden de magnitud esperado en función del número de ítems y de la dispersión de respuestas de los estudiantes.

Solo se consideran dos variables para el reporte: Comunicación (comprensión lectora) y Ma-temáticas. De hecho solo se habla de una escala para las habilidades de los sustentantes que se iguala año con año, dejando sobreentendido que hay una escala para Comunicación y otra para Matemáticas.

En principio, por la forma en que está realizado el diseño, se esperaría que cada variable defi-niera una subescala pero no se tiene evidencia en este sentido, porque no se reporta ninguna escala ítem-medida (en particular por utilizarse el modelo de tres parámetros de la TRI). La conformación de las subescalas debe estar disponible al término de la corrida de los programas utilizados, siendo una información útil para contar con una evidencia de la calidad de la prueba y por ser de aplicación en proyectos de investigación.

Debe hacerse notar que parte de la información útil para revisar el modelo de la escala se presenta en una edición del MT y no en el otro, lo cual no representa necesariamente una ac-tualización de los datos. En el MT 2011 se presentan de forma gráfica las curvas características de las prueba en Comprensión lectora y Matemáticas (págs. 58 y 59), como especificaciones estadísticas de ensamble. A partir de estas curvas se puede obtener la relación aciertos-medida para definir la escala. Estas curvas no se observan en el MT2008 pero, en cambio, en el Anexo VI del MT2008 se presenta un estudio sobre la validación de los puntos de corte en las pruebas de ambas áreas (Gaviria, 2008), con base en la función de información de la TRI.

Un ejemplo de las corridas de los programas podría ser útil para completar esta información, pero es una documentación no disponible.

Se reporta la confiabilidad de la prueba calculada de dos maneras. La primera se realiza con el uso del coeficiente de consistencia interna alfa de Cronbach. La segunda, presenta con base en el estimado de confiabilidad basado en el modelo de la TRI con el programa utilizado para cali-ficar los resultados. Aparte de estos estimados que dan una información general de la confiabi-lidad de la prueba, también se presentan en el MT2008 las curvas de información de la prueba, al igual que de las preguntas individuales, dando una idea de la confiabilidad de la prueba en los distintos niveles de desempeño en la escala que se genera con base en las respuestas de los alumnos. No se cuenta con este mismo detalle en el MT2011.

tt Se dispone de resultados de correlación con aplicaciones repetidas.

En principio podría considerarse que este apartado no es procedente en este caso, ya que la prueba se aplica solo una vez al año y las pruebas se distribuyen entre los participantes. Sin em-bargo, debe recordarse y tomarse en cuenta que el proceso se entrelaza año tras año, a través del diseño y aplicación de un pre-test con preguntas operativas y se establecen sus valores de

Page 52: Analisi s prueba enlace ems 2015

52

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

calibración en el año en el que se hace el pre-test; estos valores de calibración son los que se usan para calificar las pruebas operativas.

Sería útil y necesario presentar información respecto a la comparabilidad de los resultados obte-nidos con las preguntas en estas dos instancias de aplicación, al igual que ofrecer evidencias que apoyen el uso de los parámetros del pre-test en la prueba operativa. Es posible que el cambio de contexto y circunstancias en las que se realizan las dos aplicaciones pueda cambiar las propieda-des de las preguntas, por lo que sería prudente verificar la transferibilidad de las calibraciones.

tt Hay un reporte con valores de separación del modelo logístico empleado.

Los valores de separación del modelo logístico a los que se refiere este encabezado no fueron calculados en la situación de calibración especifica de esta prueba, bien sea porque el software de la TRI utilizado (Bilog), no brinda esta información o porque no se consideró pertinente solicitarla, quedándose solamente a nivel del modelo de alfa de Cronbach por cada área evaluada. Lo más cercano a este enfoque es el reporte relacionado con la validación de los puntos de corte en el que se presenta su incertidumbre y se establecen bandas de confiabilidad alrededor de los mismos.

tt Se reporta la metodología para el cálculo del error de diseño de la prueba y sus subescalas y se reportan los resultados obtenidos en las aplicaciones.

Como no se reportan los resultados por partes o secciones, los valores del error de medida de la prueba y de las secciones no están disponibles. En la sección de validación de los puntos de corte se muestran las curvas de información de las preguntas al igual que la función de la infor-mación de la prueba en general.

Es importante hacer notar también que el reporte de los resultados para los alumnos se hace con base en la clasificación en uno de cuatro niveles posibles. Aunque empíricamente sería posible presentar los resultados individuales con base en la probabilidad de estar en cada uno de los niveles, tomando en consideración el intervalo de confianza de cada punto de corte, el cual está en función del error de medida, pero se observa este tipo de cálculos no se hacen más allá de reportes teóricos.

tt Se presenta la metodología usada para análisis de funcionamiento diferencial y de sesgos asociados con personas, pruebas y subescalas. Se reportan resultados de estudios hechos para determinar posibles sesgos.

No se presentó este tipo de información. Aunque puede suponerse al leer los manuales técni-cos que este análisis pudo haberse dado durante el proceso de validación e identificación de la población focal, no se proporcionó información sistemática al respecto.

CALIDAD DE LOS ÍTEMS Y BANCOS DE REACTIVOS

5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el

cuidado de su calidad.

Page 53: Analisi s prueba enlace ems 2015

53Aspectos técnicos

tt Se cuenta con un documento que describe el modelo de calibración de reactivos y los crite-rios para su aceptación, revisión y modificación.

Los MT2008 y 2011 hacen una breve referencia a la TC y al modelo de tres parámetros, cuya interpretación es conocida por los especialistas en psicometría, indicándose los valores de acep-tación que son similares a los generalmente aceptados. En principio los cálculos para la calibra-ción de los ítems se hacen con el análisis con modelo clásico (usando el software Iteman) y con modelo de la TRI de tres parámetros (con el programa Bilog).

Para las calibraciones se utiliza un modelo muestral controlado que se toma dentro de la aplica-ción censal. En el MT2011 (pág. 19) se indica que esta muestra sirve como punto de partida para la estimación de los parámetros de los reactivos, para los procesos de equiparación y calificación y para llevar a cabo diversas investigaciones de interés para la SEMS. En el mismo MT2011 se aclara que los estudios piloto se realizan en planteles del Distrito Federal y del Estado de México por razones de accesibilidad; se trata por lo tanto de un esquema similar al implementado por la SEP para ENLACE Básica.

Para las pruebas operativas se proponen como criterios para eliminar reactivos a) que la correla-ción punto biserial sea negativa y b) que la medida logística sea superior a 5.0 en las unidades proporcionadas por el software Bilog. Este valor de +5.0 es contradictorio con otras partes de la información que se restringen al intervalo de −3.0 a +3.0 o en el caso del intervalo de dificulta-des en modelo clásico de 20% a 80%. De manera conjunta se calibran los reactivos del pre-test con los de la prueba operativa del año anterior, fijando los parámetros de los reactivos de ésta última, y los parámetros del pre-test que se obtuvieron en la primera fase de equiparación, se fijan para calibrar la siguiente prueba operativa, lo cual se ilustra con el esquema tomado de la información proporcionada sobre ENLACE MEDIA SUPERIOR.

Cuadro 2.1

Rea

ctiv

o 10

Rea

ctiv

o 11

Rea

ctiv

o 12

Rea

ctiv

o 13

Rea

ctiv

o 14

Rea

ctiv

o 15

Rea

ctiv

o 16

Rea

ctiv

o 17

Rea

ctiv

o 18

Rea

ctiv

o 19

Rea

ctiv

o 20

Rea

ctiv

o 21

Rea

ctiv

o 22

Rea

ctiv

o 23

Rea

ctiv

o 24

Rea

ctiv

o 25

Rea

ctiv

o 26

Rea

ctiv

o 27

Sujeto 2 0 0 0 0 0 0 0 0 0 0 0 0Sujeto 7 0 0 0 0 0 0 0 0 0 0 0 0Sujeto 4 0 0 0 0 0 0 0 0 0 0 0 0Sujeto 10 0 0 0 0 0 0 0 0 0 0 0 0Sujeto 8 0 0 0 0 0 0 0 0 1 0 0 1Sujeto 5 0 0 0 0 0 1 0 0 1 0 0 1Sujeto 1 0 0 0 1 0 0 1 1 0 0 0 1Sujeto 9 0 0 1 1 0 0 0 1 1 0 0 1Sujeto 6 0 1 1 0 1 1 1 0 1 0 0 1Sujeto 3 1 1 0 1 1 1 1 1 1 0 0 1Sujeto 11 0 0 0 0 0 0 0 0 0 0 1 1Sujeto 12 0 0 0 0 0 0 0 0 0 0 1 1Sujeto 13 0 0 0 0 0 0 0 0 1Sujeto 14 0 0 0 0 0 0 1 0 0Sujeto 15 0 0 0 0 0 1 0 0 1Sujeto 16 0 0 0 0 1 1 1 0 0Sujeto 17 0 0 0 1 0 1 1 1 1Sujeto 18 0 0 1 1 1 0 1 1 1Sujeto 19 0 1 1 1 1 1 0 1 1Sujeto 20 1 1 1 1 1 1 1 1 0

Page 54: Analisi s prueba enlace ems 2015

54

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

La habilidad de los sustentantes se estima con el programa y se les califica con la puntuación de corte establecida en 2008.

tt Se explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificultad, dis-criminación, ajuste [fit], distractores, dimensiones, etcétera).

Por tratarse de una prueba censal, ENLACEMS tiene dentro de sus propósitos la emisión de resultados individuales de todos los estudiantes. Esta prueba tiene una cobertura superior a 90% de los estudiantes. Se utiliza una versión denominada pre-test diseñada con un modelo matricial para cubrir temas específicos, con el objetivo de informar acerca de áreas curriculares en muestras controladas de estudiantes, así como equiparar entre pruebas y calibrar ítems que se utilizarán en el siguiente año.

El cálculo de los parámetros psicométricos no se explica detalladamente, sino que se deja al software (Iteman y Bilog) y solo se incluye la fórmula de la TRI de tres parámetros como infor-mación complementaria, asumiendo que el resto del procedimiento de cálculo es de dominio público. El MT asume que el cálculo de frecuencias de respuestas se realiza con modelo clásico y el del ítem con la TRI.

6. Se ofrecen evidencias sobre la calidad de los bancos de ítems.

Se cuenta con una normativa para revisar, corregir y desechar reactivos en función de los re-sultados de la calibración, tomando en cuenta un conjunto de varios parámetros y evidencias. La principal normativa se asocia con la validación por especialistas en dos vertientes: la primera es la validación de contenido y de estilo con base en el conocimiento que tienen los especialistas del currículo. La segunda es una corrección que utiliza los resultados estadísticos de la calibra-ción para modificar los distractores que no funcionan en la población objetivo. Junto con ello se depuran los materiales de capacitación a los elaboradores.

Los criterios estadísticos son definidos exclusivamente como se indicó en el criterio 5: se des-cartan los ítems cuya correlación punto biserial es negativa (en una referencia adicional del MT se plantea <0.2) o cuya medida logística es superior a 5.0 a partir de las corridas de Bilog. Este criterio debería decir “cuya medida logística en valor absoluto es superior a un cierto valor de aceptación de acuerdo con la validez de escala”, ya que el valor de 5.0 por sí solo no está aso-ciado con el intervalo de dificultades previsto en el diseño de 20% a 80% de dificultad clásica. Para los parámetros de la TRI se aceptan los ítems que cumplen con estas condiciones:

• Parámetro a ≥ 0.45 (discriminción)• Parámetro b, en el intervalo de −3 a +3 (dificultad)• Parámetro c ≤ 0.3 (pseudo adivinación)

Los valores de referencia indicados son convencionales, se usan en algunas otras pruebas aun-que no se trate de valores generalmente aceptados; esto no se discute en este momento, sino la nueva incompatibilidad del intervalo para el parámetro b, que no se asocia ni con el valor de 5.0, indicado previamente, ni con el intervalo definido para la validez de escala (de 20% a 80% en modelo clásico). No hay indicaciones respecto de la calidad del ajuste de los datos y del modelo

Page 55: Analisi s prueba enlace ems 2015

55Aspectos técnicos

logístico, por lo que se debe asumir, pues no está explícito, que la correlación punto-biserial brinda el criterio de aceptación.

En una revisión de las bases de datos se tienen los valores de esta correlación para las pruebas. En la revisión se hizo notar que en el manual técnico 2008 para ENLACE-MS se tiene que de los 40 ítems considerados en el anexo II para Comprensión lectora, hay 16 ítems que no pasan el criterio de rpbis>0.2 y son 24 los que sí lo hacen; para Matemáticas este resultado es peor, porque 22 reactivos no pasan el criterio y solo 18 sí lo hacen. Se trata de una cantidad muy baja de ítems que podrían aprobarse tan solo por este criterio.

Podría decirse que el manual técnico solo está presentando un ejemplo de los ítems y que solo tiene el propósito de mostrar algunos reactivos y sus calibraciones, para dar una idea del con-tenido del banco; sin embargo, se tendrían dos problemas: a) si el ejemplo es representativo de la calidad del banco, entonces queda en tela de juicio por contener pocos ítems aceptables con este criterio, b) en cambio, si el ejemplo no es representativo, entonces queda sin disponerse de información fidedigna del banco y puede concluirse que no se quiso dar la mejor impresión acerca de la calidad de la prueba, lo cual tampoco es un buen respaldo documental. Durante la revisión se comentó que los valores medios de la media y de la correlación punto biserial son deficientes, por las siguientes razones:

a) Para la media. En el caso de Comprensión lectora, si se considera la subprueba completa, se tiene un valor centrado (54.99%) para todos los ítems, pero si se eliminan los ítems con rpbis inferior a 0.2, la prueba queda con sesgo izquierdo (61.7%). Para Matemáticas se tiene una prueba difícil (38.65%), pero sube este valor cuando se eliminan los ítems con rpbis inferior a 0.2, quedando casi centrada (48.75%).

b) Para la correlación punto-biserial, en el caso de Comprensión lectora la media queda en 0.24 y para Matemáticas en 0.19. Una vez que se quitan los ítems con valores de rpbis inferiores a 0.2, las medias de la correlación punto-biserial, suben a 0.32 y 0.30 respec-tivamente. Dado que el criterio es que se tengan correlaciones punto-biserial por arriba de 0.2, los promedios no tienen necesariamente que ser muy elevados (inclusive podrían estar esos promedios cercanos a 0.2 y serían aceptables), pero parecen poco pertinentes por tratarse de una prueba de alcance nacional como esta.

tt Es posible revisar los inventarios del banco de reactivos, debidamente clasificados y con valores psicométricos o edumétricos. No es aceptable que la prueba carezca de inventario o que haya reactivos sin calibración.

No se satisface este criterio, porque no se cuenta con los inventarios ni con las bases de datos, por ser material considerado por el CENEVAL como confidencial. No hay muestra de ítems confi-gurados de acuerdo con las especificaciones. No obstante, se entregaron las pruebas operativas para revisión, lo cual se presenta en la sección de calidad cultural de este reporte.

tt Se cuenta con una normativa para el uso de los reactivos, indicando su vigencia en el banco o en las versiones, forma de almacenamiento en medio informático o físico y forma de ac-tualización para uso posterior.

El MT señala que no se pueden conservar los bancos de ítems porque las pruebas operativas se distribuyen entre las instituciones educativas; esta práctica tiene como consecuencia que la prueba tenga vigencia máxima de un año, haciendo que el banco sea volátil, porque una vez

Page 56: Analisi s prueba enlace ems 2015

56

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

usada la prueba hay que diseñar nuevos ítems. No se cuenta con otra definición de las políticas para la gestión de los bancos de ítems y su permanencia en el tiempo. Lo que sí se vislumbra es que puede haber cambios debidos a los avances en el MCC de la RIEMS. No se cuenta con infor-mación completa del sistema informático utilizado, pero puede pensarse que para controlar el almacenamiento en el sistema informático del CENEVAL se requiere hacer la validación con regu-laridad, por lo que puede suponerse que la revisión se hace en fechas cercanas a la aplicación.

CALIFICACIÓN Y NIVELES DE DESEMPEÑO

7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que

responden las pruebas.

tt Está disponible el documento que explica la forma en que se asignó calificación a estudian-tes (normativa, criterial u otra).

La calificación se realiza con el software Bilog con el modelo de tres parámetros de la TRI. Se emiten los reportes a partir de las puntuaciones en términos de la medida theta, traducida en categorías cualitativas. El modelo de tres parámetros de la TRI asigna diferente resultado a dos personas que tienen el mismo número de aciertos pero contestan diferentes ítems. Por esta razón la curva característica de la prueba no se relaciona con el número de aciertos y la medida logística, a diferencia de lo que ocurre con el modelo de Rasch utilizado en la prueba EXCALE.

La prueba se diseña y califica con referencia a un criterio. El establecimiento de puntos de corte y niveles de desempeño lo hacen especialistas con el método bookmark. Los puntos de corte son definidos por jueces y se validan en forma empírica con ayuda de la curva característica para obtener los valores que se deben emplear para asignar calificaciones y niveles de desem-peño. Un punto específico a mejorar sobre puntos de corte es no proponer valores con excesiva precisión (seis decimales), porque son cifras que no pueden ser alcanzadas por el instrumento a partir del número de ítems, ni del error de medida.

Finalmente, debe citarse una heterogeneidad de los manuales técnicos: en el MT2008 se des-cribe la metodología para la revisión técnica de los puntos de corte, pero no vuelve a aparecer en el MT 2011, dejándose solamente una presentación (en Power Point) que se hizo al Consejo Técnico sobre los valores que definen los rangos de habilidad utilizados en Comunicación y Matemáticas.

Para completar la estimación de las medidas de los estudiantes se realizó un estudio de ganan-cia. De acuerdo con este estudio, se indica que hay una estabilidad en el desempeño de los alumnos para el campo de Comunicación (Comprensión Lectora) y una tendencia monótona-mente creciente para Matemáticas. Este estudio de ganancia es el único referido para deter-minar si las diferencias entre años eran debidas a los estudiantes o al diseño de la prueba, por lo que la asignación de las calificaciones considera esta estabilidad temporal longitudinal y se asigna la puntuación final con base en ella. Este estudio también tenía el propósito de revisar y justificar los puntos de corte o los cambios requeridos por modificaciones en los resultados a lo largo del tiempo.

Page 57: Analisi s prueba enlace ems 2015

57Aspectos técnicos

Figura 2.1

Cuadro 2.2

Nivel de Dominio Puntos de corte (habilidad)

Comunicación/Lectora

Insuficiente Menores o iguales que −0.916000

Elemental −0.915999 a 0.096000

Bueno 0.096001 a 1.455000

Excelente Mayores o iguales que 1.455001

Matemáticas

Nivel de Dominio Puntos de corte (habilidad)

Insuficiente Menores o iguales que −0.053000

Elemental −0.052999 a 1.176000

Bueno 1.176001 a 2.018000

Excelente Mayores o iguales que 2.018001

tt Se cuenta con la explicación del diseño de la escala de la prueba y la forma de calcular los puntajes en dicha escala (por modelo clásico o logístico), con penalización o sin corrección por azar, entre otros posibles criterios.

No se asigna ninguna penalización ni corrección por azar. Como se trabaja con el modelo de tres parámetros, la calificación depende del conjunto de ítems contestados (puntuación no invariante), donde se hace intervenir el parámetro de pseudo-adivinación. No hay una formu-lación para definir un escalamiento sistemático del tipo corrimiento de la media y coeficiente multiplicativo para la desviación estándar; es de notarse que en el MT2008 se plantea una

Page 58: Analisi s prueba enlace ems 2015

58

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

transformación afín por escalamiento de la desviación estándar (parámetro multiplicativo) y corrimiento de la media (parámetro aditivo), aunque no se indican los parámetros utilizados en el año de reporte. Este procedimiento deja de presentarse en el MT2011.

En otra parte de la información proporcionada se señala que no puede utilizarse anclaje con los ítems de años anteriores, pero de hecho se están utilizando los ítems del pre-test y en el MT2011 se aclara que se fijan las medidas obtenidas en el año anterior, lo cual es un esquema evidente de anclaje. Por otra parte se deja al programa BILOG la equiparación en una media 0 y desviación estándar 1, correspondiente a una estandarización corrida al centro en 0, pero no necesariamente con un escalamiento por igualación de formas. Este esquema se plantea como de equiparación por población común y no por ítems comunes.

tt Se explica el procedimiento para obtener la calificación global como combinación de diver-sos instrumentos o partes de la prueba. No es aceptable la asignación global como prome-dio de promedios.

Se entrega calificación por cada área. La base de datos contiene los puntajes logísticos de la persona con formato de un entero y seis decimales. En cambio, no se entrega una calificación global de la persona.

El proceso de equiparación se efectúa por cada una de las dos áreas (Comunicación y Mate-máticas) y se determina un error de equiparación con un modelo bootstrap, simulando 100 muestras aleatorias con reemplazo.

8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpreta-

ción de resultados de las pruebas

tt Existe el marco teórico-metodológico basado en currículo que justifica la organización en niveles de desempeño como estándares o sistema de interpretación de puntajes, junto con el procedimiento de asignación del valor del punto de corte en la escala.

El marco metodológico está basado en la RIEMS. Se parte del punto de que no existe un cu-rrículo único en la educación media superior. La RIEMS intenta reunir en el MCC la diversidad curricular al señalar destrezas y competencias genéricas que se desarrollan durante la estancia de los estudiantes en las instituciones educativas, además de competencias disciplinares básicas y extendidas con una mayor carga de contenido, y competencias cognitivas. Entonces los niveles de desempeño son establecidos con base en competencias genéricas y transversales, que se supone se desarrollan a lo largo del proceso educativo y en todas las materias que se enseñan en la educación media superior.

Con base en el MCC, el proyecto de ENLACE MEDIA SUPERIOR se enfoca a las competencias disciplinares básicas, porque se espera que los alumnos deban razonar matemáticamente, y no simplemente responder ciertos tipos de problemas mediante la repetición de procedimientos establecidos. Esto implica que puedan llevar las aplicaciones de esta disciplina más allá del sa-lón de clases. Esto es lo que se define como habilidades o competencias matemáticas. Como competencias comunicacionales, con énfasis específicamente en la Comprensión lectora, se entiende la capacidad de los estudiantes de comunicarse efectivamente en el español y en lo

Page 59: Analisi s prueba enlace ems 2015

59Aspectos técnicos

esencial en una segunda lengua en diversos contextos, mediante el uso de distintos medios e instrumentos. Además, están orientadas a la reflexión sobre la naturaleza del lenguaje y a su uso como herramienta del pensamiento lógico.

Si bien este es el marco teórico que sustenta los contenidos de la prueba, se definen cuatro niveles de desempeño con el fin en mantener consistencia con las otras pruebas ENLACE. Estos niveles se denominan: insuficiente, elemental, bueno y excelente. No se encuentra justificación teórica en cuanto a la cantidad de niveles, o a la validez de la clasificación en los mismos.

Un punto que no queda claro, y que despierta cierta preocupación respecto al constructo que se mide y su interpretación, es el que se refiere a un estudio emprendido para atender los cambios de especificaciones de las pruebas entre 2010 y 2011, para lo cual se comparó la per-tinencia de los puntos de corte de las pruebas de 2008 a 2010 y que se aplicaron de la misma manera en las de 2011 a 2012. Entonces, si se cambiaron las especificaciones de las pruebas, se asume que éstas miden algo distinto, por lo que en nuestra opinión se deben establecer puntos de corte nuevos con base en el nuevo constructo que se está midiendo y se deben descartar los puntos de corte utilizados en pruebas anteriores; sin embargo, no hay evidencia de que se haya realizado una nueva definición de ellos. El hecho que las proporciones por nivel se mantengan relativamente iguales no es criterio suficiente o necesario para ser aceptado como validación de los puntos de corte. A menos que las pruebas midan un mismo constructo, estas comparaciones no deben hacerse, ni tampoco utilizar os mismos puntos de corte.

tt Se dispone de respaldo documental que especifica el procedimiento (criterial o mixto) para determinar los niveles de desempeño o estándares.

El procedimiento para establecer los puntos de corte es un procedimiento criterial denominado de marcador (o bookmark) en el que, en términos resumidos, se le pide a los jueces describir niveles de desempeño, y luego identificar, con base en el conjunto de preguntas ordenadas por nivel de dificultad, la pregunta que separa a los grupos de acuerdo con un criterio que consi-deren aceptable para marcar diferencias cualitativas en el desempeño de los estudiantes. Este criterio es generalmente la primera pregunta que se espera respondan de manera correcta 67% o más de los alumnos del nivel correspondiente. El procedimiento bookmark es uno entre varios métodos que se encuentran bien descritos en la literatura técnica sobre evaluación, y se cuenta con suficiente investigación acerca de sus ventajas y desventajas.

Es de hacer notar que aunque este procedimiento es fundamentalmente un procedimiento criterial por jueceo para determinar los puntos de corte, siempre debe ir acompañado de una verificación empírica en referencia a la población a fin de asegurar que los puntos de corte se-leccionados son útiles para describir a la población evaluada y son representativos de cambios cualitativos en la distribución de medidas en la escala. Por esto es que se presenta un estudio de su idoneidad con base en la distribución de la dificultad de las preguntas, la posibilidad de adivinación, la separación de los grupos, y la discriminación en los puntos de corte.

tt Los estándares desarrollados a partir de comités de jueces, cuentan con el análisis del domi-nio, curricular u otro, y/o tienen en cuenta consecuencias empíricas de la identificación de puntajes de corte.

Debe hacerse notar que en la documentación proporcionada se presenta poca información al respecto, se alude al hecho de que los estándares y definiciones de niveles de competencias

Page 60: Analisi s prueba enlace ems 2015

60

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

son desarrollados por un panel de jueces encargados de determinar los puntos de corte en la distribución. A estos jueces se les encarga revisar el dominio curricular en términos de las de-finiciones de las competencias establecidas por la RIEMS y como resultado de esta revisión se procede a desarrollar los descriptores de nivel.

Se da por sentado que las consecuencias empíricas son tomadas en cuenta dado a que, una vez establecidos los puntos de corte, se verifican las proporciones de alumnos clasificados en cada nivel a fin de asegurarse de que los puntos dividan a los estudiantes en grupos que puedan ser interpretados y distinguibles, asumiendo que las proporciones de estudiantes en cada nivel son razonablemente aceptables por los jueces que intervinieron en el análisis.

tt Los puntos de corte se validan con procesos de juicio o mixto (juicio-empírico); se demuestra experimentalmente su ubicación y se reporta el intervalo de confianza correspondiente.

En la documentación disponible (Anexo VI del MT2008) se presenta un estudio en el que se presenta la ubicación e intervalo de confianza de los puntos de corte. El análisis no se repite en todos los años ni se refiere en los dos manuales técnicos.

tt Hay evidencia empírica de que los niveles de desempeño están bien graduados y discriminan bien en relación con contenido de prueba.

No se presenta evidencia al respecto, salvo de la definición de los puntos de corte como se indicó en el criterio anterior.

tt Se cuenta con la metodología y evidencia del proceso realizado para describir el significado de los niveles de desempeño o del conjunto de competencias por nivel en términos de los puntos de corte.

Se presenta la interpretación genérica de los niveles en un reporte técnico, al igual que en un segundo documento que describe el procedimiento para establecer los puntos de corte (con-duciendo a una tabla que da los valores numéricos). Como se indicó previamente, para alcanzar este fin se utilizó el procedimiento de marcador (o bookmark) con el cual se establecieron los puntos de corte.

Ahora bien, en la documentación se encuentran algunas inconsistencias que se deben seña-lar. Una de ellas se presenta en la descripción del procedimiento. Se dice que “se preguntó a los jueces ¿los alumnos de nivel “insuficiente” pueden responder a este reactivo?”, tomando como reactivo marcador el que era respondido por 2/3 de los alumnos del nivel. Como el nivel insuficiente es el más bajo, se debió hacer esta pregunta respecto a los alumnos del nivel “ele-mental”, “bueno” y “superior.” Los alumnos “insuficientes” son los que no alcanzan el nivel “elemental”.

Una segunda inconsistencia es la descripción del nivel “insuficiente”, dado que éste es el nivel que por definición no alcanza lo elemental, su descripción debiese ser con base en lo que “no puede hacer,” y no con base en lo que “puede hacer”, tal y como se hace, lo cual es incom-patible con el nivel que se estudia en la población focal. Se tiene el documento que detalla los desempeños por nivel para las competencias y contenidos propuestos en la prueba, así como otras interpretaciones pertinentes a partir de los resultados de las pruebas.

Page 61: Analisi s prueba enlace ems 2015

61Aspectos técnicos

Las descripciones de los niveles de competencia se presenta en varios de los documentos dispo-nibles, y en la Guía para el Docente se presentan ejemplos de preguntas que están clasificadas en cada uno de los niveles de desempeño. En cada caso se indica también la denominada “for-taleza” que corresponde con la descripción de la competencia movilizada por el estudiante al responder correctamente al ítem.

tt Los integrantes de los comités encargados de definir los niveles de desempeño son selec-cionados por sus perfiles académicos y/o laborales y por su representatividad dentro de la diversidad cultural del país; dichos integrantes pasan por un proceso de capacitación orien-tado al manejo de la metodología a utilizar.

Según el manual técnico se establecen dos comités de puntos de corte que están integrados por especialistas en los contenidos evaluados que cuentan con experiencia en el nivel educativo al que se dirige el examen y proceden de diferentes instituciones. La función principal de este comité es el establecimiento de las puntuaciones que separan cada uno de los niveles y las definiciones de los niveles de dominio de acuerdo con los resultados obtenidos en el proceso.

Según lo presentado en la documentación técnica, los miembros del comité son capacitados en el procedimiento para establecer los puntos de corte. Durante esta capacitación el coordinador de la actividad presenta a los especialistas el marco institucional del CENEVAL, los aspectos básicos relacionados con la evaluación educativa y los procesos y fases de la “metodología CENEVAL” para construir una prueba. Se ofrece además información básica sobre las caracterís-ticas generales de las pruebas, propósito, población objetivo, contenidos evaluados, alcances y limitaciones, tiempo para la aplicación de la prueba, forma de aplicación y estructura del exa-men. No se dispone de los formatos y elementos discutidos durante los análisis que realizaron los miembros del comité.

CONCLUSIONES

Los criterios técnicos analizados para las pruebas ENLACE-MS indican algunas fortalezas que no solamente son esperadas y deseables en una prueba de alcance nacional sino que son más que exigibles, por las consecuencias que tienen las decisiones y usos que se realizan con los resultados, tanto en lo que corresponde de forma individual para cada estudiante como en los diversos niveles de agregación (plantel, estatal, regional y nacional). Dentro de ellas se tienen los mismos puntos positivos que se destacaron en ENLACE-B, atendiendo al esfuerzo de aplicación que incluye la logística de distribución, seguridad, lectura, calificación y emisión de reportes.

La justificación documental es el primer punto que debe mejorarse, para contar con elementos de juicio completos y certeros de apoyo a cualquier lector o investigador interesado en estas pruebas; a este respecto, en el capítulo anterior se comentó que sus dos manuales técnicos son de contenido y diseño heterogéneos, al incluir en ocasiones elementos técnicos muy puntuales, aspectos de divulgación para el lector lego y otros tópicos que explican la metodología seguida pero de manera superficial y no asociada directamente con este proyecto.

Otros puntos débiles fueron indicados en los criterios relativos a los referentes, principalmente con respecto al marco teórico y a la definición de las competencias que, en principio, están aco-

Page 62: Analisi s prueba enlace ems 2015

62

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

tadas en el marco curricular común de la RIEMS, pero quedaron limitadas en el diseño a unos cuantos puntos de las competencias disciplinares básicas en dos áreas muy genéricas (Compren-sión lectora y Matemáticas), como ya se apuntó en el capítulo respectivo. Como consecuencia de esta definición del perfil del estudiante, se tienen limitaciones en el desarrollo de los puntos técnicos de validez de constructo, de criterio y de escala, que no se justifican suficientemente.

La mezcla indiscriminada de modelo clásico y de TRI es un elemento importante que debe corre-girse, con el objeto de dejar explícitos los puntos que se tratan con cada una de dichas teorías. Debe insistirse que no se trata de que un proyecto contenga solamente uno de los modelos, ya que se sabe que pueden combinarse de manera apropiada en forma ecléctica para los fines propios de la medición o de la emisión de reportes. El problema es que se combinan errónea-mente los parámetros y la definición de los intervalos de aceptación de los ítems o de la prueba. Dentro de los puntos señalados en este capítulo está el criterio de rechazo de ítems cuando la medida logística es superior a +5, cuando en otra parte la prueba se acepta en intervalos de −3 a +3 y en otro sitio se afirma que el diseño y la revisión solo aceptan ítems de 20% a 80% de dificultad en modelo clásico (que corresponde con un intervalo logístico de −1.38 a +1.38). No está clara la aceptación por criterio de ajuste al modelo (fit) y en cambio se utiliza la correlación punto biserial como posible criterio de revisión.

No se dispone de datos métricos de las subescalas (Comprensión lectora y Matemáticas), ni del error de medida general de ellas, salvo una media general en porcentaje de aciertos para cada subescala, lo cual puede fundamentarse en el hecho de que la TRI solo produce medidas de cada persona dependientes del conjunto de reactivos, pero no se enfoca a producir el error de medida general de la prueba. Si se admite este argumento, entonces no es aceptable que falte la validación del error en los puntos de corte de todas las pruebas (solo se tienen en algunas), los cuales son obligatorios en la TRI una vez determinada la función de información.

Respecto de los puntos de corte, los manuales técnicos no siempre reportan el dato (cuando se reporta es con un abuso en el número de decimales, simulando una precisión inexistente), con una posible argumentación con base en una cierta consistencia observada en las diversas aplicaciones. Esto, a su vez, conduce a una incongruencia debido a que dichos puntos debieron haberse revisado en el momento de cambios en las pruebas en 2011, en lugar de optar por mantenerlos constantes.

La carencia de estudios de diversas fuentes de sesgo, de funcionamiento diferencial de los ítems o de funcionamiento diferencial por grupos de personas, no apoya a la revisión de las pruebas e impacta lo que se afirma en los capítulos relativos a la influencia de factores culturales, así como a las consecuencias que puede tener esta prueba.

La falta de evidencias sobre los bancos de ítems, y el no disponer de sus inventarios consideran-do la clasificación temática, la complejidad y los valores métricos, no permite juzgar acerca de su calidad. Igualmente se dispone de muy escasa información sobre los sistemas informáticos de almacenamiento de los ítems y de la generación de pruebas.

Page 63: Analisi s prueba enlace ems 2015

63

3 Atención a la diversidad

Este documento reporta la revisión de la prueba ENLACE-MS desde la perspectiva de validez cultural. La validez cultural se define como el grado en que el diseño, el proceso de desarrollo y el contenido de una prueba toman en consideración la forma en que factores cul-turales, lingüísticos y socioeconómicos no relacionados con los constructos de interés influyen en la manera en que los estudiantes interpretan el contenido de los ítems y la forma en que responden a ellos (Solano-Flores y Nelson-Barber, 2001).

Enfoques convencionales en el tratamiento de la diversidad cultural y lingüística en evaluación del aprovechamiento escolar se basan en examinar las características de los ítems una vez que un instrumento está a punto de alcanzar su fase final de desarrollo. Tal es el caso de los aná-lisis de sesgo o de las revisiones de sensibilidad que, desde la perspectiva de validez cultural, son necesarios pero insuficientes para asegurar una evaluación justa y válida en una sociedad multicultural.

A diferencia de tales enfoques convencionales, los enfoques basados en el concepto de validez cultural se ocupan de examinar cómo la metodología empleada para desarrollar las pruebas toma en cuenta la diversidad cultural y lingüística de la población objetivo. El desarrollo de un marco muestral poblacional que considere los principales sectores socioeconómicos, étnicos y lingüísticos de la población estudiantil y la inclusión de muestras representativas de esos seg-mentos poblacionales en el piloteo de pruebas son ejemplos sencillos y claros de las acciones que pueden tomarse en el desarrollo de una prueba con el fin de asegurar la validez cultural de ese instrumento.

Para analizar la validez cultural de las pruebas ENLACE-MS, los autores de este informe revisaron la documentación proporcionada por el CENEVAL y la SEP sobre dichas pruebas y efectuaron el microanálisis de una muestra de los reactivos de Comunicación (Comprensión lectora) y Mate-máticas seleccionada aleatoriamente. El microanálisis de reactivos se define como la evaluación integrada de los aspectos gramaticales, pragmáticos (contextuales) y semióticos que influyen en la probabilidad de que los alumnos entiendan los reactivos como se espera que los entiendan (Solano-Flores y Trumbull, 2003). Como resultado de este análisis, a menudo emergen cuestio-nes de contenido o aspectos técnicos de la estructura del ítem, que no pueden ser detectados con los procedimientos convencionales de revisión de ítems.

La documentación analizada incluyó principalmente los manuales técnicos de las pruebas, los cuestionarios de contexto, las pruebas operativas, los documentos de especificaciones y los reportes de estudios especiales comisionados para analizar distintos aspectos técnicos de ENLACE-MS. Debido a que esa prueba y algunos de sus documentos técnicos de apoyo son renovados en su totalidad cada año, en la revisión efectuada por los autores se dio prioridad a la versión de la prueba y a la documentación más reciente.

Page 64: Analisi s prueba enlace ems 2015

64

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

La prueba ENLACE-MS tiene una aplicación anual y contiene un total de 60 reactivos de Ma-temáticas y 50 reactivos de Comunicación que se administran en secciones alternas. En el caso de Comunicación, están organizados como grupos de reactivos que se presentan al estudiante después de y en relación con un pasaje literario. Cada pasaje literario corresponde a una de cuatro formas de comunicación (por ejemplo, argumentativa o apelativa).

La muestra aleatoria de reactivos microanalizados estuvo conformada por 15 reactivos perte-necientes a las cuatro secciones de Comunicación y 20 pertenecientes a las dos secciones de Matemáticas.

En la evaluación de ENLACE-MS se tomaron en consideración doce criterios de validez cultural: Marco conceptual de la prueba; Especificación de las poblaciones; Estrategia para considerar diversidad cultural, lingüística y socioeconómica; Especificación de ítems; Profesionales involu-crados en el desarrollo de los ítems; Representación de poblaciones diversas en las muestras de estudiantes piloto; Validación cognitivo-cultural; Revisión, Análisis de sesgo; Estudios de gene-ralizabilidad; Tiempos y calendarios; y Mecanismos de corrección.

Este reporte está organizado en secciones de acuerdo con tales criterios.

1. El marco conceptual de la prueba toma en consideración cómo la efectividad en el

aprendizaje, la enseñanza y la evaluación de un contenido están influidos por la ex-

periencia sociocultural del estudiante y su familiaridad con la lengua y la variedad

dialectal en que se administran las pruebas.

Las pruebas ENLACE-MS están organizadas de acuerdo con una estructura general que com-bina niveles de dominio y tipos de proceso cognitivo. En el caso de Comunicación, los tipos de proceso cognitivo son: extracción, interpretación (desarrollo de la comprensión, desarrollo de la interpretación), reflexión y evaluación (de la forma, del contenido). En el caso de Matemáticas, los tipos de proceso cognitivo son: reproducción, conexión, y reflexión (CENEVAL, 2012). La organización de las dos áreas de contenido por tipo de proceso cognitivo permite el desarrollo de una matriz de muestreo para la generación sistemática de reactivos.

Desafortunadamente, la documentación disponible no presenta una discusión detallada de las bases conceptuales y teóricas de los tipos de conocimiento considerados. En ausencia de tal discusión, los aspectos epistemológicos relacionados con el lenguaje y con el pensamiento ma-temático no están tratados con profundidad. En otras palabras, aunque existe una conceptuali-zación de los contenidos evaluados, no existe un documento formal que proporcione un marco conceptual de la prueba ni de cómo diversos aspectos lingüísticos y culturales influyen en la comunicación o en el pensamiento matemático.

2. Como parte del desarrollo de la prueba, se establecen las características diversas de

la población objetivo, que consideran la diversidad cultural y lingüística del país, y los

múltiples contextos y escenarios culturales y ambientales.

El cuestionario de contexto para estudiantes de ENLACE-MS incluye una pregunta que también aparece en el cuestionario de contexto empleado en ENLACE-B, sobre la condición lingüística

Page 65: Analisi s prueba enlace ems 2015

65Atención a la diversidad cultural

de los padres (si su lengua es diferente del español). Sin embargo, el cuestionario no recaba in-formación sobre la lengua específica de los padres, cuando ésta no es el español. Adicionalmen-te, el cuestionario no incluye preguntas sobre la primera lengua de los propios estudiantes. Se infiere implícitamente que un alumno de educación media superior es monolingüe en español. El cuestionario no permite obtener información sobre el grado de bilingüismo que los alumnos en este nivel pueden tener.

Tal limitación contrasta con las preguntas sobre el dominio del idioma inglés incluidas en el cuestionario en relación con las competencias comunicativas que presentan los estudiantes de media superior en relación con el uso de nuevas tecnologías. La importancia que puede tener el dominio de dos o más idiomas para los estudiantes mexicanos se limita al uso del inglés como herramienta para acceder a herramientas informáticas y no también como una habilidad cogni-tiva que favorece un mejor desempeño escolar.

El mismo cuestionario recaba información sobre las condiciones socioeconómicas de los estu-diantes. Se les pregunta sobre su estado civil, su condición laboral, su trayectoria escolar previa, los ingresos de sus familias, y el acceso a bienes y a nuevas tecnologías. También se indaga sobre su experiencia en el ámbito escolar, la relación con profesores y compañeros, y sus expec-tativas para el futuro. Sin embargo, no se obtiene información sobre la trayectoria escolar de los padres o sobre la estructura familiar (Prueba ENLACE Cuestionario para alumnos de Educación Media Superior 2013).

Los cuestionarios para profesores y directivos contienen preguntas sobre la modalidad del plan-tel (existen un gran número de modelos para la educación media superior en México), el ta-maño de la localidad y las actividades preponderantes en esa localidad. Las variables tratadas consideran la ubicación de los planteles en zonas rurales, urbanas, o semiurbanas, y el tipo de perfil laboral de las familias de los estudiantes (por ejemplo, primaria, rural; secundaria, de manufactura; terciara, de comercio y servicios). Aunque existen preguntas sobre el perfil aca-démico de los docentes, el cuestionario no incluye otras sobre dominio de lenguas extranjeras (véase Prueba ENLACE Cuestionario para directivos de Educación Media Superior 2012; Prueba ENLACE Cuestionario para profesores de Educación Media Superior 2012).

La información sobre el perfil de los estudiantes, la modalidad educativa y el tamaño de la lo-calidad permitieron que en dos estudios sobre ganancia educativa se pudieran efectuar análisis desagregados por esos factores (Informa Ganancia Educativa 2010-2013 MS, CENEVAL; Resul-tados para Preparatoria ENLACE 2009, IFIE). Dicha información es muy útil para el desarrollo de políticas educativas inclusivas. Desgraciadamente, la organización del cuestionario no refleja la existencia de un diseño a priori del instrumento que considere la diversidad sociodemográfica del país.

Entre los resultados de los dos estudios aludidos es particularmente de interés el hecho de que, aunque se analizan diferentes procesos de enseñanza-aprendizaje, no se consideran variables relacionadas con diversidad cultural o género que en muchos sistemas de pruebas se toman en consideración.

La validez cultural no incluye aspectos de discapacidad; sin embargo, ésta es una forma de di-versidad poblacional. Desde esta perspectiva, cabe mencionar que, aunque la evaluación no se enfocó a la discapacidad, los documentos analizados no consideran a la población con discapa-cidades. Aunque el manual técnico establece que no se contempla la aplicación de ENLACE-MS

Page 66: Analisi s prueba enlace ems 2015

66

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

a estudiantes discapacitados o que no sean usuarios de lenguas diferentes del español, debe tenerse en cuenta que la mayoría de los sistemas de evaluación abordan de una u otra manera los retos de evaluar válidamente a las poblaciones con discapacidades.

A continuación se presenta el análisis realizado en 2009 con los resultados sobre habilidad lectora y Matemáticas de ENLACE-MS realizados por IFIE. A pesar de que en la sección introduc-toria se menciona región y tamaño de localidad, tales variables no se consideran al analizar los resultados de los alumnos, a quienes se les compara simplemente en términos de los promedios de calificación al nivel de plantel.

¿ C uál fue el res ultado de...? / Diferenc ia es tudiante-preparatoria

Índice: insuficiente: 50, elemental: 65, bueno: 80, excelente: 100.

R es ultados E NL AC E 2009

-20 0 20 40 60 80 100

Insuficiente

Elemental

Bueno

Excelente

Índice

10

37

48

5

72

6

34

47

13

76

-4.0

-3.2

-0.9

8.2

3.3

Diferencia Estudiante-preparatoria

Estudiante

Preparatoria

-20 0 20 40 60 80 100

Insuficiente

Elemental

Bueno

Excelente

Índice

14

39

43

5

71

10

36

44

9

73

-3.2

-3.1

1.4

4.9

2.4

Diferencia Estudiante-preparatoria

Estudiante

Preparatoria

Habilidad lectora Habilidad Matemática

En la investigación realizada en 2013 por CENEVAL se presentan los resultados sobre ganan-cia educativa a nivel global, comparando el desempeño de la misma cohorte generacional en tercero de secundaria (2010) y en tercero de media superior (2013). Después se reanalizan los resultados por tipo de habilidad (lectura y Matemáticas) y por modalidad educativa, así como por entidad federativa.

Sin embargo, los análisis sobre modalidad educativa y región no consideran la información con-textual relevante para el subsistema indígena, a pesar de que se colecta en los cuestionarios de contexto. Esta omisión sorprende porque el reporte muestra que la mayor ganancia educativa se encuentra en bachilleratos técnicos agropecuarios y otros tipos de modalidades tecnológicas y en entidades con altos porcentajes de población indígena como Chiapas. Estos estudiantes siguen, en promedio, por debajo del promedio de alumnos provenientes de entidades con poca presencia indígena y con mayores proporciones de población urbana.

Page 67: Analisi s prueba enlace ems 2015

67Atención a la diversidad cultural

DIRECCIÓN GENERAL ADJUNTA DE PROGRAMAS ESPECIALESDIRECCIÓN DE PROGRAMAS PARA LA ADMINISTRACIÓN PÚBLICA

18

encuentran por debajo de la media del Resto de la población. Esto es importante ya que,

además de ofrecer una ganancia educativa a los alumnos, los planteles pertenecientes a

los subsistemas y tipos de bachillerato deben proporcionar herramientas para disminuir la

proporción de alumnos que se encontraba por debajo de la media al comenzar su

educación media superior.

3.1 Resultados nacionales Las figuras 3 y 4 muestran la evolución del desempeño en Español/ comprensión Lectora

y Matemáticas, a nivel nacional, de la cohorte de alumnos que respondió la prueba

ENLACE 3° de Secundaria en el 2010 y la prueba ENLACE MS en 2013. Como se

aprecia en las gráficas, la media de las puntuaciones incrementó notablemente (línea

verde) lo que refleja una mejora general en el desempeño de los estudiantes y permite

afirmar la existencia de una ganancia educativa en las dos áreas que evalúa de la

prueba.

Figura 3. Ganancia Educativa nacional ENLACE

3° de Secundaria/Español vs. ENLACE

MS/Comprensión Lectora.

DIRECCIÓN GENERAL ADJUNTA DE PROGRAMAS ESPECIALESDIRECCIÓN DE PROGRAMAS PARA LA ADMINISTRACIÓN PÚBLICA

19

Figura 4. Ganancia Educativa nacional ENLACE

3° de Secundaria/Matemáticas vs. ENLACE

MS/Matemáticas.

(CENEVAL 2013:18-19)

DIRECCIÓN GENERAL ADJUNTA DE PROGRAMAS ESPECIALES DIRECCIÓN DE PROGRAMAS PARA LA ADMINISTRACIÓN PÚBLICA

73

3.5.1 Comentarios a los resultados por subsistema Los resultados del estudio permiten afirmar que, en general, existe ganancia educativa en los alumnos

sin importar el subsistema en el que cursaron la educación media superior.

Los resultados del estudio y de los comparativos por subsistema muestran muchas y diferentes

tendencias ya que en algunos casos las medias de desempeño son mejores en los subsistemas en

contraste con el Resto de la población; en otros, las medias de los subsistemas son menores al Resto

de la Población; y en ocasiones son iguales en el 2010 pero diferentes en 2013 y a la inversa.

Es importante destacar los resultados de los alumnos que pertenecen a los subsistemas del CEDART,

DGB, IPN y de escuelas particulares ya que son quienes presentan una media de desempeño mayor

que el Resto de la población tanto en Español/Comprensión Lectora como en Matemáticas.

Los subsistemas en donde en el 2013 se encuentra un menor porcentaje de alumnos por debajo de la

media de desempeño del Resto de la población, en contraste con el 2010 en el área de Comprensión

Lectora, son CECyTE y CEMSAD ya que porcentaje disminuye un 3.4% y 3.7% respectivamente. En el

área de Matemáticas destacan los subsistemas de DGETA, CECyTE y DGETI con una disminución de

4.2%, 5.7% y 8.5% respectivamente.

Por otra parte, los subsistemas en donde se presenta un incremento en el porcentaje de alumnos que

en 2013 se encuentran por debajo de la media de desempeño del Resto de la población en contraste

con 2010, en el área de Comprensión lectora, son los alumnos que cursaron sus estudios en las

universidades autónomas, en instituciones particulares y en el IPN con 5.1%, 5.2% y 15.3%

respectivamente. En el área de Matemáticas resaltan los resultados de los alumnos que pertenecen a

los subsistemas de CEMSAD, PREFECO, Telebachilleratos, y CEDART con 6.2%, 6.2%, 10.3% y

14.9% respectivamente.

(CENEVAL 2013:78)

DIRECCIÓN GENERAL ADJUNTA DE PROGRAMAS ESPECIALES DIRECCIÓN DE PROGRAMAS PARA LA ADMINISTRACIÓN PÚBLICA

138

3.6.1 Comentarios a los resultados por entidad federativa Los resultados del estudio permiten afirmar que, en general, existe ganancia educativa para los

alumnos sin importar la entidad en la que se encuentra la escuela donde cursaron sus estudios de

media superior.

Los resultados del estudio y de los comparativos por entidad muestran diferentes tendencias al observar

el crecimiento en la ganancia educativa y el comportamiento de las entidades federativas en contraste

con el porcentaje de alumnos que se encuentran por debajo de la media del Resto de la población en

las dos áreas que evalúan las pruebas.

Cabe destacar los resultados de los alumnos que cursaron la educación media superior en los estados

de Aguascalientes, Distrito Federal, Durango, Jalisco y Querétaro ya que la media de desempeño de los

alumnos es mayor al Resto de la población tanto en Español/Comprensión Lectora como en

Matemáticas. En el otro extremo se encuentran los alumnos que cursaron el nivel medio superior en las

entidades de Chiapas, Guerrero y Tabasco en donde la media del desempeño es menor que la del

Resto de la población.

En lo referente a las entidades federativas en donde en el 2013 se encuentra un menor porcentaje de

alumnos por debajo de la media de desempeño del Resto de la población, en comparación con el 2010,

destacan los estados de Baja California y Michoacán en donde el porcentaje de alumnos en

Comprensión lectora disminuye 12.9 y 15.1%, y en Matemáticas 17.4% y 22% respectivamente. En

contraste se encuentra el Distrito Federal, Tlaxcala, Quintana Roo y Aguascalientes en donde el

porcentaje de alumnos que se encuentran por debajo de la media de desempeño del Resto de la

población aumenta de 2010 a 2013 en un 6.9%, 7%, 8% y 20.9%, respectivamente en el área de

Comprensión Lectora. En este mismo caso pero para el área de Matemáticas destacan los alumnos de

las entidades de Nuevo León, Tlaxcala, Nayarit y Aguascalientes con 6.0%, 6.2%, 8.1% y 10.9% de

aumento en el porcentaje de alumnos por debajo de la media, respectivamente.

Es importante señalar el caso particular del estado de Oaxaca en donde la cantidad de alumnos que se

integró al estudio de ganancia educativa no alcanza el 1% de población entre ellas cabe destacar el

estado de Oaxaca que apenas cuenta con el 0.06 de representatividad nacional, esto debido a que en

2010 no aplicó la prueba de ENLACE 3° Secundaria (se cuenta apenas con la información de 349

alumnos). Al comparar sus resultados se observa que para el área de Comprensión Lectora, en 2010 su

(CENEVAL 2013:138)

Page 68: Analisi s prueba enlace ems 2015

68

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

La investigación sobre ganancia educativa debería incluir variables de contexto más allá de las mencionadas. Ello permitiría evaluar si los alumnos egresados de media superior que vienen de comunidades indígenas o rurales se desempeñan mejor o peor que otros estudiantes de su misma cohorte, lo que permitiría determinar la influencia de factores como ocupación o esco-laridad de los padres.

3. Se hace uso de referentes teóricos y conceptuales sobre cultura y lengua y se estable-

cen procedimientos para tomar en consideración la diversidad, cultural, lingüística y

socioeconómica del estudiantado mexicano.

En la información revisada sobre ENLACE-MS se explicitan los criterios para la selección de los reactivos que se aplicarán en los pre-tests, pero no se hace mención al diseño de la muestra po-blacional a la que se aplican. En consecuencia, resulta difícil saber si en el proceso de desarrollo de la prueba se considera la diversidad lingüística y cultural de México.

Según datos del censo realizado en 2010 (INEGI, 2010), precisamente el grupo poblacional entre los 15 y los 20 años de edad es el más numeroso entre los hablantes de lengua indígena a nivel nacional. En información que los documentos examinados proporcionan sobre la estruc-tura de las pruebas y su administración, como es el caso de la nota técnica que se reproduce a continuación, hace falta un perfil de los estudiantes a quienes se les aplican las pruebas:

Con este objetivo, a lo largo de tres años el pre-test se ha dividido en 8 formas que presentan los reactivos necesarios para conformar pruebas operativas de hasta 220 reactivos: 50 para Comunicación (Comprensión lectora), 60 de Matemáticas, 50 para Humanidades y Ciencias Sociales, y 60 de Ciencias Experimentales. Además, el diseño del pre-test incluye una fracción de reactivos adicionales con la finalidad de asegurar que todos los reactivos de la siguiente prueba Operativa tengan parámetros adecuados. Cada forma del pre-test cuenta con entre 30 y 32 reactivos que pueden ser contestados en una sola sesión e intercalan el orden de presentación de los campos disciplinares me-diante una técnica de contrabalanceo (Figura 1).

Diseño de ensamble del Pre-test aplicado de 2010 a 2012

Page 69: Analisi s prueba enlace ems 2015

69Atención a la diversidad cultural

Diseño de ensamble del pre-test para la aplicación 20131

Como los reactivos utilizados en la aplicación 2010 y 2011 son diferentes a los de 2012, una forma de colocarlos en la misma escala es aplicándolos en un mismo periodo, por ello para la aplicación de 2013, el ensamble del pre-test fue sujeto a modificaciones.Aunque el orden de presentación de los contenidos sigue siendo el mismo, el número de formas de pre-test se duplicará para incluir los reactivos nuevos de Comunicación (Comprensión lectora) y Matemáticas que servirán para conformar la prueba Operativa de 2014, y dos conjuntos diferentes de reactivos de Humanidades y Ciencias Sociales, y otros dos de Ciencias Experimentales.

Se contará con un total de 16 formas, 8 de ellas incluirán los reactivos de Ciencias que se presentaron en el pre-test aplicado en 2011 mientras que las otras 8 incluirán los reacti-vos de Ciencias que se utilizaron en 2012.

Figura 2 Diseño de ensamble del Pre-test para la aplicación 2013

La modificación del ensamble del pre-test en 2013 permitirá colocar los reactivos de Humanidades y Ciencias Sociales y de Ciencias Experimentales en la misma escala, y adi-cionalmente permitirá realizar estudios comparativos del desempeño de los alumnos que contestaron los campos disciplinares de Ciencias a lo largo de los años.

1 Este ajuste en el ensamble se determinó después de conocer el dictamen del Consejo Técnico (sesión del 15 de

noviembre) en cuanto a mantener la aplicación operativa de en los dos campos disciplinares: Comunicación

(Comprensión lectora) y Matemáticas.

(Nota Técnica ENLACE Media Superior, 2013)

Page 70: Analisi s prueba enlace ems 2015

70

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

En el Manual para docentes y directivos ENLACE Media superior 2014 realizado por CENEVAL (pág. 12) se especifica lo siguiente:

Población objetivo

La prueba está dirigida a los alumnos de la República Mexicana inscritos en los planteles que manifiesten interés en participar y apoyar en la aplicación de la prueba. Los estudian-tes deben cursar su último ciclo de bachillerato (cuatrimestre, semestre, año, etcétera) en modalidad escolarizada, en los diferentes tipos de bachillerato (general, tecnológico y bivalente). Las instituciones pueden ser tanto de sostenimiento público como privado. Debido a sus características técnicas, la prueba no está considerada para aplicarse a alumnos con necesidades especiales o con una lengua diferente al español.

El análisis referido en el documento correspondiente no considera tipo y grado de bilingüismo. Como ya se mencionó, una premisa parece ser que los alumnos de este nivel educativo son plenamente competentes en español (sin mencionar si ésta es o no su lengua materna) y que las pruebas no requieren algún tipo de consideración de las características socioculturales de los estudiantes. Lo anterior contrasta con la información que se recaba en el cuestionario de contexto, tanto para alumnos como para profesores y directivos, en relación con tópicos como condición lingüística de los hogares, tipo de ocupación, ingresos, tamaño de localidad y trayec-toria educativa de los estudiantes.

4. Los documentos que establecen los tipos y formatos de los ítems dan lineamientos para

asegurar que la información gráfica y contextual incluida en los ítems sea familiar para

la mayoría del estudiantado y reflejen una amplia variedad de contextos culturales.

La estructura de ENLACE-MS establece un número de reactivos por cada proceso cognitivo y su cruce con cada tipo de habilidad, tanto para Comunicación como para Matemáticas. Sin em-bargo, los documentos revisados (por ejemplo, CENEVAL, 2012) no proporcionan una tipología de los ítems y tampoco ofrecen descripciones detalladas de su estructura.

Una causa de esta limitación parece ser la manera en la que se entiende lo que es un conjun-to de especificaciones de ítems. Por ejemplo, en el documento de la Dirección de Programas Específicos, Dirección de Programas para la Administración Pública de CENEVAL (véase archivo electrónico, ENLACE-MS especificaciones RIEMS.pdf ), las especificaciones de los ítems se pre-sentan en tablas como las siguientes:

Tal nivel de especificación es insuficiente, pues no se consideran las características estructurales de los ítems.

Page 71: Analisi s prueba enlace ems 2015

71Atención a la diversidad cultural

La comparación de las pruebas aplicadas en los distintos años escolares permitió corroborar que, a pesar de que no existe la formalización abstracta de las estructuras y características de los distintos tipos ítems, cada ítem de un año determinado tiene otro paralelo en la pruebas de otros años. Dicho de otra manera, cada reactivo funciona como el templete de otro reactivo para el año siguiente (véase, Prueba ENLACE, 2012, 2013, 2014). Tal correspondencia permite una constancia en la complejidad de los reactivos a lo largo del tiempo.

A pesar de tal correspondencia, y debido a la falta de un documento riguroso de especificaciones de los reactivos, no existe el nivel de precisión suficiente para que los desarrolladores de prue-bas puedan tener un control firme de las características textuales, gráficas y contextuales de los ítems. Por ejemplo, no se proporcionan especificaciones sobre la manera en que los temas de los pasajes usados como materiales de estímulo para los reactivos de Comunicación han de reflejar una amplia variedad de contextos culturales. O cuando menos, no se encontró evidencia de un procedimiento sistemático para muestrear las distintas temáticas de los materiales de estímulo.

Una limitación relacionada con esta problemática es que no parece haber reactivos ancla que permitan la realización de comparaciones del desempeño de los estudiantes a lo largo de los años. El uso de reactivos ancla es práctica estándar y debiera realizarse rutinariamente. En el Manual Técnico ENLACE Media Superior (CENEVAL 2014) se argumenta que no es posible usar reactivos ancla debido a que la SEP requiere que el contenido de la prueba se haga público anualmente. Sin embargo, no hay razón aparente que impida que haya reactivos ancla que se apliquen año con año y que sean excluidos del conjunto de reactivos que se hacen públicos.

Los microanálisis realizados como parte de esta evaluación (ver anexo I) no reflejan que los auto-res de los reactivos hayan considerado la pertinencia de las temáticas de los textos utilizados para evaluar el área de Comunicación. Los contenidos usados como pasajes son significativos (es decir, presentan situaciones que son familiares) para estudiantes del medio urbano y, en un caso, solo para aquellos prevenientes de clases medias altas. La misma observación se aplica a algunos de los reactivos de Matemáticas, que no parecen reflejar la realidad de la mayoría de los estudiantes de México ni consideran las posibles variaciones en los registros del español por región.

5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de ex-

pertos en contenido incluyen a especialistas en el área de cultura (antropólogos,

lingüistas) y maestros de minorías culturales y lingüísticas y de escuelas rurales y

nivel socioeconómico bajo.

Aunque en algunos documentos aparecen largas listas de los participantes en el desarrollo de las pruebas, tales listas tienen la función de dar crédito a los participantes pero no documen-tan el proceso. Más específicamente, los documentos no proporcionan información detallada acerca de las especialidades de los profesionales que participaron en dicho proceso, ni de su contribución profesional o el tiempo (por ejemplo, número de horas) que le dedicaron. Tam-poco se encontró evidencia de que en el proceso de desarrollo de la prueba hayan participado especialistas en disciplinas como la lingüística y la antropología.

6. Las muestras de estudiantes con los que se pilotean versiones preliminares de la

prueba incluyen submuestras representativas de las minorías culturales, lingüísticas

y socioeconómicas del país.

Page 72: Analisi s prueba enlace ems 2015

72

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

La revisión de la documentación disponible reveló que no hay evidencia de que las pruebas se hayan piloteado con muestras representativas de grupos culturales, lingüísticos y socioeconó-micos diversos. Esta limitación está relacionada con la falta de un marco muestral poblacional adecuado que considere los principales grupos socioeconómicos, étnicos y lingüísticos del país.

En la información disponible solo se incluyen referencias generales a la modalidad educativa y al tamaño de localidad. Como ya mencionamos anteriormente, a pesar de que en los cues-tionarios de contexto se incluye información sobre la condición lingüística de la familia y su perfil ocupacional, tal información no se retoma en relación con el diseño del pre-test o con la configuración de las muestras de estudiantes. A continuación reproducimos la información contenida en el manual técnico más reciente:

8.1 Diseño muestral

El diseño muestral que se utiliza en la aplicación de ENLACE-MS permite contar con los datos de un subconjunto representativo de la población que se somete a la prueba ope-rativa, el cuestionario de contexto y, mediante un esquema matricial, al pre-test. Las con-diciones de seguridad y la logística son responsabilidad de evaluadores con experiencia que trabajan para la DGEP-SEP (estándar 13.10). Los datos de la muestra se utilizan, por un lado, para realizar los estudios relacionados con variables de contraste y, por otro, para los análisis estadísticos necesarios en la equiparación de las pruebas de un año a otro, definir los puntos de corte y llevar a cabo diversas investigaciones de interés para la SEMS.

En 2011 la muestra a la que se aplicó la prueba operativa y el cuestionario de contexto estuvo conformada por 262 087 alumnos inscritos en 2,081 escuelas seleccionadas. Para 2012, se contó con la participación de 294 116 alumnos de 2,072 planteles. Por su parte, la muestra del pre-test de 2011 se conformó por 139 476 alumnos y la del 2012 por 136 572.

Para el diseño muestral y las posteriores interpretaciones de los resultados, es importante considerar los niveles de desagregación en los que se trabajaron los resultados de ENLA-

CE-MS. En la Tabla 11 se pueden observar dichos niveles, y en el Anexo C se describe con detalle el procedimiento para calcular el tamaño de la muestra.

Manual técnico ENLACE Media Superior CENEVAL 2014: 64-65

Page 73: Analisi s prueba enlace ems 2015

73Atención a la diversidad cultural

8.2 Diseño de equiparación

Desde sus inicios en 2008, la prueba ENLACE-MS tiene contemplado el uso del método de equiparación horizontal para colocar en las misma escala las pruebas año con año. Este método implica realizar procedimientos empíricos para establecer una relación esta-dística entre los puntajes de dos versiones de una prueba. Dicha relación puede utilizarse para expresar los puntajes de una prueba en términos de los puntajes de otra, para de esa manera, garantizar que se califica con base en la misma escala (estándar 4.13).

La equiparación requiere de un diseño de recolección de datos y de una regla para transformar los puntajes de una versión a los puntajes de otra. En relación con el primer aspecto, lo usual en los exámenes estandarizados es que cada aplicación operativa inclu-ya reactivos ancla que permitan mantener las escalas mediante los procesos de equipara-ción y calificación de los instrumentos (Downing y Haladyna, 2006). Como se ha venido señalando, en el caso de la prueba ENLACE-MS no es posible incluir reactivos ancla en las versiones operativas puesto que, por cuestiones de transparencia, la SEP solicita que cada año se hagan públicos. Para lograr que las escalas de año con año sean equipara-bles, se recurre a un diseño de recolección de datos que consiste en aplicar dos pruebas en el mismo periodo: la prueba operativa y el pre-test. Ambas pruebas siguen las mismas condiciones de diseño y construcción, es decir, que además de regirse por la metodolo-gía del CENEVAL, que implica apegarse a las normas y estándares institucionales, utilizan la misma estructura y especificaciones para la elaboración de reactivos. Lo anterior busca garantizar que los reactivos midan lo mismo.

Debido a que en un año los alumnos que contestan las pruebas operativa y pre-test son los mismos, es posible situar los parámetros de los reactivos de ambas pruebas en la misma mé-trica y como los reactivos que integran el pre-test conforman la operativa del año siguiente, ambas pruebas comparten reactivos que constituyen los insumos para colocar en una escala común los puntajes de los alumnos que contestan las pruebas en los diferentes años.

El diseño que permite equiparar las pruebas operativas de uno y otro año mediante la aplicación del pre-test se puede ver gráficamente en la Figura 6.

67

Figura 6. Esquema de aplicación para la equiparación de la prueba -

8.2.1 Procedimiento de equiparación

datos de la prueba operativa del año anterior, los del pretest y los de la prueba operativa del

tri

Es importante señalar que existen reactivos del pretest que después de la revisión

Manual técnico ENLACE Media Superior CENEVAL 2014: 66-67

Page 74: Analisi s prueba enlace ems 2015

74

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Debe decirse, sin embargo, que el Manual para Docentes y Directivos (CENEVAL, 2014), estable-ce claramente que “(d)ebido a sus características técnicas, la prueba no está considerada para aplicarse a alumnos con necesidades especiales o con una lengua diferente al español.” (pág. 12). Aunque establece una forma de discernir a qué estudiantes no se les debe aplicar la prueba, tal aseveración requiere de una mayor elaboración.

7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales para investigar si

estudiantes de diversos grupos culturales, lingüísticos y socioeconómicos interpretan

de igual manera el contenido de muestras representativas de los ítems de la prueba.

No se encontró evidencia de que se efectúen sistemáticamente entrevistas cognitivas con el propósito de aportar evidencia de validez cognitiva. Debe anotarse aquí que el uso de entrevis-tas cognitivas como forma de validación, existe como práctica en el desarrollo de pruebas desde hace más de dos décadas. La información recabada es parte de la evidencia de validez de una prueba que no necesariamente tienen que ver con cultura.

Mucho menos se encontró evidencia de que se efectúen entrevistas cognitivo-culturales que examinen la manera en que las interpretaciones de los estudiantes de los reactivos están influi-das por factores lingüísticos y culturales. La importancia de las entrevistas cognitivo-culturales no se debe subestimar. Cada vez existe más evidencia de que los procedimientos tradicionales de validación no son sensibles a los aspectos lingüísticos y culturales que influyen en la forma en que los estudiantes pueden interpretar los ítems de una prueba.

8. Existe un proceso de revisión con jueces que considera fuentes de sesgo cultural,

lingüístico y socioeconómico en muestras representativas de los ítems de la prueba.

La documentación revisada no proporciona información detallada del proceso de desarrollo y revisión de los ítems. Por ejemplo, no se presenta información sobre los procesos que los revi-sores siguen para codificar o evaluar las características de los ítems.

Tampoco se encontró documentación de un procedimiento sistemático en el desarrollo de prue-bas que especifique información como el procedimiento de revisión o el número de iteraciones de revisión. La mayoría de los sistemas de pruebas en el mundo tienen documentos que norman tales actividades.

Tampoco se identificó evidencia de que se consideren distintos tipos de revisión de aspectos tales como contenido, estilo, cuestiones lingüísticas o posibles fuentes de sesgo cultural. No se argumenta aquí que tales actividades no se efectúen, lo que se señala es que no hay do-cumentación de que se efectúan sistemáticamente, de acuerdo con procedimientos formales establecidos. La información concerniente a los procesos de revisión de ítems se menciona superficialmente en los diversos documentos disponibles, pero no de manera integrada en un solo documento.

Page 75: Analisi s prueba enlace ems 2015

75Atención a la diversidad cultural

9. Se efectúa análisis DIF de una muestra representativa de ítems para diversos grupos

focales: estudiantes de distintos grupos indígenas y zonas geográficas, de nivel so-

cioeconómico bajo y de zonas rurales.

No se encontró alguna indicación de que se hayan efectuado los análisis apropiados para exa-minar el funcionamiento diferencial de los ítems en distintos grupos poblacionales definidos por factores étnicos, culturales, socioeconómicos o de género.

Los estudios técnicos comisionados se ocupan principalmente de equiparamiento. Esta limi-tación es importante. El análisis de sesgo es una pieza importante en la calidad del desarrollo de pruebas a gran escala. Como se dijo anteriormente, es necesario pero no suficiente como actividad relevante a la validez cultural; sin embargo es indispensable en cualquier sistema de pruebas. Estos estudios se conducen de manera rutinaria en cualquier sistema de evaluación.

Cabe mencionar que con frecuencia, la cantidad de ítems de una prueba hace imposible realizar estudios de sesgo (por ejemplo, basados en el análisis DIF) con todos los ítems de una prueba. Sin embargo, se acostumbra examinar muestras de ítems (por ejemplo, por área o subárea de contenido) y de poblaciones (por ejemplo, por tipo de etnicidad). Este tipo de trabajo sistemáti-co de análisis de sesgo no se refleja en los documentos examinados.

Con base en los microanálisis realizados, resulta evidente la importancia de considerar en el futuro análisis de sesgo que incluyan no solo factores culturales y de diversidad lingüística, sino también factores regionales y socioeconómicos.

10. Se efectúan análisis de generalizabilidad para determinar la solidez de las genera-

lizaciones de calificaciones obtenidas con el mismo conjunto de ítems para dis-

tintos grupos de estudiantes definidos por grupo étnico y lingüístico, localidad y

nivel socioeconómico.

No se encontró evidencia alguna de que se hayan efectuado estudios de generalizabilidad para examinar confiabilidad y validez con respecto a lengua, o para comparar la generalizabi-lidad de las medidas de desempeño académico entre distintos grupos culturales, lingüísticos y socioeconómicos.

Los sistemas evaluativos no efectúan estudios de generalizabilidad como parte de sus pro-cedimientos rutinarios. Sin embargo, la importancia de tales estudios para un país con alta diversidad lingüística y cultural como México radica en el hecho de que permiten identificar la proporción de error de medida que puede atribuirse a facetas (factores) asociados a esa diver-sidad. Realizar tales estudios permitiría determinar cómo la magnitud de ese error de medida puede minimizarse mediante el ajuste de los tamaños de las muestras de los distintos tipos de ítems incluidos en las pruebas.

Page 76: Analisi s prueba enlace ems 2015

76

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

11. Los tiempos y calendarios para realizar las actividades que tienen como objetivo to-

mar en consideración la diversidad cultural, lingüística y socioeconómica son razona-

bles y factibles.

No se encontró evidencia en los manuales técnicos ni en el manual para profesores y directivos de que se prevea la necesidad de ajustar tiempos o calendarios de aplicación de las pruebas en función de la geografía o las condiciones climáticas de las diferentes regiones del país. Tal omi-sión puede afectar el cumplimiento puntual de ciertas actividades para estudiantes minoritarios o que viven en zonas rurales o remotas.

Debido a sus características técnicas, la prueba no está considerada para aplicarse a alumnos con necesidades especiales o con una lengua diferente al español. Manual para docentes y directivos ENLACE-MS 2014, CENEVAL: 12

En el estudio sobre ganancia educativa 2010-2013 (CENEVAL 2013), mencionado anteriormente, se menciona que no se incluye información sobre el estado de Oaxaca. Sin embargo, el estudio no aclara las razones por las que no se aplicaron las pruebas en dicha entidad, que concentra al 23% de los hablantes de lengua indígena de México según datos del INEGI (2010).

Es importante señalar el caso particular del estado de Oaxaca en donde la cantidad de alumnos que se integró al estudio de ganancia educativa no alcanza 1% de población; cabe destacar el estado apenas cuenta con el 0.06 de representatividad nacional, esto debido a que en 2010 no aplicó la prueba de ENLACE 3° Secundaria (se cuenta apenas con la información de 349 alumnos). Al comparar sus resultados se observa que para el área de Comprensión lectora, en 2010 su media se ubicó por encima de la media del resto de la población, y en 2013 se ubicó por debajo. Esta tendencia provocó que la proporción de alumnos por debajo de la media del resto de la población aumentara en 4 puntos porcentuales.

Informe Ganancia Educativa 2010-2013 CENEVAL: 138-139.

12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en

la información obtenida con la validación cognitivo-cultural, la revisión, los análisis

de sesgo y los estudios de generalizabilidad.

La documentación revisada no reveló que exista un procedimiento para detectar y corregir fallas en los instrumentos, tales como la eliminación de ítems con sesgo. Ninguno de los documentos disponibles o los reportes de las investigaciones realizadas considera estrategias y mecanismos de corrección de sesgo por factores como el género, la edad, los antecedentes escolares, la condición lingüística del hogar o el perfil laboral del estudiante y su familia. Tal omisión resalta debido a que los cuestionarios de contexto recaban información sobre tales factores.

Page 77: Analisi s prueba enlace ems 2015

77Atención a la diversidad cultural

En los documentos analizados tampoco se menciona algún tipo de mecanismo de corrección de sesgo que considere la modalidad educativa o la región o el tamaño de la localidad en que se ubica un plantel determinado en el que se apliquen las pruebas.

Como lo muestra el microanálisis de los reactivos seleccionados aleatoriamente, se identificaron diversas fuentes potenciales de sesgo lingüístico y cultural en esos reactivos. Esas fuentes de sesgo podrían identificarse y corregirse con un mecanismo formal de revisión y de corrección de sesgo potencial.

Cabe mencionar que, aunque hay algunos reactivos de matemáticas en los que el microanálisis no reveló la existencia de características lingüísticas que indebidamente pongan en desventaja a grupos minoritarios, esos son reactivos con poco texto y reactivos que evalúan niveles de conocimiento declarativo básico.

Page 78: Analisi s prueba enlace ems 2015

78

4 Aspectos relativos a las aplicaciones

Como se ha reiterado a lo largo del informe, la validez de toda evaluación estandarizada de la educación y particularmente, la de sus resultados, está estrechamente vinculada con la calidad de la aplicación de los instrumentos, sus procesos previos y posteriores.

Las aplicaciones censales con control a cargo del personal de la escuela y reporte individual de resultados, como ENLACE-MS, conllevan importantes retos para los líderes del proyecto, prin-cipalmente relacionados con lograr la mayor uniformidad posible en la implementación de los estándares previstos, tanto para el pre-test como para la prueba operativa.

Aunque ENLACE-MS haya sido concebida como de bajo impacto, el diagnóstico que brinda al estudiante en términos de sus fortalezas y debilidades en el desarrollo de competencias discipli-nares básicas reviste de gran relevancia. Igualmente, la posibilidad de retroalimentar a maestros, planteles educativos y padres de familia y proporcionar elementos que contribuyan a la mejora del sistema educativo mexicano, depende en gran medida de la calidad de la aplicación.

En este capítulo se desarrollan los mismos grupos de criterios con los que se analizaron ENLACE y EXCALE, ya que se consideran factores críticos para el éxito de todo proyecto de evaluación.

Los grupos de criterios que se trabajarán son:

Antes de la aplicación

• Selección de la muestra• Planeación de las aplicaciones• Selección y capacitación del personal de aplicación

Durante la aplicación

• Minimización de carga, motivación, no respuesta y fraude• Procedimientos para el control de calidad de las aplicaciones

Después de la aplicación

• Preparación del procesamiento de datos• Procesamiento y verificación de datos• Notificación de irregularidades

Para la valoración de los criterios, se utilizó información de diferente naturaleza. En primer lugar se revisaron los documentos electrónicos proporcionados por la Dirección General de Evaluación de Políticas (DGEP) al Instituto Nacional para la Evaluación de la Educación (INEE); también se revisaron los documentos disponibles en la página web de ENLACE-MS (http://www.enlace.sep.gob.mx/ms/). Posteriormente se condujo una entrevista a profundidad en una entidad federativa sobre el proceso de aplicaciones. Esta entrevista proporcionó información y documentación valiosa para complementar la valoración de los criterios, también fue un insumo importante para el diseño de un cuestionario en línea dirigido a los responsables de las Áreas

Page 79: Analisi s prueba enlace ems 2015

79Aspectos relativos a las aplicaciones

Estatales de Evaluación de todas las entidades federativas. El cuestionario en línea fue respon-dido en 25 entidades federativas,1 por un total de 31 informantes.2 La información recuperada se incorporó también en la valoración de los criterios.

Finalmente, es importante mencionar que después de un primer análisis de la información dis-ponible para cada uno de los criterios, se hizo una solicitud adicional de información a la DGEP, que proporcionó documentación adicional y respuestas específicas a las solicitudes planteadas (DGEP, 2014b).

CRITERIOS DE VALIDEZ ANTES DE LA APLICACIÓN

Selección de muestra

1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación

censal o como marco muestral.

El Coordinador Operativo (Titular del Área Estatal de Evaluación (AEE) responsable de diseñar la Estrategia de Aplicación en su respectiva jurisdicción) tiene a su cargo la remisión de las bases de datos a la DGEP, por ello, la confiabilidad del listado de escuelas dependerá de la precisión de la información que cada Estado provea y de los procesos de validación de la base de datos de cada Área Estatal de Evaluación y de la DGEP.

Es importante mencionar que la conformación de esta base de datos es un desafío importante para cada una de las entidades federativas, pues no existe una base de datos nacional que in-tegre la información de los estudiantes de todos los subsistemas y que se actualice de manera regular, considerando la dinámica propia de los estudiantes de este nivel educativo (en particu-lar movilidad y deserción).

Esta circunstancia implica que para cada aplicación, las AEE solicitan a cada subsistema la infor-mación de los futuros sustentantes, para después integrar una sola base de datos y remitirla a la DGEP. Aunque después la base de datos es revisada por la propia DGEP y las observaciones son atendidas por las entidades3 y sus subsistemas correspondientes, al momento de la aplicación se presentan imprevistos relacionados con la deserción de alumnos o su movilidad entre escuelas.

Un indicador que puede ayudar a emitir un juicio sobre la precisión y actualización de las bases de datos son la incidencias o irregularidades ocurridas al momento de la aplicación, tales como errores en el nombre de los alumnos, la Clave Única de Registro de Población (CURP), la insti-tución y municipio en que se encuentra, alumnos no registrados, entre otros. Esta información

1 El listado de entidades federativas que dieron respuesta al cuestionario se encuentra en el Anexo 4.1.2 En algunas entidades más de un informante respondió el cuestionario.3 El proceso de validación que hace la DGEP incluye contrastar la base de datos recibida por las entidades federativas con

respecto a la base de datos del formato 911; a través de este proceso se identifican, por ejemplo, instituciones edu-

cativas que no hay reportado alumnos en el grado a evaluar; esto puede deberse, según la entrevista a profundidad

realizada en una entidad federativa, a escuelas que hayan dejado de ofertar servicios educativos, o grupos que no se

hayan abierto.

Page 80: Analisi s prueba enlace ems 2015

80

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

puede recabarse en las actas de entrega, recepción e irregularidades. Aunque no se tuvo infor-mación a nivel nacional sobre las irregularidades que se presentaron, en el Estado de México se encontró que, en la aplicación censal de 2014, 380 escuelas de 1 197 reportaron incidencias, de las cuales las siguientes pueden estar relacionadas con la precisión y actualización de las ba-ses de datos: ocho escuelas reportaron nombre incorrecto de alumnos; cinco, error en nombre la institución o municipio; cinco escuelas reportaron CURP incorrecto de los alumnos; cuatro, nombre incompleto; cuatro reportaron alumnos no registrados en la lista (IEEEM, 2014b).

A diferencia de ENLACE-B, en ENLACE-MS, de acuerdo con la información provista en http://enlace.sep.gob.mx/ms/aplicacion/, no se aprecian cambios en las tendencias en el censo de escuelas y estudiantes a lo largo de siete aplicaciones, a partir de lo cual se comprueba que el comportamiento de la población sujeto de esta evaluación es bastante predecible y por ello las previsiones que pueden hacerse acerca de la aplicación son más confiables. Dada la escala de la aplicación, no se anticipan inconvenientes mayores para conformar un censo o marco muestral técnicamente válido para la aplicación de ENLACE-MS.

2. Cuando proceda, las muestras se diseñarán utilizando diseños sólidos; los estratos

se definirán con base en argumentos teóricos defendibles.

ENLACE-MS contempla dos aplicaciones que se llevan a cabo simultáneamente, una censal y otra con una muestra controlada. La primera es llamada versión operativa y la segunda pre-test o de investigación. La versión operativa ha sido aplicada desde 2008 a todos los estudiantes que cursan el último grado de educación media superior en “instituciones educativas de carác-ter público, federal y estatal, en los planteles particulares con reconocimiento de validez oficial otorgado por la SEP o por las entidades federativas, en instituciones de carácter autónomo que lo soliciten y en escuelas particulares incorporadas” (CENEVAL, 2013, pág. 61). Por ser ésta una aplicación censal no cuenta con un diseño muestral.

El pre-test es aplicado a una muestra representativa de la población (CENEVAL, 2013, pág. 61). En el Manual Técnico de las aplicaciones 2011 y 2012 se señala que la muestra pretende atender estos propósitos: a) aplicar la prueba operativa con un control riguroso, de manera que se ob-tenga información confiable sobre los valores psicométricos de los reactivos que se usarán para calificación (CENEVAL, 2013, pág. 102); b) realizar la equiparación con la prueba operativa, y así mantener los puntajes de los alumnos en la misma escala año con año; c) aplicar cuestionarios de contexto para obtener información sobre las características de los alumnos4; y d) realizar estudios experimentales (CENEVAL, 2013, pág. 101).

De acuerdo con lo anterior, en esta muestra, además de aplicarse la versión operativa, los sus-tentantes responden un cuadernillo con reactivos a ser incluidos en el año siguiente, un cues-tionario de contexto, y pruebas experimentales. El cuadernillo es aplicado de manera matricial, para que los alumnos respondan solo una parte de los reactivos. La cantidad de reactivos y formas ensambladas es uno de los insumos para el cálculo del tamaño de la muestra.

4 Dentro de estas características se encuentra: edad, situación laboral, hábitos de estudio, contexto socioeconómico,

escolaridad de los padres (CENEVAL, 2013, p. 101).

Page 81: Analisi s prueba enlace ems 2015

81Aspectos relativos a las aplicaciones

Los dominios de la muestra controlada, desde 2010 son: nacional; nacional por modalidad de los Centros de Trabajo (bachillerato general; bachillerato técnico; bachillerato tecnológico); nacional por sostenimiento; y, nacional por nivel de urbanidad. En las aplicaciones de 2008 y 2009, se contemplaban dominios adicionales a nivel estatal,5 sin embargo fueron suprimidos en las aplicaciones posteriores, debido a la dificultad para conformar muestras representativas y por lo tanto de contar con información confiable (CENEVAL, 2012, 2013). Se considera que la revisión y modificación de los dominios muestrales fue una decisión acertada, ya que en la estratificación incluye a las entidades, y por lo tanto toma en cuenta la distribución de los alum-nos de acuerdo con la modalidad de bachillerato, el tipo de sostenimiento y nivel de urbanidad, en cada entidad federativa, pero se mantienen solo los dominios, sobre los cuales se pueden realizar inferencias generalizables de manera confiable.

En los Manuales Técnicos (2008-2010 y 2011-2012) se señala que el muestreo de las aplicacio-nes fue aleatorio simple estratificado unietápico. Las fórmulas utilizadas para el tamaño de la muestra determinaron la cantidad de alumnos necesarios para la estimación de todos los reac-tivos de la prueba (este cálculo estuvo precedido por la cantidad de alumnos necesarios para la estimación de cada reactivo de la prueba, considerando un error máximo de muestreo de 5%, un nivel de confianza de 95% y una tasa de no respuesta de 5%). Posteriormente la muestra de alumnos se distribuyó entre los diferentes estratos de manera proporcional a la cantidad de alumnos por cada estrato, el total de alumnos en cada modalidad de bachillerato y el total de alumnos en cada entidad. Finalmente, se hizo una selección de escuelas de forma proporcional a la cantidad de alumnos, de tal manera que las escuelas con mayor matrícula tienen más pro-babilidad de ser seleccionadas.

La descripción anterior deja ver que en este diseño se seleccionan dos tipos de unidades: es-cuelas (macro) y alumnos (micro). Sin embargo solo se determina el tamaño muestral de los alumnos; el de las escuelas, depende de la distribución de los alumnos en cada estrato y del tamaño de la matrícula. Este procedimiento no corresponde a un muestreo aleatorio simple, y no considera “la naturaleza anidada de las unidades en la población” (Gaviria Soto y Castro Morera, 2005, pág. 79), es decir, la distribución de unidades micro dentro de las macro. Esto parece requerir que la fórmula para calcular el tamaño de la muestra incluya algún ajuste para respetar la selección por conglomerados que se ha efectuado, lo que además, incrementará el tamaño de muestra de las unidades micro y las macro.

Es importante también que se aclaren algunas imprecisiones sobre el diseño muestral. De acuer-do con la información descrita en el Manual Técnico 2011-2012 (CENEVAL, 2013, pág. 63), se entiende que todos los alumnos seleccionados en la muestra responderán tres instrumentos: a) la prueba operativa de ENLACE-MS; b) La Forma n del pre-test; y c) un cuestionario de contexto (ver Figura 5). Esta comprensión coincide con las fórmulas que se describen en el Anexo C del mismo manual, pues el tamaño de la muestra depende de la cantidad de reactivos que tenga la versión pre-test, el número de cuadernillos o formas en las que se encuentren ensamblados, y el número de apariciones en los cuadernillos (CENEVAL, 2013, págs. 105–106). De hecho, en la Tabla C1 del mismo anexo se presenta la muestra de escuelas y alumnos resultante para las apli-caciones 2011 y 2012 (2 081 y 2 072 escuelas; 262 087 y 294 116 alumnos, respectivamente). Sin embargo, en el octavo apartado del Manual Técnico se mencionan dos muestras: una para la aplicación de la prueba operativa y cuestionario de contexto, y otra para el pre-test:

5 Estatal; estatal por modalidad de los Centros de Trabajo; estatal por tipo de sostenimiento; estatal por nivel de urbanidad.

Page 82: Analisi s prueba enlace ems 2015

82

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

“En 2011 la muestra a la que se aplicó la prueba operativa y el cuestionario de contexto estuvo conformada por 262,087 alumnos inscritos en 2,081 escuelas seleccionadas. Para 2012, se contó con la participación de 294,116 alumnos de 2,072 planteles. Por su par-te, la muestra del pre-test de 2011 se conformó por 139,476 alumnos y la del 2012 por 136,572.” (CENEVAL, 2013, pág. 65).

El tamaño de muestra de la prueba operativa señalado en la cita es justamente el que se des-cribe en el Anexo, derivado de la aplicación de las fórmulas en las que se incluye información sobre los reactivos y cuadernillos de la versión pre-test. Por otro lado, el tamaño de muestra del pre-test señalado en la cita no se explica en ninguno de los documentos.

3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que

se planificó.

De acuerdo con los manuales para los diversos roles de la aplicación, “las hojas de respuestas están diseñadas ex profeso e impresas con los datos generales de la escuela y personalizadas con los nombres de los alumnos” con lo cual se asegura el cumplimiento de la normativa pre-vista durante la operación de campo.

De otra parte, en el Formato para el Control de la Aplicación en el Aula, los aplicadores registran la asistencia de cada alumno en cada sesión, de manera que se cuenta con información suficien-te para verificar que los evaluados coinciden con la población objetivo del proyecto.

Adicionalmente, en las condiciones de aplicación se explicita que “Solo los alumnos sustentan-tes, el Aplicador y un Padre de familia supervisor podrán permanecer en el aula, y nadie deberá salir de ésta durante la aplicación” con lo cual se coadyuva el esfuerzo de cumplir con el este criterio de validez.

Cabe señalar que si durante la aplicación se presentan alumnos que no fueron incluidos en las listas de registro de sustentantes, se hace una anotación en el acta de irregularidades, pero estos alumnos no presentan la prueba. Se considera que esta condición también contribuye a cumplir con este criterio de validez.

tt En aplicaciones muestrales el manual precisa los pasos para seleccionar la muestra, si se ma-nejarán aulas intactas o submuestras de alumnos en cada aula; la forma de manejar escuelas de reemplazo si las hay y los porcentajes aceptables de exclusiones y no respuesta.

Para el caso de la aplicación en las escuelas seleccionadas para la muestra controlada por la DGEP, el respectivo asesor comisionado por dicha entidad será el responsable de la organización y coordinación de dicha aplicación, aunque las AEE están a cargo de notificar a las escuelas seleccionadas que formarán parte de dicha aplicación.

Dentro de la documentación provista se encontraron las previsiones de orden general acerca del muestreo. No se precisa cómo se lleva a cabo la aplicación en cada plantel, aunque se infiere que en cada escuela seleccionada se hace una aplicación a aulas intactas. No se da información sobre escuelas de reemplazo y porcentajes aceptables de exclusiones y no respuesta.

Page 83: Analisi s prueba enlace ems 2015

83Aspectos relativos a las aplicaciones

tt En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qué se hace en ese caso.

La participación de las instituciones educativas y de los alumnos es voluntaria, por ello no se establece un porcentaje admisible de faltantes con respecto a ambos tipos de unidades.

No obstante lo anterior, cuando la cantidad de alumnos que presentan la prueba es inferior a 80% de los programados, en los reportes de los resultados de la escuela (cartel) se incluye la siguiente nota: “En esta escuela la diferencia entre los alumnos programados a evaluar y los alumnos que presentaron la prueba es mayor al 20 por ciento”.

Aunque se añade una anotación al respecto en los reportes por escuela, no son claras las impli-caciones para el análisis e interpretación de resultados. Sería conveniente que estas implicaciones se hicieran explícitas, y que se promovieran análisis adicionales sobre las características de los alumnos sustentantes y las razones por las que no presentaron la prueba el resto de los alumnos.

4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes

aceptables.

En los manuales no se encontró información sobre los márgenes aceptables de muestra obteni-da con respecto a la planificada. Los márgenes previstos al igual que los reemplazos de escuelas en la muestra deben especificarse.

tt Se documentan en detalle los pasos para la selección de la muestra.

Los pasos para la selección de la muestra están indicados en los Manuales Técnicos (CENEVAL, 2012, 2013).

El procedimiento de selección de las escuelas de la muestra solo se precisa en el Manual Téc-nico 2011-2012. Como se señaló en el criterio 2, es necesario aclarar el origen de los tamaños de muestra diferentes para la prueba operativa controlada y el pre-test que se enuncian a lo largo del documento, también es necesario revisar el diseño muestral aplicado, pues dado que primero se seleccionan escuelas y posteriormente alumnos, parece más conveniente utilizar un diseño por conglomerados que considere la naturaleza anidada de estas unidades. Es necesario proveer información adicional sobre la distribución de la muestra en los estratos y dominios.

En el Manual Técnico 2008-2010 se describe solo el cálculo del tamaño de la muestra de alum-nos, y la fórmula empleada para distribuir a los alumnos en los diferentes estratos (CENEVAL, 2012, págs. 106–108). También se da información sobre la cantidad de escuelas y alumnos seleccionados para la aplicación muestral (CENEVAL, 2012, pág. 110), pero no se señala cómo fueron seleccionadas las escuelas y alumnos, tampoco cómo se distribuyeron finalmente entre los estratos y dominios.

tt Hay una verificación de la muestra por una instancia externa.

Los responsables del diseño de las muestras y la selección de las escuelas de las diferentes apli-caciones han variado, como se ve en la siguiente tabla; sin embargo, solo se alude a un proceso

Page 84: Analisi s prueba enlace ems 2015

84

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

de validación del diseño muestral en la aplicación del 2009, en la que el INEE validó la selección de las escuelas hecha por el CENEVAL.

Aunque por parte de la SEP se pide a quien diseña la muestra que asegure su calidad (DGEP, 2014b), convendría que de manera sistemática se contemplara la validación del diseño muestral y la selección de las diferentes unidades (micro y macro unidades) por una instancia distinta a quien se responsabilice por el diseño.

Cuadro 4.1

Año de aplicación

Responsable de diseño muestralResponsable de validación

2008 INEE No se precisa

2009Se utilizó el mismo diseño muestral de 2008, pero CENEVAL hizo la selección de escuelas.

INEE

2010Investigaciones Sociales, Políticas y de Opinión Pública, S.A. de C.V. (INVESPOP).

No se precisa

2011Se utilizó el mismo diseño muestral que en 2010. DGEP-SEP estuvo a cargo de la selección de escuelas.

No se precisa

2012Se utilizó el mismo diseño muestral que en 2010. INVESPOP verificó pertinencia del diseño y seleccionó la muestra.

No se precisa

tt Hay encuesta o sistema de aseguramiento de la calidad de la muestra.

En los documentos entregados no se encontró información específica sobre el aseguramiento de la calidad de la muestra.

Se identificaron algunos procedimientos relacionados con este subcriterio en el “Manual para el Coordinador de la Aplicación”, la “Guía para el Aplicador”, y el “Manual para el Coordinador Regional”. En específico, se pide que el aplicador verifique que se entrega la cantidad de mate-riales (exámenes y hojas de respuesta) destinada al grupo que atenderán, además de registrar la asistencia de los alumnos a cada una de las sesiones en el Formato para el Control de la Aplicación en Aula. Se pide también que completen los datos solicitados en el Formato para el Control de la Aplicación en el Aula, y los cotejen con los materiales entregados a cada alumno.

Planeación de las aplicaciones

5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales

que aseguren comparabilidad de los datos.

tt Hay manuales de aplicación, probados en campo, que precisen las actividades a desarrollar por cada participante; se describen las variaciones aceptables.

Hay manuales impresos para cada participante, cuya estructura y contenido incorporan prácti-cas generalmente aceptadas para este tipo de aplicaciones. Los roles están claramente delimi-tados e incluyen previsiones apropiadas para cada caso.

Page 85: Analisi s prueba enlace ems 2015

85Aspectos relativos a las aplicaciones

tt Hay un cronograma detallado de todos los pasos del proceso.

La línea de tiempo en la que transcurre el proyecto se presenta de manera general en la docu-mentación provista, lo cual es suficiente para los actores principales del proceso. No obstante, para poder retroalimentar internamente el proceso de planeación de las aplicaciones, conven-dría disponer de información más detallada.

Es importante mencionar que en el cuestionario en línea se preguntó a los responsables de las AEE sobre la precisión del cronograma de actividades, la gran mayoría de los informantes (29 de 31, de 25 entidades federativas) afirmaron que el cronograma detalló con precisión todos los pasos del proceso a seguir. El resto de los informantes señaló desconocer el programa de actividades.

tt Se identifica a personal de las escuelas que tendrán que ver con la aplicación (directores, maestros) para contar con su cooperación.

A diferencia de ENLACE-B, en ENLACE-MS, se contrata personal externo para coordinar la apli-cación en cada una de las escuelas (coordinadores de aplicación) y aplicadores para cada grupo. Los coordinadores de aplicación son seleccionados por el coordinador operativo, en el caso de la aplicación censal, o por el asesor de la DGEP, para la muestra controlada.

Los directores de cada uno de los planteles son considerados como “corresponsables de que la aplicación se apegue a la normatividad” (SEP, 2014, pág. 3). Los directores son notificados con antelación, por el coordinador operativo, conjuntamente con los enlaces colaborativos y coordinadores regionales y coordinadores de aplicación para asegurar su disponibilidad. Adi-cionalmente, el respectivo asesor de la DGEP responde por la selección de los coordinadores de aplicación para la muestra controlada externamente.

En el Manual para Docentes y Directivos de la aplicación 2014 se señala que “[l]a logística de distribución y aplicación de la prueba está a cargo de la DGEP-SEP” (pág. 29), y se especifica que para la aplicación 2014 se recurriría de manera excepcional a directores y docentes “para repartir los materiales de aplicación y recolectar hojas de respuesta” (pág. 29), pero esta fun-ción de los docentes y directores no se menciona en otros manuales (CENEVAL, 2014).6

Las funciones de cada rol en la aplicación se especifican en los respectivos manuales, que están disponibles en formato impreso y para descarga de la página de la SEP.

Para valorar el cumplimiento de este criterio, sería conveniente contar con el reporte de las escuelas que no fueron notificadas sobre la aplicación. Aunque no se proporcionó un reporte nacional donde se clasifiquen las incidencias, se encontró que el seguimiento diseñado por Estado de México a 81 planteles que participaron en la aplicación 2014 (de un total de 1 376), solo cuatro planteles afirmaron no haber sido notificados oportunamente sobre la aplicación.7

6 A través del cuestionario en línea se encontró que la mayoría de las entidades que lo respondieron no recurrieron a los

directores para realizar estas funciones, y solo en tres casos los docentes participaron en la repartición de materiales y

recolección de hojas de respuesta.7 La muestra seleccionada por la entidad para hacer el monitoreo de la aplicación, incluyó planteles educativos fede-

rales, estatales y autónomos, de sostenimiento público y privado, de los diferentes subsistemas y modalidades de

educación media superior. Se visitaron planteles de 26 municipios (de un total de 125), y el mayor número de escuelas

se encontró en el municipio de Toluca.

Page 86: Analisi s prueba enlace ems 2015

86

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

En el reporte de incidencias de otras entidades, se advierte que la falta de notificación no es un fenómeno extendido, por ejemplo, en Quintana Roo nueve escuelas, de un total de 151 que participaron la aplicación no fueron notificadas; en Oaxaca y Chihuahua solo una escuela no fue notificada, de un total de 663 y 333 escuelas, respectivamente.

tt Se fijan requisitos de confidencialidad-seguridad de material y respuestas.

De acuerdo con el Protocolo de Seguridad de los Materiales de Evaluación provisto, “El Coor-dinador de Aplicación será el responsable de trasladar a la escuela asignada la(s) caja(s) con los materiales de aplicación cerradas y selladas con su etiqueta de seguridad.”

Igualmente, se vincula de manera activa a los padres de familia como supervisores, a efectos de validar que todos los alumnos presenten las pruebas en las mismas condiciones. Adicional-mente, los observadores externos verifican el cumplimiento de las normas durante la aplicación.

Con lo anterior se cuenta con previsiones suficientes para el manejo de los materiales de la aplicación operativa. No obstante lo anterior, para el caso del pre-test y teniendo en cuenta la escala de dicho componente del proyecto, podría considerarse una operación logística indepen-diente de distribución y recolección de materiales que asegure su llegada el día de la aplicación a cada escuela, de manera que se minimicen los riesgos para la integridad de los materiales. Esto tiene un impacto financiero, pero convendría por mayor seguridad de los ítems a ser apli-cados en un futuro.

En cuanto al retorno de los materiales, el proceso se documenta mediante un acta, que es remitida vía correo electrónico a la DGEP. Para aprovechar de mejor manera esta información y controlar y cualificar este proceso, es conveniente que dicha práctica migre hacia formatos para lectura óptica o escáner, que alimenten bases de datos y eliminen la digitación.

tt Hay procedimientos de aseguramiento de la calidad de la aplicación.

En los diversos manuales se incorporan procedimientos para aseguramiento de la calidad de la aplicación.

Para medir el nivel de apego a los procedimientos y formular recomendaciones, se requeriría contar con informes consolidados de aplicación en los que se expliciten las principales desvia-ciones y el tratamiento dado, de manera que en cada ciclo se aproveche sistemáticamente la experiencia adquirida en las aplicaciones previas.

En el cuestionario en línea, se solicitó a las entidades que añadieran los reportes de la aplicación. Se encontró que cada entidad define la manera de sistematizar las incidencias en el proceso, y por lo general la captura inicial de incidencias se hace de manera abierta, para posteriormente llevar a cabo la clasificación. La DGEP proporciona un formato general para reportar el proceso de aplicación (ver anexo 4.2), sin embargo, en este formato también se reporta de manera abierta la problemática de la aplicación. Convendría que se definieran las categorías más rele-vantes de incidencias que se busca prevenir, para que éstas formen parte de un seguimiento preciso por parte de las entidades.

Page 87: Analisi s prueba enlace ems 2015

87Aspectos relativos a las aplicaciones

Selección y capacitación del personal de aplicación

6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la reco-

lección de datos, en todos los niveles.

tt Hay criterios para reclutar y entrenar aplicadores y apoyos.

Dentro de las funciones del coordinador regional está “Reclutar, seleccionar y capacitar a Coor-dinadores de Aplicación y Aplicadores”. No se encontraron previsiones de aplicación general acerca del perfil del personal.

La DGEP, durante los preparativos para la aplicación, sugiere al coordinador operativo de la enti-dad federativa, que los coordinadores y los aplicadores cumplan, cuando menos, con lo siguiente:

a) Poseer el bachillerato terminado.b) Experiencia en la conducción de grupos y en la aplicación de instrumentos de evaluación.c) Disponer de tiempo para recibir la capacitación y durante el periodo de aplicación.d) Edad mínima de 18 años.e) No tener relación laboral con el gobierno federal, estatal y/o municipal.f) Capacidad de organización y facilidad de palabra.g) Que conozca las zonas donde se encuentran los centros educativos.

Cada entidad elabora una Estrategia Operativa para la aplicación. Conforme al “Instructivo para la elaboración, ejercicio y comprobación del gasto operativo” (DGEP, 2014a), se indica que la Estrategia Operativa debe incluir dentro de uno de sus apartados la descripción del perfil que se solicitará para los coordinadores de aplicación y aplicadores. Sin embargo, el perfil de los apli-cadores puede variar entre entidades. Por ejemplo, en la Estrategia Operativa para la aplicación de ENLACE-MS 2014 del Estado de México, el octavo apartado define el perfil deseable de los coordinadores de aplicación y aplicadores, en éste se encuentran las siguientes características: “[t]ener una edad mínima de 21 años; comprobar estudios universitarios o equivalentes; no laborar en la escuela que se le asigne; de preferencia, tener experiencia en la conducción de grupo y en la aplicación de instrumentos de evaluación; disponer de tiempo para ser capacitado en días previos a la aplicación de los instrumentos de evaluación; y, disponer de tiempo para los días de la aplicación” (IEEEM, 2014a, pág. 13). En el Estado de México se señalaron solo los dos últimos rasgos como indispensables. Por otro lado, en Tamaulipas la Estrategia Operativa solo define el perfil del Coordinador de Aplicación que comprende: a) preparación mínima de educación media superior, pasante de licenciatura de UPN o Normal, profesionistas sin empleo y docentes jubilados; b) capacidad de sugerir cambios; c) iniciativa para proponer opciones de trabajo y plantear soluciones a los problemas que se presenten durante el desarrollo; d) capa-cidad para organizar equipos de trabajo; actitud de respeto, compañerismo y responsabilidad. Teniendo en cuenta lo anterior, se requiere estandarizar los criterios de selección del personal para todos los roles y asegurar su cumplimiento mediante monitoreo externo.

tt Se recluta y capacita a suficiente personal de reemplazo.

No se encontró información explícita sobre el particular, aunque a través de la información recuperada en el cuestionario en línea se encontró que algunas entidades sí recurren al recluta-

Page 88: Analisi s prueba enlace ems 2015

88

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

miento y capacitación de personal de reemplazo tanto para coordinadores de aplicación como aplicadores.

Las entidades que no lo llevan a cabo señalan que se debe a dos razones: una de ellas es que el reclutamiento y capacitación de personal de reemplazo no está considerado dentro del gasto operativo, y, por otro lado, la experiencia que han tenido en aplicaciones previas les ha mostra-do que no es un rubro esencial.

A partir de lo anterior, parece necesario que se estandarice la tasa de personal de reemplazo por cada rol y asegurar que se aplique.

tt La capacitación incluye oportunidad de practicar con los instrumentos.

No se encontraron previsiones sobre el particular, sin embargo en los manuales se apunta que las cajas con los instrumentos solo serán abiertas en cada una de las escuelas durante el día de la aplicación, por lo que se asume que no hay oportunidades de practicar con los instrumentos originales, lo cual es apropiado.

No obstante lo anterior, las carátulas deben ser conocidas con antelación por parte del personal de aplicación, a efectos de facilitar sus labores.

En el cuestionario en línea se preguntó si los coordinadores regionales, coordinadores de apli-cación y aplicadores tuvieron oportunidad de practicar con los instrumentos de aplicaciones anteriores, carátulas y hojas de respuestas. Se encontró que estas prácticas se implementan en la mayoría de las entidades. Quienes reportan no hacerlo, señalan que esto se debe principal-mente al arribo tardío de los materiales de capacitación en su entidad y la falta de materiales diseñados específicamente para la práctica. En una entidad señalaron que a pesar de que no cuentan con este tipo de materiales, recurren a mostrar una imagen en presentaciones electró-nicas elaboradas para la capacitación.

Es necesario que estos procesos se estandaricen de tal manera que el desempeño de cada una de las figuras no se vea influenciado por las variaciones en los procesos de capacitación defini-dos en cada entidad.

tt La formación de capacitadores y/o el entrenamiento del personal que asegurará la calidad del proceso se maneja centralmente o, en todo caso, se cuidará de forma que se asegure su adecuado funcionamiento.

El coordinador operativo, con el apoyo del coordinador regional dispone lo pertinente para la implementación del proyecto. En cada entidad se define la manera en la cual se realiza la capa-citación de los coordinadores de aplicación y aplicadores, de acuerdo con sus necesidades. Las principales orientaciones que brinda la DGEP en este proceso son, por un lado, que los docu-mentos normativos y operativos constituyan el eje de la capacitación (DGEP, 2014b)8 y por otro, que todo el personal que participe en la aplicación sea capacitado con anterioridad.En el cuestionario en línea se preguntó por la duración de la capacitación a coordinadores de aplicación y aplicadores. Por lo general, la capacitación de estas figuras dura entre dos y cuatro

8 Los documentos normativos y operativos comprenden: Guía para el Aplicador; Guía para Padres; Normas operativas;

Manual para el Coordinador de Aplicación y; Manual Coordinador Regional.

Page 89: Analisi s prueba enlace ems 2015

89Aspectos relativos a las aplicaciones

horas, pero hubo entidades que reportaron que la capacitación duró una hora, mientras en otras se impartió hasta en siete horas. Estas variaciones, y otras relacionadas con las actividades en que se involucre a los participantes en cada una de las entidades podrían llevar a diferencias importantes en la manera en la cual se llevan a cabo los procesos.

El uso de la tecnología podría apoyar de manera importante esta etapa del proyecto, propen-diendo por su mayor estandarización.

tt Se llevan registros de las sesiones de entrenamiento de aplicadores.

No se encontró información sobre el particular. A efectos de proponer mejoras, se requiere dis-poner de una tipificación de las dudas recurrentes, con el propósito de enriquecer el proyecto con un listado de preguntas frecuentes con respuestas adecuadas y de aplicación general.

tt Se monitorean las actividades en campo por personal de la instancia central y/o externo, y se registran problemas detectados.

La DGEP designa un monitor por entidad federativa con funciones de seguimiento, atención y solución de problemas antes, durante y después de la aplicación. En desarrollo de sus activida-des, el monitor compila información general acerca de los materiales, preparativos, número de escuelas participantes, razones para no aplicación y demás novedades que se presentan en la entidad federativa asignada. Sin embargo, las escuelas en las cuales se concentra el trabajo de este monitor son las que pertenecen a la muestra controlada.

El monitoreo específico de las actividades en campo, habría que efectuarlo en una muestra aleatoria de escuelas no avisada de antemano, durante la aplicación, a efectos de establecer el apego a los procedimientos, detectar desviaciones y proponer mejoras para siguientes ciclos.

Por otro lado, en cada entidad existe el rol de supervisor de las aplicaciones, ejercido por los padres de familia, a quienes en la guía respectiva se les informa acerca de sus funciones y de su deber de comunicar toda irregularidad al director de la escuela o al coordinador de la apli-cación. Adicionalmente, los observadores externos velan por el cumplimiento de las normas.

En la aplicación se requiere que por escuela se complete el “Acta de Entrega, Recepción e Irre-gularidades”. En esta acta se registra el material que se recibió y el que se utilizó; se agrega un recuadro donde se registran las irregularidades ocurridas en la escuela y se pide que se añada la forma en que se resolvieron. Si bien se considera que ésta es una manera de monitorear la aplicación, puede ser insuficiente y no asegurar que los aspectos que interese que se de seguimiento sean observados. Es importante mencionar que en las entidades pueden decidir realizar sus propios procesos de monitoreo. Tal es el caso del Estado de México en donde se define una muestra de escuelas que será visitada y los aspectos a los que se dará seguimiento. En la aplicación de 2014 estos aspectos fueron: notificación oportuna sobre la aplicación; re-cepción completa de materiales de aplicación; suficiencia de tiempo para organizar actividades de aplicación; disponibilidad de espacio seguro para resguardo de materiales; claridad sobre procedimientos a seguir; convocatoria a padres de familia como supervisores del proceso de aplicación en aula; participación de observadores externos; respeto a calendario de aplicación; adecuación del ambiente externo para la aplicación. También se añade un espacio para que se describan otras irregularidades presentadas.

Page 90: Analisi s prueba enlace ems 2015

90

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Teniendo en cuenta lo anterior, se hace necesario conocer un compilado de los reportes de los supervisores y observadores externos, a efectos de analizarlos y formular recomendaciones.

tt Se hacen ejercicios de retroalimentación y revisión de materiales y procesos que recojan la experiencia del personal en campo.

No hay información al respecto. Es fundamental conocer el resultado de estos ejercicios, para formular planes de mejora, incluyendo aportes de todos los roles de la aplicación.

Análisis del cumplimiento de los criterios de validez antes de la aplicación

Se encontró información suficiente para fundamentar la valoración de la mayoría de los crite-rios y subcriterios. Las únicas excepciones estuvieron relacionadas con los procedimientos de selección de la muestra controlada, los registros de las sesiones de entrenamiento, y ejercicios de retroalimentación y revisión de materiales y procesos que recojan la experiencia del personal en campo.

De manera general, en la valoración de estos criterios se hicieron evidentes algunas necesidades con respecto a la muestra controlada: revisar y precisar la manera en la cual se define el diseño muestral y el tamaño de la muestra; precisar los márgenes aceptables entre la muestra progra-mada y obtenida; la validación del diseño y selección de la muestra por una instancia externa; la documentación y actualización de los procedimientos.

Con respecto a la planeación de las aplicaciones, una de las áreas de mejora que se encuentra es la estandarización del perfil requerido para reclutar al personal que participa en la aplicación; de procedimientos de capacitación; y de seguimiento a la notificación de las escuelas y la apli-cación en campo.

CRITERIOS DE VALIDEZ DURANTE LA APLICACIÓN

Minimización de carga, motivación, no respuesta y fraude

7. Se fijan límites realistas sobre la carga de responder pruebas y cuestionarios de con-

texto para que no sea excesiva tomando en cuenta los sujetos.

tt Se utilizan los resultados de la aplicación piloto para revisar que los estimados de carga sean realistas y aceptables.

A través del pre-test se obtiene toda la información estadística requerida para la aplicación operativa que se llevará a cabo el año siguiente.

tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre buscan-do minimizar la carga para los sujetos.

Page 91: Analisi s prueba enlace ems 2015

91Aspectos relativos a las aplicaciones

Los procedimientos que deben seguir lo alumnos son simples y se encuentran apropiadamente estandarizados.

tt En los cuestionarios de contexto para estudiantes se evita preguntar datos que se pueden obtener de otras fuentes.

Se indaga por las características personales de los alumnos y de su entorno escolar y familiar que solo pueden ser obtenidos a partir de la aplicación de este instrumento. Sin embargo, la extensión del instrumento podría representar una carga para los alumnos; la aplicación del 2013 comprendió 134 reactivos. Es fundamental analizar la pertinencia de este instrumento y el uso dado a la información recolectada.

tt Se agenda la aplicación en horarios convenientes para los sujetos.

La aplicación se lleva a cabo durante la jornada escolar y se anuncia a todos los actores del proceso con antelación suficiente y por diversos medios.

La última aplicación de la prueba coincidió con la entrega de documentación de aspirantes de ingreso al Instituto Politécnico Nacional, lo cual representó un inconveniente para que aquellos alumnos interesados en ingresar a dicha institución presentaran la prueba. Aunque desde la DGEP negociaron con el IPN que quienes presentaran la prueba podrían entregar en contra-turno o en días posteriores la documentación, hubo alumnos que prefirieron no asistir los días de la aplicación. De esto no se tiene una documentación específica; se obtuvo la información a través de las entidades.

8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.

Se informa ampliamente a los sujetos de la evaluación acerca de los propósitos del estudio y cómo se utilizarán sus datos.

En las guías y manuales provistos se informa a los diversos actores del proceso que

“ENLACE ofrece información específica a padres de familia, estudiantes, maestros, directi-vos, autoridades educativas y sociedad en general para mejorar la calidad de la educación, promoviendo la transparencia y rendición de cuentas.

Proporciona un diagnóstico académico del estudiante a nivel individual.Está alineada al marco curricular común, en particular a las competencias disciplinares bási-cas de los campos de Comunicación (Comprensión lectora) y Matemáticas.”

Adicionalmente, informa acerca de las limitaciones del proyecto así “No permite derivar conclusiones sobre el sistema de Educación Media Superior, los subsistemas, las escuelas, los docentes ni sobre el desempeño de las entidades federativas.”

Los alcances y limitaciones del proyecto están claramente establecidos y se comunican consis-tente y ampliamente.

Page 92: Analisi s prueba enlace ems 2015

92

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

9. Se desarrollan procedimientos para lidiar con la no-respuesta o el rechazo a respon-

der a la prueba y se entrena al personal de aplicación para seguirlos.

La guía del aplicador incluye el siguiente texto para ser leído a los alumnos al inicio de la sesión:

“ES IMPORTANTE COMENTARLES QUE LOS RESULTADOS DE LAS PRUEBAS NO AFECTARÁN

SUS CALIFICACIONES; SIN EMBARGO, POR SER UNA EVALUACIÓN DE RELEVANCIA NA-

CIONAL, LES PIDO QUE PONGAN TODA SU ATENCIÓN EN CADA PREGUNTA Y TRATEN DE

HACER SU MEJOR ESFUERZO.”

De esta manera se considera satisfecho este criterio.

10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de frau-

de y se entrena al personal de aplicación para seguirlos.

En los siguientes documentos se precisa el propósito de la prueba ENLACE-MS como un diag-nóstico individual de los alumnos de este nivel educativo y, la importancia de no permitir la copia: Protocolo de Seguridad de los Materiales de Evaluación; Manual para el Coordinador Regional; Manual para el Coordinador de Aplicación; Guía para el Aplicador; Guía para Padres. No se proporciona información a los aplicadores sobre comportamientos de los estudiantes que pueden indicar que se está dando la copia; o las medidas que deben tomar ante el incumpli-miento de esta normatividad. No se aplican algoritmos de detección de fraude. Si bien la prueba está catalogada como de bajo impacto, es altamente recomendable que se detecte técnicamente el impacto de eventua-les conductas inapropiadas sobre la aplicación y el procesamiento de los resultados.

Procedimientos de control de calidad en las aplicaciones

11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.

tt Se recluta y entrena a monitores que lleven a cabo actividades de control externo de calidad, observando la recolección de datos en un subconjunto de los sitios.

El proyecto tiene prevista la participación de observadores externos, a quienes se invita a verifi-car el cumplimiento de las normas durante el proceso de aplicación. No hay un proceso previo de entrenamiento, aunque en los manuales se sugiere que los directores se reúnan con los padres de familia y observadores externos una semana antes de la aplicación.

De acuerdo con la información recolectada en el cuestionario en línea, solo en cinco entidades federativas (de las 25 que respondieron el cuestionario) participaron observadores externos. Dos de estas entidades señalaron que hubo observadores externos en la mayoría de las escuelas (90% o más); en las otras tres entidades, no contaron con registro. Finalmente, es importante

Page 93: Analisi s prueba enlace ems 2015

93Aspectos relativos a las aplicaciones

señalar que solo en una de las cinco entidades se implementó un proceso de capacitación para estas figuras.

En algunas entidades federativas, las AEE contemplan la realización de procesos de monitoreo. En algunos casos el personal que funge como monitor forma parte de dichas áreas.

Conviene que se estandarice el proceso de reclutamiento y capacitación de observadores ex-ternos, de tal manera que se pueda dar seguimiento a aspectos comunes de la aplicación para recuperar información que contribuya a la mejora de los procesos.

tt Si no es viable se hacen entrevistas presenciales o por teléfono de control de calidad con aplicadores y demás personal involucrado en la aplicación.

Junto con los responsables directos de la aplicación, los supervisores y observadores externos controlan la calidad de la aplicación.

tt Se hace revisión de control de calidad en una muestra aleatoria de los datos recolectados para asegurar llenado completo y correcto.

No se encontró información sobre el particular en la documentación provista.

tt Se resumen los resultados de cada etapa de aplicación para monitorear el estatus de las actividades y para identificar y corregir causas de problemas de calidad.

No se encontró evidencia explícita acerca de la identificación de la causa de los problemas de calidad ni de la estrategia abordada para superarlos.

Análisis del cumplimiento de los criterios de validez durante la aplicación

Se encontró información suficiente para valorar la mayoría de los criterios y subcriterios relacio-nados con esta etapa del proceso de aplicaciones. La única excepción fue con respecto a los procedimientos de revisión de la información recolectada en campo para asegurar que haya sido registrada adecuadamente.

Se observa como una fortaleza la definición de procedimientos simples para el personal que participa en la aplicación de la prueba; también con respecto a la motivación de alumnos para responderla y al manejo de la no respuesta.

A través de la valoración de estos criterios se hizo evidente que existe suficiente información para generar indicadores acerca de la aplicación que podría ser aprovechada para sistematizar, monitorear y elevar la calidad de la implementación en ciclos posteriores. No obstante, no se encontró un listado de las situaciones típicas que se presentan ni el tratamiento dado a ellas.

Por otro lado, se halló que la participación de algunas figuras tiene grandes variaciones entre entidades, en particular los observadores externos. Es importante avanzar en la definición de su perfil y funciones, de tal manera que puedan estandarizarse y llevar a un seguimiento similar en las entidades del país.

Page 94: Analisi s prueba enlace ems 2015

94

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Es fundamental seguir avanzando en la estandarización de los procesos asociados a la aplicación.

CRITERIOS DE VALIDEZ DESPUÉS DE LA APLICACIÓN

Preparación del procesamiento de los datos

12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos según

normas internacionales: cómo introducir los datos; asignar identificadores a alum-

nos-maestros-escuelas; variables a incluir, códigos válidos, de datos faltantes o res-

puestas no aplicables; formato de datos, estructura de archivos, limpieza, entre otros.

En los Manuales Técnicos y otros documentos proporcionados no se incluye información sobre el procesamiento de datos. En el Manual Técnico 2008-2010 se precisa que la lectura y califi-cación es responsabilidad de la DGEP-SEP, la que a su vez, entrega la base de datos a CENEVAL para la validación de los resultados (CENEVAL, 2012, pág. 53).

Se revisó un documento proporcionado por la DGEP, relacionado con el procedimiento de lec-tura óptica. En él se detalla la secuencia de etapas que comprende este proceso, las actividades dentro de cada etapa y sus responsables. Sin embargo, no se definen normas relacionadas con la creación y cuidado de archivos. Por otro lado, la última actualización de estos documentos fue en el año 2005, cuando aún no se realizaban aplicaciones de ENLACE; aunque por las co-municaciones sostenidas con la DGEP se entiende que son de aplicabilidad para esta evaluación, convendría que fueran actualizados y complementados con normas que lleven al cumplimiento de este criterio.

13. Se cuenta con personal calificado para manejar los datos y se le entrena en todos los

aspectos de su trabajo, asegurando que esté familiarizado con los procedimientos

aceptados y que comprende la importancia de recolectar y capturar la información

con el cuidado necesario para que los análisis se hagan sobre información de la mejor

calidad posible.

El manejo de las bases de datos está a cargo de las áreas de Integración de la información, Lectura óptica y Calificación (DGEP, 2014b).

En el área de integración de la información se adelanta la gestión de datos requerida para cál-culo de presupuesto, impresión de materiales y logística.

El área de lectura óptica se divide a su vez en tres subáreas: Recepción, Lectura óptica y Valida-ción. El personal de recepción tiene a su cargo recibir el material aplicado y organizar las hojas de respuestas, actas y formatos utilizados. El personal de lectura óptica genera los archivos con las respuestas de los alumnos. El área de validación confronta los archivos de la lectura contra los de impresión de materiales y verifica las novedades que se hayan podido presentar, con apoyo de la imagen de las hojas de respuestas y software específico.

Page 95: Analisi s prueba enlace ems 2015

95Aspectos relativos a las aplicaciones

El personal de calificación es el responsable de llevar a cabo la calibración de los reactivos así como de la calificación propiamente. Igualmente, genera las bases de datos para la publicación de resultados de alumnos y escuelas, así como los reportes y estadísticas relacionadas.

De acuerdo con la información provista, el personal involucrado en el manejo de bases de datos cuenta con perfiles técnicos y experiencia acordes a los requerimientos.

En relación con el entrenamiento que recibe el personal de estas áreas, la información propor-cionada por la DGEP precisó solo la relacionada con la que es impartida por los proveedores de servicios informáticos para la lectura óptica (DGEP, 2014b). Este tipo de capacitación admite que el personal de la DGEP desarrolle las aplicaciones que permitan la integración de bases de datos.

Convendría que el perfil profesional y la capacitación necesaria para el personal de estas áreas fuera incluida en documentación oficial.

14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que

concentran los resultados de la aplicación. Se asegura que:

No se encontró documentación oficial que describa los procedimientos para maximizar la cali-dad de las bases de datos. Sin embargo, en la información provista por la DGEP se precisó que la calibración y calificación se llevan a cabo paralela e independientemente en DGEP y CENEVAL. Este procedimiento permite que se detecten diferencias, se verifiquen y corrijan, bien sea en el dato propiamente o en el software utilizado (DGEP, 2014b).

tt La estructura de los datos se apegue a la de los instrumentos.

En los Manuales Técnicos y otra documentación proporcionada no se encuentran registrados los procedimientos que permitan verificar que la estructura de la base de datos se apegue a los instrumentos.

En la comunicación establecida con la DGEP se confirmó la realización de esta verificación, pero no fue provista documentación oficial adicional. Es conveniente que estos procesos se docu-menten de tal manera que se promueva su utilización en las diferentes aplicaciones, se valore de manera continua su adecuación y suficiencia y se promueva su complementación y mejora. tt Los datos tengan suficientes redundancias para permitir el control de calidad.

En los documentos proporcionados no se incluye información con respecto a este subcriterio. Las bases tengan identificadores únicos consistentes para que los alumnos y escuelas y, en su caso, maestros o directores, puedan relacionarse.

En las guías y manuales para el Coordinador Regional, Coordinador de Aplicación y el Aplica-dor, se señala que cada hoja de respuesta tiene un folio único para los alumnos, y se pide que el aplicador, en primera instancia verifique que el folio que está registrado en el Formato para el Control de la Aplicación en el Aula coincida con el que se encuentra en los materiales entrega-

Page 96: Analisi s prueba enlace ems 2015

96

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

dos a los alumnos, ya que las hojas de respuesta se encuentran prellenadas con la información de los alumnos y sus escuelas.

Existen procesos técnicos preestablecidos y redundantes para asegurar la unicidad de los folios. Las hojas de respuestas se remiten personalizadas en la gran mayoría de casos. Para las escuelas de las que no se dispone de información de sus alumnos, se asigna la cantidad de hojas de res-puestas correspondiente a la matrícula existente y luego de la aplicación, la autoridad educativa local envía la información faltante.

tt Se lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para verificar que se cumplan con los puntos anteriores.

No se proporcionó información al respecto.

tt Se documenten todas las actividades de preparación de los datos. Se cuenta con procesos y procedimientos preestablecidos para la preparación de los datos, de acuerdo con la norma técnica aplicable.

Procesamiento y verificación de los datos

15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del

procesamiento y verificación de los datos son confiables.

En nota técnica de CENEVAL a DGEP se describen los procedimientos de análisis de reactivos que se implementan en las pruebas piloto, pre-test y operativa para verificar su calidad psicométrica, así como el cumplimientos de los lineamientos técnicos institucionales y de contenido.

tt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemática para garantizar la confiabilidad del proceso.

Los Manuales Técnicos y otros documentos proporcionados no incluyen información con respec-to a la lectura de los datos y las verificaciones para garantizar la confiabilidad de este proceso.

tt En caso de que la lectura de datos se haga en forma descentralizada se asegura que se cum-plan los estándares en todos los sitios.

La lectura se hace centralmente por la DGEP, y después se entrega al CENEVAL para su valida-ción. tt Se revisa que la estructura de las bases se apegue a la acordada, las variables en rangos

válidos y los identificadores sean únicos e íntegros.

Los documentos entregados no especifican los procedimientos de validación y limpieza de las bases de datos.

tt Se contrastan archivos de datos con instrumentos y cuestionarios.

Page 97: Analisi s prueba enlace ems 2015

97Aspectos relativos a las aplicaciones

Los documentos entregados no incluyen información al respecto.

tt Se calculan estadísticas analíticas para cada ítem.

En los manuales técnicos se precisa que antes de realizar el procedimiento de equiparación se depuran las bases de datos y se hace una calibración libre de reactivos. Lo anterior incluye la estimación de los estadísticos de cada reactivo para identificar aquellos con características psi-cométricas inadecuadas. (CENEVAL, 2013, pág. 67).

tt Se calculan estadísticas descriptivas para todas las variables para revisar que no haya valores extremos o faltantes; si hay se reportan para revisión.

Los documentos entregados no especifican los procedimientos de validación y limpieza de las bases de datos.

tt Se documentan todos los pasos del proceso.

Los Manuales Técnicos no reportan información sobre el procesamiento de los datos.

Notificación de irregularidades

16. La coordinación del estudio deberá ser notificada de cualquier inconsistencia en los

datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser

aprobada y documentada.

Existen formatos para el reporte de anomalías, pero no se conoce un documento que las con-solide y permita cualificar el proceso.

Análisis del cumplimiento de los criterios de validez después de la aplicación.

Aunque se encontró información suficiente para valorar la mayoría de los criterios y subcriterios relacionados con esta etapa del proceso de aplicaciones, su revisión mostró que ésta no ha sido sistematizada y registrada en documentación oficial. Justamente la sistematización y docu-mentación de procedimientos relacionados con la preparación de los datos y su manejo, de tal manera que se maximice la calidad, es una de las áreas de oportunidad más importantes que se encontraron. Esto también parece ser necesario con respecto a la documentación de las carac-terísticas profesionales y de capacitación que debe tener el personal que maneja la información.

CONCLUSIONES GENERALES

En la valoración de estos criterios se identificaron fortalezas relacionadas con la definición de procedimientos para la aplicación en campo. Las áreas de oportunidad más importantes que se

Page 98: Analisi s prueba enlace ems 2015

98

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

reconocen son la precisión de algunos procedimientos, su estandarización y documentación. Esto fue principalmente evidente con respecto al reclutamiento y capacitación del personal que participa en la aplicación. También parece ser necesario con respecto a la preparación de los datos y su manejo antes de que se proceda al análisis y reporte de la información.

Por otro lado, parece necesario generar procedimientos y herramientas estandarizadas para dar seguimiento a los procedimientos previos, durante y posteriores a la aplicación en campo. Si bien, cada entidad federativa diseña su propia estrategia operativa, a partir de su situación particular, la DGEP expide el “Instructivo para la elaboración, ejercicio y comprobación del gasto operativo” (DGEP, 2014a), en el que se establece que las entidades deben enviar sus estrategias operativas, incluyendo las previsiones del caso sobre personal, capacitación, remuneración y asuntos conexos. Esta información podría aprovecharse para generar estrategias operativas es-tandarizadas, implementables en tipologías de estados con características afines, de forma que además de controlar los costos, la experiencia adquirida apoye la construcción de conocimiento en la materia, independientemente del responsable del momento. Lo anterior apoyaría a elevar la calidad de las aplicaciones.

Se recomienda la incorporación de algoritmos de detección de fraude, aunque la prueba sea de bajo impacto, a efectos de asegurar técnicamente la calidad de la medición, toda vez que sus resultados son puestos al servicio de la comunidad educativa y debe enfatizarse en la trans-parencia. Para los casos en los que se detecte fraude, podría estudiarse la aplicación de una medida administrativa como la no publicación de resultados para una escuela específica.

Page 99: Analisi s prueba enlace ems 2015

99

5 Validez de usos y consecuencias

OBJETIVO Y MARCO CONCEPTUAL

En este apartado se presentan los resultados de un análisis detallado de la evidencia disponible relativa a los usos y consecuencias de la prueba ENLACE-MS (Evaluación Nacional de Logro Académico en Centros Escolares de Educación Media Superior). Este aspecto se enfoca en la evidencia de que se dan usos apropiados y previstos a los resultados de la prueba, que estos usos están teniendo los efectos y consecuencias previstas, y que por el contrario no se están dando usos inapropiados y que conlleven consecuencias negativas.

La noción de validez relativa a usos y consecuencias de las pruebas (con frecuencia denominada validez consecuencial) combina un amplio rango de consideraciones teóricas, psicométricas, y prácticas, y su aplicación en casos particulares es un tema en constante evolución que se discu-te activamente en la literatura especializada (Lissitz, 2009). En este trabajo se conceptualiza la validez consecuencial de manera amplia, y no ceñida a un modelo de medición particular. Esto se refleja en el convenio de ejecución entre INEE y UAA que incluye en este apartado la forma en que se difunden los resultados de las pruebas, los análisis de factores asociados y el uso que se hace de dichos resultados, así como las consecuencias que ha traído consigo su utilización en el sistema educativo mexicano.1 Dado que este estudio se conceptualiza primordialmente desde la perspectiva de la política educativa, se considera que el uso de la prueba determina directamente su significado y consecuencias (Welner, 2013), sin importar necesariamente si esto corresponde a la definición especifica de validez dentro de algún modelo conceptual o psicométrico. Sin embargo, es importante diferenciar la evaluación del uso de un instrumento en el contexto de una política educativa que se busca aquí, de la evaluación general del impacto social de esta política en un sentido amplio, que un estudio de validez no pretende abordar.

CRITERIOS DE VALORACIÓN

Los criterios de valoración que se proponen se basan en los estándares de AERA, APA y NCME (1999) que ofrecen los lineamientos profesionales más ampliamente establecidos a nivel inter-nacional. Adicionalmente se incluyen elementos de los estándares del Educational Testing Servi-ce (2000) que además de la calidad de la prueba atienden lo relativo a equidad y consecuencias (Standards for Quality and Fairness); y los del Centro Nacional de Evaluación para la Educación

1 El “análisis de factores asociados” se entiende aquí como un monitoreo de patrones y tendencias a nivel sistémico

para propósitos de investigación, o toma de decisiones sobre programas o políticas—a diferencia de análisis a nivel del

individuo que pertenecen al tema de validez de constructo.

Page 100: Analisi s prueba enlace ems 2015

100

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Superior de México (CENEVAL, 2000) que además tocan lo relativo a comunicación de resulta-dos y capacidad de interpretación. Finalmente se incluye una publicación reciente del Banco Mundial que considera factores que inciden en distintos tipos de usos (Kellaghan, Greaney y Scott Murray, 2009). De estas tres fuentes se sintetizaron una serie de criterios que se engloban en cuatro aspectos de validez de uso y consecuencias, a saber: 1) Soporte para interpretaciones, usos y consecuencias previstas; 2) Acceso equitativo y capacidad de interpretación y uso; 3) Comunicación que facilite la buena interpretación de los resultados, y 4) Interpretaciones, usos y consecuencias imprevistas. En la elaboración de este reporte se definieron inicialmente 16 cri-terios específicos que luego se redujeron a 11 para eliminar redundancias y alinear las distintas fuentes de evidencia más directamente a los criterios.

Tabla 5.1 Criterios de valoración: validez relativa a usos y consecuencias

A. Soporte para interpretaciones, usos y consecuencias previstas

1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico.

2. Se documenta y evalúa el grado en que se producen las consecuencias previstas y/o deseables de la prueba.

B. Acceso equitativo y capacidad de interpretación y uso

3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusión y acceso para todas las partes involucradas sin discriminación.

4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la adecuada interpretación y utilización de los resultados.

C. Comunicación que facilite la buena interpretación de los resultados

5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación deseable (o correcta) de los resultados.

6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro y comprensible para una audiencia general.

7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se describe el perfil y características de la población de referencia.

8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no den lugar a estigma.

D. Interpretaciones, usos y consecuencias imprevistas

9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables).

10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/positivas, o inadecuadas/negativas).

11. Cuando existe evidencia confiable de usos inapropiados, éstos se investigan en grado y detalle adecuado. Si estos usos persisten, se informa a los usuarios y se intenta tomar acciones correctivas.

Fuente: Adaptado de AERA /APA /NCME (1999), ETS (2000), CENEVAL (2000)

Es importante señalar que aunque estos criterios reflejan aspectos concretos de calidad técnica de la prueba, a diferencia de aspectos psicométricos u operativos, estos no se pueden evaluar directamente en términos cuantitativos o procedimentales exactos. Por el contrario, la evalua-ción de criterios aquí requiere juicios de grado basados en evidencia teórica y empírica, que se refieren a características que no necesariamente son observables de manera directa y confia-ble, y que ocurren en el contexto complejo de un sistema de pruebas de gran alcance que se usa para propósitos específicos. Es evidente, por ejemplo, que el grado de escrutinio técnico necesario es mayor en el caso de una prueba de alto impacto que implica consecuencias serias para los sujetos implicados, que en una prueba diagnóstica sin consecuencias (AERA, APA, NCME, 1999).

Page 101: Analisi s prueba enlace ems 2015

101Validez de usos y consecuencias

Igualmente compleja es la evaluación de usos o consecuencias no propuestas fuera del control del desarrollador. En el contexto de una prueba nacional del tipo y alcance de ENLACE-MS, el organismo desarrollador responsable de satisfacer los criterios de calidad que se delinean es el sistema educativo federal en conjunto, no solo el CENEVAL como institución encargada de los aspectos técnicos de desarrollo de la prueba. Las acciones de otros actores del sistema educativo tales como asociaciones civiles, prensa, o incluso gobiernos estatales, se consideran y evalúan como externos al órgano desarrollador. En todos los casos, la asignación de respon-sabilidad es de perspectiva amplia y descriptiva, y considera parámetros realistas referidos al contexto nacional y experiencias en otros sistemas a nivel internacional (Cizek, Bowen y Church, 2010; Nichols y Williams, 2009).

Por último, como en los otros capítulos de este reporte el análisis que se presenta aquí trata de distinguir entre aspectos básicos o primarios considerados como mínimos o indispen-sables en cualquier sistema de medición educativa de esta dimensión, y aspectos que se consideran adicionales o ideales, que representan objetivos de calidad que se deben buscar, pero no son indispensables para una operación mínimamente apropiada (dentro de ciertos parámetros y contexto).

TIPOS DE USOS DE LA PRUEBA

La prueba ENLACE-MS busca generar información sobre las capacidades para la vida de los egresados de educación media superior, apoyando la retroalimentación individual para padres, maestros y escuelas, y la mejora del sistema educativo (Manual ENLACE-MS, pág.18). Para el análisis de la prueba ENLACE-MS es importante destacar que esta es de carácter voluntario para las escuelas. Según el manual para docentes y directivos, “la prueba está dirigida a los alumnos de la República Mexicana inscritos en los planteles que manifiestan interés en par-ticipar y apoyar en la aplicación de la prueba” (pág. 12). Se trata de una prueba diagnóstica, objetiva, estandarizada, y de bajo impacto (pág. 14) para los estudiantes, dado que no influye directamente la trayectoria escolar de los sustentantes. La tabla V.2 sintetiza los usos y objetivos previstos por los diseñadores de la prueba ENLACE-MS en el manual técnico 2011-12, el manual para docentes y directivos (publicado en 2014), y la página web de la prueba (www.enlace.sep.gob.mx/ms/). La tabla resume usos y consecuencias que involucran a tres usuarios primarios: 1) alumnos y padres de familia, 2) docentes y directores, 3) autoridades educativas y organismos evaluadores (pág. 14).

Una precisión necesaria se refiere a la clasificación de usos como adecuados o previstos: nues-tro reporte no pretende ofrecer un juicio cualitativo sobre el valor teórico de los diversos usos propuestos y posibles de ENLACE-MS, o si estos son adecuados o deseables en un sentido social más amplio. La distinción es necesaria por motivos técnicos y prácticos, al permitir delinear res-ponsabilidades para desarrolladores y usuarios de la prueba. En primera instancia los desarrolla-dores son responsables principalmente de aquellos usos que ellos mismos han propuesto para la prueba (y, como se verá más adelante, también en cierto grado por la prevención, detección y corrección de usos que injustificados o inadecuados).

Finalmente es importante mencionar que una prueba puede ser “bajo impacto” (pág. 14) para los estudiantes y al mismo tiempo serlo de alto impacto o consecuencias para docentes, es-

Page 102: Analisi s prueba enlace ems 2015

102

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

cuelas, municipios o estados, y sistemas o subsistemas educativos, según los tipos de usos y consecuencias reales que se asocien en la práctica a los resultados agregados. En el caso de ENLACE-MS, el manual técnico sugiere que la prueba se usa primordialmente con enfoque diagnóstico. Sin embargo los oficiales presentes en la reunión de este comité señalaron que la prueba es una herramienta importante para influir en la política educativa del país, específi-camente al permitirles “mandar mensajes focalizados a los subsistemas” (Hernández, reunión Junio 6, 2014). Similarmente, la evidencia en este reporte sugiere que aunque los estados no utilizan los resultados de la prueba ENLACE-MS como parte de sistemas formales de rendición de cuentas a nivel alumno, docente, o escuela, en algunos casos si se están desarrollando meca-nismos de uso de los resultados de mayor consecuencia a nivel estatal (véase criterios A1 y A2).

Tabla 5.2 Usos y consecuencias previstos de ENLACE-MS.

Alumnos y padres de familia

+ Generar información diagnóstica para cada alumno (pág. 27)+ Ofrecer a los estudiantes retroalimentación personalizada (pág. 30)+ Apoyar las estrategias de estudio, y secuencias didácticas individuales (pág. 74)

Docentes y directivos

+ Proveer información útil para el plantel y los profesores (pág. 27)+ Identificar áreas de oportunidad para la planificación e instrucción en aula (pág. 30)+ Conocer contenidos y procesos que provocan errores en el alumnado (pág. 74)+ Apoyar planificación de campañas y actividades internas (pág. 85) + Ofrecer línea de base para comparar resultados de aplicaciones posteriores

y establecer el efecto de acciones educativas (pág. 86)

Investigadores educativos

+ Realizar investigaciones sobre los factores asociados al logro (pág. 86)

Autoridades educativas

+ Caracterizar el nivel de logro de planteles y entidades federativas (pág. 86)+ Proveer elementos que contribuyan a la mejora del sistema educativo (pág. 27)+ Fomentar la rendición de cuentas del sistema educativo a la sociedad (pág.17)

Fuente: Manual técnico ENLACE Media Superior 2011-2012 (CENEVAL, 2013)

FUENTES DE EVIDENCIA Y ANÁLISIS

Los 11 criterios de valoración que se presentan en la tabla 5.1 proveen el marco conceptual para el análisis de los aspectos teóricos, psicométricos, y prácticos de ENLACE-MS, sus usos previstos e imprevistos, y las consecuencias que se derivan de estos. Evaluar el grado en que una prueba se usa en las formas previstas y produce resultados esperados requiere colectar y sintetizar información y evidencia de diverso tipo (cuantitativo y cualitativo), origen (CENEVAL, SEP, INEE, prensa, entrevistas, observación directa, y otros), y granularidad (de nivel individual, o agrega-dos por aula, escuela o estado). Esta variedad de información normalmente no está disponible en forma sintética en ningún documento o base de datos, y su análisis va más allá del uso de modelos psicométricos avanzados.

Este estudio busca ofrecer una síntesis cualitativa que refleje la cantidad y calidad de evidencia disponible de varias fuentes, respecto a los criterios de valoración propuestos. Dada la naturale-za de las preguntas de investigación, y las limitaciones en la cantidad y calidad de información

Page 103: Analisi s prueba enlace ems 2015

103Validez de usos y consecuencias

disponible que documenta usos y consecuencias de ENLACE-MS, se buscó profundizar el análi-sis con información proporcionada por actores involucrados directamente en el uso de resulta-dos de la prueba, además de revisar la documentación, manuales, reportes, y otros materiales y estudios especiales disponibles. En particular, el equipo de investigación de la UAA recogió información adicional de cuatro fuentes:

• Información de usos y consecuencias a nivel estatal, con una encuesta de actores in-volucrados en la administración y uso de las pruebas ENLACE-MS en 20 estados de la republica

• Entrevistas con autoridades y personal clave involucrado en el diseño de mecanismos, programas y políticas basadas en las pruebas ENLACE-MS, en una muestra de cuatro subsistemas educativos nacionales, y cuatro estados seleccionados para representar un rango de niveles de logro (tres de estos no se incluyen en la muestra de 20 que cubre la encuesta);

• Literatura especializada que da cuenta de investigaciones/evaluaciones de programas o políticas en base de los datos de ENLACE-MS;

• Revisión de cobertura en prensa, y organismos de la sociedad civil.

La tabla 5.3 sintetiza las fuentes de información que sirven de base para los análisis y considera-ciones siguientes, organizadas según los criterios de valoración ofrecidos en la tabla 5.1.

Tabla 5.3 Fuentes y tipos de evidencia empleadas por criterio de valoración.

* Ver tabla A en Apéndice y Referencias

Criterio Tipo de evidencia

A. Interpretaciones, usos y consecuencias previstas

1. Evidencia y respaldo 2. Monitoreo

t Manual Técnico ENLACE-MS 2013t Estudios especiales y literatura especializada*t Encuesta y entrevista con personal de entidadest Estadísticas de uso de portales de resultados

B. Acceso equitativo, y capacidad de interpretación y uso

3. Reporte / acceso a resultados4. Capacitación y apoyo

t Manual Técnico ENLACE-MS 2013 t Documentos de apoyo (presentaciones y talleres de actualización de resultados)t Manual para docentes y directivos 2014t Encuesta y entrevista con personal de entidades

C. Comunicación que facilite la buena interpretación de los resultados

5. Reportes informativos6. Lenguaje adecuado7. Marco de referencia8. Limitaciones / errores comunes

t Manual Técnico ENLACE-MS 2013 t Reportes de resultados para grupos de usuarios en página SEP/ENLACE-MS (30/7/2014)t Otros contenidos, datos, y documentos en página web SEP/ENLACE-MS (30/7/2014)

D. Interpretaciones, usos y consecuencias imprevistas

9. Advertir sobre usos inapropiados10. Documentar esos usos11. Acciones respecto a ellos

t Manual Técnico ENLACE-MS 2013 t Estudios Especiales y Literatura Especializada*t Encuesta y entrevista con personal de entidadest Cobertura de medios y ONG

Page 104: Analisi s prueba enlace ems 2015

104

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

REVISIÓN DE LA EVIDENCIA DISPONIBLE POR CRITERIO DE VALORACIÓN

A. Soporte para interpretaciones, usos y consecuencias previstas

1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalden los

usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no

tienen un apoyo teórico o empírico.2

El manual técnico 2013 y el manual para docentes y directivos 2014 detallan los propósitos, usos, y audiencias previstas de la prueba ENLACE-MS. Estos manuales hacen mención repetida de los objetivos que busca la prueba, y las consecuencias benéficas que se esperan para los diversos actores (alumnos, maestros, directores, autoridades). Sin embargo, los manuales y ma-teriales que los acompañan, así como otros disponibles en el portal web, no describen los usos específicos previstos con cada tipo de usuario. Los argumentos de uso y consecuencias espera-das se describen en términos generales y un tanto superficiales, y no se sustentan directa o indi-rectamente en argumentos lógicos o evidencia teórica o empírica. Declaraciones frecuentes de corte general (por ejemplo: “se busca proveer información útil”) no ofrecen una base concreta para entender cómo se deben y no se deben usar los resultados de la prueba en la práctica. Si se revisa la totalidad de materiales y documentos disponibles es posible entrever con mayor clari-dad a qué tipo de usos particulares se refieren estas afirmaciones generales. En el resto de este reporte tomamos como base nuestra lectura sintética de los materiales, según se resume en la Tabla 5.2. Sin embargo, una primera limitación importante a notar es la falta de una sección en el manual que condense, explicite y fundamente el modelo lógico de la prueba ENLACE-MS y los usos y consecuencias esperados con cada grupo de usuario y que sirva de guía para usuarios y evaluadores. Por ejemplo, el manual para docentes y directivos propone que los cuatro niveles de dominio que se utilizan ofrecen información “muy útil para conocer las tareas y contenidos que el estudiante domina y, revisando los niveles superiores, aquellos en los que debe mejorar” (pág. 46). Aunque es difícil disputar una afirmación de corte tan general, es importante notar que el órgano desarrollador debe ofrecer evidencia concreta para respaldar cada uso y beneficio propuesto. Este tipo de uso pedagógico es uno de los más prominentes en ENLACE-MS, que se dice pretende informar la práctica docente mediante el análisis y diagnóstico de fortalezas y debilidades de los alumnos. Sin embargo, la documentación no especifica el modelo lógico y los mecanismos concretos de uso, y nuevamente ofrece solo afirmaciones generales (por ejem-plo: puede informar programas de tutoría a nivel aula y escuela) que dificultan evaluar su valor formativo o diagnóstico para estudiantes, padres, o docentes.

Más aún, en la práctica este tipo de uso pedagógico se enfrenta a dos limitaciones importantes. La primera es función del diseño del sistema de consulta de resultados, que no provee informa-ción al nivel del aula sino de la escuela, por lo que un docente tendría que consultar los resul-tados individuales de cada uno de sus alumnos y condensarlos en un diagnóstico del grupo. La segunda es función del diseño mismo de una prueba de egreso, que por diseño es de valor limi-tado para la intervención pedagógica, puesto que los sustentantes no siguen en la escuela para

2 Este criterio se refiere a los usos y consecuencias previstas de la prueba ENLACE-MS que se describen en el Manual

Técnico 2013 y materiales que lo acompañan, y que se sintetizan en la Tabla 5.2. Para análisis de reportes específicos

de resultados dirigidos a distintos tipos de usuarios ver análisis de criterios 5 a 8.

Page 105: Analisi s prueba enlace ems 2015

105Validez de usos y consecuencias

recibir esta intervención el año siguiente. Por tanto, un docente que pretenda utilizar la prueba ENLACE-MS se enfrentaría a un proceso relativamente arduo de colección de información, para generar manualmente reportes para cada una de sus aulas con precisión y validez inciertos, sobre grupos de estudiantes distintos a los que deberá enfocar su trabajo el siguiente año. El reporte automatizado a nivel de la escuela que ofrece el sistema de consulta es aún de menor relevancia para informar la práctica docente, puesto que ni siquiera refleja el aprendizaje de los estudiantes con que trabajo cada docente sino el agregado de todos los alumnos en la escuela. En la práctica todo lo anterior limita los usos pedagógicos posibles a acciones prescriptivas generales como por ejemplo el uso de secuencias didácticas para desarrollar las competencias que mide la prueba, y el uso de ejercicios tipo ENLACE-MS para la evaluación de aula. Existe incluso una cierta confusión en el manual del docente en cuanto de los usos específicos que se esperan, ya sea para apoyar la práctica docente a futuro, o la reflexión del estudiante en el presente. El manual en cierta forma deja al maestro y al alumno la tarea de discernir el valor y la relevancia de los resultados:

Asimismo, se sugiere al docente que aproveche las sesiones de meta-aprendizaje para hacer énfasis en los propósitos y alcances de la prueba; los estudiantes deben comprender el valor que tendrá para ellos recibir sus resultados cuando hayan terminado la EMS si los aprovechan como fuente para conocer sus áreas fuertes y las de oportunidad. (Manual para docentes, pág. 45)

Otras acciones recomendadas incluyen reuniones al interior de cada escuela para fortale-cer los procesos de enseñanza y su aplicación al mundo real (http://enlace.sep.gob.mx/ms/docs/2009/Dr.Alfonso_Aguilar.ppt) y otras de tipo aún más general cómo la promoción de la lectura (pág. 48).

El manual y materiales que lo acompañan no presenta evidencia psicométrica que sustente la fiabilidad del uso diagnóstico basado en subpuntajes ya sea a nivel individual o agregado a nivel de aula. Este tipo de uso diagnostico requiere evidencia de la calidad de la información esto usualmente implicaría calcular, reportar, y promover el uso adecuado de un indicador de precisión escalado ( error estándar) en cada área y nivel de agregación. En cambio, el manual técnico ofrece solo coeficientes de confiabilidad alfa para puntajes globales a nivel de alumno. Es importante notar que estos coeficientes no reflejan la precisión de los puntajes que se propo-ne utilizar (subpuntajes por área agregados a nivel aula o escuela), si no la proporción teórica de varianza del error en puntajes globales desagregados al nivel del alumno. Estos coeficientes por tanto son de poca o nula relevancia para informar el grado de adecuación de los usos propues-tos. La alta confiabilidad de un puntaje global no garantiza la confiabilidad de todos los sub-puntajes generados (Brennan, 2005; Haberman, 2008), mientras que la baja confiabilidad de un subpuntaje a nivel individual no significa que el promedio por aula no es confiable (Brennan, 1995). Finalmente, un índice de confiabilidad relativamente alto a cualquier nivel agregación no garantiza un error estándar e intervalos de confianza que justifiquen las interpretaciones y diferenciaciones prácticas que se pretenden (Crocker y Algina, 2004).

Finalmente, el manual no explora en detalle el valor de ENLACE-MS como instrumento para establecer una línea base para comparar aplicaciones posteriores y establecer el efecto de pro-gramas y políticas. Aunque el escalamiento y equiparación cuidadosos a través de los años permiten el seguimiento de tendencias en los niveles más altos de agregación, el uso a nivel de programas o escuelas individuales presenta complicaciones metodológicas importantes(no se

Page 106: Analisi s prueba enlace ems 2015

106

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

trata de datos longitudinales de una misma cohorte, sino de datos transversales de cohortes sucesivas de estudiantes). El manual no presenta ejemplos concretos de usos evaluativos que se consideran pertinentes o justificados, ni ofrece ninguna reflexión o evidencia que permita contextualizar o evaluar el uso general propuesto.

En este sentido, es importante también notar que desde la perspectiva de la autoridad, según se detalla en la documentación disponible, y se afirmó en la reunión de junio de 2014), un objetivo de la prueba implícito en el propósito más general de “rendir cuentas a la sociedad” es el de comparar escuelas y sistemas de distinto tipo (considerada importante dada la amplia variedad de planes de estudio existentes antes e incluso después de la última reforma). Aunado a la falta de información sobre la precisión de los puntajes que se discutió anteriormente, la falta de información sobre los mecanismos y procedimientos de comparación propuestos con base en los resultados de la prueba (entre alumnos y aulas, pero en teoría primordialmente entre escuelas y subsistemas) genera por lo menos dudas sobre la adecuación de este tipo de usos. Por un lado se invita al uso diagnóstico de los resultados por parte de docentes y directivos para conocer fortalezas y debilidades de alumnos y escuelas, y se reportan tablas por ejemplo, de resultados de una escuela comparando con los resultados de otras escuelas de su estado, mu-nicipio y localidad con similares características. Por otra parte, se prohíbe explícitamente “hacer comparaciones entre alumnos, entre escuelas o entre subsistemas”, y sigue el texto, “los únicos comparativos que pueden ser de utilidad son los que haga cada entidad con ella misma año con año” (pág. 15). No se aclara que no son las comparaciones en sí, sino interpretaciones y con-clusiones holísticas sobre la calidad escolar o docente que se deben evitar. En esta línea parece dudosa también la recomendación de hacer únicamente comparaciones año con año, dadas las complicaciones metodológicas descritas anteriormente. Las comparaciones descriptivas se deben permitir si se pretende un uso formativo por docentes y escuelas. Responder a preguntas como “¿Qué hizo la escuela A este año para alcanzar mejores resultados que la escuela B, aun cuando la primera trabaja en un contexto menos favorable que la segunda?” o “¿Por qué este pequeño grupo de alumnos tuvo resultados más bajos que el promedio de mis estudiantes?” es fundamental para el uso diagnostico propuesto pero implica por necesidad una comparación de resultados.

Se debe también enfatizar que si el sistema de reporte entrega resultados que invitan una com-paración (por ejemplo, si se pueden bajar los resultados de todas las escuelas de un municipio y localidad en una tabla juntos, o si se reportan resultados por estado, donde en una misma lámina se muestran los resultados de todos los estados) entonces resulta poco convincente decir al mismo tiempo en los manuales que no se pueden usar los resultados para hacer com-paraciones: por ejemplo, en el manual para docentes y directivos dice que no se deben “hacer comparaciones entre estados […] Los datos por entidad son importantes solo para conocer la distribución de los estudiantes […] y así comparar con los resultados que el mismo estado ob-tenga año con año” (pág. 44).

El uso diagnóstico de los puntajes por parte del maestro también se basa en supuestos sobre la sensibilidad instruccional (instructional sensitivity) de la prueba, es decir, el grado en que esta es capaz de reflejar diferencias en la calidad (o incluso cantidad) de enseñanza a que está expuesto un estudiante en un periodo determinado. De forma más general, este supuesto está implícito en la idea de influenciar el aprendizaje a través de mejoras en la práctica docente que es parte fundamental del modelo lógico de ENLACE-MS. Sin embargo, en el manual técnico no se ofrecen argumentos explícitos, ni evidencia que justifique el supuesto de que la prueba es sensible a (capaz de reflejar) variaciones en la práctica docente. Lo que es más, en el manual

Page 107: Analisi s prueba enlace ems 2015

107Validez de usos y consecuencias

para docentes y directivos se indica que la “sensibilidad a la instrucción” de la prueba ENLACE-MS es “media/baja” (pág. 13), lo que en principio presenta un problema fundamental para los usos pedagógicos previstos por parte de los docentes.

A nivel de estudiante, llama la atención que la prueba se aplica en abril del último grado de educación media superior, y se reporta no antes de junio del mismo año. Esto significa que los estudiantes conocen sus resultados cuando ya han terminado su trayectoria escolar y es-tán por empezar una nueva etapa de su vida, una que involucra un grado mucho mayor de especialización, ya sea en educación superior o en el campo laboral. Resulta poco convincente entonces afirmar que los resultados de la prueba motivarán al estudiante a “buscar por sí mis-mo herramientas que le ayuden a mejorar sus habilidades.” (pág. 14, manual para docentes y directivos). Un modelo lógico subyacente basado en la responsabilidad individual y acciones de mejora basados en información diagnóstica presupone en principio que la información llega al sustentante en tiempo y oportunidad, y con i recursos y pautas de retroalimentación adecuadas que le permitan emprender ese esfuerzo. En contraste, los resultados de la prueba por un lado se entregan cuando los sustentantes han concluido su educación, con información muy limita-da para el sustentante (el manual de la prueba establece que “ENLACE-MS no distribuye guías para el sustentante, ya que se busca desterrar las prácticas de preparación para los procesos evaluativos que dejan de lado la formación constante y las actividades de autoaprendizaje para la resolución de problemas, congruentes con el enfoque por competencias”). Como resultado, el uso más extendido de la prueba a nivel del alumno es precisamente el contrario: se han ex-tendido sistemas que buscan expresamente practicar la resolución de ítems “tipo ENLACE” para mejorar los resultados en la prueba.

En síntesis, nuestro análisis de la documentación revela fundamentalmente una falta de alinea-miento entre los usos propuestos de la prueba ENLACE-MS y los cuerpos de evidencia teórica y empírica que el organismo desarrollador ofrece para sustentar estos usos.

2. Se documenta y evalúa el grado en que se producen los usos y consecuencias previs-

tas y/o deseables de la prueba.

Una primera conclusión que se deriva de la sección anterior (y de la Tabla 5.2) es que la prueba ENLACE-MS busca primordialmente cumplir objetivos de tipo informativo y diagnóstico, con un enfoque particular en los alumnos y sus familias por un lado, y docentes y directivos por otro. En lo que respecta a las autoridades educativas, el manual especifica también usos de ENLACE-MS de corte descriptivo e informativo, sin consecuencias directas para maestros, planteles, o subsis-temas educativos; el único uso sumativo que se menciona es el fomentar la rendición de cuentas a la sociedad. Finalmente, el manual menciona a los investigadores como grupo de usuarios, para que “detecten factores (económicos, sociales, de infraestructura, de enseñanza aprendi-zaje, entre otros) asociados al nivel de logro de las distintas muestras de población” (pág. 86).

Para evaluar este criterio buscamos evidencia de desarrollo de mecanismos e iniciativas que se encaminen a y faciliten el monitoreo y la investigación de los usos y consecuencias previstas de ENLACE-MS. Tal esfuerzo trasciende a investigadores, instituciones u organismos particulares, y se concibe de forma más amplia como un área de corresponsabilidad y oportunidad para colaboración entre desarrolladores de pruebas e investigadores. La documentación disponible refleja algunos esfuerzos aislados de seguimiento de los usos de la prueba, pero no un siste-

Page 108: Analisi s prueba enlace ems 2015

108

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

ma de monitoreo sistemático. En este sentido, a manera de documentación se nos hizo llegar únicamente un breve documento de tipo informal e interno producido por la coordinación de asesores de la SEP, detallando usos que se dan a ENLACE-MS al interior la propia secretaria a nivel nacional. Aunque el criterio por lo tanto parece no cumplirse en principio, para nuestro reporte investigamos de manera más general los usos que dan a la prueba los usuarios previs-tos, sintetizando evidencia de todas las fuentes disponibles, así como información recabada especialmente para este proyecto (ver Tabla 5.3) con el propósito de informar el trabajo que el INEE lleve a cabo a futuro en el desarrollo de la siguiente generación de pruebas nacionales. El análisis que sigue distingue entre cinco tipos principales de usuarios objetivo, a saber alumnos y padres, docentes y directores, autoridades, investigadores, y sociedad civil.

Padres y alumnos

El modelo lógico implícito en la prueba ENLACE-MS incluye la participación de hijos y padres de familia en los esfuerzos de mejora educativa como actores que se involucran directamente en el aprendizaje de los estudiantes, y en la labor de los maestros y escuelas. Como evidencia de uso para este grupo se consultaron los manuales y documentación disponible, estadísticas de acceso al sistema de consultas, y entrevistas con autoridades estatales y de subsistemas. El papel de la familias que se describe en el manual técnico incluye por un lado, que los padres participen en comisiones de observación de la aplicación de la prueba (pág. 63), y por otro que estos y sus hijos utilicen la información útil que se dice genera la prueba para realizar un diagnóstico individual de fortalezas y debilidades que contribuya a su mejora individual y por consiguiente a la del sistema educativo. Sin embargo es notoria la falta de detalle y especificidad en cuanto a los usos esperados por parte de estudiantes y padres en toda la documentación que acompaña a ENLACE-MS. El portal internet no ofrece ningún material de apoyo para padres interesados en utilizar los resultados de su hijos/as; como documento informal de apoyo se ofrece solo una breve presentación de Power point desarrollada por un organismo externo (Suma por la Educación, ver http://enlace.sep.gob.mx/ms/docs/2009/Lic.Francisco_Lopez.ppt) que se limita a repetir el lenguaje del manual técnico, y por lo demás agrega solo exhortos vagos y lugares comunes varios acerca de la importancia de la evaluación en general, y la labor de los padres para “orientar el trabajo escolar de los hijos” en particular.

Los cuadros 5.1 y 5.2 muestran respectivamente los reportes por alumno y escuela que genera el sistema de consultas en Internet, sobre el desempeño en Comprensión Lectora y Matemáti-cas, tanto a nivel de puntajes globales como por ítem. Es importante considerar la naturaleza de la información que contiene el reporte y el procedimiento implícito requerido de un alumno que pretendiera reflexionar sobre esta información para focalizar esfuerzos para la mejora indi-vidual. Para ello el alumno tendría primero, que valorar su rendimiento absoluto global referido a los cuatro niveles o bandas de aprovechamiento: Insuficiente, Elemental, Bueno y Excelente. El estudiante hipotético que se presenta en el cuadro 5.1 es informado de que tiene desempeño excelente en Comprensión lectora, lo que significa que:

Estableces relaciones entre elementos de información presentados de distinta manera a lo largo del texto (imágenes, tablas, glosario). Identificas el sentido de enunciados connotati-vos y retomas elementos implícitos de una narración para inferir posibles motivos y accio-nes de los personajes. Reconoces la frase que sintetiza el texto. Relacionas el contenido con información externa para realizar inferencias, establecer hipótesis e identificar premisas,

Page 109: Analisi s prueba enlace ems 2015

109Validez de usos y consecuencias

conclusiones o soluciones. Evalúas la pertinencia de recursos como citas y tablas, además de la estructura en que se organiza un texto para lograr su propósito comunicativo.

Cuadro 5.1 Reporte de resultados por alumno (Lectura y Matemáticas)

Page 110: Analisi s prueba enlace ems 2015

110

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Cuadro 5.1 (cont.) Reporte de resultados por alumno

Page 111: Analisi s prueba enlace ems 2015

111Validez de usos y consecuencias

Cuadro 5.1 (cont.) Reporte de resultados por alumno

Page 112: Analisi s prueba enlace ems 2015

112

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Al mismo estudiante se informa, sobre su Excelente desempeño en Matemáticas:

Realizas diferentes procedimientos matemáticos y los integras para resolver problemas de la vida real, tales como conversiones, ecuaciones, análisis de gráficas y tablas, entre otros. Efectúas conversiones y estimaciones para resolver problemas reales. Identificas la gráfica de una recta a partir de condiciones dadas. Utilizas el teorema de Pitágoras para solucionar problemas geométricos. Resuelves problemas de mayor complejidad que implican el mane-jo de figuras, tanto planas como tridimensionales, y las propiedades geométricas de figuras incompletas. Puedes realizar cálculos a partir de dos funciones lineales o cuadráticas que se muestran de manera independiente y mediante distintas representaciones (numéricas, textuales, gráficas, entre otras).

En el otro extremo, un estudiante hipotético con rendimiento insuficiente en Comprensión Lec-tora recibe la siguiente retroalimentación:

Ubicas elementos informativos como datos, hechos, citas, términos, explicaciones y accio-nes presentadas de manera explícita en textos argumentativos, expositivos y apelativos. Haces uso del contexto en que se presenta una palabra para identificar su significado. Relacionas párrafos de un cuento o de una carta formal para reconocer el vínculo entre el contenido y la intención comunicativa del autor.

Y uno con rendimiento insuficiente en Matemáticas:

“res capaz de resolver problemas simples donde la tarea se presenta directamente. Efectúas operaciones básicas con números enteros. Ejecutas operaciones aritméticas con signos de agrupación. Encuentras equivalencias entre fracciones simples. Resuelves problemas que requieren identificar figuras planas y tridimensionales, así como las partes que las confor-man. Localizas puntos en un plano y/o determinas sus coordenadas. Encuentras relaciones gráficas o algebraicas sencillas entre dos variables y realizas cálculos con base en ello.

Como siguiente paso el estudiante interesado en usar los resultados que ofrece el sistema pue-de recibir retroalimentación al nivel de cada ítem específico en la prueba. El cuadro 5.2 muestra el tipo de información que ofrecen estos reportes, indicando al alumno que sus repuestas inco-rrectas a los ítems 33 y 75 de Matemáticas sugieren las siguientes debilidades:

“El alumno no logra calcular la cardinalidad de un subconjunto para resolver un problema de la vida cotidiana que involucra razones/relaciones en una población”

“El alumno no logra resolver un problema de la vida cotidiana que implique generar dos ecuaciones de la forma ax+by=c y calcular el valor de una incógnita”

y respuestas incorrectas a los ítems 102 y 103 de lectura por su parte indican:

“El alumno no logra identificar una acepción de una palabra utilizada por el autor”

“El alumno no logra identificar el propósito de la tabla que se incluye en un texto”

Page 113: Analisi s prueba enlace ems 2015

113Validez de usos y consecuencias

Cuadro 5.2 Retroalimentación por ítem (Matemáticas)

Page 114: Analisi s prueba enlace ems 2015

114

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Cuadro 5.1 (cont.) Retroalimentación por ítem (Comunicación)

Page 115: Analisi s prueba enlace ems 2015

115Validez de usos y consecuencias

Es importante notar que los reportes no ofrecen ninguna información o soporte adicional a los alumnos o padres, ni contextualizan la retroalimentación que se ofrece en términos de habilida-des específicas a desarrollar en la vida cotidiana, o menos aún, acciones y direcciones concretas en que pueden orientarse los esfuerzos de mejora. La retroalimentación que se ofrece es de tipo genérico y superficial, y no parece ofrecer una base robusta para informar esfuerzos de mejora individual por parte del alumno en función de su nivel de desempeño, o a nivel de aula por parte del docente al diagnosticar los niveles de aprendizaje que demuestran los alumnos en la prueba (esto último sin considerar que los reportes no se refieren únicamente a los alumnos de cada maestro, si no a la escuela en general).

Como última fuente de información el alumno podría consultar los resultados agregados que le indican el porcentaje de alumnos que obtuvo puntajes en cada banda de desempeño en su escuela, su estado, y a nivel nacional (ver cuadro 5.3). El sistema ofrece también un reporte detallado sobre el desempeño de los alumnos de un plantel en cada ítem individual. El reporte se presenta en el panel final del cuadro 5.3. Los resultados por ítem reflejan el porcentaje de alumnos de la escuela que respondieron incorrectamente a cada pregunta. Los ítems se presen-tan organizados por tema y se diferencia aquellos que fueron respondidos incorrectamente por menos de 40% de los estudiantes, entre 40% y 60%, y 60% o más. Sin embargo, ni la docu-mentación de la prueba, ni el reporte mismo ofrecen un argumento que sustente la utilidad de este tipo de informe, o la manera prevista de uso por parte de alumnos, padres, o docentes. Es interesante notar que este sistema no hace distinción alguna entre dos ítems hipotéticos que respondió correctamente 60% y 100% de los alumnos, aunque estos parecen reflejar reali-dades distintas en el aula. En cambio, dos ítems con porcentajes de 40% y 60% se clasifican como diametralmente diferentes (dos categorías aparte) aunque estos podrían corresponder a realidades pedagógicas no muy distantes. Por lo tanto, se puede cuestionar la base sustantiva y pedagógica para la organización de estos reportes por ítem a nivel de la escuela, y la usencia de un modelo de uso de los resultados robusto y adecuadamente sustentado.

Finalmente, la información recolectada por medio de encuestas y entrevistas a autoridades es-tatales, y de subsistemas educativos refleja esfuerzos limitados para fomentar los usos previstos de resultados por padres y alumnos. Los resultados de la encuesta (ver anexo 5.1) indican que solo 40% de los estados realiza algún esfuerzo sistemático en este sentido, y de estos solo en la mitad de los casos se reporta que el acceso a la información es universal y alcanza 100% de las familias. Además solo dos de 20 estados (10%) indicaron que informar a los alumnos sobre sus fortalezas y debilidades es un uso prioritario de la prueba en la entidad, y ningún estado menciona como un uso importante orientar a los padres. Por su parte, ninguno de los cuatro estados donde se realizaron entrevistas con las autoridades responsables (tres de los cuales no están incluidos en la muestra de 20 de la encuesta) indica que se entreguen resultados indi-viduales a los padres, o se promueva su uso a nivel individual. Anecdóticamente se sabe que muchos estados entregan resultados agregados por escuela o estado a los padres; por ejemplo en el Estado de México se informa a los padres antes de la aplicación de ENLACE-MS sobre el desempeño de los alumnos evaluados el año anterior, y “las metas establecidas en función de esos resultados” además de sensibilizarlos a “la importancia de su participación en el aprendi-zaje de sus hijos.” En Veracruz se promueve que los padres organicen círculos de lectura para mejorar los resultados en la prueba (y el nivel de lectura en general). Independientemente del posible valor de esfuerzos de este tipo para la mejora educativa, para efectos de este reporte estos usos no parecen alinearse con el objetivo propuesto de informar a los padres sobre las fortalezas y debilidades del aprendizaje de sus hijos. De los subsistemas educativos, solo Bachi-lleres reporto que se informa a los padres de los resultados generales del plantel que atienden

Cuadro 5.3 Reporte de resultados por escuela (Lectura)

Page 116: Analisi s prueba enlace ems 2015

116

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

sus hijos. Ninguno de los sistemas reportó esfuerzos sistemáticos de mejora que involucren entregar información individual a los padres.

Cuadro 5.3 Reporte de resultados por escuela (Lectura)

Page 117: Analisi s prueba enlace ems 2015

117Validez de usos y consecuencias

Cuadro 5.3 (cont.) Reporte de resultados por escuela (Matemáticas)

Cuadro 5.3 (cont.) Reporte de resultados por escuela (Ítems)

Page 118: Analisi s prueba enlace ems 2015

118

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Cuadro 5.3 (cont.) Reporte de resultados por escuela (Ítems)

La cuadro 5.3 presenta estadísticas de consulta de resultados individuales y de escuelas en el portal de internet de ENLACE MS, desagregadas por estado. El proceso de colectar estas es-tadísticas fue revelador por dos motivos: primero, el desarrollador no ha dado seguimiento a las estadísticas históricas de acceso y uso por parte de los diversos usuarios de la prueba, por lo que solo fue posible conseguir estadísticas para la aplicación más reciente (2014); la falta de datos básicos sobre usos de los que puede colectarse información con gran facilidad refleja una falta de atención general al cuidado de los usos y consecuencias de la prueba. Segundo y más importante: las estadísticas disponibles son reveladoras en cuanto reflejan un uso mínimo por parte de quienes son, en teoría, el grupo más importante de usuarios objetivo: del millón de estudiantes que sustentó la prueba en abril de 2014 (1 028 956 según datos de la SEP) solo el 5 por ciento (aproximadamente 54 mil) habían consultado sus resultados en el portal ENLACE-MS al inicio del siguiente ciclo escolar. Las estadísticas sugieren en cambio que el uso más extendido de los resultados ocurre al nivel de la escuela. Casi la totalidad de los planteles del país donde se administró ENLACE-MS (14 027 de 14 125) había ya consultado sus resultados al inicio del siguiente ciclo escolar. Estas tasas de uso evidencian la falta de alineamiento entre los objetivos expresos de la prueba y los tipos de usos que se dan a esta en la práctica.

Page 119: Analisi s prueba enlace ems 2015

119Validez de usos y consecuencias

Cuadro 5.3 Consultas de ENLACE-MS Escuela y Alumno en los Estados

EntidadNúmero de Consultas

Por Escuela (C.C.T.) Por Alumno (FOLIO)

Aguascalientes 96 278

Baja California 507 2 630

Baja California Sur 94 203

Campeche 78 567

Chiapas 345 724

Chihuahua 175 1 343

Coahuila 322 1 516

Colima 186 393

Distrito Federal 775 4 200

Durango 189 626

Edo. de México 2 389 6 564

Guanajuato 676 1 755

Guerrero 263 1 148

Hidalgo 266 1 882

Jalisco 846 3 532

Michoacán 330 1 939

Morelos 232 849

Nayarit 238 454

Nuevo León 277 2 507

Oaxaca 366 2 095

Puebla 1 193 2 420

Querétaro 163 2 024

Quintana Roo 143 1 035

San Luis Potosí 469 490

Sinaloa 218 3 646

Sonora 207 754

Tabasco 91 697

Tamaulipas 279 2 175

Tlaxcala 497 278

Veracruz 1 604 3 273

Yucatán 154 722

Zacatecas 359 1 229

Totales 14 027 53 948

Los resultados de la encuesta indican por último que la consecuencia más común del uso de ENLACE-MS en los estados, es el motivar a los estudiantes a trabajar más fuerte (75%), así como la generación de dinámicas de competencia entre alumnos (50%). Por otro lado, 35% de los estados reporta desmotivación entre los alumnos, y 20% ansiedad y estrés elevados.

Page 120: Analisi s prueba enlace ems 2015

120

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Docentes y Directores

El modelo lógico de mejora de ENLACE-MS ubica explícitamente al maestro como actor prin-cipal, al uso que hace este de los resultados para mejorar su práctica docente, como el meca-nismo central de impacto, y a la escuela como el contexto próximo clave donde se promueve y facilita este esfuerzo de mejora. El desarrollo un manual específico para docentes corrobora el carácter prioritario de este uso para los desarrolladores. El manual técnico resume así el valor de la prueba para escuelas y docentes:

La posibilidad de revisar los resultados por escuela representa una ganancia para las mis-mas y para los docentes, porque cada pregunta se acompaña del porcentaje de estudiantes que la contestó correctamente, y se menciona la fortaleza o debilidad que los datos evi-dencian. De este modo, se pueden conocer los contenidos y procesos que provocan más errores en el alumnado y mejorar la práctica educativa.

Las autoridades del sistema federal presentes en la reunión de junio de este comité señalaron que el uso de ENLACE-MS por los maestros para mejorar las competencias representa la mayor promesa pero también el mayor reto de la prueba. Las entrevistas con autoridades estatales y de subsistemas también reflejan una variedad de esfuerzos dirigidos a docentes y directores, tanto de corte formativo como de mayor impacto. Por ejemplo, en la Dirección General de Ba-chillerato (DGB) se utilizan los resultados como factor para emitir un juicio valorativo cuantitati-vo sobre el desempeño del director como gestor del centro escolar (junto a otros indicadores.) La DGB también realiza reuniones donde pide a los centros escolares que presenten, implemen-ten, y en su caso, modifiquen estrategias de mejora basados en sus resultados. Por su parte la DGETI convoca reuniones en cada estado para presentar y discutir resultados a nivel nacional y estatal, y ofrece resultados a los directores por plantel y por grupo, para informar la mejora.

Es importante notar que tanto la DGB como la DGETI describen el uso diagnóstico de pre-tests o ejercicios piloto con variaciones de versiones liberadas de la prueba que se aplican al inicio del año escolar o en quinto semestre para identificar a los alumnos con problemas. Este tipo de esfuerzo eventualmente se extendió por indicación de la Subsecretaría de Educación Media Su-perior y en principio parece perseguir el tipo de uso diagnóstico de la prueba al que alude el ma-nual, pero es importante notar que en realidad no es un uso propuesto, sino uno paralelo que es difícil evaluar con base en los criterios empíricos establecidos en este reporte(no se conocen el tipo de adaptaciones o variaciones que se hace a las versiones liberadas, las condiciones de aplicación, las características psicométricas de los ítems y los puntajes resultantes, entre otros).

Igualmente difícil es evaluar las consecuencias de esfuerzos de tutoría dirigidos a alumnos con problemas derivados de estos ejercicios. Los manuales técnicos y del docente prescriben es-fuerzos de mejora amplios enfocados al desarrollo de competencias en general, no solo a in-crementar los puntajes en la prueba ENLACE. Sin embargo, en la práctica los procesos que se describen se ajustan más al segundo objetivo que al primero. Según describen autoridades estatales y de subsistemas, los ejercicios piloto informan materiales y esfuerzos para remediar deficiencias que involucran a maestros, alumnos, e incluso padres de familia a quienes se pide intervenir para ayudar a mejorar el rendimiento de sus hijos. Las entrevistas describen esfuerzos y talleres focalizados en la resolución de ejercicios de exámenes anteriores y que en algunos casos se identifican específicamente como entrenamiento dirigido a la “resolución de ítems tipo ENLACE”. Algunos estados/sistemas aplican un segundo piloto (denominado retest) a mediados de sexto semestre y los resultados pueden llevar a un segundo taller de refuerzo.

Page 121: Analisi s prueba enlace ems 2015

121Validez de usos y consecuencias

En el estado de Veracruz y el sistema de Bachilleres se describe un sistema de semaforización que consiste en un análisis por ítem en Español y Matemáticas, con referencia a los resultados de ENLACE, seguimiento a través del tiempo, y énfasis en los ítems que muestran mayor pro-porción de errores. El análisis se presenta como un semáforo a cada plantel en un dossier con información detallada para su trabajo en academia para adecuar el trabajo docente(en Veracruz se realiza una semaforización para cada subsistema, y cada uno de estos es responsable de des-agregar los resultados por plantel). Este tipo de usos, por ejemplo, academias de matemáticas, se ajustan más al diagnóstico formativo de bajo impacto que describen los manuales, aunque enfrentan todavía el problema de relevancia al no permitir todos los estados y subsistemas un diagnóstico fino a nivel de aula. Es aparente que existe gran variabilidad en el grado de desa-rrollo, adecuación, y eventualmente éxito de estos esfuerzos entre los estados y subsistemas; lo que representa un llamado a realizar una evaluación más rigurosa y detallada de implemen-tación e impacto.

Los resultados de la encuesta con autoridades reflejan esfuerzos generalizados que involucran a los docentes en el uso de los resultados de ENLACE-MS. Nótese que 60% de los estados reporta entregar resultados a los docentes en forma individual, 8 lo hacen en persona y 4 por medio de impresos. Otros 7 estados reportan acceso a los resultados por medio de Internet, aunque este parece ser por medio del sistema de consulta nacional que ofrece la SEP. Por otro lado, 70% reporta usar los resultados para informar el trabajo y autoevaluación escolar, 50% indica usarlos prioritariamente para orientar la intervención pedagógica, y 45% para orientar la capacitación de profesores (en ningún caso se usa para propósitos de evaluación docente). La información de la encuesta es interesante también en cuanto apunta a conflictos y contradic-ciones importantes en la operación y consecuencias de la prueba: así, 19 de 20 estados (95%) señalan que el uso de la prueba representa un apoyo para el docente al diagnosticar las nece-sidades de sus estudiantes, y 80% indica que esta motiva a los maestros a mejorar su trabajo. Por ultimo 65% de estados indica que los maestros se centran excesivamente en los contenidos y formatos de la prueba.

Autoridades

Aunque de carácter voluntario, la participación en la prueba ENLACE-MS se ha incrementado considerablemente desde su introducción, y en la actualidad la mayoría de las preparatorias del país administra la prueba; esto incluye más de 90% de preparatorias públicas, y cerca de 15 mil privadas. Según afirmaron las autoridades de SEP presentes en la reunión de junio “ENLACE-MS es un principio de identidad que permite que muy diversos tipos de instituciones se comparen en una base común, al punto que las instituciones lo reconocen como un faro”. En esta sección del reporte se considera (además de la documentación, entrevistas y encuestas) información proporcionada por la SEMS que refleja el tipo de esfuerzos emprendidos a nivel nacional (“Ac-ciones Emprendidas por los Subsistemas Federal y Federal Descentralizado”).

Estos usos incluyen algunos que ya se mencionaron en secciones anteriores referidas a alumnos, docentes y planteles, como la difusión de resultados en Internet y la publicación en “espacios concurridos y lugares visibles”; reuniones de discusión de resultados y planes de aprovecha-miento de la información que arroja la evaluación; talleres de elaboración de reactivos tipo ENLACE para docentes; difusión del manual Técnico y del Docente; análisis de resultados del plantel para identificar factores de incidencia y áreas de oportunidad. Se realizan ensayos y

Page 122: Analisi s prueba enlace ems 2015

122

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

aplicaciones piloto para identificar alumnos en riesgo; y se implementan estrategias dirigidas específicamente a preparar a los alumnos para la prueba. Las reuniones para padres en parti-cular buscan su colaboración para sensibilizar a los alumnos sobre la importancia de la prueba, lo cual apunta a un escalamiento de facto de las consecuencias formales o informales que se asocian a esta. Además se realizan acciones como concursos académicos con pruebas anterio-res; selección de alumnos destacados como monitores académicos para apoyar a otros de bajo desempeño; se integran reactivos de ENLACE en la enseñanza y evaluación en aula; se elaboran de materiales didácticos; y se implementan programas de apoyo a la lectura.

Por último, se han extendido los programas PROFORDEMS y PROFORDIR de formación de docen-tes y directivos con énfasis en competencias en lectura y matemáticas, y se ha implementado el programa Síguele (Sistema de Alerta Temprana) en todos los planteles federales centralizados y descentralizados, y en 25 sistemas estatales. Este programa incluye por un lado, tutorías para jóvenes de bajo rendimiento apoyadas por una creciente red nacional de tutores formados es-pecíficamente para ello, y por otro, un programa más amplio de fomento a la lectura, que busca desarrollar lectores autónomos apoyando la lectura como actividad básica y cotidiana en todos los planteles, mediante el rediseño de bibliotecas, adquisición de acervo, uso de tecnologías, y creación de círculos literarios. Todo lo anterior refleja un esfuerzo muy extenso e importante di-rigido a la mejora de competencias en lectura y matemáticas, que a todas luces parece deseable en un sistema educativo en modernización; sin embargo, no es clara la relación de cada esfuer-zo con los resultados y usos específicos de la prueba ENLACE-MS, o cuáles esfuerzos podrían existir con una prueba de diseño diferente o incluso en ausencia de una prueba de este tipo.

En general es importante notar que aunque la documentación y las autoridades entrevistadas se refieren a la importancia de privilegiar el uso diagnóstico y formativo de la prueba, y evitar usos indebidos como incentivos o rankings, la evidencia en su conjunto sugiere que en la práctica este tipo de usos se han ido extendiendo a través del sistema. El manual mismo ya prevé que los planteles con alto rendimiento promocionen sus resultados (mediante el uso de carteles por ejemplo), lo que de facto propone una comparación cuantitativa directa y no contextualizada. En el mismo sentido, las entrevistas con autoridades estatales y de los subsistemas educativos sugieren que se están extendiendo los esfuerzos de ordenamiento o rankeo con consecuencias moderadas a altas (Guanajuato, DGETI). Las autoridades de subsistemas sugieren que los re-sultados de ENLACE-MS se utilizan para posicionar a los planteles al interior de los subsistemas (por ejemplo los colegios de bachilleres realizan un ordenamiento o rankeo de planteles al interior de cada estado), y a los subsistemas dentro de una gama de oferta educativa. Desde la SEMS se promueve el establecimiento de acciones mínimas necesarias para afrontar la Prueba en años subsecuentes, que nuevamente parece reflejar consecuencias más focalizadas y tal vez mayor impacto de lo previsto. En lo que respecta a consecuencias directas para planteles, se sabe que algunos estados han comenzado a dar reconocimientos e incluso incentivos importan-tes a las escuelas de alto rendimiento (Durango o Guanajuato) o a aquellas que reflejen mejora significativa (Veracruz). Por otra parte es interesante notar que las respuestas de los funcionarios a la encuesta no reflejan el mismo énfasis en usos de alto impacto. Un porcentaje menor de estados reporta hacer llegar resultados a autoridades municipales (10%), coordinadores regio-nales (20%), y supervisores de escuela (15%). Sin embargo una mayoría de estados (70%) indica utilizar los resultados a nivel del sistema educativo para analizar tendencias y factores asociados, y otro tanto lo usa para fomentar procesos de autoevaluación y mejora en las escuelas como ya se indicó anteriormente.

Page 123: Analisi s prueba enlace ems 2015

123Validez de usos y consecuencias

Es interesante notar que aunque solamente cuatro estados (20%) reportan utilizar los resulta-dos de ENLACE-MS para evaluar políticas y programas educativos (y dos asocian los resultados a la evaluación de planteles educativos), 17 (85%) indicaron que una consecuencia del uso de la prueba ha sido una mejor valoración de la calidad de los programas.

El patrón parece claro en el sentido de que las comparaciones y usos de mediano y alto impac-to, aunque expresamente señaladas como inapropiadas en el Manual Técnico, en la práctica se están extendiendo en todos los estados. En concreto podría verse como signo preocupante que aunque los 20 estados encuestados indicaron que la prueba ha resultado en esfuerzos de análisis y mejora de la enseñanza, 19 de ellos (95%) indicó a la vez haber implementado medi-das dirigidas a aumentar los puntajes de la prueba (95%), y 75% operacionaliza estos esfuerzos específicamente en forma de medidas para preparar a los alumnos en las escuelas (75%). El panorama general, por tanto, sugiere un cambio en el contexto de uso y evaluación de la prue-ba y tiene implicaciones directas para las propiedades y requerimientos técnicos de la misma: por ejemplo, los reportes de resultados no consideran el porcentaje de alumnos presentes en cada escuela/estado/subsistema el día de la aplicación, lo que podría representar una limitación importante al hacer comparaciones en estos niveles si no se proporciona evidencia que garan-tice niveles comparables de asistencia y descarte la posibilidad de procesos de eliminación de estudiantes débiles al interior de las escuelas. Igualmente, no se utilizan algoritmos de copia y detección de fraude, pero estos se hacen necesarios con una prueba de mayor impacto. Por último y como se indicaba ya en las secciones anteriores, existe evidencia que hace temer que se están extendiendo prácticas cuestionables de enseñanza enfocada a reactivos y contenidos de la prueba, y no a competencias y conocimientos más amplios.

Investigadores

El manual técnico identifica como prioritario que además de difundir los resultados a alumnos, padres, directores, docentes y autoridades, la información se haga llegar también “a otros eva-luadores, de modo que se contribuya a la difusión del instrumento y la adecuada interpretación de sus resultados.” El informar y facilitar la generación de conocimiento por medio de análisis de “factores asociados” es un objetivo explícito de ENLACE-MS (y de cualquier prueba de gran escala de características similares) que a la fecha no se ha cumplido por la falta de mecanismos y condiciones para facilitar y promover el acceso a la información. Este uso presupone acceso a información y resultados al nivel del estudiante y la escuela, así como un reporte detallado de las variables e información adicional contextual disponible (por ejemplo, información del cuestiona-rio de contexto del alumno y director). El uso por parte de la comunidad académica es de vital importancia en el caso de una prueba de la escala y alcance de ENLACE; el análisis riguroso de los datos ofrece generar información y conocimientos importantes acerca del aprovechamiento de los estudiantes y los factores que se asocian a este. Sin embargo, en la práctica el manual asigna a los investigadores un papel secundario y ofrece recursos limitados de uso, limitando la producción y publicación de estudios.

Lo anterior explica el número tan limitado de estudios publicados o disponibles que utilizan los resultados de la prueba. El cuadro 5.5 lista un pequeño número de estudios (algunos pro-porcionados para este reporte por los desarrolladores, y otros encontrados en una búsqueda en los sistemas google y google scholar.) Estos incluyen tres artículos publicados en revistas especializadas, tres reportes de investigación de organismos nacionales e internacionales, y dos reportes desarrollados internamente por CENEVAL. Aunque con toda certeza existirán algunos

Page 124: Analisi s prueba enlace ems 2015

124

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

ejemplos adicionales no detectados en esta búsqueda, y otros que se encuentren en proceso de desarrollo o publicación (se incluye uno en el recuadro), el resultado es indicación clara de que el número de estudios académicos y publicaciones científicas sobre —o utilizando las bases de datos de— la prueba ENLACE-MS es en general muy reducido. Parece importante por tanto fortalecer los canales para promover el uso de esta información por parte de los investigadores. Se evidencia entonces un escaso vínculo de colaboración con el mundo académico, lo que limita el desarrollo de esfuerzos conjuntos que requiere el cumplimiento de este criterio a mediano plazo, y que puedan informar las prácticas y políticas educativas como se pretende. Por el momento, el portal internet no ofrece acceso a las bases de datos primarias de ENLACE-MS, ni información para investigadores interesados en utilizarlas para estudios e investigaciones aca-démicas, evaluación de las propiedades psicométricas de la prueba, evaluación de impacto de programas y politicas, u otros. Solo se pone a disponibilidad de los investigadores un archivo de Excel con agregados por escuela de resultados globales. Este tipo de agregado generalmente no es de mucha utilidad para la investigación empírica rigurosa, que requiere datos a nivel de estudiantes e ítems individuales.

Cuadro 5.5 Estudios que usan la base de datos de EXCALE

1Avitabile and De Hoyos (2014) "The heterogenous effects of information about returns to schooling on student learning: Evidence from a randomized controlled trial in Mexico", The World Bank, Washington DC.

2 CENEVAL (2013), Informe Ganancia Educativa 2010-2013 ENLACE-MS.

3CENEVAL (2012) Evaluación de indicios de competencias disciplinares básicas de ciencias sociales y ciencias experimentales. Estudio exploratorio de desempeño y análisis de indicadores de competencia de ENLACE-MS.

4Contreras Roldan, S., y Backhoff Escudero, E. (2014) Tendencias en el aprendizaje de la educación media en México: Una Comparación entre ENLACE, EXCALE y PISA. Revista Nexos, Octubre 2014.

5De Hoyos, Espino y García (2012) "Determinantes del logro Escolar en México: Primeros Resultados Utilizando la Prueba ENLACE Media Superior", El Trimestre Económico, Fondo de Cultura Económica, vol. (316), páginas 783-811, octubre.

6De Hoyos, Attanasio y Meghir (2015, en preparación) Impacto del programa de Becas EMS sobre el abandono escolar.

7Estrada, y Gignoux (2014) Benefits to elite schools and the formation of expected returns to education: Evidence from Mexico City, Paris School of Economics, Wk.Paper #2014-06.

8Mancera, Priede, y Serna (2012) El desempeño de los becarios del Programa Oportunidades en la prueba ENLACE: cambios entre 2008 y 2011 en educación básica y media superior. Reporte al programa oportunidades.

9Martínez, Soto, Silva y Velasco (2013) Efectos de la Infraestructura Básica en los Resultados de la Prueba ENLACE de la Educación Media Superior Tecnológica Mexicana. Revista Iberoamericana sobre Calidad, Eficacia y Cambio en Educación, 11(4), 93-107.

10Rubio y Farías (2013) Efectos escolares en las escuelas de nivel medio superior de la Ciudad de México. Un estudio de valor agregado. El Trimestre Económico, Fondo de Cultura Económica, vol. 0(318), p 371-399.

Es notoria también la falta de trabajos comparativos o complementarios que usen datos de ENLACE-MS en conjunto con los de las otras pruebas nacionales que se aplican en este nivel. Parece clara la necesidad de promover este tipo de estudios y comparaciones para analizar en mayor detalle los patrones de cambio en los resultados en indicadores derivados de ENLACE-MS. Tal comparación podría ofrecer evidencia de validez y alineamiento o, por el contrario, de patrones de inflación de puntajes, preparación para la prueba, que puedan indicar áreas donde se requiere refinar la administración y operación del sistema. Se pudo encontrar únicamente un estudio muy reciente de este tipo, realizado al interior del INEE que compara ENLACE con

Page 125: Analisi s prueba enlace ems 2015

125Validez de usos y consecuencias

EXCALE y PISA (Contreras y Backhoff, 2014). La evidencia de este estudio apunta claramente a una inflación de los puntajes de ENLACE-MS, lo que no debería sorprender a la luz de los esfuerzos extendidos y abiertos de la autoridad y los sistemas por mejorar los resultados de los alumnos en la prueba.

Entre otros estudios existentes, el informe de ganancia educativa merece mención especial por la importancia y visibilidad que ha adquirido entre las autoridades federales y estatales, (y por extensión la prensa y el público en general). Este estudio reporta el grado de desarrollo de las competencias de los alumnos durante el bachillerato y permite la comparación de tasas de crecimiento entre estados, sostenimiento, nivel de marginación, subsistemas entre otros. Tanto las autoridades de la SEMS como las estatales refieren que los resultados de este estudio se analizan con cuidado y se utilizan para informar esfuerzos de mejora. Esto refleja la utilidad y valor de la información que se deriva de estudios de metodología rigurosa, aunque en este caso no se trata de la prueba ENLACE-MS operativa, sino de una aplicación muestral controla-da paralela. Aun así es importante notar que el informe se puede mejorar considerablemente desde el punto de vista técnico, para presentar un análisis más cuidadoso y sistemático de las tendencias observadas, y fortalecer la interpretación de las comparaciones que se ofrecen identificando su grado de precisión estadística. Además es notoria la ausencia de análisis más finos y detallados que utilicen la información de los cuestionarios de contexto del alumno y la escuela para comparar los resultados entre grupos de alumnos, salones, y escuelas de perfiles, características, y contextos diferentes y extraer así información para el diseño e implementación de esfuerzos de mejora. En cambio, la evidencia anecdótica que se tiene, y los señalamientos de las mismas autoridades presentes en la reunión de junio de este comité sugieren que el estudio de ganancia educativa se utiliza desde el punto de vista de la autoridad más como herramienta de motivación o presión hacia estados y subsistemas (un uso que específicamente proscribe el Manual Técnico), que como conducto para la generación de conocimiento (un uso que explíci-tamente se señala como prioritario).

Por último, los resultados de la encuesta y las entrevistas con autoridades estatales confirman que estas no consideran el análisis de los datos por parte de especialistas e investigadores como prioritaria, ni en ningún caso la promueven al interior de sus sistemas. En cambio, 70% de los estados indicaron usar ENLACE-MS para “analizar tendencias y factores asociados”. Sin em-bargo, estos esfuerzos y análisis se limitan al monitoreo simple de tendencias y comparaciones gruesas como las que ofrece el estudio de ganancia educativa.

Prensa

Finalmente, se realizó una revisión sistemática de notas de prensa aparecidas en tres diarios de circulación nacional desde el año 2011 a la fecha, para detectar artículos relacionados di-rectamente con las características, resultados o usos de la prueba ENLACE-MS. Esta búsqueda produjo una cuarentena de artículos que se consideraron relevantes para su inclusión en este reporte. Este número es menor que el de la prueba ENLACE de educación básica, lo que se explica si se considera el impacto más extenso y directo de aquella en la evaluación docente y de escuelas. En cambio, el número es considerablemente mayor que el de la prueba EXCALE, lo que también se explica dado el bajo impacto y nivel de uso que se reportaba en el informe correspondiente a esa prueba.

Page 126: Analisi s prueba enlace ems 2015

126

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Los artículos y notas recabados referidos a ENLACE-MS se pueden clasificar en tres grupos principales: El primero incluye la mayoría de los artículos y se enfoca al reporte de los resultados de la prueba. Entre estos se pueden distinguir aquellos buscan detallar bajos niveles de logro, y exhibir el mal estado, tendencias negativas, o incluso el fracaso del sistema educativo nacional o estatal (19 artículos); otro grupo (tres) realiza comparaciones entre estados o subsistemas educativos (por ejemplo entre escuelas públicas y privadas); el tercer grupo (seis) se enfoca a reportar esfuerzos exitosos de mejora, identificar escuelas de alto rendimiento, y otros ejemplos de excelencia.

Otro grupo considerable de artículos (nueve) busca analizar o criticar el sistema de pruebas EN-

LACE-MS en su conjunto, incluyendo sus contenidos, características operativas y de aplicación, valor relativa al costo y beneficios obtenidos por alumnos, docentes, escuelas o la sociedad en general (incluyendo notas que reflejan opiniones y críticas directas de expertos). El último grupo (cuatro) incluye editoriales y artículos de opinión de expertos que abordan la prueba desde una perspectiva amplia y enfocada a retos y dilemas de la política educativa.

Por último, un grupo minoritario pero significativo de respondentes en la encuesta de autorida-des reportó problemas al interior de sus estados, por lo que llamaron injerencia y campañas de la prensa, organismos y personas de la sociedad civil, quienes han irrumpido en debates sobre políticas educativas con diversos intereses y grados de conocimiento de la realidad educativa.

B. Acceso equitativo y capacidad de interpretación y uso

3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanis-

mos de difusión y acceso para todas las partes involucradas sin discriminación.

La participación voluntaria de escuelas en la prueba ENLACE-MS ha aumentado considerable-mente en los últimos años, de 11 mil en 2008 a cerca de 14 mil en 2013. Igualmente el número de alumnos evaluados se incrementó de 808 mil a más de un millón en ese mismo periodo. A pesar de esta alta tasa de participación, no parece existir un plan claro y consistente de difusión de resultados a las familias y estudiantes participantes. Originalmente la documentación de la prueba proponía entregar a cada familia un diagnostico impreso de los contenidos a reforzar con sus hijos (y afirmaba que México era el único país de Latinoamérica en hacerlo). Sin em-bargo el sistema actual no parece contemplar este tipo de distribución universal de resultados impresos; se realiza en cambio un diagnóstico inicial basado en versiones modificadas de años anteriores que se administran al interior de cada escuela. Con base en estos resultados se pro-mueven reuniones de información y sensibilización con padres de familia, en preparación para la aplicación operativa al final del ciclo escolar.

En cuanto a los resultados de la aplicación anual operativa, los manuales no especifican los plazos en que se reportarán los resultados de ENLACE-MS. La documentación alude a la impor-tancia de entregar resultados oportunamente pero no establece un plazo o fecha específica. La página web solo menciona las fechas de aplicación 2014 (1-3 abril, 2014). Existe un número de teléfono de asistencia, pero no se especifican periodos y horarios de atención. Asimismo, las entrevistas con estados y subsistemas tampoco refieren esfuerzos de difusión universal impresa en esos niveles; a reserva de que existiera evidencia contradictoria de estados no entrevistados

Page 127: Analisi s prueba enlace ems 2015

127Validez de usos y consecuencias

en este reporte, el mecanismo principal de difusión de resultados de ENLACE-MS para padres y alumnos es el portal internet de la prueba (http://enlace.sep.gob.mx/ms/). Esto implica que la consulta de resultados requiere acceso a Internet ya sea en casa o dentro del plantel escolar, (además del número de folio o CURP del estudiante) lo que en el contexto mexicano puede limitar grandemente el alcance y utilidad de la información.

Esto parece sugerir que no se considera prioritaria la difusión universal y oportuna de resultados de la prueba operativa a los egresados o sus familias. La función informativa a nivel individual se aborda con las pruebas diagnósticas aplicadas al inicio del año, y la prueba operativa se orienta más específicamente a informar a las autoridades, a las escuelas y en menor medida, a los docentes.

La documentación disponible no ofrece lineamientos u otra información de apoyo para facilitar la interpretación y uso de los resultados por parte de los padres, —a excepción de la breve y limitada presentación que se describió en la sección anterior—. Sin embargo, es posible que los esfuerzos de sensibilización al interior de las escuelas provean información suficiente para permitir a los padres interpretar los reportes finales de resultados. Los padres también pueden acceder a resultados por escuela si conocen la Clave del Centro de Trabajo (CCT), o alternativa-mente mediante “Otros criterios de consulta” seleccionando la entidad, municipio, y localidad de interés y especificando el “nombre de la escuela” como criterio de ordenamiento.

En cuanto a la difusión para docentes y escuelas, como se observó anteriormente, el manual del docente ofrece orientación muy limitada sobre usos particulares a implementar en el aula, y el sistema de consultas no ofrece al docente resultados desagregados por aula. La documentación disponible y las entrevistas realizadas para este reporte refieren amplios esfuerzos de difusión y uso de los resultados a nivel de la escuela (y en algunos casos el aula). Por tanto las reuniones de escuela y academias disciplinares parecen constituir el mecanismo más importante de uso para docentes y directores. Finalmente, el manual técnico 2013 ofrece a las escuelas la posibilidad de solicitar carteles impresos dirigidos a la comunidad educativa del plantel (pág. 73); no se pres-criben usos o se ofrecen lineamientos de interpretación de la información pero se deduce que se busca que las escuelas de alto rendimiento puedan promocionar sus buenos resultados. Este tipo de uso se puede considerar legítimo, pero en principio también parece contrario en espíritu a la meta de evitar interpretaciones descontextualizadas, y usos no formativos de la prueba.

4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la

adecuada interpretación y utilización de los resultados.

La documentación facilitada por CENEVAL y SEMS para este reporte detalla el amplio esfuerzo realizado para apoyar el uso adecuado y efectivo de los resultados de ENLACE-MS. Este incluye iniciativas de tipo muy diverso a todos los niveles del sistema. Entre las más importantes se puede mencionar a nivel de sistema, la realización de visitas promocionales y foros anuales de interpretación de resultados en los estados; la conformación del Comité de Difusión de la Prueba ENLACE-MS; la realización de seminarios y talleres de uso y difusión de resultados con especialistas; y por último las reuniones estatales anuales para analizar e interpretar resultados, y derivar planes de mejora a nivel de subsistemas educativos. En cuanto a la utilización de resul-tados por individuos, el esfuerzo comprende primero imprimir folletos informativos para padres y dar difusión amplia al manual del docente. En segunda instancia y con mayor importancia, la

Page 128: Analisi s prueba enlace ems 2015

128

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

aplicación de pruebas PreENLACE es la pieza central que busca permitir a maestros y alumnos diagnosticar fortalezas y debilidades e informar sus esfuerzos de mejora y la práctica educativa en general.

A nivel más amplio, el sistema educativo apoya programas de equipamiento de bibliotecas y ca-pacitación docente que buscan la mejora de competencias reflejadas en los resultados de ENLA-

CE. Sin minimizar el éxito que representa la simple implementación de esfuerzos de esta escala y profundidad, los análisis que se presentan en otras secciones de este reporte también generan cuestionamientos validos sobre las características y mecanismos específicas de algunos de estos esfuerzos, y su alineamiento con los objetivos y el diseño de la prueba (para mayor detalle con-sultar criterios 1 al 3 y 5 a 8). Es por tanto importante distinguir entre el uso propiamente dicho de la prueba y la ejecución de programas de apoyo y desarrollo implementados por la autoridad educativa (por ejemplo programas de tutoría y desarrollo profesional, o programas de fomento como Síguele). Estos programas podrían (y seguramente deberían) existir independientemente de la presencia, características, y usos de una prueba específica.

C. Comunicación que facilite la buena interpretación de los resultados

5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que

puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e infor-

mación suficiente sobre la interpretación correcta de los resultados.

Los esfuerzos de comunicación de resultados de la prueba ENLACE-MS se rigen por un Comité de Difusión que se formó precisamente para este propósito. En su introducción, el manual técnico 2013 identifica explícitamente tres grupos de usuarios de resultados de ENLACE-MS: a) alumnos y sus padres; b) docentes y directivos de escuelas; c) autoridades educativas a nivel estatal y nacional. Este análisis por tanto se refiere al grado en que los reportes de resultados fa-cilitan la adecuada interpretación de los resultados por estos grupos de usuarios, sin necesidad de recurrir a información adicional disponible en el manual técnico u otras fuentes.

El portal de la SEP (http://www.enlace.sep.gob.mx/) ofrece para su descarga diferentes infor-mes de resultados a nivel del alumno, escuela, entidad, y país. Los resultados nacionales y de entidad se entregan en presentaciones descargables. Además, los datos a nivel escuela de todas los planteles del país, o de cada estado por separado, están también disponibles para el público (uno a la vez). Los reportes de resultados que genera la página web no describen las característi-cas de la prueba, no aclaran lo que ésta mide y no puede medir, ni las decisiones que se pueden basar en los resultados. Tampoco se presentan usos propuestos de los resultados, ni se incluye información y sugerencias explícitas para minimizar la incidencia de interpretaciones equivoca-das o usos inapropiados de los resultados. Se debe notar que esta información sí se ofrece de forma repetida en los manuales, folletos, y otros documentos informativos tanto impresos como en la página web. Sin embargo, el manual técnico establece que los informes deben contener ese tipo de información (pág. 75), y esto no se da en la práctica.

Page 129: Analisi s prueba enlace ems 2015

129Validez de usos y consecuencias

Informes de resultados a nivel alumna/alumno

Estos se dirigen explícitamente a padres y estudiantes y tienen el propósito principal de dar a conocer los temas que requieren reforzamiento, para mejorar así las competencias del estudian-te en las áreas testeadas. Los estudiantes y padres pueden acceder a la información a través de la página web de la SEP, opción “Resultados por alumno ENLACE-MS 2013” ingresando el número de folio o CURP. Se ofrecen los resultados de cada alumna/alumno, en comparación con los alcanzados por alumnos del estado y del país en escuelas con el mismo sostenimiento, modalidad y grado de marginación. Además, se entregan descripciones de los niveles de des-empeño. Se pueden consultar todas las preguntas de la prueba con la respuesta elegida por el estudiante, la opción correcta, y lo que significa en términos de habilidades. Los manuales presentan esta tarea de revisar los reactivos con su respuesta correcta como el principal objetivo del reporte individual, para que el sustentante pueda autodirigir su proceso de aprendizaje (Ma-nual para docente y directivos, 2014, pág. 46; Manual técnico 2013, pág. 75). Sin embargo, se debe pinchar en cada pregunta por separado y no existe una opción de impresión que contenga todos los reactivos con sus respuestas correctas y habilidades correspondientes. En un futuro se podría pensar en un formato que facilite la consulta e incentive este tipo de usos a nivel indi-vidual. Por otro lado, es destacable que la interpretación y uso de la información recibida para la mejora individual parece dejarse en gran medida al estudiante mismo, incluso en el sentido de diagnosticar las áreas y acciones necesarias de mejora (el reporte por alumno sugiere “Te recomendamos revisar los demás niveles para que conozcas los aspectos que debes mejorar”).

Informes de resultados para docentes y directivos a nivel escuela

Los reportes por escuela incluyen solo resultados numéricos en formato tabla, sin texto adicio-nal que facilite la interpretación y contextualización (con excepción del texto que describe los cuatro niveles de desempeño por asignatura), ni información sobre propósitos, y recomenda-ciones de uso. A través de la página web de la SEP los docentes y directivos pueden consultar los resultados detallados a nivel de cada pregunta de la prueba, además de tener acceso a las pruebas completas. Esta información está disponible a través de “ENLACE-MS”, “Resultados 2013 por Escuela”, ingresando el CCT de la escuela. De nuevo, no hay información textual adi-cional que ayude la correcta interpretación, excepto las descripciones generales de los niveles de desempeño.

Además de los informes sobre el desempeño de cada escuela, la página web permite acceso público a una base de datos que contiene los resultados a nivel plantel de cualquier estado, mu-nicipio, y localidad, ordenado por nombre de la escuela, o bien por niveles de desempeño. Esta base no se acompaña con ningún documento que permita interpretar y contextualizar los resul-tados, o conocer las características técnicas de los indicadores y comparaciones que se deriven.

Ni los reportes ni la página web ofrecen ejemplos o apoyo adicional para la interpretación co-rrecta de los resultados. Por ejemplo, no se dan ejemplos para ilustrar una interpretación con-creta y adecuada del nivel de logro alcanzado a nivel alumno en la asignatura de matemática, ni para la comparación que se sugiere entre resultado de un alumno específico y grupo, escuela, entidad y país. Se evidencia la falta de videos, animaciones, y otros elementos gráficos atracti-vos y eficientes que podrían ser efectivos para ofrecer ejemplos de buenas prácticas en el uso de resultados. En el caso de los reportes a los que acceda el docente, estos también podrían incluir

Page 130: Analisi s prueba enlace ems 2015

130

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

síntesis cualitativas y estudios de caso que puedan justificar y representar adecuadamente los usos de la prueba.

6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos

técnicos en lenguaje claro y comprensible para una audiencia general.

Como en el caso de los criterios anteriores, este se refiere a la manera en que los resultados de ENLACE-MS se comunican a una audiencia amplia de usuarios, incluyendo a padres y docentes de aula, por medio de los reportes y materiales correspondientes. Los informes de resultados por lo general evitan el uso de texto; los resultados se comunican utilizando tablas princi-palmente. Los niveles de desempeño de la prueba se describen de manera general y usando un lenguaje que se puede asumir es accesible para maestros y personas familiarizadas con el ámbito educativo. En otras secciones se cuestionó si los usos implementados son efectivos o adecuados, y se podría sugerir una combinación de formatos de comunicación para facilitar la adecuada interpretación de los resultados. Sin embargo, para efectos de evaluar este criterio los textos disponibles utilizan un lenguaje de nivel técnico bajo y parecen adecuados para este tipo de lector.

Esta valoración difiere por completo cuando se refiere a la interpretación y uso de los resulta-dos por parte de alumnos y padres de familia. Persiste la duda de si la mayoría de los padres puede manejar adecuadamente el portal Internet para acceder a la información disponible a nivel estudiante y escuela, e interpretarla correctamente para sacar conclusiones concretas y útiles sobre el desempeño de su hijo. Este grupo de usuarios se enfrenta a un texto que, por el contrario, es rico en jerga y pobre en descripción, y que es predecible resultara inexpugnable para muchos. Así, un padre cuyo hijo alcance el nivel tres de logro (bueno) en Lectura recibe la siguiente retroalimentación:

Identificas enunciados que sintetizan apartados de un texto. Seleccionas y distingues ele-mentos de información explícitos a lo largo de un artículo de divulgación científica, con base en un criterio específico (causa-efecto, comparación-contraste, concepto-ejemplo, problema-solución). Interpretas el significado de una figura retórica. Vinculas información que aparece en distintas partes del texto para reconocer el tema o asunto central. Recono-ces la función de recursos discursivos (opiniones, explicaciones que apoyan argumentos y descripciones) y elementos estructurales para inferir cuestiones implícitas, como la postura del autor, un contraargumento, el responsable de solucionar el problema planteado en una carta, entre otros.

Como se mencionó anteriormente es dudoso que el alumno o sus padres puedan interpretar y usar correctamente esta información para establecer acciones de mejora. En suma, el llamado a que se hace al alumno (“Te recomendamos revisar los demás niveles para que conozcas los aspectos que debes mejorar”) elude la responsabilidad del desarrollador y parece inadecuada o por lo menos insuficiente.

7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se des-

cribe el perfil y características de la población de referencia.

Page 131: Analisi s prueba enlace ems 2015

131Validez de usos y consecuencias

Dado que ENLACE-MS es una prueba voluntaria es relevante describir la población de referencia a la hora de conocer el desempeño de escuelas de un estado específico, al entregar información de comparación a escuelas, y también al entregar resultados para facilitar la comparación a nivel individual. Los informes de resultados entregan información breve respecto de los marcos de referencia (niveles de desempeño) para interpretar los resultados ENLACE-MS. El informe a nivel escuela solo entrega resultados de comparación a nivel entidad y nacional de escuelas con las mismas características (sostenimiento, modalidad y grado de marginación) pero no describe la población de referencia en términos de otras características relevantes. Se ofrece en cambio do-cumentación adicional bastante detallada que describe los marcos de referencia de cada prue-ba; esta no se concibe desde la perspectiva de informar a los usuarios (estudiantes, docentes, directores) y parece más bien presentar el marco conceptual y de política que guía el desarrollo de la prueba para investigadores, evaluadores, y tomadores de decisiones. Por lo tanto se trata de apéndices del manual técnico más que de documentos que ayuden a la interpretación de los resultados por los usuarios.

8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas.

Se notan limitaciones y errores comunes de interpretación al comparar diferentes

pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas

que no den lugar a estigma.

Las autoridades federales y desarrolladores de la prueba refieren un énfasis en las políticas de difusión y uso dirigido a mantener el enfoque en usos diagnósticos de la prueba, y evitado expresamente usos considerados indebidos, como ordenamientos o rankings, asignación de incentivos, etcétera. Estos esfuerzos se reflejan primero en los manuales técnicos y del docente y otra documentación que los acompaña. Estos detallan los alcances y limitaciones de la prue-ba y explícitamente identifican los usos permitidos o correctos (por ejemplo, diagnóstico de fortalezas y debilidades a nivel de alumnos y escuelas) y advierten contra usos no justificados o incorrectos (como comparaciones entre escuelas o subsistemas).

En los informes de resultados para alumnos y escuelas se comunican los resultados en referencia al marco criterial base por un lado, y por otro, en comparación con los resultados de alumnos y escuelas del mismo estado, grado de marginación, modalidad y sostenimiento. No se entrega información para otros subgrupos que podrían resultar relevantes, por ejemplo, por sexo, per-tenencia a grupos indígenas, o nivel socioeconómico dentro de las escuelas. Como se mencionó anteriormente, tampoco se justifica o discute la selección de estas variables para formar los sub-grupos dentro de los que se reporta a las escuelas. Tampoco se ofrecen a los alumnos ejemplos de errores comunes de interpretación a evitar; peor aún, no se ofrece este tipo de ejemplos a los docentes, aunque en principio parecen muy útiles para evitar que se tomen decisiones injustificadas en el aula.

La página web ofrece algunos contenidos (por ejemplo, sobre las características de la prueba, y preguntas frecuentes) que aclaran algunas interpretaciones incorrectas y errores comunes, o comentan limitaciones de los datos. También se insiste en ser cauto respecto de las conclu-siones que se pueden sacar con base en los datos sobre la calidad educativa. Sin embargo, no hay ninguna mención de estos temas en los informes mismos; No se aclara porque sería

Page 132: Analisi s prueba enlace ems 2015

132

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

inadecuada una comparación entre estados o subsistemas con una prueba de corte censal y criterial, por ejemplo.

D. Interpretaciones, usos y consecuencias imprevistas

9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque

no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identi-

ficar y acotar los más factibles o probables)

Como se mencionó en secciones anteriores, los resultados de la encuesta y el grueso de la evidencia disponible sugiere que se están incrementando el uso de la prueba ENLACE-MS para propósitos que no se prevén o incluso expresamente se proscriben en el manual técnico. La información en el cuadro 5.6 presenta puntos que se reiteran en el manual técnico 2013 en las páginas 74, 78, 84, 85 y en el manual para los docentes y directivos. Por ejemplo, dice que “el personal del CENEVAL también hace énfasis en los alcances y limitaciones de la prueba, en todos los comités que se organizan durante el desarrollo y mantenimiento de la prueba, pidiendo a los participantes que socialicen la información para evitar malos usos de los datos y garantizar la validez de las interpretaciones de la misma evaluación (estándar 5.10).” (pág. 74)

Cuadro 5.6 Usos indebidos de ENLACE-MS

El diseño y propósitos de la prueba ENLACE-MS se limitan a la emisión de un diagnostico general para el sustentante, por lo que es inadecuado derivar conclusiones acerca de la EMS, los subsistemas, las escuelas o el desempeño de las entidades federativas. Es importante hacer hincapié en los alcances y limitaciones de la prueba ya que utilizar los resultados de la evaluación para fines contrarios ocasionaría interpretaciones carentes de validez (estándar 1.1). La prueba ENLACE-MS no sirve para hacer comparaciones entre alumnos, entre escuelas o entre subsistemas; solo responde a los propósitos para los que fue creada (proporcionar un diagnóstico individual, elementos que contribuyan a la mejora del sistema educativo y retroalimentación para maestros, planteles y padres de familia). Las decisiones que se tomen a partir de los resultados deben considerar cuida-dosamente el contexto de la evaluación y las condiciones de cada escuela, por lo que no es válido sacar conclusiones sobre el mejor o peor subsistema, plantel o plantilla docente.

Fuente: Manual Técnico, 2013, pág. 30-31

El manual para docentes y directivos hace mención del entrenamiento de preguntas ENLACE-MS como un uso no deseado (pág. 45). También se menciona la autopromoción de la escuela usando los resultados de la prueba como un uso no adecuado, “porque la valoración de es-cuelas requiere de la suma de más y diferentes metodologías de medición. El hecho de que sea posible consultar los resultados de cada escuela no implica que deban compararse entre ellos, tanto porque cada centro tiene sus condiciones particulares en cuanto a número de alumnos, tipo de sostenimiento, modalidad, etcétera, como porque los resultados positivos o negativos

Page 133: Analisi s prueba enlace ems 2015

133Validez de usos y consecuencias

pueden deberse a multitud de variables que no están relacionadas con la calidad del plantel en sí” (pág. 85).

Sin embargo, existe en la página web la posibilidad de hacer una consulta para el “ordena-miento de escuelas por nivel de dominio”. Por ejemplo, para un municipio o una localidad se da una lista de las escuelas con sus respectivos resultados, en forma de una tabla simple, con información adicional sobre el turno, sostenimiento, modalidad y grado de marginación, pero sin haberlas controlado. Esta tabla permite la comparación entre las escuelas de una misma localidad o municipio sin haber controlado por la influencia de variables de contexto. O sea, se permite justamente la comparación que en el manual técnico 2013 se había explícitamente prohibido (ver pág. 75).

10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/

positivas, o inadecuadas/negativas).

Como se mencionó anteriormente a nivel nacional se dan una gran variedad de usos a los resultados de la prueba ENLACE. Sin embargo, hasta donde tenemos conocimiento, no se realiza un monitoreo sistemático de usos o consecuencias previstas o imprevistas, ni se busca sistemáticamente evidencia para evaluar el grado en que usos y/o consecuencias podrían ser inadecuadas o perniciosas. La evidencia disponible sugiere, en cambio, que algunos de los usos que expresamente se identifican como inapropiados en la documentación de la prueba se están extendiendo en los estados, subsistemas, y escuelas, a medida que la prueba adquiere mayor visibilidad y se promueven indirectamente usos de mayor impacto en los estados. Más aún, en algunos casos los esfuerzos y prácticas implementadas, incluso a nivel federal, parecerían contravenir directamente los lineamientos de uso establecidos en los manuales de la prueba. Concretamente se pueden mencionar dos ejemplos de uso que se promueven abiertamente y contrastan con el espíritu o incluso la letra del manual técnico de ENLACE-MS: uno concierne a la promoción y comparación de escuelas, y el otro a las prácticas de enseñanza enfocadas a los contenidos de la prueba.

La iniciativa para proporcionar carteles impresos a las escuelas que los soliciten para que difun-dan y promocionen sus resultados a su comunidad parece directamente contraria en espíritu a la llamada explícita en el manual técnico a evitar la autopromoción de las escuelas, porque esta generalmente va en detrimento de una valoración y comparación contextualizada de escuelas y sistemas.

Asimismo, los grandes esfuerzos desarrollados para ofrecer tutoría y otro tipo de asistencia e intervención orientada a remediar las deficiencias detectadas en los alumnos en las pruebas PreENLACE, parecen contravenir en principio los llamados del manual para evitar rutinas de preparación, práctica, o enseñanza enfocada a incrementar los resultados de la prueba. La documentación de la prueba alude con frecuencia a la importancia de privilegiar los usos más amplios y formativos. En la práctica, sin embargo, el grueso de la evidencia de entrevistas con autoridades e incluso los documentos impresos consultados sugieren que es precisamente este tipo de uso (uno mucho más delimitado y dirigido específicamente a mejorar los puntajes de la prueba) el que se está extendiendo más rápidamente, de la mano de políticas o inercias de promoción y uso de resultados de mayor impacto directo o indirecto para escuelas y subsiste-mas. En las entrevistas en algunos casos se alude —y en otros expresamente se acepta— que

Page 134: Analisi s prueba enlace ems 2015

134

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

se enfocan los esfuerzos en practicar ítems de ENLACE para mejorar el rendimiento en la prue-ba. Asimismo, la SEMS promueve expresamente mecanismos de uso como el sensibilizar a los padres y alumnos sobre la importancia de la prueba, talleres para alumnos sobre resolución de reactivos tipo ENLACE, detección y tutoría a alumnos con bajo desempeño en la prueba Pre-ENLACE y otros varios que, en el mejor de los casos, no parecen contribuir a los objetivos de la prueba, o incluso pueden estar en oposición directa a estos.

11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado

y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar

acciones correctivas.

Evidentemente no se espera que el equipo técnico encargado del diseño psicométrico y de contenidos de la prueba pueda corregir usos inapropiados que están lejos de su alcance o conocimiento, o que involucran actores políticamente poderosos, y en ausencia de recursos materiales y humanos, herramientas legales, y voluntad política para tomar medidas correctivas. Sin embargo, es importante recordar que el actor responsable se define en este estudio de forma más amplia. En concreto, la SEP y la SEMS controlan en gran medida tanto el desarrollo como el uso de la prueba y por tanto tienen un gran alcance en teoría para establecer y promo-ver usos adecuados y consistentes con los esperados, y monitorear, limitar y corregir los que no lo sean. La evidencia disponible apunta a la necesidad de un esfuerzo de reflexión importante que considere los usos previstos y deseables de la prueba y los contraste con los usos que se extienden en la práctica en las escuelas, e incluso los que el sistema está promoviendo directa o indirectamente con sus diversas iniciativas y políticas.

CONCLUSIÓN

Este capítulo presenta un análisis de la documentación disponible de la prueba ENLACE-MS, así como materiales adicionales proporcionados por la autoridad educativa (SEP) y el organismo desarrollador de la prueba (CENEVAL), y por ultimo encuestas y entrevistas con autoridades estales que constituyen el mecanismo principal de uso de los resultados. El análisis muestra patrones contradictorios y en algunos casos preocupantes de uso de la prueba en relación con sus objetivos y diseño. En primera instancia encontramos que la documentación se limita a de-tallar el proceso de desarrollo de la prueba (por ejemplo generación, revisión y piloteo de ítems, especificaciones) pero no refleja un esfuerzo paralelo por ofrecer fundamento teórico, lógico, o práctico para los usos propuestos. La documentación disponible acusa una gran falta de cla-ridad y especificidad en cuanto al marco teórico de la prueba, y sobre todo en relación con los objetivos que esta persigue, y los mecanismos de uso que se proponen para lograr estos objeti-vos. Es aparente la falta de alineamiento entre el modelo lógico y objetivos de la prueba por una parte, y su diseño, implementación y uso dentro del sistema educativo, por la otra. Falta soporte lógico para los usos propuestos de tipo formativo a nivel del estudiante individual y su familia, dado que esta prueba se aplica al final de la educación media superior, cuando los alumnos ya poco pueden hacer para mejorar sus conocimientos y habilidades: un alumno que buque utilizar los resultados, se enfrenta además a la falta casi total de soporte que le permitiera informar reflexiones y esfuerzos de mejora. Al nivel de los docentes, la documentación acusa una falta

Page 135: Analisi s prueba enlace ems 2015

135Validez de usos y consecuencias

casi completa de información sustantiva y técnica que fundamente y guíe los usos formativos a nivel de aula y escuelas que se proponen. Por otro lado los mecanismos de comunicación de resultados impiden por definición tales usos, ya que la información se hace llegar a los docentes al inicio del año escolar siguiente y agregada al nivel de la escuela, con lo que no es posible conocer el desempeño último de los alumnos que estuvieron bajo su supervisión.En síntesis, el escenario que se presenta en esta sección hace difícil imaginar que la retroali-mentación que ofrece el sistema pueda en efecto derivar en procesos significativos de reflexión y mejora a nivel de estudiantes, familias, o docentes individuales. Por lo tanto no sorprenden las estadísticas de acceso y otras evidencias empíricas reflejan un bajísimo interés de quienes en teoría son los usuarios principales de la prueba. Aunque no son sorpresivos, los resultados si apuntan a un problema estructural en el diseño de la prueba. El usuario/autoridad (SEP) y el desarrollador deben considerar la fundamentación misma del modelo lógico de ENLACE-MS en lo que respecta al uso por parte de alumnos y docentes puesto que parece evidente que los supuestos de uso más que desalineados, están fundamentalmente en contraposición con la realidad operativa de una prueba cuyos resultados se conocen cuando los estudiantes ya han finalizado sus estudios, y que no llegan a 95% de los usuarios.

Se encontró también una falta casi total de seguimiento sistemático de usos y sobre todo de las consecuencias de la prueba. En la práctica, la información sugiere que se están extendiendo a gran velocidad usos que se basan en la comparación de resultados a nivel de las escuelas y subsistemas educativos. La evidencia que se recabó en este estudio por medio de la encuesta y entrevistas con autoridades estatales ofrece evidencia amplia de usos no previstos para los que no hay justificación técnica o que expresamente se identifican como perniciosos en el manual, como lo son las comparaciones de alto impacto, las dinámicas de competencia, y la preparación de alumnos dirigida a aumentar los puntajes de la prueba. En algunos casos, las medidas y programas que están promoviendo e implementando los sistemas educativos —tanto federal como estatales— contravienen directamente el espíritu y la letra del manual técnico. Al mismo tiempo es de lamentar que se haya dado poca o nula atención a promover usos que también se consideran de alta prioridad, y que en principio no solo están completamente justificados sino que se pueden promover fácilmente, como el análisis detallado de las bases de datos con miras a mejorar el entendimiento de factores asociados al logro al nivel del estudiante, el aula, la escuela y el sistema. Parece importante y prioritario implementar medidas para incrementar la producción de estudios técnicamente sofisticados que empleen los resultados de la prueba.

Page 136: Analisi s prueba enlace ems 2015

136

Conclusiones

Las principales conclusiones del informe se sintetizan en los apartados siguientes, que corres-ponden a los del informe mismo.

ALINEACIÓN DE LAS PRUEBAS CON SUS REFERENTES

Se contó con documentación que da cuenta de lo que se hizo para precisar un marco teórico para la prueba ENLACE-MS, con la dificultad que implicó el partir de una gran variedad de planes de estudio y luego la transición al Marco Curricular Común definido para la RIEMS. El resultado, en consecuencia, no tiene la claridad y precisión deseables y presenta ambigüedades que ayudan a definir con claridad el constructo a evaluar. Esto impacta el diseño de la estructura de la prueba, el desarrollo de las especificaciones de ítems y la elaboración de los mismos.

La información recibida inicialmente sobre un análisis que precise subdominios, contenidos, competencias y niveles de demanda cognitiva a cubrir, se reducía a tablas muy generales, por lo que se solicitó información más específica. Los documentos adicionales recibidos incluyen as-pectos de las subáreas de las dos áreas evaluadas, y en algunos casos información más detallada pero no sistemática sobre contenidos,. No se observa una verdadera estructuración del dominio de contenido, más allá de enunciados simples a manera de objetivos de aprendizaje.

Respecto del perfil y la conformación de los comités de especialistas a cargo del análisis curri-cular y la estructuración del dominio del contenido a evaluar, se menciona al Comité Acadé-mico Diseñador como responsable de dichas tareas, y la participación del Consejo Técnico. Las funciones generales y diversas de este último y el perfil de sus integrantes, sin embargo, hacen poco probable que haya funcionado como un comité técnico que validara los análisis curricu-lares y la estructuración del dominio a evaluar en la prueba. Al parecer, el Comité Académico Diseñador hizo tanto el análisis curricular y la estructuración del dominio del contenido que se evalúa, como el diseño de las especificaciones para producir los ítems, y el Comité Académi-co Validador de Especificaciones no solo validó las especificaciones de ítems, sino también el análisis curricular y la correspondiente estructuración del dominio del contenido a evaluar que fueron realizados.

Por otra parte, además del reducido número de integrantes de los comités académicos valida-dores de especificaciones y de su falta de representatividad —ya que pertenecen solo a pocas instituciones de la Ciudad de México— esta forma de proceder no es la que se sugiere en la literatura especializada en cuanto a las prácticas que son necesarias para efectuar el análisis curricular y la detección y estructuración del contenido a evaluar.

Page 137: Analisi s prueba enlace ems 2015

137Conclusiones y recomendaciones

Respecto a la forma en que se definieron las especificaciones de la prueba, si bien el manual técnico de 2008-2010 de ENLACE-MS establece su importancia, ni en la información inicial ni en la recibida después se encontró un documento de especificaciones adecuadas para producir los ítems. Los elementos encontrados son demasiado generales e inconsistentes y están incor-porados a la tabla de especificaciones del examen, por lo que no corresponden con lo que se detalla en la literatura especializada para dichas especificaciones como elementos necesarios para propiciar y asegurar la producción de ítems válidos, equivalentes y efectivos.

En cuanto a la determinación de la importancia relativa de contenidos o el análisis de las uni-dades del dominio curricular y su densidad diferencial, no se observó en la documentación dis-ponible el uso de algún procedimiento específico o criterio para determinar cuáles contenidos constituyen blancos curriculares de primer orden o para ponderar la densidad diferencial de los contenidos para decidir lo que es importante evaluar. Existen elementos que ilustran que los constructores de la prueba fueron conscientes de esos aspectos; sin embargo, los procedimien-tos o criterios utilizados para decidir en cada situación no fueron explicitados.

Respecto a los procedimientos o criterios para asegurar la representatividad de los ítems y subescalas de la prueba respecto al dominio definido y sus subdominios, el manual aclara que ENLACE-MS se enfoca solo a algunos aspectos del MCC y no a todos, en particular aquellos que los grupos de expertos consideraron representativos de las competencias básicas de dos cam-pos disciplinares, lo que fue validado por un comité académico y luego aprobado por el Consejo Técnico, con el criterio de asegurar que la prueba incluyera una muestra representativa de lo que todo bachiller debe dominar de esas subáreas del MCC. Para ello los reactivos de la prueba cubren toda la gama de procesos cognitivos que se indican en su estructura, por lo que evalúan contenidos que exigen un desarrollo básico, intermedio y avanzado de competencias básicas.

En cuanto a la complejidad cognitiva efectivamente cubierta por la prueba respecto de la pla-neada, se hicieron dos estudios para tener evidencias respecto a la alineación y niveles de demanda cognitiva de la prueba en relación con el perfil referencial. Un estudio se basó en estrategias de análisis de contenido, basadas en juicios de comités de expertos, y otro en entre-vistas cognitivas con alumnos.

Respecto a la prueba de habilidad lectora, el estudio basado en juicios de comités de profesores experimentados y otros especialistas, encontró bastante similitud entre la distribución de los ítems por proceso cognitivo según lo establecieron los responsables de la prueba y la distri-bución que se derivó de los juicios del comité del estudio especial, lo que puede interpretarse como evidencia de validez de contenido y de constructo. En el caso de la habilidad matemática se observa una distribución de los ítems similar solamente en las categorías de Reproducción y Conexión, pero no en la mayoría de los ítems de la categoría de Reflexión.

En el estudio basado en entrevistas cognitivas, en la documentación del marco referencial de ENLACE-MS se identificaron 15 niveles de complejidad cognitiva en la prueba de habilidad lec-tora y nueve en la de Matemáticas. En habilidad lectora, de 18 reactivos analizados tres están sobreestimados en cuanto al nivel de complejidad que se plantea en las especificaciones; uno está sobresimplificado y dos no evalúan el proceso cognitivo que deberían evaluar. En Mate-máticas solo dos de los 18 reactivos analizados fueron congruentes con la estructura teórica declarada en el marco de referencia de la prueba.

Page 138: Analisi s prueba enlace ems 2015

138

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

En cuanto a la elaboración de ítems y el manual que se utilizó para ello, la documentación revisada muestra que el documento de referencia describe y da ejemplos de todos los tipos de reactivos que tienen las pruebas e indica cómo clasificarlos y justificarlos. No parece, sin embar-go, que el manual haya sido desarrollado especialmente para ENLACE-MS para tener en cuenta sus particularidades, sino que parece un manual genérico o tomado de otro sistema de evalua-ción, lo cual no es aceptable tratándose de una prueba de alcance nacional y con propósitos y especificaciones muy particulares que deben ser destacadas de manera precisa a los usuarios.

Los lineamientos que aparecen en el documento resultan generales, incompletos y poco explí-citos para orientar el desarrollo de ítems efectivos. Por otra parte, hay razón para temer que la capacitación ofrecida a los responsables de elaborar ítems es insuficiente; se señala que en 2013 la duración de los talleres con ese propósito fue de solo tres horas, en una sesión.

La documentación revisada no deja claro el perfil de los elaboradores de ítems, ni si fueron distintos de los revisores; pero es seguro que se contó con un sistema de clasificación cognitiva para orientar el desarrollo de los ítems, aunque no se sabe cómo o cuándo recibieron dicha información los elaboradores de ítems.

En cuanto al análisis de los ítems elaborados, y los criterios para su aceptación, revisión o modi-ficación, se trata de tareas a cargo de comités ad hoc y, aunque no se dan detalles sobre dónde o cuándo reciben la documentación completa con los productos de la planeación de la prueba previamente elaborados, puede decirse que los comités de validación contaron con la informa-ción necesaria que guiara la formulación de sus juicios sobre los ítems.En conjunto, puede afirmarse que los procedimientos de revisión de ítems son realizados por comités diferentes de los responsables de su elaboración, y que cuentan con un perfil razonable y con información suficiente. Las evidencias aportadas, sin embargo, son muy generales, no pudiendo apreciarse en detalle la forma específica en que se desarrollaron los diversos pasos de estos procesos.

ASPECTOS TÉCNICOS

Los criterios analizados con respecto a la prueba ENLACE-MS indican fortalezas esperables, que incluso deben considerarse indispensables en una prueba de alcance nacional, y que coinciden con aspectos positivos señalados ya en un informe anterior para el caso de ENLACE-B.

Entre los puntos a mejorar que se identificaron, el primero se refiere a la documentación de los aspectos relevantes de la prueba, necesaria para contar con elementos de juicio completos y certeros de apoyo a cualquier persona interesada. En este sentido debe decirse que el contenido y el diseño de los dos manuales técnicos que se han producido para ENLACE-MS es muy hetero-géneo, ya que en ocasiones incluye elementos técnicos muy puntuales, aspectos de divulgación apropiados para un lector no especializado y otros puntos que explican la metodología seguida de manera superficial.

Las limitaciones señaladas en el apartado relativo a alineación a los referentes, respecto al marco teórico y a la definición de las competencias, ocasionan dificultades en el desarrollo de

Page 139: Analisi s prueba enlace ems 2015

139Conclusiones y recomendaciones

los puntos técnicos de validez de constructo, de criterio y de escala, que no se justifican sufi-cientemente.

La mezcla indiscriminada de modelo clásico y de TRI es un punto importante a corregir. No es criticable manejar solo uno u otro de estos modelos, ni tampoco emplearlos conjuntamente de manera apropiada. El problema es que se combinan en forma incorrecta los parámetros y la definición de los intervalos de aceptación de los ítems o de la prueba.

No hay datos métricos de las subescalas (Comprensión lectora y Matemáticas), ni del error de medida general de ellas, salvo una media general en porcentaje de aciertos para cada subesca-la; esto puede fundamentarse en el hecho de que la TRI solo produce medidas de cada persona dependientes del conjunto de reactivos, pero no se enfoca a producir el error de medida gene-ral de la prueba. Si se acepta este argumento, entonces no es aceptable que falte la validación del error en los puntos de corte de todas las pruebas (solo se tienen en algunas), los cuales son obligatorios en la TRI una vez determinada la función de información.

Respecto a puntos de corte, los manuales no siempre reportan el dato y cuando lo hacen se reporta una precisión no comprobable con elementos objetivos, lo cual no aporta un sustento sólido para garantizar la equivalencia o equiparación de las pruebas aplicadas en un mismo año ni a través del tiempo. Los puntos de corte debieron revisarse en 2011 al cambiar las pruebas, y no mantenerlos constantes.

La carencia de estudios de fuentes de sesgo, funcionamiento diferencial de ítems o funciona-miento diferencial por grupos de personas, no apoya a la revisión de las pruebas e impacta lo que se afirma en los capítulos relativos a la influencia de factores culturales, así como a las consecuencias que puede tener esta prueba.

La falta de evidencias sobre bancos de ítems, y el no disponer de sus inventarios no permiten juzgar acerca de su calidad. Hay poca información sobre los sistemas informáticos de almacena-miento de los ítems y de la generación de pruebas.

Sin desconocer otros elementos positivos, las deficiencias señaladas incluyen aspectos relevan-tes que parece indispensable corregir en una prueba del alcance de ENLACE-MS.

ATENCIÓN A LA DIVERSIDAD

Las deficiencias detectadas en cuanto a los criterios de este grupo incluyen que, aunque se encuentra una conceptualización de los contenidos evaluados, no se considera la posible in-fluencia en los resultados de los aspectos lingüísticos o culturales. La información sobre perfil de los estudiantes, modalidad educativa y tamaño de la localidad permite hacer análisis que consideren esos factores, pero la organización de la pruebas no refleja un diseño que considere expresamente la diversidad del país. En el desarrollo de la prueba no se considera tipo y grado de bilingüismo de los estudiantes, a los que se trata como si todos fueran plenamente compe-tentes en español, sin tomar en cuenta si esta es o no su lengua materna.

Page 140: Analisi s prueba enlace ems 2015

140

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

Las especificaciones para desarrollar ítems no tienen la precisión suficiente para que puedan controlarse bien sus características gráficas, textuales y contextuales y no se encontró evidencia de que en el desarrollo de la prueba hayan participado especialistas en disciplinas como la lin-güística y la antropología.

Tampoco hay evidencia de que el pilotaje de las pruebas se haga con muestras representativas de grupos culturales, lingüísticos y socioeconómicos diversos, ni de que se hagan entrevistas para aportar evidencia de validez cognitiva en general o entrevistas cognitivo-culturales que analicen si la forma en que los estudiantes interpretan los ítems está influida por factores lin-güísticos y culturales.

En el desarrollo de las pruebas no parecen hacerse revisiones de aspectos como contenido, estilo, aspectos lingüísticos y posibles fuentes de sesgo cultural. No se encontró indicación de que se hayan efectuado los análisis apropiados para examinar el funcionamiento diferencial de los ítems, en grupos poblacionales definidos por factores étnicos, culturales, socioeconómicos o de género.

Con base en los microanálisis realizados, resulta evidente la importancia de considerar en el futuro análisis de sesgo que incluyan no solo factores culturales y de diversidad lingüística, sino también factores regionales y socioeconómicos.

No parecen haberse efectuado estudios de generalizabilidad para examinar confiabilidad y va-lidez con respecto a lengua, o para comparar el desempeño de distintos grupos culturales, lingüísticos y socioeconómicos. Tampoco se encontró evidencia de que se prevea la necesidad de ajustar tiempos o calendarios de aplicación de las pruebas en función de la geografía o las condiciones climáticas de las diferentes regiones del país.

No parece haber procedimientos para eliminar ítems con sesgo, ni estrategias y mecanismos de corrección de sesgo por factores como el género, la edad, los antecedentes escolares, la condi-ción lingüística del hogar o el perfil laboral del estudiante y su familia, aunque los cuestionarios de contexto recaban información sobre tales factores.

El microanálisis permitió identificar fuentes potenciales de sesgo lingüístico y cultural en algu-nos de los reactivos analizados. Esas fuentes de sesgo podrían reconocerse y corregirse con un mecanismo formal de revisión y de corrección de sesgo potencial.

Para terminar, y en forma similar a lo señalado en relación con las pruebas que se revisaron anteriormente, a pesar de la presencia de elementos positivos en las pruebas ENLACE-MS los aspectos culturales y lingüísticos no se atienden de manera suficiente y sistemática.

Se reitera que hay conciencia de que la gran diversidad cultural y lingüística de la población mexicana y las limitaciones de recursos hacen prácticamente imposible incluir en los estudios piloto muestras de estudiantes pertenecientes a todos los grupos étnicos y lingüísticos del país. Se subraya que, con mayor énfasis aún que en lo relativo a educación básica, la atención ade-cuada de la diversidad lingüística en pruebas para educación media superior no debe enten-derse como recomendar que se traduzcan a lenguas indígenas, no solo porque eso es largo, costoso y difícil de implementar correctamente, sino porque en este nivel educativo la lengua de instrucción es, masivamente, el español.

Page 141: Analisi s prueba enlace ems 2015

141Conclusiones y recomendaciones

APLICACIONES

En la valoración de los criterios de este apartado se identificaron fortalezas relacionadas con la definición de procedimientos para la aplicación en campo. Las áreas de oportunidad más importantes que se reconocen, son la precisión de algunos procedimientos, su estandarización y documentación, en especial en lo relativo al reclutamiento y capacitación del personal de apli-cación, así como respecto a la preparación de los datos y su manejo antes de que se proceda al análisis y reporte de la información.

Se juzga necesario que se desarrollen herramientas estandarizadas, con el soporte técnico apro-piado a la escala del proyecto, para dar seguimiento a los procedimientos que tienen lugar an-tes, durante y después de la aplicación. El “Instructivo para la elaboración, ejercicio y comproba-ción del gasto operativo” que la SEP envía a las entidades federativas se podría aprovechar para generar estrategias operativas estandarizadas de forma que, además de controlar los costos, la experiencia adquirida apoye la construcción de conocimiento en la materia. Lo anterior apoyaría a elevar la calidad de las aplicaciones.

También se considera necesaria la incorporación de algoritmos de detección de fraude, aunque la prueba sea de bajo impacto, para asegurar la calidad de la medición, toda vez que sus resulta-dos son puestos al servicio de la comunidad educativa y debe enfatizarse la transparencia. Para los casos en los que se detecte fraude, podría estudiarse la aplicación de una medida adminis-trativa como la no publicación de resultados para una escuela específica que esté involucrada.Conviene también reconsiderar la extensión del cuestionario de contexto para alumnos, ya que podría implicar una carga excesiva. Igualmente, es fundamental analizar el uso dado a la infor-mación recolectada a través de este instrumento.

USOS Y CONSECUENCIAS

El análisis de los criterios relacionados con este apartado identificó patrones contradictorios, y en algunos casos preocupantes, del uso de la prueba en relación con sus objetivos y diseño. La documentación de la prueba se enfoca principalmente a detallar el proceso de desarrollo de esta y de los ítems que la componen, pero no refleja un esfuerzo por ofrecer fundamento teórico, lógico, o empírico para los usos propuestos. El marco de la prueba es poco claro y es-pecífico, sobre todo en cuanto a objetivos y mecanismos de uso de resultados que se proponen para alcanzarlos.

En particular, la documentación de ENLACE-MS acusa una falta casi completa de información y evidencia que fundamente y guíe la variedad de usos formativos que se proponen, tanto al nivel de aula y escuela (por parte de docentes y directivos), como para estudiantes y sus familias en lo individual. En realidad, el diseño mismo de la prueba, y la forma en que se comunican sus resultados impiden de entrada tales usos, ya que se ofrece a los docentes al inicio del año escolar siguiente y en forma agregada al nivel de la escuela, con lo que no es posible conocer el desempeño último de los alumnos que estuvieron bajo su supervisión. Por otro lado los resulta-dos se hacen llegar a los estudiantes cuando estos ya han finalizado sus estudios de bachillerato.

Page 142: Analisi s prueba enlace ems 2015

142

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

En síntesis, es difícil imaginar que la retroalimentación que se ofrece pueda en efecto generar procesos significativos de reflexión y mejora por parte de alumnos, familias, docentes, o direc-tores. Las estadísticas de acceso y otras evidencias reflejan el bajo interés de quienes en teoría son los usuarios principales de las pruebas, lo que refuerza la teoría de un problema estructural en su diseño.

Se encontró también una falta de seguimiento sistemático de usos y consecuencias de la prue-ba. La información recabada sugiere que, contrario a lo que establece el manual, se están extendiendo usos que se basan en la comparación de resultados al nivel de las escuelas y sub-sistemas educativos. La encuesta y las entrevistas con autoridades estatales ofrecen evidencia de usos no previstos para los que no hay justificación técnica o que expresamente se identifican como perniciosos, como comparaciones de alto impacto, dinámicas de competencia, y esfuer-zos extensos y sistemáticos de preparación de alumnos dirigidos a aumentar los puntajes de la prueba. En estos casos las medidas y programas que se están promoviendo contravienen direc-tamente no solo el espíritu, sino la letra misma del manual técnico. En cambio se ha dado poca o nula atención a promover usos que además de ser justificados, serian comparativamente muy fáciles de implementar, como el análisis de bases de datos para profundizar el entendimiento de factores asociados al logro. Se encontró un número muy reducido de estudios publicados que avancen una agenda de investigación en este sentido.

Por último, y contrastando con las preocupaciones anteriores, la información recabada muestra gran interés por parte de autoridades federales y estatales en usar los resultados de la prueba para informar y motivar esfuerzos importantes de mejora educativa. Se percibe además un cre-ciente interés por parte de los subsistemas educativos que permea las practicas escolares y está alcanzando incluso a los padres de familia, a quienes se involucra en los esfuerzos de mejora que emanan de ENLACE-MS (incluyendo preparación para la prueba). Estos procesos muestran el creciente interés social en la mejora de la calidad y resultados que produce el sistema educa-tivos, y en ese sentido se podrían considerar como valiosos en sí mismos. Sin embargo, como se menciona en este apartado, el seguimiento de usos y consecuencias es importante para asegurar que no se den procesos poco productivos o incluso perniciosos de uso de los datos de la prueba.

CONSIDERACIONES FINALES

Para terminar, se reitera que las apreciaciones hechas se basan en la información disponible y en los tiempos comprometidos. Es posible que haya información adicional o que la revisión haya sido insuficiente. Los señalamientos deberán ser analizados por las instancias competentes, para corroborarlos o corregirlos.

Como se ha señalado en la introducción, los análisis y los juicios que se retoman en forma sin-tética en estas conclusiones se refieren siempre al objeto de estudio, y no pueden entenderse como apreciaciones sobre las personas involucradas en el desarrollo de las pruebas, su aplica-ción y el procesamiento de resultados.

Las limitaciones de las pruebas pueden deberse a circunstancias diversas, incluyendo la com-plejidad misma de la tarea y los tiempos en que debió realizarse, y pudieron haberse producido

Page 143: Analisi s prueba enlace ems 2015

143Conclusiones y recomendaciones

pese a los mejores esfuerzos por parte de sus autores. Con esta salvedad, si las limitaciones que se detectaron y se señalan en este documento son reales, las circunstancias que puedan explicarlas no deben impedir que se señalen con claridad.

A esta consideración debe añadirse que, como en otras pruebas, la información sobre su desa-rrollo, aplicación, y uso de sus resultados, no es siempre completa ni fácilmente accesible. Una documentación completa, detallada, y asequible, es condición necesaria para apoyar esfuerzos de mejora continua en el desarrollo de sistemas de evaluación. En el caso de ENLACE-MS, el acceso a elementos importantes de la documentación necesaria se dificultó por las prácticas de manejo de información por parte de la instancia contratada por la SEP para el desarrollo de esta prueba. En algunos casos los lineamientos de este organismo, con el argumento de salva-guardar la seguridad de la misma, no permitían acceso a la información técnica necesaria para un análisis detallado de la prueba.

A nuestro juicio, este tipo de argumentos es erróneo, y claramente incompatible con las prác-ticas generalmente aceptadas por las instancias especializadas más reconocidas internacional-mente. Estas normas establecen por un lado, el riguroso control y salvaguarda de datos de tipo personal o individual que pudiesen revelar la identidad de estudiantes, maestros, o incluso instituciones específicas; pero al mismo tiempo las normas profesionales establecen claramente criterios de amplia transparencia en lo que respecta a la información técnica de la prueba.

Page 144: Analisi s prueba enlace ems 2015

144

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior Referencias bibliográficas1

1 Este listado de referencias bibliográficas no incluye todas las que se citan en el texto.

American Educational Research Association, American Psychological Association y National Council on

Measurement in Education (1999). Standards for educational and psychological testing. Washington:

Autores.

Barriga, Rebeca (2005). Estudios sobre el habla infantil en los años escolares: Un solecito grandotote.

México: El Colegio de México. 

Basterra, M. Rosario, Trumbull, E., y Solano, G. (eds.) (2011). Cultural Validity in Assessment: Addressing

Linguistic & Cultural Diversity. Nueva York: Routledge.

Bertely, María, Dietz, Gunther, y Díaz Tepepa, María Guadalupe (2013). Estado del conocimiento: educa-

ción y multiculturalismo. México: Consejo Mexicano de Investigación Educativa.

Bond, T.G., y Fox, C.M. (2001). Applying the Rasch Model: Funda

mental Measurement in the Humans Sciences. Erlbaum: Laurence Erlbaum Associates, pp. 4-8.

Brennan, R.L. (1995). The conventional wisdom about group mean scores. Journal of Educational Measu-

rement in the Human Sciences, 14, pp. 385-396.

(2005). Some Test Theory for the Reliability of Individual Profiles (Research Report 12). Iowa: Center for

Advanced Studies in Measurement and Assessment-University of Iowa.

(2001). An Essay on the History and Future of Reliability from the Perspective of Replication. Journal of

Educational Measurement, 38(4), pp. 295-317.

Campbell, D.T. (1975). Cap. 1 Assessing the Impact of Planned Social Change. En Lyons, G. (ed.). Social

Research and Public Policies: The Dartmouth/OECD Conference (pp. 3-45). Hanover: The Public Affairs

Center-Dartmouth College.

CENEVAL (2012a). Manual técnico ENLACE Media Superior 2008-2010. México: Centro Nacional de Evalua-

ción para la Educación Superior.

(2012b). Nota técnica ENLACE Media Superior. México: Centro Nacional de Evaluación para la Educa-

ción Superior.

(2013a). Manual técnico ENLACE Media Superior 2011-2012. México: Centro Nacional de Evaluación

para la Educación Superior.

(2013b). Informe ganancia educativa 2010-2013 ENLACE-MS. México: Centro Nacional de Evaluación

para la Educación Superior.

(2014). Manual para docentes y directivos. ENLACE Media Superior 2014. México: Centro Nacional de

Evaluación para la Educación Superior.

Centro Nacional de Evaluación para la Educación Superior (2000). Estándares de calidad para instrumentos

de evaluación educativa. México: Autor.

Cizek, G., Bowen, D., y Church, K. (2010, mayo). Sources of Validity Evidence for Educational and Psycho-

logical Tests: A Follow-up Study. Ponencia en la reunión anual del National Council on Measurement

in Education, Denver.

Crocker, L., y Algina, J. (2004). Introduction to Classical and Modern Test Theory (2a. ed.). Nueva York:

Hott, Rinehart, and Winston.

Cronbach, Lee J. (1971). Test Validation. En Thorndike, R.L. (ed.). Educational Measurement (pp. 443-507).

Washington: American Council on Education.

(1988). Five Perspectives on Validity Argument. En Wainer, H., y Braun, H. (eds.), Test Validity (pp. 3-17).

Princeton: Institute for Educational Achievement.

Page 145: Analisi s prueba enlace ems 2015

145Referencias bibliográficas

Crooks, T.J., Kane, M.T., y Cohen, A.S. (1996). Threats to the Valid Use of Assessments. Assessment in

Education, 3(3): pp. 265-285.

Dawis, R.V. (1987). Scale Construction. Journal of Counseling Psychology, 34(4), pp. 481-489.

DGEP. Dirección General de Evaluación de Políticas (2014a). Instructivo para la elaboración, ejercicio y

comprobación del gasto operativo. México: Autor.

(2014b). Respuesta a información solicitada por el INEE.

Educational Testing Service (2000). Standards for Quality and Fairness. Princeton: Autor.

Feldt, Leonard S., y Brennan, R.L. (1989). Reliability. En Linn, R.L. (ed.). Educational Measurement (pp. 105-

146). Nueva York: American Council on Education / Macmillan.

Gaviria Soto, J.L., y Castro Morera, M. (2005). Modelos jerárquicos lineales. Madrid: La Muralla.

Haberman, S.J. (2008). When Can Subscores Have Value? Journal of Educational and Behavioral Statistics,

33, pp. 204-229.

Haertel, Edward H. (2006). Reliability. En Brennan, R.L. (ed.). Educational Measurement (pp. 65-110). Wes-

tport: American Council on Education / Praeger.

IEEEM. Instituto de Evaluación Educativa del Estado de México (2014a). Estrategia operativa para la aplica-

ción de ENLACE Media Superior 2014 de Estado de México.

(2014b). Monitoreo de ENLACE Media Superior 2014.

IFIE. Instituto de Fomento e Investigación Educativa (2009). Resultados para Preparatoria ENLACE 2009.

INEGI. Instituto Nacional de Estadística y Geografía (2010). XIII Censo de población y vivienda.

Johnson, J.A. (2004). The Impact of Item Characteristics on Item and Scale Validity. Multivariate Behavioral

Research, 39(2), pp. 273-302.

Kane, Michael T. (2006). Validation. En Brennan, R.L. (ed.) Educational Measurement (4a. ed., pp. 17-64).

Westport: American Council on Education / Praeger.

(2013). Validating the Interpretations and Uses of Test Scores. Journal of Educational Measurement,

50(1), pp. 1-73.

Ley General de Derechos Lingüísticos de los Pueblos Indígenas.

Linacre J.M. (2006). A User’s Guide to Winsteps. Recuperado de: winsteps.com

Lissitz, R. (ed.) (2009). The Concept of Validity. Charlotte: Information Age Publishing.

Messick, Samuel (1989). Validity. En Linn, R.L. (ed.). Educational Measurement (3a. ed., pp. 13-103). Nueva

York: American Council on Education / Macmillan.

(1998). Test Validity: A Matter of Consequence. Social Indicators Research, 45(1-3), pp. 35-44.

Moss, Pamela A. (2008). A Critical Review of the Validity Research Agenda of the NBPTS at the End of Its

First Decade. En Ingvarson, L., y Hattie, J. (eds.), Assessing teachers for professional certification: the

first decade of the NBPTS (pp. 257-312). Oxford: Elsevier.

Nichols, P., y Williams, N. (2009). Consequences of Test Score Use as Validity Evidence: Roles & Responsibili-

ties. Educational Measurement: Issues & Practice, 28(1), pp. 3-9.

Rojas, Angélica (2006). Entre la banca, la casa y la banqueta. Socialización y matemáticas entre los niños

otomíes que viven en la ZMG (tesis de doctorado). Centro de Investigaciones y Estudios Superiores en

Antropología Social, Guadalajara, México.

Santiago, P., McGregor, I., Nusche, D., Rabela, P., y Toledo, D. (2012). OECD Reviews of Evaluation & As-

sessment in Education Mexico 2012, OECD. Recuperado de: http://dx.doi.org/10.1787/9789264172647-

3-en

SEP. Secretaría de Educación Pública (2014). Manual para el coordinador regional. ENLACE 2014. Educación

Media Superior. México: Autor.

Sireci, Stephen G. (2013). Agreeing on Validity Arguments. Journal of Educational Measurement, 50(1),

pp. 99-104.

Solano-Flores, G. (2011). Assessing the Cultural Validity of Assessment Practices: An Introduction. En Bas-

terra, M.R., Trumbull, E., y Solano-Flores, G. (eds.). Cultural Validity in Assessment: Addressing Linguis-

tic and Cultural Diversity (pp. 3-21). Nueva York: Routledge.

Page 146: Analisi s prueba enlace ems 2015

146

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

, y Nelson-Barber, S. (2001). On the Cultural Validity of Science Assessments. Journal of Research in

Science Teaching, 38(5), pp. 553-573.

, y Trumbull, E. (2003). Examining Llanguage in Context: The Need for New Research and Practice Para-

digms in the Testing of English-Language Learners. Educational Researcher, 32(2), pp. 3-13.

Stanley, Julian C. (1971). Reliability. En Thorndike, R.L., (ed.), Educational Measurement (pp. 356-442).

Washington: American Council on Education.

Thorndike, R.L. (1951). Reliability. En Lindquist, E.F., (ed.), Educational Measurement (pp. 560-620). Wash-

ington: American Council on Education.

Tristán, L.A., y Vidal, R. (2007). Linear Model to Assess the Scale’s Validity of a Test. Ponencia en la confe-

rencia anual de la AERA, Chicago. Disponible en: ERIC: ED501232

Welner, K. (2013). Consequential Validity and the Transformation of Tests from Measurement Tools to

Policy Tools. Teachers College Record, 115(9).

Wright, B.D., y Stone, M.H. (2004). Making Measures. Chicago: The Phaneron Press, pp. 35-39.

Documentos

DESC_ALUM_EMS_13.

Dirección de Programas Específicos, Dirección de Programas para la Administración Pública-ENLACE Media

Superior RIEMS.

ENLACE EDUCACIÓN MEDIA SUPERIOR. Cuestionario para directores 2014.

ENLACE MEDIA SUPERIOR 2011. Preguntas y codificación del cuestionario del director de la escuela.

ENLACE MEDIA SUPERIOR 2013. Preguntas y codificación del cuestionario de Docentes de la escuela.

ENLACE.14_OP-MS EMS_2014.pdf

Prueba ENLACE Educación Media Superior 2012.

Prueba ENLACE Educación Media Superior 2013.

Prueba ENLACE Educación Media Superior 2013. Cuestionario para alumnos. ENLACE Alumnos 2013.

Prueba ENLACE Educación Media Superior 2014.

Page 147: Analisi s prueba enlace ems 2015

147Anexo técnico

Anexos

El material complementario de este informe se agrupa en siete anexos. En el documento que se entrega ahora sólo se incluye el primero. En octubre se entregaron los demás, en forma impresa o en archivos magnéticos.

1. Criterios y subcriterios de evaluación.2. Informe de estudios especiales de comités de expertos y entrevistas cognitivas sobre

reactivos de ENLACE-MS.• Reporte técnico.• Anexos primer estudio.• Anexos segundo estudio.3. Micronálisis de una muestra de reactivos de ENLACE-MS.• Comunicación.• Matemáticas.4. Información de entidades sobre aplicaciones.5. Resultados de encuesta de autoridades estatales sobre usos y consecuencias.6. Material de entrevistas con autoridades estatales y federales sobre usos y consecuencias.• Bases de datos de encuestas en línea sobre aplicación y usos.• Entrevistas a entidades y subsistemas federales.7. Revisión de prensa.

Anexo 1. Criterios y subcriterios de evaluación

SOBRE LA ALINEACIÓN A LOS REFERENTES

Análisis del currículo cuyo dominio se evalúa

1. Se cuenta con un documento que revisa la teoría del contenido curricular y es el marco teórico que orienta el desarrollo de la prueba.tt El documento incluye un análisis de las áreas del currículo que evaluará la prueba

donde se precisan los subdominios y contenidos, así como competencias y niveles de demanda cognitiva que se deberán cubrir.

Alineación de la prueba con el currículo

2. Se presentan evidencias de cómo se definieron las especificaciones de la prueba en términos de objetivos, competencias u otros referentes curriculares.tt Se presentan las estructuras del dominio curricular completo del que se muestrea el

contenido de la prueba, y del dominio curricular evaluado.3. Se explica el procedimiento usado para determinar la importancia relativa de los con-

tenidos que se decidió evaluar, o se incluye un análisis de las unidades del dominio curricular y su densidad diferencial.

tt Se justifican técnicamente ajustes a la ponderación de ítems y subescalas.

Page 148: Analisi s prueba enlace ems 2015

148

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

tt Se justifica metodológicamente el tamaño de la prueba y sus partes (número de ítems) cumpliendo la ponderación indicada en la tablas de especificaciones. Si hay alguna justificación administrativa, ésta se debe definir claramente.

4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdominios y el dominio curricular definidos.tt Para especificar el dominio a evaluar se presenta un análisis lógico y empírico de

la representación de ítems y subescalas respecto a los subdominios evaluados y el dominio curricular completo.

5. Se cuida la alineación en cuanto a la complejidad cognitiva del contenido.tt Se utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de

los ítems en relación con lo establecido en el currículo.tt Se refiere el uso de protocolos verbales con examinados para verificar que la com-

plejidad cognitiva real corresponda a la esperada.

Especificación, generación y escritura de ítems

6. Existe un manual o guía de redacción o diseño de reactivos en el que se especifica y justifica la manera de formularlos. El manual:tt Describe y da ejemplos de todos los tipos de reactivo que tendrá la prueba indicando

cómo clasificarlos y justificarlos de acuerdo con la relevancia de las respuestas para el dominio pretendido.

tt Usa tablas o modelos de especificación precisos para homogeneizar el diseño de los tipos de ítems, y ofrece un formato o documento donde los diseñadores de reactivos hagan la captura y la modificación.

tt Fue desarrollado especialmente para la prueba con sus particularidades; no es acep-table un manual genérico o tomado de otro sistema de evaluación.

7. Los ítems son diseñados por un comité coordinado por una persona calificada y selec-cionado según la especialización académica, laboral y su representatividad respecto a la diversidad del país.tt El comité se formó específicamente para realizar su labor considerando todos los

elementos característicos del tipo de prueba que se diseñaría.tt La capacitación del comité incluye procesos metodológicos y referencias a taxono-

mías o sistemas de clasificación cognitiva para especificar el dominio.

Control de la calidad de los ítems

8. Existe un manual o guía para el análisis de reactivos que señala los criterios de acepta-ción, revisión y modificación.tt Se presentan estructura y funciones representadas en el comité evaluador.tt El manual describe procedimientos y criterios para revisar ítems por jueceo.

9. Hay un comité de revisión calificado para aplicar lo que define el manual.tt Se utilizaron criterios de selección de jueces con un perfil académico y laboral preci-

so y con representatividad de la diversidad del país.tt El comité de revisión y el de escritura están formados por jueces diferentes.tt Se detalla el procedimiento que se siguió para capacitar a los evaluadores.

10. El sistema de revisión lógica de cada ítem incluye análisis de:tt Calidad técnica: claridad en la formulación, adecuación al marco de prueba.

Page 149: Analisi s prueba enlace ems 2015

149Anexo técnico

tt Congruencia ítem-contenido o ítem-objetivo (subdominio).tt Posibles fuentes de sesgo de cada reactivo: género, diversidad cultural.tt Concordancia del juicio para la selección de reactivos o procedimientos para estimar

la confiabilidad de los juicios de los evaluadores.11. Se cuida la alineación de la prueba en general.

tt Se verifica que el contenido de las pruebas corresponda al dominio curricular en todos los aspectos y niveles de demanda cognitiva planeados.

tt Se cuida la alineación de ítems y prueba con el currículo, los estándares de interpre-tación y, de ser posible, con la enseñanza y la evaluación en aula.

tt Se dispone de una metodología para demostrar la validez de contenido (cualitativa y cuantitativa) de la prueba.

tt Se muestran evidencias para fundamentar la validez del contenido.

ASPECTOS PSICOMÉTRICOS

Calidad de las pruebas

1. En la medida en que sean aplicables, se documentan las evidencias relativas a los diver-sos tipos de validez que se consideran usualmente.tt Se describe el procedimiento seguido para el análisis de validez de criterio, al menos

en una de sus formas (predictiva, concurrente, discriminante, etcétera), y se reportan los valores obtenidos en los estudios de validez de criterio.

tt Hay evidencia documental del análisis de validez de escala y su pertinencia en rela-ción con el constructo y el modelo del perfil a evaluar.

tt Se presenta documentación que muestra cómo se realizó el proceso para analizar la validez del constructo, y se presentan los resultados.

2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar las pruebas, definiendo equivalencia y periodicidad.tt Se indica el procedimiento seguido para construir las pruebas a partir de las especi-

ficaciones y del banco de ítems.tt Se reportan pasos para producir formas o versiones de la prueba y delimitar su vi-

gencia en el tiempo, o según sedes o localidades.tt Se cuenta con metodología para hacer versiones equivalentes y se reportan los valo-

res de diseño y experimentales que la demuestren. No es aceptable reportar resulta-dos sin evidencias de equivalencia entre versiones o formas.

tt La periodicidad de aplicación se justifica con criterios teórico-metodológicos o logís-ticos sustantivos, distinguiéndolos de criterios políticos o de opinión.

tt Se especifica y justifica el marco metodológico que integra en forma coherente los procesos y métodos que guían el desarrollo de la prueba.

tt Se especifica y justifica el modelo psicométrico usado.tt Hay manuales técnicos que orientan de manera detallada todos los procesos involu-

crados en el desarrollo de la prueba.3. Se documentan los procedimientos utilizados para la calibración de las pruebas y para

el análisis psicométrico.tt Se presentan los procedimientos psicométricos utilizados para determinar sesgo,

funcionamiento diferencial e impacto adverso de la prueba.

Page 150: Analisi s prueba enlace ems 2015

150

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

tt Se describen los análisis efectuados para detectar la influencia de factores diversos en la calidad de la medición, como la habilidad de lectura o escritura, la comprensión espacial, la ansiedad, etcétera.

4. Se ofrece información sobre la confiabilidad de las pruebas.tt Se describen los procedimientos usados para calcular la confiabilidad de las subes-

calas y versiones de la prueba. En particular, se reportan resultados del cálculo de consistencia interna de la prueba y sus subescalas.

tt Se dispone de resultados de correlación con aplicaciones repetidas.tt Hay un reporte con valores de separación del modelo logístico empleado.tt Se reporta la metodología para el cálculo del error de diseño de la prueba y sus sub-

escalas, y se reportan los resultados obtenidos en las aplicaciones.tt Se presenta la metodología usada para análisis el del funcionamiento diferencial y

de sesgos asociados con personas, pruebas y subescalas. Se reportan resultados de estudios hechos para determinar posibles sesgos.

Calidad de ítems y bancos de reactivos

5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el cuidado de su calidad.tt Se cuenta con un documento que describe el modelo de calibración de reactivos y

los criterios para su aceptación, revisión y modificación.tt Se explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificul-

tad, discriminación, ajuste [fit], distractores, dimensiones, etcétera).6. Se ofrecen evidencias sobre la calidad de los bancos de ítems.

tt Hay una normativa para revisar, corregir y desechar reactivos en función de los resul-tados de la calibración, considerando varios parámetros y evidencias.

tt Es posible revisar los inventarios del banco de reactivos debidamente clasificados y con valores psicométricos o edumétricos. No es aceptable que la prueba carezca de inventario o que haya reactivos sin calibración.

tt Se cuenta con una normativa para el uso de los reactivos según su vigencia en el banco o en las versiones, forma de almacenamiento (en medio informático o físico) y forma de actualización para uso posterior.

Calificación y niveles de desempeño

7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que res-ponden las pruebas.tt Está disponible el documento que explica la forma en que se asignó calificación a los

estudiantes (normativa, criterial u otra).tt Se cuenta con la explicación del diseño de la escala de la prueba y la forma de cal-

cular los puntajes en dicha escala (por modelo clásico o logístico), con penalización o sin corrección por azar, entre otros posibles criterios.

tt Se explica el procedimiento para obtener la calificación global como combinación de diversos instrumentos o partes de la prueba. No es aceptable la asignación global como promedio de promedios.

8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpretación de resultados de las pruebas.

Page 151: Analisi s prueba enlace ems 2015

151Anexo técnico

tt Existe el marco teórico-metodológico basado en el currículo que justifica la organi-zación en niveles de desempeño como estándares o sistema de interpretación de puntajes, junto con el procedimiento de asignación del valor del punto de corte en la escala.

tt Se dispone de respaldo documental que especifica el procedimiento (criterial o mix-to) para determinar los niveles de desempeño o estándares.

tt Los estándares desarrollados a partir de comités de jueces cuentan con el análisis del dominio curricular o tienen en cuenta consecuencias empíricas de la identificación de puntajes de corte.

tt Los puntos de corte se validan con un proceso de juicio o mixto (juicio-empírico); se demuestra experimentalmente su ubicación, y se reporta el intervalo de confianza correspondiente.

tt Hay evidencia empírica de que los niveles de desempeño están bien graduados y discriminan bien en relación con el contenido de la prueba.

tt Se cuenta con la metodología y evidencia del proceso realizado para describir el significado de los niveles de desempeño o del conjunto de competencias por nivel en términos de los puntos de corte.

tt Se tiene el documento que detalla los desempeños por nivel para las competencias y contenidos propuestos en la prueba, así como otras interpretaciones pertinentes a partir de los resultados de las pruebas.

tt Los integrantes de los comités encargados de definir los niveles de desempeño se seleccionan por sus perfiles académicos o laborales, y por su representatividad den-tro de la diversidad cultural del país; dichos integrantes pasan por un proceso de capacitación orientado al empleo de la metodología a utilizar.

ATENCIÓN A LA DIVERSIDAD

1. El marco conceptual de las pruebas toma en cuenta cómo la efectividad en el apren-dizaje, la enseñanza y la evaluación de un contenido están influidos por la experiencia sociocultural del estudiante y su familiaridad con la lengua y la variedad dialectal en que se administran aquéllas.

2. Como parte del desarrollo de la prueba, se establecen las características de la población objetivo que consideran la diversidad cultural y lingüística del país, y los múltiples con-textos y escenarios culturales y ambientales.

3. Se hace uso de referentes teóricos y conceptuales sobre cultura y lengua y se establecen procedimientos para tomar en consideración la diversidad cultural, lingüística y socioe-conómica del estudiantado mexicano.

4. Los documentos que definen tipos y formatos de ítems dan lineamientos para asegurar que la información gráfica y contextual sea familiar para la mayoría del estudiantado y refleje amplia variedad de contextos culturales.

5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de expertos en contenido incluyen a profesionales con especialidades en el área de cultura (antropólo-gos, lingüistas) y maestros de minorías culturales y lingüísticas, y de escuelas rurales y de nivel socioeconómico bajo.

6. Las muestras de estudiantes con que se pilotean versiones preliminares de la prueba incluyen submuestras representativas de las minorías culturales, lingüísticas y socioeco-nómicas del país.

Page 152: Analisi s prueba enlace ems 2015

152

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales para investigar si es-tudiantes de diversos grupos culturales, lingüísticos y socioeconómicos interpretan de igual manera el contenido de muestras representativas de los ítems de la prueba.

8. Existe un proceso de revisión con jueces que considera fuentes de sesgo cultural, lin-güístico y socioeconómico en muestras representativas de los ítems de la prueba.

9. Se efectúa análisis DIF de una muestra representativa de ítems para diversos grupos focales: estudiantes de distintos grupos indígenas y zonas geográficas, de nivel socioe-conómico bajo y de comunidades rurales.

10. Se efectúan análisis de generalizabilidad, en los cuales se determina la solidez de las generalizaciones de calificaciones obtenidas con el mismo conjunto de ítems para dis-tintos grupos de estudiantes definidos por grupo étnico y lingüístico, localidad y nivel socioeconómico.

11. Los tiempos y calendarios de las actividades que tienen como objetivo tomar en consi-deración la diversidad cultural, lingüística y socioeconómica son razonables y factibles.

12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en la información obtenida con la validación cognitivo-cultural, la revisión, los análisis de sesgo y los estudios de generalizabilidad.

APLICACIONES

Selección de muestra

1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación censal o como marco muestral.

2. Cuando sea posible, las muestras se diseñarán utilizando diseños sólidos; los estratos se definirán con base en argumentos teóricos defendibles.

3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que se planificó.tt En aplicaciones muestrales se precisan pasos para seleccionar la muestra; si se mane-

jarán aulas intactas o submuestras de alumnos en cada aula; la forma de manejar es-cuelas de remplazo si las hay, y porcentajes aceptables de exclusiones y no respuesta.

tt En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qué se hace en ese caso.

4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes aceptables.tt Se documentan en detalle los pasos para la selección de la muestra.tt Hay una verificación de la muestra por una instancia externa.tt Hay una encuesta o sistema de aseguramiento de la calidad de la muestra.

Planeación de las aplicaciones

5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales que aseguren comparabilidad de los datos.tt Hay manuales de aplicación, probados en campo, que precisan actividades a desa-

rrollar por cada participante; se describen las variaciones aceptables.tt Hay un cronograma detallado de todos los pasos del proceso.

Page 153: Analisi s prueba enlace ems 2015

153Anexo técnico

tt Se identifica a personal de las escuelas que tendrán que ver con la aplicación (direc-tores, maestros) para contar con su cooperación.

tt Se fijan requisitos de confidencialidad-seguridad de material y respuestas.tt Se precisa la forma en que deberán documentarse todos los pasos de la aplicación y

las incidencias que se puedan presentar.tt Hay procedimientos de aseguramiento de la calidad de la aplicación.

Selección y capacitación del personal de aplicación

6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolec-ción de datos, en todos los niveles.tt Hay criterios para reclutar y entrenar aplicadores y personal de apoyo.tt Se recluta y capacita a suficiente personal de remplazo.tt La capacitación incluye oportunidad de practicar con los instrumentos.tt La formación de capacitadores o el entrenamiento del personal que asegurará la

calidad del proceso se maneja centralmente o, en todo caso, se cuidará de forma que se asegure su adecuado funcionamiento.

tt Se llevan registros de las sesiones de entrenamiento de aplicadores.tt Se monitorean las actividades en campo por personal de la instancia central o exter-

no, y se registran problemas detectados.tt Se hacen ejercicios de retroalimentación y revisión de materiales y procesos que

recojan la experiencia del personal en campo.

Minimización de carga, motivación, no respuesta y fraude

7. Se fijan límites realistas de la carga de responder pruebas y cuestionarios de contexto para que no sea excesiva tomando en cuenta a los sujetos.tt Se utilizan los resultados de la aplicación piloto para revisar que los estimados de

carga sean realistas y aceptables.tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre

buscando minimizar la carga para los sujetos.tt En los cuestionarios de contexto para estudiantes se evita preguntar datos que se

pueden obtener de otras fuentes.tt Se agenda la aplicación en horarios convenientes para los sujetos.

8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.tt Se informa ampliamente a los sujetos de la evaluación acerca de los propósitos del

estudio y cómo se utilizarán sus datos.9. Se desarrollan procedimientos para lidiar con la no-respuesta o rechazo a responder la

prueba, y se entrena al personal de aplicación para ello.10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude.

y se entrena al personal de aplicación para seguirlos.

Procedimientos de control de calidad en las aplicaciones

11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.

Page 154: Analisi s prueba enlace ems 2015

154

Las

pru

ebas

EN

LA

CE

par

a ed

uca

ció

n m

edia

su

per

ior

tt Se recluta y entrena a monitores que lleven a cabo actividades de control de calidad, observando la recolección de datos en una muestra de sitios.

tt Si no es viable, se hacen entrevistas de control de calidad presenciales o por teléfono con aplicadores y demás personal involucrado en la aplicación.

tt Se hace revisión de control de calidad en una muestra aleatoria de los datos recolec-tados para asegurar un llenado completo y correcto.

tt Se resumen los resultados de cada etapa de aplicación para monitorear el estatus de las actividades y para identificar y corregir causas de problemas.

Preparación del procesamiento de los datos

12. Hay manuales que detallan los aspectos que se cuidarán para crear archivos de datos según normas internacionales: cómo introducir los datos; asignación identificadores a alumnos-maestros-escuelas; variables que se incluirán; códigos válidos de datos faltantes o respuestas no aplicables; formato de datos; estructura de archivos; limpieza, entre otros.

13. Se cuenta con personal calificado para manipular los datos y se le entrena en todos los aspectos de su trabajo para asegurar que esté familiarizado con los procedimientos aceptados y que comprende la importancia de recolectar y capturar la información con el cuidado necesario con el fin de que los análisis posteriores se hagan sobre informa-ción de la mejor calidad posible.

14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que concentran los resultados de la aplicación. Se asegura que:tt La estructura de los datos se apegue a la de los instrumentos.tt Los datos tengan suficientes redundancias para permitir el control de calidad.tt Las bases tengan identificadores únicos consistentes para que alumnos, escuelas y,

en su caso, maestros o directores puedan relacionarse.tt Se lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para

verificar que se cumplan los puntos anteriores.tt Se documenten todas las actividades de preparación de datos.

Procesamiento y verificación de los datos

15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del procesamiento y verificación de los datos son confiablestt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemática

para garantizar la confiabilidad del proceso.tt En caso de que la lectura de datos se haga en forma descentralizada, se asegura que

se cumplan los estándares en todos los sitios.tt Se revisa que la estructura de bases de datos se apegue a la acordada, las variables

estén en rangos válidos, y los identificadores sean únicos e íntegros.tt Se contrastan archivos de datos con instrumentos y cuestionarios.tt Se calculan estadísticas analíticas para cada ítem.tt Se calculan estadísticas descriptivas para todas las variables con el fin de revisar que

no haya valores extremos o faltantes; si hay, se reportan su para revisión.tt Se documentan todos los pasos del proceso.

Page 155: Analisi s prueba enlace ems 2015

155Anexo técnico

Notificación de irregularidades

16. La coordinación del estudio deberá ser notificada ante cualquier inconsistencia en los datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser aprobada y documentada.

USOS Y CONSECUENCIAS

Soporte de interpretaciones, usos y consecuencias previstas

1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico.

2. Se documenta y evalúa el grado en que se producen las consecuencias previstas o de-seables de la prueba.

Acceso equitativo y capacidad de interpretación y uso

3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanis-mos de difusión y acceso para todas las partes involucradas sin discriminación.

4. Se apoya a instituciones y usuarios con el fin de desarrollar en ellos la capacidad nece-saria para la adecuada interpretación y utilización de los resultados.

Comunicación que facilite interpretación de resultados

5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que pue-de o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación deseable (o correcta) de los resultados.

6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro y comprensible para una audiencia general.

7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se descri-ben el perfil y las características de la población de referencia.

8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no den lugar a estigmas.

Interpretaciones, usos y consecuencias imprevistas

9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables).

10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/positivas, o inadecuadas/negativas).

11. Cuando existe evidencia confiable de usos inapropiados, éstos se investigan en grado y deta-lle adecuado. Si persisten, se informa a los usuarios y se intenta tomar acciones correctivas.

Page 156: Analisi s prueba enlace ems 2015

LAS PRUEBAS EXCALE PARA EDUCACIÓN BÁSICA

UNA EVALUACIÓN PARA EL INSTITUTO NACIONAL PARA LA EVALUACIÓN

DE LA EDUCACIÓN

En su formación se utilizaron las familias tipográficas: Frutiger Lt Std y Museo.