LA EVALUACIÓN EN EL AULA - | fmrizo.netfmrizo.net/fmrizo_pdfs/libros/L 50 2012 La Evaluacion en el Aula UAA.pdf · hacer de maestros y alumnos, y que la manera de realizarla tiene

LA EVALUACIÓNEN EL AULA

Promesas y desafíos de la evaluación formativa

Felipe Martínez Rizo

LA EVALUACIÓNEN EL AULA

Promesas y desafíos de la evaluación formativa

Primera edición 2012

Edición no venial D.R. © Universidad Autónoma de Aguascalientes Av. Universidad 940 Ciudad Universitaria Aguascalientes, Ags., 20131 http://www.uaa.mx/direcciones/dgdv/editorial

D.R. © Felipe Martínez Rizo ISBN 978-607-8227-907

Impreso y hecho en MéxicoMade and printed in Mexico

LA EVALUACIÓNEN EL AULAPromesas y desafíos de la evaluación formativa

Esta publicación contó con apoyo conacyt, Proyecto 110092 del año 2009

Presentación

introducción general

caPítulo Primerola evaluación del aPrendizaje escolar

IntroducciónPrecisiones conceptualesLa evaluación desde la antigüedad hasta principios del siglo xxLa evaluación del aprendizaje durante la primera mitad del siglo xxLa evaluación del aprendizaje en la segunda mitad del siglo xxConclusión

caPítulo segundola evaluación formativa

IntroducciónDesarrollo de la noción de evaluación formativaDesarrollos conceptuales en el mundo francófonoDifusión de la evaluación formativa en otros paísesTrabajos empíricos sobre el impacto de la evaluación formativaPerspectivas de la evaluación formativaConclusión

11

15

21

212227

313861

73

7374

102109111128134

Índice

caPítulo terceroimPlicaciones de la imPlementación

IntroducciónPotencial de la evaluación formativa y dificultad de su implementaciónFactores que influyen en la implementación de la evaluación formativaLecciones para las intervenciones en la práctica docenteConclusión

conclusión general

149

149

150

157170183

189

Este documento es el primer producto del proyecto de inves-tigación Uso formativo de la evaluación para mejorar el apren-dizaje: estado actual del conocimiento y diagnóstico de prácticas de maestros de primaria en Nuevo León, el cual comenzó a gestarse en 2009. En un primer momento se llevó a cabo una búsqueda de referencias sobre el tema, con la colabora-ción del Instituto de Investigación, Innovación y Estudios de Posgrado para la Educación (iiiepe) de Monterrey y tres estudiantes de la Maestría en Investigación Educativa de la Universidad Autónoma de Aguascalientes: Gustavo Mejía Pérez, Rocío Angélica Sepúlveda Hernández y Mario Gon-zález Magdaleno.

El trabajo comenzó formalmente en el segundo semes-tre de 2010, con la revisión de la bibliografía localizada, en la que participaron los tesistas mencionados y dos asistentes de investigación: Verónica Hernández Payán y Adriana Mer-cado Salas.

Con la información obtenida en el primer semestre de 2011, el suscrito redactó este documento, cuyo primer borra-dor fue revisado por la corresponsable del proyecto, Guadalupe Ruiz Cuéllar. Se recibieron también comentarios de un gru-

Presentación

La evaLuación en eL auLa

12

po de profesores de la Escuela Normal del profesor Serafín Peña de Montemorelos, coordinado por el profesor Ricardo J. Hernández Dimas; del maestro Efraín Alcalá López, miem-bro del Instituto de Educación de Aguascalientes; y de in-vestigadores de otras instituciones, particularmente de Pedro A. Ravela Casmayou, del Instituto de Evaluación Educativa de la Universidad Católica de Uruguay; Annette Santos del Real, Adán Moisés García Medina, Gabriela Barba Martínez y Antonieta Aguilera García, del Instituto Nacional para la Evaluación de la Educación; y Guadalupe Pérez Martínez, en su momento también de ese instituto.

Para elaborar esta obra se utilizó una buena parte de las más de 700 referencias localizadas. La mayor parte de las ci-tas incluidas corresponden a textos en inglés o francés y sus traducciones son responsabilidad de los autores.

Como se podrá apreciar en este documento y en las lis-tas de referencias mencionadas, el campo de la evaluación formativa es hoy muy rico y está en pleno desarrollo; sin embargo, también se podrá apreciar que el avance en Mé-xico y, en general, en el mundo de habla hispana, es menor. Por ello, se considera que este documento podrá ser de uti-lidad para todas las personas interesadas en este tema, ya que ofrece prometedoras opciones para mejorar la calidad educativa.

Como resultado del proyecto, se prepara un volumen II, con una presentación de los acercamientos metodoló-gicos al estudio de las prácticas docentes, el cual también es resultado del diagnóstico de prácticas de evaluación por parte de maestros de primaria en el estado de Nuevo León y síntesis de los resultados de las tesis asociadas al proyecto principal.

Esperamos que esta obra y la que seguirá aporten ele-mentos útiles para que las prácticas docentes y especialmente las prácticas de evaluación de los maestros se vean enrique-cidas, de manera que la contribución de este libro radica a su vez en que la mejora del aprendizaje de sus alumnos deberá también incrementarse. Por ello esperamos que las dos obras sean de interés para maestros de educación básica, para ase-sores técnico-pedagogos, directores y supervisores, así como para docentes de instituciones formadoras de maestros.

Presentación

13

Agradecemos al conacyt el apoyo concedido al proyec-to en el marco de la convocatoria 2008 del Fondo sep-seb-co-nacyt sobre educación básica.

Felipe Martínez RizoUniversidad Autónoma de Aguascalientes.

Pocos educadores pondrán en tela de juicio que la evaluación –y en concreto la del aprendizaje– es parte esencial del que-hacer de maestros y alumnos, y que la manera de realizarla tiene una influencia considerable sobre el desempeño de los estudiantes. Las formas en que se lleva a cabo esa tarea, por otra parte, han cambiado, aunque ciertos rasgos persisten mucho tiempo.

En cuanto a las formas que ha adoptado la evaluación del aprendizaje de los alumnos en educación básica, que es el foco de interés de este libro, se pueden identificar algunas grandes etapas:

• Desde los inicios de los sistemas educativos moder-nos, y al menos hasta fines del siglo xix, la evalua-ción se reducía a la actividad que al respecto llevaba a cabo cada maestro, basada en preguntas y su obser-vación del desempeño de cada alumno en el aula, así como en los ejercicios y trabajos que les pedía. Esas evaluaciones tenían la ventaja de considerar el con-texto de cada estudiante, pero también tenían serias limitaciones, las cuales se hicieron más evidentes a

Introducción general


16

medida que accedían a la escuela alumnos proceden-tes de familias con condiciones cada vez menos fa-vorables.

• A principios del siglo xx surgieron formas de evalua-ción llamadas objetivas, consistentes en conjuntos de preguntas que requieren una respuesta muy corta, o bien, solamente seleccionar entre opciones de res-puestas predefinidas. Esos instrumentos se difundie-ron primero en el país en el que aparecieron (Estados Unidos) y luego en muchos otros, y su influencia fue grande tanto en sus versiones para aplicación a gran escala, como por el considerable peso que tuvieron so-bre las prácticas docentes.

• En la última parte del siglo xx, muchos educadores y especialistas en evaluación manifestaron insatisfac-ción respecto a estas herramientas, cuyas limitaciones se ponían de manifiesto por el creciente número de usos inadecuados derivados de su proliferación. Co-menzaron también a surgir formas alternativas para evaluar el aprendizaje, derivadas de los avances de la psicología cognitiva, las cuales fueron designadas con expresiones como evaluación formativa, auténtica, para el aprendizaje y como aprendizaje, entre otras.

El panorama de la evaluación del aprendizaje en la edu-cación básica a principios del siglo xxi, en muchos países y particularmente en México, presenta varias facetas:

• Las prácticas tradicionales siguen presentes en no po-cos salones de clase.

• Muchos maestros siguen tratando de que sus evalua-ciones se asemejen a las pruebas surgidas en la prime-ra mitad del siglo pasado, o bien, siguen adquiriendo instrumentos de ese tipo para sus evaluaciones bi-mestrales y otras.

• Se han extendido aplicaciones masivas de esos tipos de pruebas, cuyos resultados suelen entenderse mal, lo que ha llevado a usos inadecuados que tienen con-secuencias cada vez más visibles.

• Los enfoques novedosos de evaluación formativa y

IntroduccIón general

17

otros similares, comienzan a considerarse en el cu-rrículo y a recomendarse a los maestros, pero sin el sustento y sin los procesos que serían necesarios para transformar profunda y positivamente las prácticas.

Algunos de los esfuerzos que están en marcha en Méxi-co, contemplan precisamente nuevas formas de evaluación y se busca promover su uso entre los maestros, pero muchas veces de manera poco sustentada. Es importante tener en cuenta lo que se puede esperar realmente de las innovaciones y conocer también los errores que se deben evitar. Para ello hay que aprovechar la experiencia de los sistemas educativos que han avanzado más en esa dirección, y eso es lo que esta obra facilitará al poner al alcance de los lectores la amplísima literatura revisada, producida sobre todo en los países que realizan más investigación sobre los sistemas educativos y su problemática, pero que, con el debido cuidado, es amplia-mente aplicable a nuestro sistema educativo.

Como se indica en el subtítulo del presente libro (pro-mesas y desafíos), quienes pretendan apostar por nuevas for-mas de evaluación como elemento que promete contribuir significativamente al mejoramiento de la calidad educativa, deben ser conscientes de los desafíos y las múltiples aristas que deberán atender para lograr el éxito en esta empresa.

Por ello se espera que esta obra sea de utilidad espe-cialmente para quienes se dedican a actualizar docentes en servicio, para las personas que trabajan en instituciones for-madoras de maestros, autoridades educativas, estudiosos de la educación y, sobre todo, para los maestros mismos, que tienen en sus manos la interesante y desafiante tarea de for-mar a las nuevas generaciones de mexicanos.

La presente obra se organiza en tres capítulos: el prime-ro presenta la evolución de las prácticas de evaluación utili-zadas por los maestros de educación primaria a lo largo del tiempo, exponiendo detalladamente las etapas mencionadas sintéticamente en párrafos anteriores. En este capítulo no se aborda todavía la evaluación formativa, sino la evaluación del aprendizaje en las formas previas al surgimiento de los actuales enfoques formativos.

Es en el capítulo segundo donde se contemplan los nue-


18

vos enfoques en dos versiones: la más antigua, surgida en los Estados Unidos y el Reino Unido; y la que se ha desarrollado en medios francófonos, inspirada en la anterior, pero que ha tomado rumbos propios. Aunque brevemente, la difusión de la evaluación formativa en otros lugares también se mencio-na en este capítulo, ya que no se aprecia que en ellos haya habido aportaciones originales al desarrollo del concepto; en cambio, se incluye una revisión de estudios empíricos sobre el impacto de esa manera de evaluar el rendimiento de los alum-nos, contrastando trabajos que llegan a conclusiones abierta-mente optimistas, pero que también advierten limitaciones que invitan a la prudencia. Por último, también se plantean dos perspectivas en cuanto al futuro de estas tendencias.

El tercer capítulo retoma la idea del potencial de la evalua-ción formativa y, de los desafíos que conlleva implementarla adecuadamente. En este capítulo se analizan los factores que influyen en el trabajo de los maestros, cuyo número y varie-dad explican la dificultad para modificar profundamente tales prácticas; y se sintetizan las lecciones que se pueden obtener de la experiencia internacional en beneficio de los esfuerzos que pretendan tales cambios.

Capítulo primero

La evaluacióndel aprendizaje escolar

Introducción

Este capítulo ofrece un panorama de la evolución que ha te-nido la manera en que los maestros de educación básica eva-lúan el avance de sus alumnos en su esfuerzo por alcanzar los aprendizajes estipulados en el currículo.

Después de un apartado dedicado a precisar el sentido en que son utilizados en este trabajo los conceptos básicos sobre evaluación en general (evaluación del aprendizaje y evaluación formativa), se desarrollan detalladamente las tres grandes etapas mencionadas en la Introducción general:

• La primera abarca hasta principios del siglo xx, con las formas tradicionales de evaluación que, pese al tiempo transcurrido, todavía se manifiestan en las prácticas actuales.

• La segunda etapa comenzó en las primeras décadas del siglo xx y se extendió hasta la segunda mitad del mismo, caracterizada por la invención de las llamadas pruebas objetivas, adoptadas por muchos como alter-nativas preferibles a las evaluaciones que hacían tradi-cionalmente los maestros y que marcaron la práctica de muchas generaciones de docentes.


22

• La tercera comenzó en la segunda mitad del siglo pasa-do y se extiende hasta nuestros días mediante los avan-ces que llevaron a la proliferación de aplicaciones en es-cala nacional e internacional, trayendo consecuencias fuertes para las escuelas y los maestros.

En la conclusión del capítulo se reflexiona sobre las consecuencias de las evaluaciones a gran escala y su impac-to sobre las prácticas de los docentes, sirviendo este tema como punto de partida para el siguiente capítulo, en el que se presentará lo referente a la evaluación formativa como alternativa y complemento de las pruebas.

En cada una de las tres etapas antes mencionadas se presentan algunos elementos del contexto social, así como del avance de la psicología y la psicometría, que explican los desarrollos que tuvieron lugar en el campo de la evaluación.

Precisiones conceptuales

El campo semántico: medición, pruebas, evaluación

Con base en trabajos previos, en este documento la noción de evaluación se define de manera general como “el juicio de va-lor que resulta de contrastar el resultado de la medición de una realidad empírica con un parámetro normativo previamente definido” (Cfr. Instituto Nacional para la Evaluación de la Educación, 2006: 18).

Evaluar una realidad cualquiera implica primeramente medirla, pero evaluar no se reduce a ello. Para ilustrar esta idea puede ser útil el siguiente ejemplo: si se toma la tem-peratura de una persona y el termómetro marca 41° C, se considera que hay un problema, que la salud de la persona no es buena; en otras palabras, se hace un juicio valorativo sobre la salud de la persona, lo cual implica más que la sola medi-ción de su temperatura, pues para llegar a tal juicio, fueron necesarios los siguientes tres pasos: 1) medir la temperatura corporal actual (41° C); 2) conocer la temperatura normal de una persona sana (± 36.5° C); y 3) comparar los dos valores anteriores. Así ocurre en toda evaluación.

La evaLuación deL aprendizaje escoLar

23

En el caso del aprendizaje se puede pensar que se le ha evaluado sólo porque se ha aplicado una prueba de rendi-miento, cuando en realidad lo único que se ha hecho es me-dirlo con más o menos precisión. Para que haya evaluación se debe llegar a un juicio sobre lo adecuado o inadecuado del aprendizaje observado, lo que implica determinar lo que los alumnos deberían saber; es decir, definir un estándar que sir-va como referente para compararlo con el resultado de la me-dición, y así llegar al juicio sobre lo adecuado o inadecuado del aprendizaje observado. Adviértase además que la noción de calidad es indisociable de la de evaluación, ya que siempre que se evalúa algo, se trata de llegar a un juicio sobre su ca-lidad, sobre qué tan bueno o malo, adecuado o inadecuado es, en un sentido específico, pues la calidad es también una noción multidimensional.

Por su estrecha relación, los términos “medición” y “eva-luación” pertenecen a un mismo campo semántico; y en el ámbito educativo y del aprendizaje el término “prueba” pertenece al mismo campo, debido a que la medición del aprendizaje suele hacerse con ese tipo de instrumentos.

En inglés measurement y test equivalen en español a las palabras medición y pruebas, pero hay dos términos que se relacionan con el de evaluación: evaluation y assessment.

Originalmente el sentido del verbo to assess y el sustan-tivo assessment, era el de estimar el valor de un bien material, como un terreno, una casa o joya. Evaluation y assessment se reconocen en inglés como en español evaluación y valuación (o avalúo), pero hay otro campo en el que evaluación se opo-ne más bien a valoración.

Valoración corresponde al uso de to assess y assessment en el campo de la medicina y la salud, y es más claro su sentido actual en los conceptos del ámbito educativo, ya que hacen referencia al mismo sentido en el que un médico valora o lleva a cabo la valoración del estado de salud de un paciente.

El verbo to assess se deriva etimológicamente de la ex-presión latina ad sedere o assidere, que quiere decir sentarse al lado de alguien. Para valorar al paciente, el médico debe sen-tarse a su lado, como ocurre también en el caso de las evalua-ciones formativas en el contexto del aula, cuando el maestro


24

se sienta (literal o metafóricamente) al lado del alumno, cap-tando lo que sabe o puede hacer para ayudarle a avanzar en su aprendizaje, lo cual tiene un sentido muy distante del que correspondería a la imagen típica de una situación de evalua-ción sumativa; es decir, aquella “imagen familiar de una sala de examen en la que los alumnos escriben silenciosamente en pupitres separados” (James, 2010: 161).

Como resultado final de estos diversos significados de los términos, en educación assessment denota hoy evalua-ción (valoración) de sujetos individuales, particularmente la evaluación del aprendizaje de los alumnos, mientras eva-luation alude a evaluandos impersonales, como las evaluaciones aplicadas a los currículos, las políticas, los programas o los pro-yectos educativos (Cfr. Choppin, 1985: 1747 y 1748; James, 2010: 161).

Sin embargo, en español y en francés, tanto evaluation como assessment pueden y suelen traducirse como evaluación (Cfr. Laveault, 2010: 432), por lo que siempre conviene preci-sar el objeto al que se refiere en cada caso la acción de evaluar, por ejemplo: evaluación de aprendizaje, evaluación de escue-las o evaluación de programas.

Esta precisión es necesaria también para formas particu-lares de la evaluación de personas o de entidades impersona-les, como la formativa y la sumativa.

En los medios especializados de habla inglesa no habrá probablemente dificultad para entender que la expresión formative evaluation no se refiere al aprendizaje de alumnos individuales, para lo que se utilizará formative assessment, mientras que en español no basta traducir ninguna de las dos expresiones como evaluación formativa, sino que habrá que añadir, según sea el caso, del currículo, del aprendizaje, etcétera.

Como el objeto de estudio del proyecto –en cuyo mar-co se inscribe el presente documento– son las prácticas que llevan a cabo los maestros de primaria para valorar el apren-dizaje de sus alumnos, se usarán las expresiones “evaluación en el aula” y “evaluación formativa”, sobrentendiendo que se refieren al aprendizaje, como traducciones abreviadas, res-pectivamente, de classroom assessment y formative assessment.


25

Tipos de evaluación

La evaluación puede presentar muchas variantes que se pue-den clasificar a partir de diversos criterios (Cfr. Casanova, 1998). Sin pretensiones de exhaustividad, se pueden distin-guir, entre otros, los tipos siguientes.

• Según el objeto de la evaluación o evaluando. En el me-dio educativo es frecuente que la evaluación se identi-fique con la que tiene por objeto evaluar el aprendizaje que alcanzan los estudiantes, pero en realidad se puede referir a la evaluación de muchos otros objetos o eva-luandos, como pueden ser otros aspectos relativos a los alumnos, por ejemplo el grado en que respetan las nor-mas de disciplina o la regularidad de su asistencia; pero también se puede evaluar el desempeño de los docentes y de los directores de las escuelas, de los planteles es-colares como unidades organizacionales, de la infraes-tructura educativa o del sistema educativo mismo.

• Según el agente evaluador, pudiendo distinguirse eva-luación interna o externa, así como autoevaluación, coevaluación y heteroevaluación.

• Según el contenido que, en el caso del aprendizaje, puede consistir en aspectos cognitivos y no cogniti-vos. En cuanto a los aspectos cognitivos, puede tra-tarse del aprendizaje de la lengua, las matemáticas, las ciencias naturales; y en un mismo campo hay di-versos contenidos, niveles cognitivos de mayor o me-nor complejidad.

• Según la forma en función de la metodología y los instrumentos utilizados, pues en la evaluación del aprendizaje se puede recurrir a las pruebas objetivas o de ensayo, portafolios de evidencias, etcétera. En este punto se puede distinguir también si se utilizan pre-guntas de respuesta estructurada o construida, breve (monosilábica) o larga, así como el nivel de dificultad de las pruebas. Una variante en particular tiene en cuenta la distancia que separa las evaluaciones de las tareas que se presentan en la vida real: la evaluación auténtica o artificial.


26

• Según el referente con el que sean comparados los re-sultados de la medición para llegar al juicio: evalua-ción ipsativa (el mismo sujeto a lo largo del tiempo), normativa (el grupo de referencia) o criterial (ciertos estándares curriculares u otros).

• Según el número de sujetos a los que se refiere, el cual permite distinguir entre evaluaciones en pequeña y gran escala.

• Según el momento en que se lleve a cabo, a partir del cual se puede clasificar como evaluación inicial, inter-media o final.

• Según el propósito que se persiga: evaluación diag-nóstica (para información inicial), sumativa (para valoración final) y formativa (para retroalimentar); aplicadas en pruebas de selección o ingreso, de certi-ficación, etcétera.

• Según las consecuencias que tenga: evaluación de alto y bajo impacto.

Como ocurre en toda tipología, las variantes que se iden-tifican, según cada uno de los diferentes criterios utilizados, se pueden combinar, de manera que puede haber evaluaciones internas o externas de alumnos o de maestros, evaluacio-nes normativas o criteriales en grande o en pequeña escala, entre otras.

Es de especial interés para los propósitos de este trabajo precisar que no toda evaluación intermedia es necesariamen-te formativa ni toda evaluación final obligadamente sumati-va. Tampoco todas las evaluaciones en aula son formativas ni todas las evaluaciones formativas corresponden al aula (Cfr. Black y Wiliam, 2004).

El carácter formativo de una evaluación no depende principalmente del momento y la escala en que se haga, sino del propósito que la oriente y la manera en que se lleve a cabo y se utilicen sus resultados, aunque es obvio que algunos momentos y escalas se prestan más que otros para que se den las formas y usos congruentes con un propósito formativo.


27

La evaluación desde la antigüedadhasta principios del siglo xx

La evaluación del aprendizaje que alcanzan los alumnos es un componente indisociable de la tarea de enseñar, por lo que su historia se remonta a épocas antiguas, de manera me-nos sistemática con los exámenes de Sócrates y los sofistas, y con un alto grado de estandarización con los exámenes utili-zados en China para la selección de funcionarios imperiales, al parecer desde el siglo tercero antes de nuestra era, durante la dinastía Han (Herman, 2010: 506).

Hasta que se desarrollaron los sistemas educativos de tipo moderno –de carácter público, universales, obligatorios, gratuitos y muchas veces laicos–, lo cual comenzó a ocurrir hasta el siglo xviii –primero en Prusia y luego en otros países europeos–, la enseñanza de las primeras letras se daba en el seno de los hogares acomodados, a cargo de preceptores, o en pequeñas escuelas parroquiales o gremiales. En todos los casos el número de alumnos era muy reducido y no existía la noción de grado escolar.

La evaluación de los conocimientos que alcanzaban los alumnos no implicaba, por lo tanto, el uso de procedimien-tos dotados de cierta formalidad, sino que bastaba el juicio del maestro que, a su vez, no necesitaba apoyarse en ins-trumentos especiales, sino que se basaba en sus preguntas y la observación cotidiana que tenía del progreso de cada uno de sus estudiantes. El maestro tampoco debía decidir anual-mente si un alumno debía o no ser promovido al siguiente grado o nivel, puesto que no existían estos elementos de la estructura del sistema escolar.

Philipp Aries afirma que “hasta el siglo xvii no existía enseñanza en lengua vulgar que correspondiera al actual ni-vel de primaria […] en la Edad Media, y al menos hasta el siglo xvi, sólo existía una escuela en latín, la escuela de gra-mática” (1973: 318).

A diferencia de las escuelas elementales que hoy cono-cemos, las escuelas de gramática no se destinaban a niños, sino a jóvenes, y tampoco a toda la población, sino sólo a una minoría que llegaría a la universidad para estudiar filosofía, teología, derecho o medicina (Cfr. Martínez-Rizo, 2006).


28

En dichas escuelas se daba por sentado que la gran ma-yoría de la población no necesitaba saber leer ni escribir, ya que se dedicaría a actividades manuales que no lo requerían. En momentos muy posteriores, la situación no había cam-biado mucho. En Francia, el artículo 9 del Decreto Real del 13 de diciembre de 1698 establece lo siguiente:

Queremos que se establezcan maestros y maestras, hasta donde sea posible, en todas las parroquias donde no haya, para instruir a todos los niños, sobre todo a aquellos cuyos padres y madres hayan profesado la religión que se dice re-formada, enseñándoles el catecismo y las oraciones necesa-rias, llevándolos a misa todos los días hábiles […] y también para enseñarles a leer, e incluso a escribir a los que pudieran necesitarlo (Gaulupeau, 1992: 158).

Las escuelas de primeras letras de esa época no se pa-recían a las primarias de organización completa o de grados (graded) con las que estamos familiarizados, sino a nuestras escuelas de organización incompleta o multigrado.

Aries señala que todavía en el siglo xvi y en los nacien-tes liceos o gimnasios, la noción de grados era discutida, y cita como evidencia el siguiente pasaje de la memoria de J. Sturm, sobre el proyecto de organización del gimnasio de Es-trasburgo, en 1538:

Valen más las clases en un solo lugar, en vez de dispersarlas en varios. Si se tienen diez ovejas sería insensato asigna un pastor y una pradera a cada una […] no lo sería menos con-fiar a muchos maestros aislados los alumnos que uno solo puede instruir (Sturm, citado en Aries, 1973: 199).

La masificación de la enseñanza elemental, al volverse una necesidad social y verse luego como un derecho de todo futuro ciudadano, trajo consigo la necesidad de formas de organización escolar que permitieran atender a grandes can-tidades de alumnos en forma eficiente.

El sistema de organización que consiste en agrupar a los alumnos de la misma edad o nivel de avance similar en gru-pos relativamente homogéneos, surgió en Prusia durante el


29

siglo xviii, y tiempo después se impuso como la forma pre-ferente de organización escolar, con un sistema monitorial o tutorial, mejor conocido en nuestro medio como lancasteria-no, desarrollado en Inglaterra y Escocia a principios del siglo xix. Las escuelas organizadas por grados fueron un desarrollo natural del sistema de Bell y Lancaster (Cfr. Thomas y Shaw, 1992: 1).

En Estados Unidos, Horace Mann impulsó lo que sería el modelo por antonomasia de escuela con grados tras una visita a Prusia en 1843. En 1848 se inauguró la Grammar School de Quincy, Massachussets, con cuatro plantas, un aula separada para cada maestro y un patio amplio para reuniones genera-les. El número de alumnos permitía agrupar a los mismos en forma homogénea y los maestros no debían ocuparse ya de toda la gama de edades y niveles, sino que cada uno atendía un solo grado; y al final del curso los alumnos pasaban o re-probaban el grado (Cfr. Goodlad y Anderson, 1987: 45-48).

En las antiguas escuelas sin grados, la enseñanza y la evaluación se desarrollaban en forma muy distinta a la que hoy se considera deseable, y el papel del maestro consistía mucho más en evaluar que en enseñar. La misma diversidad de edades y niveles de avance de los alumnos dificultaba la enseñanza grupal que se apuntaló sólo tras la introducción de la organización por grados. Antes, cada alumno debía leer y releer por su cuenta los pasajes indicados por el maestro, que luego llamaba a cada alumno y lo hacía recitar lo que había aprendido. Si el resultado de esa lección era favorable, el maestro indicaba al alumno nuevos pasajes para que los estudiara; en caso contrario, el estudiante regresaba a repa-sar los mismos pasajes una y otra vez hasta que consiguiera aprenderlos a satisfacción del docente.

La masificación de los sistemas educativos, derivados de la modernidad a lo largo del siglo xix, fue, al menos en parte, una respuesta ante la necesidad social de contar con trabajadores más preparados para una economía basada en la industria y con crecientes intercambios comerciales. Además, como se ha mostrado, la necesidad de atender grupos nume-rosos de alumnos trajo consigo nuevas exigencias, las cuales provocaron el desarrollo de sistemas pedagógicos como el lan-casteriano y las escuelas organizadas por grados, así como la


30

creación de instituciones especializadas para la preparación de los futuros maestros: las escuelas normales.

Por otra parte, el desarrollo de la psicología y otras cien-cias que tienen por objeto de estudio el comportamiento de los individuos y las sociedades humanas se dio hasta la segunda mitad del siglo xix, por lo que se entiende que las concepciones pedagógicas que prevalecían en las escuelas de la modernidad incluyeran las ideas de algunos precursores ilustres como Vives, Comenio y Pestalozzi, pero conservaran características específicas que fueron influencias anteriores, como las inspiradas en “una forma de instrucción elemental que se desarrolla oralmente, en la forma de preguntas y res-puestas, y se conoce como catecismo (Resnick et al., 2010: 400), siguiendo las huellas de Lutero en los países de la Re-forma, y las huellas de jesuitas como Ripalda en los países de la Contrarreforma.

En este contexto, una consecuencia menos analizada de la masificación de los sistemas educativos es la que tuvo que ver con los sistemas de evaluación.

Además de que la organización por grados trajo consigo nuevas formas de enseñar, otra implicación consiste en que cuando los niños que aprendían a leer y escribir eran una minoría, su nivel era también menos heterogéneo que en la actualidad, y los estándares de calidad que los maestros utili-zaban implícitamente al formular juicios de evaluación, eran también relativamente simples, ya que sólo debían referirse a las habilidades básicas de leer, escribir y contar. En cambio, al generalizarse el acceso a la educación, creció también la heterogeneidad de los alumnos y en consecuencia fue más difícil mantener estándares de calidad comparables.

Una de las formas en que los nacientes sistemas educa-tivos enfrentaron esta dificultad, fue mediante la creación de cuerpos especiales de supervisores o inspectores, que en muchos casos siguen existiendo y cuya tarea fundamental incluye corroborar que en todos los planteles a su cargo se tengan niveles mínimos de calidad.

En el siglo xx, otra reacción ante las limitaciones de las evaluaciones tradicionales a cargo del maestro consistió en el desarrollo de nuevas formas de evaluación, basadas en prue-bas estandarizadas, como se verá en el apartado siguiente.


31

La evaluación del aprendizaje durante la primera mitad del siglo xx

Los cambios en las formas de evaluar el aprendizaje de los alumnos a los que se referirá este apartado, se entienden en el marco de transformaciones mayores que ocurrieron en los sistemas educativos y en su entorno social y económico.

Durante la primera mitad del siglo xx y hasta la Segun-da Guerra Mundial, de manera paralela a la maduración de las sociedades industriales, los sistemas educativos se desa-rrollaron también distinguiendo, con numerosas variantes, tres etapas: educación primaria, secundaria y terciaria, o bien, básica, media y superior.

A su vez, en la enseñanza media o secundaria se sue-len distinguir dos etapas: secundaria o media básica y media superior. En la enseñanza terciaria o superior hay más va-riantes de duración y nivel, distinguiéndose en especial los estudios de orientación más técnica y los orientados al ejer-cicio de profesiones liberales, la investigación o los puestos directivos de mayor jerarquía.

En las sociedades preindustriales sólo una pequeña mi-noría de la población sabía leer y escribir, y se consideraba nor-mal que el grueso de la población no fuera a la escuela. En la modernidad, hija de la Ilustración y la Revolución industrial, se veía necesaria la alfabetización universal, y por ello surgie-ron los sistemas educativos que conocemos.

Sin embargo, hasta entrado el siglo xx, en casi todas partes los sistemas educativos estaban estructurados con base en el supuesto implícito de que era natural que sólo pocos alumnos tuvieran altos niveles de aprendizaje en la escuela primaria o ele-mental y accedieran a niveles superiores, en tanto que el grueso del alumnado no lo conseguía y debía dejar la escuela al final de la primaria para dedicarse a ocupaciones de tipo manual.

Lo anterior se refleja en el hecho de que la expansión de los sistemas educativos durante el siglo xix, se caracterizó en general por la temprana separación de las trayectorias corta y larga de la escolaridad, por lo que se suele denominar a este sistema educativo como dual.

La opción contraria se constituye con los sistemas edu-cativos de tipo “comprensivo”, que se distinguen porque en


32

ellos, al menos en principio, todos los alumnos siguen asis-tiendo a escuelas similares durante la educación secundaria, por lo menos en su etapa básica, y luego, en diferente medi-da, también en la etapa superior.

La excepción a la tendencia general apuntada antes, se constituyó en Estados Unidos, que desde el siglo xix adoptó un enfoque comprensivo para su educación secundaria. En Euro-pa, la adopción de un modelo comprensivo se dio por vez pri-mera hasta mediados del siglo xx, en Suecia (Cfr. Husén, 1986).

Junto a la sociedad y su sistema educativo, las ideas psicológicas también evolucionaron, y el conductismo (be-haviorism) se impuso como corriente dominante, no sin rela-ción con el desarrollo de sistemas taylorianos de producción industrial. El conductismo trajo consigo las concepciones asociacionistas del aprendizaje que, junto a los resabios de las concepciones derivadas del uso de catecismos, siguieron marcando el trabajo de muchos maestros.

Resnick y colaboradores señalan que “al masificarse los sistemas educativos, la enseñanza tipo catecismo pasó a las aulas laicas” (Resnick et al., 2010: 398). Los contenidos se ampliaron, incluyendo elementos de aritmética, la lectura de textos, la redacción y la historia patria, “pero la forma de in-teracción permaneció notablemente constante” (2010: 398). Después de que los alumnos leían un texto o resolvían algu-nos ejercicios aritméticos, el profesor les hacía una serie de preguntas para verificar si habían leído el texto y recordaban su contenido o si sus respuestas a los ejercicios eran correc-tas. Esos autores señalan que “la forma del catecismo todavía está presente en lo que ahora llamamos ‘enseñanza estándar basada en recitación’” (2010: 399), y añaden:

En 1979, Hugh Mehan, buscando ofrecer una descripción estructurada de la enseñanza que había observado en aulas de primer grado de primaria, describía una secuencia que ha llegado a ser conocida como i-r-e (Mehan, 1979). El maes-tro iniciaba (i) un intercambio en tres pasos; un alumno –que podía ofrecerse voluntariamente o ser designado por el maestro– respondía (r); luego el maestro evaluaba (e) la respuesta, sea aceptándola como correcta o indicando que no lo era (2010: 400).


33

En forma paralela a los cambios de la sociedad y las es-cuelas, se desarrolló otra tendencia de mayor interés para este trabajo: la revolución en la medición de fenómenos psi-cológicos y sociales que representó la psicometría, que tuvo lugar fundamentalmente en Estados Unidos, donde las ideas seminales de estudiosos europeos como Wundt y Binet en-contraron un terreno favorable.

En 1890, J. McKeen Cattell, discípulo de Wundt, inventó la palabra test y publicó un texto fundacional titulado “Mental Tests and Measurements”. Las pruebas de inteligencia desa-rrolladas por Binet fueron adaptadas por Terman, en Stanford (1916), y se extendieron al ser utilizadas por el ejército ame-ricano con el Army Test, de Yerkes, Terman y otros, en 1917 (De Landsheere, 1996: 56-71).

Como se ha apuntado ya, Estados Unidos desarrolló antes que los países europeos un sistema de educación de cobertura masiva, primero en los niveles básicos, con educa-dores como Horace Mann, y luego en la educación media y superior, sobre todo a partir de la ley Morrill de 1862. Por ello no sorprende que fuera en Estados Unidos donde se desarro-llaran versiones tempranas de evaluaciones de historia a gran escala con la aplicación de pruebas impresas a poco más de 500 escolares de 19 escuelas de Boston en 1845. Entre 1895 y 1897, J. M. Rice aplicó una prueba de ortografía a 16,000 alumnos, y más tarde una de aritmética a 13,000 y otra de comprensión de lectura a 8,300.

El enfoque comprensivo de la educación norteamerica-na también provocó, décadas antes que en Europa, un fuerte aumento de alumnos en la educación superior, por lo cual se explica el surgimiento del College Board (originalmente College Entrance Examination Board) el 17 de noviembre de 1900.

Los procesos de selección para ingresar a las universi-dades, se volvieron complejos debido al incremento de jó-venes que terminaban la educación media superior (senior high school) y a la proliferación de instituciones (colleges) de diversos perfiles. Debe tenerse en cuenta que hacia 1900 en los grandes países europeos las universidades se contaban por unidades, mientras que en Estados Unidos había ya cer-ca de mil.


34

El primer historiador del College Board, Claude M. Fuess, señala que esta institución fue el primer intento or-ganizado para

[…] introducir la ley y el orden en una anarquía educativa que, a fines del siglo xix, había llegado a ser exasperante, sin duda casi intolerable, para los directores de escuelas y añade que había un consenso preocupantemente reducido entre los colleges en cuanto al tipo de preparación en ciertas áreas de contenido y en cuanto a los estándares de desem-peño que debían pedirse a los aspirantes (Fuess, citado en Donlon, 1984: 1).

Las primeras pruebas del College Board eran exámenes de tipo ensayo en nueve áreas, acordes con las concepcio-nes curriculares de la época: inglés, francés, alemán, latín, griego, historia, matemáticas, química y física. Como los sustentantes se presentaban en distintos lugares, se cuidaba la comparabilidad aplicándolos en forma simultánea y ase-gurando la uniformidad del contenido, de las condiciones de administración y de la calificación de las respuestas. La pri-mera aplicación, en junio de 1901, implicó a 973 aspirantes. En 1902 se aplicaron 1,362 pruebas, y para 1910 el número se elevó a 3,731 (Donlon, 1984: 1).

La dificultad para calificar de manera rápida y confiable cantidades crecientes de exámenes tipo ensayo, llevó a la búsqueda de nuevas alternativas y en consecuencia se de-sarrollaron las pruebas objetivas, de respuesta abierta breve o previamente estructurada, especialmente de opción múl-tiple; es decir, con varias posibles respuestas predefinidas, entre las cuales el alumno debe únicamente escoger y mar-car la que crea correcta. Diseñadas por Yerkes y Moore, que habían adquirido experiencia con el Army Test, y bajo la coor-dinación de Carl Brigham, las pruebas del Scholastic Aptitude Test (sat) se gestaron a partir de 1925 y se administraron por primera vez el 23 de junio de 1926 a 8,040 sustentantes (Donlon, 1984: 2).

Sin embargo, como el porcentaje de sustentantes con puntajes aprobatorios variaba mucho de un año a otro, se pensó que lo que en realidad cambiaba era el grado de difi-


35

cultad de la prueba, no el nivel promedio de los sustentantes que se podía suponer más estable. Por ello, a principios de los años 30 se decidió establecer una proporción fija de aproba-dos, ajustando las puntuaciones del conjunto de sustentan-tes de cada año. La equiparación de versiones y el cuidado de la estabilidad de la prueba a lo largo del tiempo, comenzaron a hacerse en 1941 (Donlon, 1984: 3-8).

Desde la década de 1920, una de las universidades ame-ricanas en donde los trabajos de construcción de pruebas estandarizadas se desarrollaron con mayor fuerza, fue la de Princeton, a cuyo personal académico pertenecía Carl Brigham, el principal autor del sat. En 1948 la oficina de Princeton, que se dedicaba a la elaboración de tests, se separó de la universi-dad, constituyéndose formalmente como una entidad privada diferente: el Educational Testing Service (ets), sin duda el cen-tro especializado en producción de instrumentos psicométri-cos más fuerte del mundo (De Landsheere, 1986: 150).

Además del College Board y el ets, en la segunda mitad del siglo xx otras organizaciones de Estados Unidos, como el American College Testing (act) y la de Universidad de Iowa, desarrollaron pruebas a gran escala.

Fuera de Estados Unidos, especialmente en las primeras décadas del siglo xx, fue casi únicamente en el ámbito anglo-sajón donde hubo avances similares y en escala menor, al gra-do de que la psicometría se llegó a considerar una disciplina meramente estadounidense.

Las difíciles circunstancias europeas desde antes de la Primera Guerra Mundial y hasta después de la Segunda, explican el menor avance de estos temas en países de gran tradición académica como Alemania y Francia. Esta situa-ción llegó a ser tan marcada que en 1931, al escuchar que los participantes en un congreso internacional se referían a la psicometría como estadounidense, E. L. Thorndike consideró necesario protestar, diciendo que “por el bien de la ciencia y por nuestro bienestar, sería preferible que las pruebas estan-darizadas no fueran denominadas ‘exámenes estadouniden-ses’” (Joncich, citado en De Landsheere, 1986: 68).

Así, en los primeros años del siglo xx comenzó el de-sarrollo de lo que se conoce ahora como la teoría clásica de las pruebas, la cual partió de la teoría de la confiabilidad y el


36

modelo estadístico de las puntuaciones, con las nociones de puntaje verdadero, error de medida y confiabilidad (Keeves, 1997: 707). Los fundamentos estadísticos de la disciplina se debieron a ingleses como Spearman, pero la obra fundacional del nuevo campo teórico fue la del norteamericano Edward L. Thorndike, An Introduction to Theory of Mental and Social Measurement, publicada en Nueva York en 1904 (Martínez-Arias, 1995: 40).

En la cuarta década del siglo xx, con publicaciones como Psychometrika (1935) y Educational and Psychological Measure-ment (1941), la teoría de las pruebas en su versión clásica puede considerarse completa con la aparición del libro Theory of Men-tal Tests, de Gulliksen, en 1950 (1995: 42).

La primera edición del Mental Measurement Yearbook, del Instituto Buros, es de 1938, y la Psychometric Society fue fun-dada por iniciativa de Thurstone en 1935. En 1946 Stevens formuló la clasificación ahora canónica de los niveles de medi-ción nominal, ordinal, de intervalo y de razón (De Landsheere, 1986: 68).

Los pioneros del desarrollo de las pruebas estandarizadas estaban convencidos de que las escuelas americanas tenían serios problemas de calidad, y de que las evaluaciones que hacían los maestros tenían deficiencias graves, por lo que no eran útiles para sustentar diagnósticos que ofrecieran bases sólidas para estrategias de mejoramiento. Recordemos que, junto al conductismo y el asociacionismo, la vieja influen-cia del catecismo seguía presente en las escuelas, con la en-señanza estándar basada en recitación y la secuencia “inicio del maestro-respuesta del alumno-evaluación del maestro”, a la que ya se ha hecho alusión. En consecuencia, los edu-cadores de la psicometría inicial se propusieron desarrollar otro tipo de instrumentos cuyos resultados permitieran comparar los niveles de rendimiento de los alumnos de dife-rentes escuelas. Shepard cita la opinión de Thorndike en el sentido de que las nuevas pruebas serían “un remedio para la escandalosa falta de confiabilidad de los exámenes aplica-dos por los maestros, demostrada en varios estudios previos” (Thorndike, 1922, citado en Shepard, 2006: 623).

La ventaja de la comparabilidad que ofrecían los nue-vos instrumentos era clara, pero sus limitaciones, hoy am-


37

pliamente aceptadas, fueron advertidas desde entonces. Ya en los años 20, B. D. Word se quejaba de que las pruebas estandarizadas medían “sólo hechos aislados y piezas de in-formación, en lugar de capacidad de razonamiento, habilidad organizadora, etc.” (World, 1923). Ralph Tyler, siendo impul-sor de estos mismos instrumentos, subrayó, también desde los primeros años del siglo, la necesidad de verlos no como un proceso separado de la enseñanza, sino como parte inte-gral de ésta. Sin embargo, la tendencia dominante fue la de implementar las pruebas estandarizadas a gran escala como la forma preferida de evaluación, y ver las pruebas realizadas diariamente por los maestros en las aulas como una forma de evaluación secundaria que debería subordinarse a la primera, cuyos principios metodológicos debía imitar.

El contenido de los textos sobre evaluación utilizados en las instituciones formadoras de maestros demuestra lo expuesto en el párrafo anterior, ya que según estas obras, las evaluaciones que los maestros aplicaban en el aula, debe-rían ser réplicas de las evaluaciones a gran escala, por lo que los maestros se veían en la necesidad de aprender a elaborar preguntas estructuradas y analizar los resultados de los ins-trumentos formados con ellas estadísticamente, cuidando la validez y la confiabilidad en la misma forma en que debe hacerse a gran escala (Cfr. Shepard, 2006: 623-625).

La influencia de las pruebas estandarizadas sobre las eva-luaciones que llevaban a cabo día a día los maestros en las aulas, se percibió primero en el sistema educativo norteame-ricano, lo que fue una consecuencia lógica de que las pruebas estandarizadas como formas de evaluación se introdujeron en ese país antes que en todos los demás, pero aún antes de que se extendiera la aplicación de pruebas a gran escala, en muchos países también se percibió la influencia de tales instrumentos.

En cuanto a la situación de México y América Latina, se puede observar lo siguiente:

El desarrollo de pruebas estandarizadas de aprovechamien-to escolar comenzó a principios del siglo xx. A lo largo de la primera mitad del mismo el movimiento adquirió fuerza, al grado que las evaluaciones de los maestros comenzaron


38

a incorporarlas. En América Latina la influencia de esos de-sarrollos se sentía a mediados del siglo, cuando comenzó a pedirse a los maestros que prepararan pruebas de opción múltiple. Se les pedía también que estandarizaran las pun-tuaciones de sus alumnos, lo que se llamaba “calificar por curva”, pero como no se ofrecía preparación especial para ello, la calidad de las pruebas hechas por los maestros era pobre (Martínez-Rizo, 2010a: 479).

Como muestra de que algo similar ocurría en sistemas educativos de mayor consolidación, la autora del artículo “Educational assessment”, el cual presenta una amplia visión de este tema en la tercera edición de la Enciclopedia Internacio-nal de Educación, señala que esta práctica no se limitaba a un tiempo o un lugar, y confiesa que ella hacía lo mismo, como maestra recién calificada en Inglaterra, en la década de 1970, creyendo erróneamente que así actuaba como científica (Ja-mes, 2010: 162).

La evaluación del aprendizajeen la segunda mitad del siglo xx

El contexto social

El avance de la evaluación en la segunda mitad del siglo xx tuvo que ver con el desarrollo de la sociedad postindustrial y el comercio internacional, posteriores a la apertura de las economías del xix y principios del xx que dieron lugar al mundo globalizado en que vivimos, lo que trajo consigo im-portantes cambios en los sistemas educativos que cada vez se valoran más por su contribución al desarrollo científico y técnico, así como a la competitividad económica, conci-biendo su función no como la de preparar una elite, sino la de ayudar a todos los futuros ciudadanos a alcanzar niveles básicos de competencia.

A partir de la segunda mitad del siglo xx, los sistemas educativos de estructura dual que por un lado conducía a la elite de los alumnos hasta la universidad, y por el otro con-ducía rápidamente a la mayoría de los alumnos al mercado


39

laboral, fueron dejando el lugar a sistemas de enfoque com-prehensivo, los cuales pretenden que todos los jóvenes con-cluyan al menos la educación media a los 18 años de edad.

Sin contar la excepción temprana de Estados Unidos, el modelo comprensivo se dio por vez primera en Suecia, a partir del fin de la Segunda Guerra Mundial, en el marco del desarrollo del Estado de Bienestar. Progresivamente otros paí-ses han dotado de un enfoque comprensivo a sus sistemas educativos, al tiempo que han aumentado el lapso compren-dido por la escolaridad obligatoria. Este ha sido el caso de los demás países escandinavos (anglosajones), varios de los países de Asia Oriental y, más recientemente, los países ibe-roamericanos, incluido México.

Las razones de esta evolución pueden agruparse en dos rubros: las necesidades de las economías modernas, que cada vez ocupan más personas con competencias complejas; y los avances de la investigación, que muestran cada vez con ma-yor claridad la falta de sustento de la creencia de que sólo una pequeña parte de las personas tiene capacidad para llevar a cabo con éxito estudios superiores o para adquirir competen-cias complejas.

En cuanto al primer grupo de razones, la evolución de los mercados laborales en Estados Unidos, similar a la de otras economías avanzadas, muestra cómo ha disminuido la pro-porción de puestos de trabajo manual, en tanto que aumenta la de puestos gerenciales, administrativos y de servicios, lo que significa que la demanda de competencias manuales y rutinarias disminuye, mientras que la demanda de competen-cias complejas y de tipo analítico aumenta. La consecuencia para los sistemas educativos es clara: cada vez es más nece-sario que, tras su paso por la escuela, los jóvenes tengan co-nocimientos y habilidades para cuyo desarrollo no basta la educación básica (Cfr. Levy y Murnane, 2010; Autor, Levy y Murnane, 2003).

Sin limitarse a la dimensión económica, la vida en una democracia que funciona efectivamente, supone que debe haber ciudadanos con una formación que no se limite a la elemental, lo cual enriquecerá su vida cultural y favorecerá la comprensión internacional tan necesaria en un mundo globalizado.


40

En cuanto al escaso sustento de la opinión de que sólo pocos alumnos tienen aptitudes para aprendizajes complejos, la Comisión del Parlamento sueco, creada en 1946 para definir cómo se debería organizar el sistema educativo, comenzó en-comendando estudios sobre el desarrollo de las habilidades de personas entre 7 y 16 años. Sin embargo, diversos trabajos pos-teriores han mostrado que los medios utilizados para detectar la aptitud académica eran poco confiables y tenían un fuerte sesgo sociocultural; que muchos individuos así seleccionados fracasaron posteriormente en los estudios; y que no era cier-to que los sujetos con menores aptitudes académicas tuvieran menos habilidades prácticas o viceversa (Husén, 1986: 156).

Al respecto, estudios más recientes ponen en evidencia más claramente este sesgo sociocultural, pues la investigación contemporánea ha vuelto obsoletas las posturas sobre el ca-rácter hereditario y no modificable de la capacidad intelectual.

A fines del siglo xx muchos expertos creían que la inteligen-cia y el talento estaban substancialmente bajo control ge-nético […] eran escépticos en cuanto al posible éxito de cualquier esfuerzo por mejorar la inteligencia, y no se sor-prendían cuando intervenciones de educación temprana no tenían efectos duraderos […] Sin embargo, los resultados de las recientes investigaciones en psicología, genética y neurociencia, junto con los actuales estudios sobre la efica-cia de las intervenciones educativas, han puesto de cabeza la fuerte postura hereditaria sobre la inteligencia. Ahora se considera claro que la inteligencia es altamente modificable por el medio […] que el iq de cualquier persona, así como sus resultados académicos y su éxito ocupacional sean altos o bajos depende en buena medida de factores ambientales que no tienen nada que ver con sus genes (Nisbett, 2009: 1 y 2).

Avances de la psicometría

En la segunda mitad del siglo xx, los avances en medición y pruebas continuaron de forma paralela a los cambios de la sociedad, de los sistemas educativos y de las ideas psico-lógicas. Los fundamentos de las décadas anteriores se enri-


41

quecieron con aportaciones importantes, especialmente con modelos derivados de la teoría de respuesta a los ítems, las pruebas criteriales, las pruebas basadas en estándares y los mapas de progreso, además de la teoría de la generalizabili-dad y otros avances.

La teoría de respuesta a los ítems (tri) o de las curvas características de un ítem, intenta fundamentar probabilísti-camente “el problema de la medición de rasgos y constructos no observables (rasgos latentes), considerando al ítem, y no al puntaje global, como unidad básica de análisis” (Martínez-Arias, 1995: 237-243).

Con antecedentes como los trabajos de Binet, Thurstone y otros, se considera que el precusor formal de estos modelos fue un artículo publicado por Lord en 1952, con el título de “A theory of tests scores”. En 1957-58 Birnbaum desarrolló los modelos de dos y tres parámetros, y en 1960, apoyado por el entusiasta Benjamín Wright, Rasch propuso el modelo de un parámetro que pese a su mayor simplicidad, o tal vez por ello, se extendió más rápidamente. La obra Statistical Theories of Mental Test Scores (1968), de Lord y Novick, difunde una versión madura de la tri.

Con la difusión de las computadoras, los cálculos nece-sarios para aplicar la tri se volvieron accesibles, gracias a lo cual se impuso como paradigma en la psicometría. En 1985 el libro Item Response Theory. Principles and Applications, de Hambleton y Swaminathan, mostraba la amplitud de las aplicaciones de la tri (Cfr. Muñiz, 1997).

Otro avance fue el de las pruebas referidas a un domi-nio o criterio, según la terminología introducida por Glaser en 1963, como alternativa a las pruebas diseñadas en relación con una norma estadística. Con el nuevo enfoque se buscó medir si un sujeto alcanza un nivel de rendimiento definido, en lugar de fijar su posición en relación con otros sustentan-tes. La idea de Glaser fue desarrollada por Popham, Husek y Hambleton (Martínez-Arias, 1995: 653-693), quienes la rela-cionaron con las pruebas basadas en estándares.

Posteriormente, según Forster y Masters, la diferencia entre pruebas con referencia a una norma estadística o a cier-tos criterios o estándares, perdió importancia con las prue-bas basadas en las nociones de evaluación del desarrollo del


42

aprendizaje (developmental assessment) y los mapas de progre-so, utilizados inicialmente en trabajos del Australian Council for Educational Measurement (acer) (2010: 369).

Los “mapas de progreso” describen el avance típico en cierta área de aprendizaje, o sea los conocimientos, habilidades y comprensiones en desarrollo en comparación con los cuales se puede evaluar y monitorear a lo largo del tiempo el apren-dizaje de los estudiantes. Ofrecen un marco que franquea el aparente abismo conceptual entre las evaluaciones en aula a cargo de los maestros y las evaluaciones del sistema educativo con propósitos de rendición de cuentas [y son] tal vez el desa-rrollo singular más importante de la medición en educación durante el siglo xx […] Durante la mayor parte del siglo xx la medición educativa y psicológica se basaba en la construc-ción de instrumentos (tests, cuestionarios, exámenes) y el desarrollo de normas para cada uno. Cada instrumento y las tablas normativas que lo acompañaban permitían comparar a los estudiantes entre sí. La segunda mitad del siglo vio el desarrollo de métodos para construir y utilizar marcos para reportar resultados que no están asociados a ningún instru-mento en particular… El nivel de desempeño de un indivi-duo puede interpretarse en referencia al marco de reporte subyacente (o sea con referencia a criterios o estándares) o con referencia al desempeño de otros estudiantes (o sea con referencia a una norma estadística), pero con el uso de ma-pas de progreso estas distintas interpretaciones no implican diferentes acercamientos a la evaluación (2010: 371 y 372).

En una dirección diferente, la teoría clásica de las prue-bas fue desarrollada por la teoría de la generalizabilidad de Cronbach y colaboradores. Este enfoque atiende de forma más comprensiva la problemática de la confiabilidad con la noción de generalizabilidad, que substituye el concepto de “puntaje verdadero” por el de “puntaje del universo” y en lugar de ma-nejar el error de medición en forma global, identifica diversas fuentes posibles de error o facetas, y mide su influencia con técnicas estadísticas multivariadas. Teniendo sus anteceden-tes en décadas previas, el trabajo fundacional de la teoría de la generalizabilidad fue publicado en 1963 y titulado como


43

Theory of Generalizability. A Liberation of Reliability Theory (Martínez-Arias, 1995: 170). Una década más tarde se pu-blicó la obra que contiene la versión madura de dicha teoría (Cronbach et al., 1972).

Otras novedades de las últimas décadas del siglo xx inclu-yen técnicas para valorar el sesgo o funcionamiento diferen-cial de los ítems, pruebas que incluyen respuesta construida, pruebas de ejecución o desempeño, pruebas auténticas, prue-bas adaptativas por computadora, pruebas matriciales o en espiral, así como adaptaciones (accomodations); es decir, varia-ciones controladas de una prueba para atender las condiciones particulares de algunos sustentantes, como discapacitados, entre otros.

Estos y otros avances permiten hablar de una nueva ge-neración de pruebas muy distintas de las de mediados del siglo xx, que típicamente consistían en conjuntos de preguntas de opción múltiple aplicadas en forma uniforme y controlada, cuyos resultados se analizaban únicamente con la teoría clá-sica y muchas veces se reportaban solamente en forma de porcentaje de respuestas correctas.

La difusión de las pruebas hasta principios del siglo xxi

Las transformaciones sociales, las de los sistemas educati-vos y las metodologías de medición que surgieron durante la segunda mitad del siglo xx, se combinaron para producir un fenómeno sin precedentes en el terreno educativo, el cual con-sistió en una difusión amplísima y muy rápida de las pruebas estandarizadas a gran escala en un elevado número de países.

El caso de Estados Unidos

Al comenzar la segunda mitad del siglo xx, varios aconteci-mientos contribuyeron a generar preocupación sobre la ca-lidad de las escuelas norteamericanas; al respecto se pueden mencionar el Informe Coleman, de 1966, una tendencia a la baja del promedio de los resultados obtenidos año tras año en el sat por los aspirantes a la educación superior, y de ma-nera destacada, el impacto del lanzamiento del Sputnik, por parte de la Unión Soviética, en 1957.


44

La ley titulada significativamente National Defense Education Act, aprobada por el Congreso de Estados Unidos en 1958 (Mathison y Ross, 2008), muestra la lectura que se dio al lanzamiento del Sputnik en el contexto de la Guerra Fría, como indicio de que la urss estaría adelantándose a los Estados Unidos en la carrera espacial, lo que querría decir que en aquel país había mejores científicos e ingenieros y, en última instancia, una educación de mayor calidad, especial-mente en matemáticas y ciencias.

Más tarde, en la era post-Sputnik y post-Coleman, las legislaturas de California, Florida y Oregon establecie-ron la obligación de evaluar regularmente a los alumnos de diversos grados de la educación preuniversitaria, mediante pruebas de rendimiento construidas a partir de “estándares mínimos de desempeño”.

Estos programas de minimum competency testing (pruebas de competencia mínima) fueron parte de una estrategia de mejoramiento adoptada por muchos estados, y aunque no era evidente que hubiera realmente un deterioro en los pro-medios del sat, dados los cambios en el alumnado de high school y sobre todo en la población de aspirantes a ingresar a las universidades, los motivos de preocupación resultaron suficientemente fuertes para que la tendencia se fortaleciera, y de hecho prácticamente todos los estados americanos im-plantaron alguna variante de las pruebas basadas en estánda-res mínimos de desempaño.

En 1982, según Baker y Choppin (1990), 42 de los 50 es-tados de Estados Unidos tenían programas obligatorios de esa naturaleza, y al generalizarse, los programas de pruebas de competencia mínima muchas veces se aplicaron de manera deficiente, por lo que su impacto se redujo y las expecta-tivas depositadas en ellos no se cumplieron. En cambio se elevaron las demandas judiciales que cuestionaban las prue-bas por discriminatorias, sesgadas y poco fiables. En 1978 (Bracey; Brikell; Cawelti; Ebel; McClung; Mecklenburger; Pipho) y 1979 (Boes; Pipho) la revista Phi Delta Kappan pu-blicó varios textos polémicos sobre las pruebas de compe-tencias mínimas (Cfr. Latapí, 1991).

En este contexto de preocupación por la calidad de las escuelas americanas, la década de 1960 fue testigo del naci-


45

miento del programa National Assessment of Education Pro-gress (naep), el cual se creó con el propósito de obtener infor-mación sobre el nivel de la educación a escala nacional (Cfr. Walberg, 1990). Este programa ha servido como punto de referencia para los sistemas de pruebas destinados al moni-toreo de la calidad educativa en otros países, como Australia (Australian Council for Education Research, acer) y Holanda (Intituto para la Premiación y Evaluación de Exámenes, cito, por sus siglas en neerlandés).

El naep se gestó en 1963, cuando una comisión presidida por Ralph Tyler (Exploratory Committee on Assessing the Pro-gress of Education), llevó a cabo un trabajo que concluyó en 1969, año en que fue asumido por la Education Commission of the States para darle continuidad. A partir de 1983, la reali-zación de los estudios del programa naep fue confiada al ets, el cual creó en su seno, para llevar a cabo esta tarea, el Center for the Assessment of Educational Progress (caep). Con esta medi-da, la calidad técnica de los trabajos del naep se incrementó en buena medida (Walberg, 1990; De Landsheere, 1994: 50 y 51).

La lectura y las matemáticas se evalúan cada dos años, mientras que la expresión escrita y las ciencias cada cuatro. Las pruebas tienen un diseño matricial o en espiral, pues no se pretende obtener resultados a nivel individual, sino para el subsistema, y se aplican a muestras representativas de niños con 9, 13 y 17 años, edades que corresponden a etapas impor-tantes del proceso escolar.

Inicialmente los resultados permitían comparaciones entre cuatro regiones del país (noreste, sureste, centro y oes-te), así como entre tipos de comunidades, grupos de alum-nos con padres de diferente nivel de escolaridad, raza y sexo. Desde 1990 los resultados permiten también comparaciones entre estados. Las escalas del naep para evaluar las áreas de contenido, manejan cinco niveles: rudimentario, con 150 puntos; básico, con 200; intermedio, con 250; apto, con 300; y avanzado, con 350.

La publicación en 1983 del informe A Nation at a Risk: The Imperative for Educatinal Reform, del presidente Ronald Reagan, fue un indicio de la vigencia de la preocupación americana por la calidad educativa desde una perspectiva de seguridad nacional, militar y económica, y con dicho informe inició el


46

movimiento de estándares educativos que se manifestó fuer-temente en la década de 1990 (Cfr. Mathison y Ross, 2008).

En 1989, en la llamada Cumbre Educativa de Charlottes-ville, los gobernadores de los 50 estados norteamericanos, con-vocados por el presidente, se plantearon un conjunto de metas para el año 2000. Una meta establecía que para esa fecha los estudiantes americanos deberían terminar los grados 4°, 8° y 12°, demostrando competencia en temas exigentes (challen-ging) de inglés, matemáticas, ciencias, historia y geografía. En 1990 se establecieron programas apoyados con fondos fede-rales para avanzar hacia esas metas y se crearon el National Education Goals Panel y el National Council on Education Standards and Testing (Mathison, 2008: 9).

A lo largo de la década, muchas organizaciones profe-sionales participaron en el desarrollo de estándares para di-versas áreas curriculares, de manera que “durante los años 90 virtualmente cada área temática que se enseña en las escue-las fue codificada en un conjunto de estándares promulgados por una asociación profesional” (2008: 9).

Otras cumbres educativas (education summits) de gober-nadores se llevaron a cabo también en los años 90, y el de-sarrollo de estándares se vio acompañado por inspecciones para comprobar su cumplimiento, en un proceso que alcanzó su máxima expresión a partir de 2002.

Como se ha señalado, las pruebas del naep ofrecen resul-tados confiables sobre el sistema educativo del país, pero no brindan resultados individuales ni a nivel de cada escuela o distrito. Para tener resultados confiables en esos niveles más específicos se buscaron otras soluciones: la prueba nacional voluntaria (voluntary national test, vnt), propuesta por el pre-sidente Clinton en su mensaje sobre el Estado de la Unión en 1997; y un gran sistema de pruebas adaptativas computari-zadas, aplicado por internet, propuesto por la Rand Corpora-tion (Klein y Hamilton, 1999).

En 2002, el presidente Georges W. Bush firmó una nueva legislación educativa a nivel federal, designada con la expre-sión “que ningún niño se quede atrás” (No Child Left Be-hind, nclb). Esta legislación implicó cambios importantes en las políticas educativas –en lo general– y en la evaluación del rendimiento de los alumnos –en lo particular–. Para entender


47

las motivaciones y los alcances de estos cambios, conviene recordar algunas cosas, las cuales se exponen a continuación.

Los resultados obtenidos en las pruebas del Programme for Institutional Student Assessment (pisa), aplicadas en el año 2000, tal como había ocurrido con el Third International Mathematics & Science Study (timss) y otras evaluaciones de la International Association for the Evaluation of Educa-tional Achievement (iea), situaron a Estados Unidos a me-dia tabla entre los países desarrollados, lejos de los primeros puestos que les gustaría ocupar y que ahora acaparan países como Finlandia o Canadá, así como Corea del Sur, Singapur y Japón. Los alumnos norteamericanos estuvieron lejos de la meta fijada en 1989 por los gobernadores, en el sentido de que para la fecha planteada (2000) tendrían los primeros lu-gares del mundo en matemáticas y ciencias (pisa, 2001). Tam-bién era claro que eso no ocurriría en tanto no mejoraran los resultados de los alumnos en condiciones más desfavorables, los más pobres, masivamente negros e hispanos, cuya lengua materna evidentemente en muchos casos no era el inglés.

La ley nclb tiene el propósito de revertir la situación en un plazo de doce años (hasta 2014), con medidas que inclu-yen reforzar los mecanismos de evaluación: todos los estados deberán definir estándares educativos claros y crear sistemas estatales de evaluación alineados con esos estándares, con pruebas anuales de inglés, matemáticas y ciencias para todos los alumnos de 4° a 8° grado. Además, la participación en las pruebas del naep pasó a ser condición obligatoria para acceder a los fondos federales para apoyar programas de mejoramien-to educativo.

La nueva ley hizo que Estados Unidos pasara de una si-tuación en la que había muchas evaluaciones a gran escala de impacto reducido, a otra en la que las evaluaciones se volvie-ron de alto impacto porque los resultados de los alumnos en las pruebas son el criterio para definir si una escuela consigue o no el avance estipulado para recibir apoyo (adequate yearly progress, ayp) o incluso para ser cerrada si no lo consigue.

Pese a lo anterior, la última aplicación de pisa mostró poco avance de los alumnos norteamericanos, esta vez fren-te a un sorprendente desempeño de la provincia china de Shanghái (pisa, 2009), que en la primera ocasión que parti-


48

cipó en las pruebas de la Organización para la Cooperación y el Desarrollo Económico (ocde), apareció por delante de todos los países en las tres áreas evaluadas y con diferencia significativa respecto a sus seguidores más cercanos (Hong Kong, Finlandia y Corea del Sur) en lo que podría ser el nue-vo “momento Sputnik” de la carrera educacional en Estados Unidos, según el presidente Obama (upi, 2009).

Las evaluaciones internacionales

La preocupación por la calidad educativa no ha sido exclusiva de Estados Unidos. Los hechos que agudizaron esa preocupa-ción, en especial el lanzamiento del Sputnik, también produje-ron reacciones que impulsaron el surgimiento de las evaluacio-nes internacionales a lo largo de la segunda mitad del siglo xx.

Aun cuando cada país tuviera un sistema nacional de evaluación, la comparación de los resultados no sería fácil dadas las diferencias de los sistemas educativos en sus es-tructuras, currículos y calendarios escolares, además de las diferencias de contenido, grado de dificultad y enfoque de los instrumentos de evaluación que se utilizan en cada uno. Por ello, los trabajos pioneros de la iea fueron notables (Cfr. Nevi-lle-Postlethwaite, 1985; De Landsheere, 1994; Husén y Neville-Postlethwaite, 1996).

Ante las insatisfactorias tasas de egreso o eficiencia ter-minal como único indicador comparable de calidad, investi-gadores educativos de varios países, con el liderazgo del sueco Torsten Husén, se plantearon en 1958 la posibilidad de una evaluación que diera resultados comparables a nivel interna-cional con pruebas equivalentes en contenido y dificultad.

En 1959 se organizó un estudio piloto con muestras re-ducidas de 12 países, cuyo resultado se difundió en 1962; con base en ello se diseñó un trabajo a gran escala sobre mate-máticas, utilizando muestras representativas de los mismos países. La recolección de datos tuvo lugar en 1964.

En 1966 la iea se constituyó formalmente como organi-zación, y durante el resto de los 60, así como durante la déca-da de los 70, realizó trabajos en diversos países respecto a las áreas de ciencias (19 países), lectura (15 países), literatura (10 países), educación cívica (10 países), francés e inglés como


49

segunda lengua (18 países) y matemáticas, ciencias, historia y entorno del aula (10 países).

En la década de los años 80, la iea llevó a cabo un segundo estudio sobre matemáticas en 20 países, un segundo trabajo sobre ciencias en 24 países y otro más sobre composición es-crita en 14 países. Desde fines de los años 80 hasta mediados de los 90, la iea condujo un trabajo más sobre el uso de compu-tadoras en la educación en 23 países, otro sobre pre-primaria en 14 países, otro respecto a lectura en 31 países y un cuarto estudio acerca de matemáticas y ciencias en más de 40 países (Third International Mathematics & Science Study, timss).

Hasta principios de la década de 1990 sólo hubo otro estudio comparativo del aprendizaje en varios países, el del Educational Testing Service conocido también como Inter-national Assessment of Educational Progress (iaep) (Cfr. Li-vingstone, 1990). El iaep, sin embargo, no tuvo continuidad, por lo que parece válida la siguiente afirmación respecto a los trabajos de la iea:

En el campo de la evaluación comparativa hay pocas dudas de que, desde sus inicios a principios de la década de los años 60, esta organización ha sido la principal fuente de compa-raciones confiables entre sistemas educativos. (Goldstein, 1996: 125).

A fines del siglo pasado y en lo que va del presente, las acti-vidades de la iea se fortalecieron: además de los proyectos sobre matemáticas, ciencias y lectura, se desarrollaron otros como el de educación cívica; participan en ellos cada vez más países y el intervalo entre aplicaciones se ha reducido, pues el timss adoptó un ritmo de aplicaciones en cada cuatro años y sus siglas ahora quieren decir Trends in Mathematics and Science Study. El nuevo timss se ha aplicado en 2003 y 2007. Las eva-luaciones sobre lectura (Progress in International Reading Li-teracy Study, pirls) adoptaron una periodicidad de cinco años.

El establecimiento de una periodicidad fija y más corta para las pruebas de la iea tuvo que ver con el surgimiento de un proyecto alterno promovido por la ocde, también cono-cida con las siglas pisa (Programme for Institutional Student Assessment).


50

Desde los años 80, en el marco de economías cada vez más competitivas en un mundo crecientemente globalizado, y con la conciencia del valor de una buena educación en la nueva sociedad del conocimiento, la ocde promovió un im-portante proyecto de indicadores educativos: Indicators of Na-tional Education Systems (ines). A mediados de los 90, buscando tener información sobre resultados de la educación mediante datos comparables sobre el nivel de aprendizaje alcanzado por los alumnos de los países que la integran, para así poder construir indicadores que no se limitaran a los insumos o los datos más elementales, la ocde decidió emprender el proyecto de pisa (Cfr. Tuijnman y Bottani, 1994; pisa, 2001).

Los datos de los estudios de la iea no eran suficientes para el ines porque, siendo una iniciativa de investigadores in-dependientes, sólo algunos de los países miembros de la ocde participaban en esas evaluaciones; además, como se ha dicho, el tiempo que pasaba entre una aplicación y otra era muy largo. Por ello, en 1997 la ocde tomó la decisión de poner en marcha su propio sistema de evaluación del aprendizaje. El desarrollo de instrumentos y aspectos técnicos estuvieron a cargo de un consorcio internacional de instituciones especia-lizadas en pruebas, encabezadas por el Australian Council for Educational Research.

Para hacer frente a los retos que implicaba evaluar es-tudiantes de sistemas educativos muy diversos, además de utilizar las técnicas más avanzadas disponibles, se tomaron decisiones interesantes: las pruebas no tendrían como referen-te los currículos de los países participantes, sino un conjunto de competencias consideradas fundamentales para una vida exitosa en las modernas sociedades del conocimiento, a par-tir de tres ámbitos generales: la lectura, las matemáticas y las ciencias.

Se utiliza el término literacy para la definición de esas habilidades básicas para la vida, que puede traducirse como alfabetización (matemática o científica), siempre y cuando el término no se asocie con niveles elementales de compe-tencia en esos ámbitos. La población objeto de estudio no se definió por alguno de los grados del sistema educativo, sino por la edad de quince años, a la que los jóvenes de todos los países de la ocde deben asistir a la escuela, lo que ocurre en la


51

mayoría de los casos, siendo México, Turquía y Portugal las excepciones. Las aplicaciones serían cada tres años y en cada una se evaluarían las tres áreas, pero una sería la principal cada vez: 2000, lectura; 2003 matemáticas; y 2006 ciencias, para volver a comenzar un gran ciclo de nueve años en 2009 (pisa, 2001).

Los planes se han cumplido puntualmente. Las aplica-ciones de 2000, 2003, 2006 y 2009 tuvieron lugar según lo previsto, con una participación creciente de países, pues otros miembros se han integrado a la ocde en cada aplicación. Los primeros análisis de los resultados de cada aplicación se han difundido en el mes de diciembre del siguiente año, con un impacto creciente.

La extensión de las pruebas estandarizadas en otros países

Al comenzar el siglo xxi muchos países han puesto en marcha sistemas de evaluación educativa a gran escala como los desa-rrollados previamente en Estados Unidos y otros pocos países, como el Reino Unido, Australia y Holanda.

En la década de 1990, en varios países se expresaban opi-niones en el sentido de que las pruebas a gran escala estaban siendo abandonadas en Estados Unidos al parecer por una creciente conciencia de sus insuperables deficiencias. Sin em-bargo, como se acaba de ver, en el caso americano las pruebas están lejos de ser abandonadas.

Curiosamente, los opositores norteamericanos a este tipo de instrumentos utilizaban el mismo argumento, afir-mando que las pruebas estarían siendo abandonadas en otros países y atribuyendo a la fuerte presencia de este tipo de eva-luaciones muchas fallas en las escuelas estadounidenses. Un artículo de Richard Phelps menciona cinco publicaciones americanas aparecidas entre 1991 y 1996 que abordan esta perspectiva (Cfr. Phelps, 2000: 11).

En su artículo, Phelps señala que las afirmaciones re-feridas no presentan evidencias, sino que se limitan a afir-mar su posición, señalando, por ejemplo, que Bélgica, Grecia, Portugal y España habían eliminado ese tipo de exámenes nacionales, cuando se sabe que justamente en 1994 España comenzó a desarrollar evaluaciones a gran escala, a través de


52

la creación del Instituto Nacional para la Calidad de la Edu-cación (hoy Instituto de Evaluación). Hay razón suficiente para dudar de tales afirmaciones.

En el artículo de Phelps se analizó la situación de 31 paí-ses y provincias, cuyo resultado muestra que entre 1974 y 1999 el uso de pruebas a gran escala estaba aumentando en la mayoría, ya que de los 31 países y provincias, 27 habían incrementado sus pruebas estandarizadas. La cifra incluye 19 países (Alemania, Bélgica, Canadá, China, Dinamarca, Es-cocia, España, Finlandia, Francia, Hungría, Inglaterra y Ga-les, Irlanda, Japón, Holanda, Nueva Zelanda, Portugal, la Re-pública Checa y Suecia), así como 8 provincias canadienses (Alberta, Columbia Británica, Manitoba, Nueva Brunswick, Terranova, Nueva Escocia, Ontario, Quebec y Saskatchewan). Corea mantuvo su misma situación, eliminando unos exá-menes e introduciendo otros. En sentido contrario, sólo Aus-tralia, Grecia y la provincia canadiense de la Isla del Príncipe Eduardo mostraron un decremento en las pruebas a gran es-cala (2000: 13-15).

Además de los países mencionados hasta ahora, de los cuales se tiene más información, se sabe que en muchos otros lugares existen sistemas de evaluación de la calidad educativa más o menos consolidados. Destacan los sistemas de países de Asia Oriental, como Singapur y otros en el cercano orien-te, particularmente en Israel; y comienzan a implantarse en países árabes con apoyo de la unesco.

En la África sub-sahariana algunos países con apoyo del Instituto Internacional de Planificación de la Educación de la unesco, unieron esfuerzos a principios de los años 90 para desarrollar un sistema de evaluación que incluye el uso de pruebas a gran escala: el South African Consortium for the Monitoring of Educational Quality (sacmeq) (Cfr. Ross, 1994; South African Consortium for the Monitoring of Edu-cational Quality, 1995). Otra iniciativa regional involucra a los países francófonos del continente.

En América Latina, una revisión de las experiencias de evaluación a gran escala lleva a la conclusión de que casi todos sus países han implantado sistemas de pruebas a gran escala, comenzando con Chile en la década de 1980, seguido por casi todos en la década de 1990. En muchos casos, especialmente


53

en América Central, influyó el apoyo técnico y financiero nor-teamericano (Cfr. Ferrer, 2006; Grupo de Trabajo sobre Están-dares y Evaluación, 2007 y 2008; Martínez-Rizo, 2008).

En las primeras etapas las pruebas utilizadas se cons-truían con un enfoque normativo, estaban integradas exclu-sivamente por preguntas de opción múltiple, el escalamiento de las respuestas y el análisis de los resultados se basaban en la teoría clásica de las pruebas y se daban los resultados so-lamente en forma de porcentajes de las respuestas correctas.

Paulatinamente en muchos países se han incorporado metodologías avanzadas: modelos basados en la teoría de respuesta al ítem, especialmente el de Rasch; difusión de re-sultados tanto a través de puntuaciones como con porcen-tajes de alumnos en niveles de desempeño; en algunos casos diseños matriciales para la construcción de las pruebas y pre-guntas de respuesta construida; cuestionarios de contexto con los cuales los resultados se analizan no sólo por región, sino también por género, nivel socioeconómico y grupo étni-co; y análisis más complejos con modelos multinivel.

En general las pruebas eran de bajo impacto porque sus resultados no se usaban para tomar decisiones relativas a los individuos, como la aprobación o reprobación de los alum-nos; dar estímulos o tomar medidas correctivas que afecta-ran a maestros o escuelas. En algunos casos el impacto era de hecho nulo por la ausencia de difusión de los resultados.

La excepción más destacada fue el Sistema de Medición de la Calidad de la Educación (simce) de Chile, que desde sus inicios se definió como de alto impacto, pues su diseño cen-sal se hizo con el propósito de introducir cambios mayores en el sistema educativo, con su municipalización y su relati-va privatización. Los resultados del simce se utilizan para de-cidir cuáles escuelas pueden recibir fondos públicos en forma de bonos individuales para sus alumnos.

Más recientemente sobresale la tendencia de hacer apli-caciones censales con la creencia mal fundada de que sus resultados permiten comparaciones directas y simples entre escuelas y docentes, gracias a lo cual se podrían tomar medi-das que llevarían a mejorías sustanciales a corto plazo.

Además de Chile, han incursionado en la aplicación de pruebas censales México, Brasil, Colombia, Costa Rica, Re-


54

pública Dominicana, Ecuador, El Salvador, Guatemala y Perú. Uruguay lo ha hecho sin volver de alto impacto las pruebas. El riesgo de que aparezcan consecuencias contraproducen-tes no es ya sólo teórico, sino una realidad cuya presencia es cada vez más fuerte en la región (Cfr. Martínez-Rizo, 2010a).

El caso de México

En México, desde la década de 1970 la Secretaría de Edu-cación Pública (sep) comenzó actividades que llevaron a la creación de la Dirección General de Evaluación. Las primeras pruebas se aplicaron en 1972 para la admisión de alumnos en secundaria, y a fines de la década se aplicaron en muestras de primaria. En los años 80 no hubo avances cualitativos, sino hasta principios de la década de 1990, tras la firma del Acuerdo para la Modernización de la Educación Básica, en mayo de 1992.

En relación con el programa de estímulos económicos para docentes, llamado Carrera Magisterial, se desarrollaron las pruebas del Factor Aprovechamiento Escolar que, a partir de 1994, se aplicaron masivamente en los últimos cuatro gra-dos de primaria y los tres grados de secundaria básica a todos los alumnos de escuelas públicas que aspiraban a recibir los estímulos económicos. Las primeras aplicaciones compren-dieron más de cuatro millones de alumnos, y para 2005 la cifra estuvo cerca de ocho millones.

En 1991, con apoyo del Banco Mundial, se desarrolló el Programa para Abatir el Rezago Educativo en cuatro estados pobres, el cual incluyó la aplicación de pruebas para valorar el aprendizaje de los alumnos. Otros programas similares si-guieron también, siempre con evaluaciones de los alumnos. En 1996 se emprendió un trabajo de definición de estándares curriculares con el desarrollo de instrumentos de evaluación, lo que dio origen a que las Pruebas de Estándares Nacionales se aplicaran por primera vez en 1998. Hasta 2004 se aplica-ron cada año a muestras nacionales de alumnos, de primaria y desde 2000 también de secundaria.


55

Consecuencias de la proliferaciónde pruebas y reacciones

Sin considerar las pruebas de ingreso a la universidad, los ins-trumentos usados a lo largo del siglo xx fueron, en general, de bajo impacto: sus resultados no influían en las decisiones que se tomaban respecto a cada alumno ni a maestros y escuelas individuales. En Estados Unidos esta situación comenzó a cambiar en la década de 1980, y la tendencia se acentuó en los años 90, para culminar en las disposiciones de la ley nclb, de 2002, con la que las pruebas a gran escala adquirieron un peso fundamental sin precedentes en ese tipo de decisiones relativas a individuos (alumnos, maestros o escuelas).

En muchos otros países ocurrió algo similar. El hecho de que las pruebas se aplicaran masivamente y sus resul-tados se difundieran mediante ordenamientos simples de escuelas –basados éstos en los puntajes obtenidos por los alumnos, sin tener en cuenta el contexto en que opera cada una (rankings o league tables)– volvía de alto impacto los re-sultados. Este impacto se presenta por el hecho mismo de la difusión de los ordenamientos, aun si no hay disposiciones legales que impliquen que el lugar ocupado en las listas tenga consecuencias para las escuelas. Casos notables en este sen-tido son los de Estados Unidos, Inglaterra o Chile, donde se han presentado muchas críticas negativas.

Algunas de las críticas a las pruebas a gran escala pro-vienen de personas que se oponen radicalmente a ellas recha-zándolas en su conjunto sin tener en cuenta sus múltiples variantes y los diversos usos que se pueden hacer de sus re-sultados, ya que consideran que todas son esencialmente inapropiadas para el trabajo educativo. Estas críticas parten por lo general de posturas ideológicas preconcebidas y no sue-len presentar argumentos consistentes ni se basan en datos empíricos precisos.

En cambio, las críticas que se considerarán en los párrafos siguientes, proceden de personas que son conocedoras de las pruebas y partidarias del uso adecuado de las mismas. A dife-rencia de los críticos radicales, lo que estos juicios cuestionan son usos de la evaluación que consideran ilegítimos porque no tienen en cuenta los alcances y límites de las pruebas, y por


56

ello tienden a hacer un uso abusivo de sus resultados, lo que puede traer consecuencias negativas que pueden ser serias.

Uno de los críticos más destacados de este grupo es W. Ja-mes Popham, profesor emérito de la Universidad de California, en Los Ángeles, ampliamente reconocido como un destacado experto en pruebas y evaluación, quien desde antes de la ley nclb (2002), a propósito del creciente peso que la evaluación basada en pruebas estandarizadas estaba adquiriendo en los Estados Unidos y pece a los riesgos que ello traía consigo, señalaba lo siguiente:

El público piensa que las escuelas no son tan efectivas como deberían. Yo puedo compartir esa opinión. Si los jóvenes obtienen diplomas de enseñanza media superior sin saber leer, escribir o contar bien, eso no es bueno. Así, los contri-buyentes quieren estar seguros de que sus escuelas funcio-nan adecuadamente y surgió el movimiento a favor de la rendición de cuentas […] y el papel de las pruebas se volvió predominante (2001).

Luego Popham se refirió a las consecuencias negativas que trajo consigo el énfasis excesivo y mal enfocado en la importancia de las pruebas de rendimiento:

Por la errónea utilización de pruebas de rendimiento estan-darizadas tradicionales para evaluar la calidad de las escuelas hay cosas realmente terribles que están ocurriendo en las es-cuelas de nuestros niños. Una es que aspectos importantes del currículo se están haciendo a un lado porque no son medidos por las pruebas. Otra, que los niños son entrena-dos sin descanso para que dominen el contenido de esas pruebas y por ello están comenzando a odiar la escuela. Y una más es que, en muchos casos, los maestros se dedican a preparar a sus alumnos para las pruebas, lo que se parece mucho a hacer trampa, porque inflan los puntajes de los alumnos sin elevar su competencia en lo que se supone mi-den las pruebas (2001).

Opinando sobre los planes para extender las pruebas que la ley nclb volvió realidad, Popham dejó claro que su pos-


57

tura no se refería a cualquier manera de utilizar las pruebas, sino a ciertas formas inapropiadas:

No me opongo a las pruebas de alto impacto. Pienso que buenas pruebas de ese tipo podrían ser muy útiles no sólo para la rendición de cuentas, sino también para la enseñan-za. Pero si tenemos más de lo mismo, dañaremos a los niños, en vez de ayudarlos […] Con buenas pruebas podemos ha-cer bien a la educación. Con pruebas inadecuadas podemos hacer estúpida y corromper la educación de nuestro país […] Unas pruebas bien hechas pueden ser una herramienta maravillosa no sólo para que todo mundo sepa qué tan bien marchan nuestras escuelas, sino para ayudar a los maestros y los estudiantes a promover el tipo de conocimientos y ha-bilidades que los niños deberían dominar. Tenemos que pen-sar en pruebas distintas de las tradicionales. Mi crítica no es a las pruebas de alto impacto, sino a las pruebas construidas según los principios tradicionales (2001).

Popham añadió expresamente que su postura no era la de un opositor sistemático a las pruebas, puesto que al ser bien utilizadas podrían ser de gran valor para la educación:

Está surgiendo en nuestro país una resistencia a cualquier tipo de pruebas. Pienso que esto no es sano. Creo que hay que usar pruebas bien construidas que ayuden a los maes-tros a mejorar su enseñanza. Pienso también que el público tiene derecho a saber qué tan bien funcionan las escuelas. Por ello pienso que oponerse a cualquier tipo de pruebas es negativo para los alumnos. Tenemos que hacer buenas prue-bas que pueden ser una fuerza poderosa para mejorar la en-señanza, haciendo que los alumnos aprendan lo que deben aprender (2001).

En un texto reciente, ante la evidencia de que su temor respecto a la extensión de las pruebas sin la consideración de sus alcances y límites se había vuelto realidad, Popham precisó dos razones por las que una buena idea –lograr que los alumnos alcancen altos niveles de competencia mediante una educación basada en estándares– está teniendo las funes-


58

tas consecuencias que él anticipaba: por una parte, el exceso de contenidos que trae consigo una definición inadecuada de los estándares; y por la otra, el uso de pruebas inapropiadas, por su falta de sensibilidad a la instrucción (instructionally insensitive tests), como instrumentos para verificar el cumpli-miento de los estándares:

Estamos haciendo imposible que los maestros tengan mejores resultados sin hacer trampa. Si desarrollamos pruebas que fundamentalmente miden lo que los ni-ños traen de su casa a la escuela, y no lo que aprenden en ésta, entonces esos niños nunca tendrán resulta-dos mejores a lo que les permiten sus antecedentes familiares. Tenemos que desarrollar pruebas que re-flejen realmente qué tan bien enseñan los maestros […] El desencanto de la gente con la educación es profundo, y muchos buscan alternativas, como las charter schools, los vouchers y cosas por el estilo. Yo creo en las escuelas públicas, y creo que pueden hacerse más efectivas si no son evaluadas con herramientas inadecuadas, sino que se les den herramientas de eva-luación que les ayuden a cumplir mejor su función. Yo quiero que nuestras escuelas públicas subsistan, y pienso que debemos comenzar buscando una forma distinta de medir su desempeño (2008: 23).

En su trabajo “Why testing experts hate testing” (1999), también anterior a la ley nclb, Phelps señaló la extraña divi-sión de opiniones que había entre los padres de familia y el público mayoritariamente estaba a favor de darle más im-portancia al uso de las pruebas, frente a las fuertes críticas de los que se oponían, entre los que se encontraban destacados expertos, cuyos argumentos fueron analizados por Phelps, mostrando también sus debilidades.

La experiencia de la aplicación de la ley nclb puso en evi-dencia serias deficiencias y consecuencias contraproducentes, sobre todo para las escuelas públicas, pues varios pronósticos señalan que muy pocas cumplirán las exigencias del Avance Anual Adecuado (Adequate Yearly Progress) que establece la ley, mientras que la gran mayoría (tal vez más de 95% en el


59

país) será clasificada como deficiente (failing) y deberá en-frentar consecuencias que pueden llegar teóricamente hasta su desaparición (Oakes y Lipton, 2007: 451 y 452).

Una conclusión prudente puede ser la siguiente: un uso responsable de pruebas bien diseñadas que evite a tomar de-cisiones fuertes con base únicamente en sus resultados, pue-de aportar elementos valiosos para la mejoría educativa; sin embargo, las pruebas que se utilizan en muchos estados en el marco de la ley nclb, distan de reunir las condiciones que las harían adecuadas y los usos que se hacen de ellas rebasan por mucho lo que sus resultados permitirían fundamentar sólidamente.

Un investigador destacado del escenario psicométrico contemporáneo, Robert Linn, escribió, también antes de la ley nclb:

Me veo llevado a concluir que en la mayoría de los casos los instrumentos y la tecnología no han estado a la altura de lo que esperaba de ellos la rendición de cuentas de alto impac-to. Los sistemas de evaluación basados en pruebas, que son útiles para propósitos de monitoreo, pierden mucha de su confiabilidad y credibilidad para ello cuando se les asocian consecuencias fuertes. Los efectos negativos inesperados de usos de alto impacto de la rendición de cuentas frecuente-mente son más importantes que los efectos positivos que se buscaban (2000: 14).

Contemporánea de la ley nclb es la siguiente cita de Ha-milton, Stecher y Klein, la cual revela una posible explicación de por qué han sido tan elevadas las expectativas que han llevado a los usos inadecuados de las pruebas de alto impacto que aquí se están cuestionando:

Los sistemas de rendición de cuentas basados en pruebas están fundamentados en la creencia de que la educación pú-blica puede mejorar gracias a una estrategia sencilla: haga que todos los alumnos presenten pruebas estandarizadas de rendimiento y asocie consecuencias fuertes a las pruebas en forma de premios cuando los resultados suban y sanciones cuando no ocurra así (Hamilton, Stecher y Klein, 2002: iii).


60

Las consideraciones anteriores sobre las consecuencias que puede tener el abuso de las pruebas, particularmente para las escuelas públicas, son relevantes para el sistema edu-cativo mexicano, en el que casi todos los alumnos con esca-sos recursos económicos son atendidos en dichas escuelas.

Muchas personas no tienen conciencia de la dificultad que implica obtener buenos resultados educativos en grupos de alumnos que provienen de un medio social desfavorable. En México es frecuente que dirigentes del sector empresarial vean con simpatía las estrategias simplistas a las que alude la cita anterior, pensando que las fallas de la escuela pública se podrían corregir fácilmente en escuelas privadas como las que atienden a sus hijos, ignorando que menos de 10% de los niños mexicanos, cuyas condiciones son privilegiadas, asis-ten a ellas. Es probable que a ello se deban las opiniones de que bastaría con aplicar pruebas masivamente y tomar me-didas correctivas simples para que la calidad de la educación mejorara sustancialmente.

La proliferación de pruebas a gran escala, especialmente censales, tanto en Estados Unidos y otros países con alto ni-vel de desarrollo, como en muchos países de América Latina, incluido México, ha ido acompañada por un creciente interés porque sus resultados sean utilizados para sustentar decisio-nes de las que se espera que se deriven mejorías importantes en la calidad educativa.

Hasta principios del siglo xxi se pudo decir que en Mé-xico había muchas actividades relacionadas con la evalua-ción educativa, pero no una verdadera evaluación. Había muchos datos, pero no se llegaba a juicios de valor sobre el estado de la educación porque faltaba integrar los datos derivados de pruebas y estadísticas y contrastarlos con pa-rámetros pertinentes. Mucho menos se llegaba a explorar explicaciones y utilizar los resultados para sustentar deci-siones de mejoría.

En la primera década del siglo xxi, la situación cambió mucho en cuanto a aspectos tanto favorables como desfa-vorables. En el lado positivo se pueden mencionar tres as-pectos: 1) los avances técnicos y la formación de un grupo pequeño pero sólido de técnicos y especialistas de muy buen nivel, en contraste con la casi total ausencia de personas pre-


61

paradas que prevalecía; 2) la creciente conciencia ciudadana del derecho a conocer los resultados de las evaluaciones, que contrasta drásticamente con la indiferencia anterior; y 3) el hecho de que algunas autoridades, tanto a nivel federal como en algunos estados, comiencen a hacer uso de los resultados de las evaluaciones (resultados de pruebas y otros indicado-res) al momento de tomar decisiones.

Sin embrago, también pueden mencionarse al menos tres aspectos desfavorables: 1) el número ya excesivo y cre-ciente de evaluaciones (y su desarticulación), que pesa cada vez más sobre alumnos, maestros y escuelas, 2) el predominio de la evaluación a gran escala sobre la que deberían realizar los maestros en el aula, viendo a la primera como sustituto de la segunda, y no como un complemento de la tarea insus-tituible de los maestros; y 3) el uso inapropiado cada vez más frecuente de los resultados y su excesivo peso en el diseño de políticas públicas (Cfr. Martínez-Rizo y Blanco: 2010).

Hace sólo diez años los resultados de las evaluaciones casi no se difundían; hoy sus aplicaciones proliferan, comien-zan a cansar a las escuelas y el público debate los resultados, muchas veces con escaso conocimiento de su complejidad; atraen la atención de los medios de comunicación y tienden a convertirse en un referente importante de las políticas edu-cativas, como ha ocurrido con las pruebas censales enlace de la Secretaría de Educación Pública; pisa, por su parte, se ha vuelto un referente externo fundamental, como muestra el hecho de que la primera meta del Programa Sectorial de Edu-cación, de la administración federal 2006-2012, es alcanzar la cifra de 435 puntos en las pruebas pisa de 2012.

Conclusión

La proliferación de pruebas censales y su excesivo peso en las políticas debido a su alto impacto, están trayendo ya conse-cuencias negativas:

• Banalización del debate público sobre la calidad edu-cativa, reducido a superficiales discusiones de ordena-mientos cuestionables.


62

• Mercadotecnia engañosa de las escuelas, sobre todo las de sostenimiento privado, que buscan atraer alumnos con base en dichos ordenamientos.

• Empobrecimiento del currículo, que se deriva de la ten-dencia de muchos maestros a enseñar para las pruebas, descuidando aspectos fundamentales que no serán evaluados.

• Cansancio y desaliento en muchas escuelas que a pesar de sus esfuerzos no consiguen resultados comparables con planteles cuyos alumnos tienen condiciones más favorables.

• Rechazo de los alumnos frente a una educación centra-da en prepararlos para las pruebas.

• Empobrecimiento de las políticas públicas en cuanto a que tienden a buscar soluciones fáciles a proble-mas complejos, descuidando aspectos fundamentales como la equidad (Cfr. Martínez-Rizo, 2010b).

Este último punto se relaciona con la rendición de cuen-tas (accountability) y cobra mayor sentido en el marco de ten-dencias más amplias, como la insuficiente transparencia en el manejo de los asuntos públicos y con frecuencia la des-confianza respecto a la educación y gestión públicas de los servicios. A ello debe añadirse la escasa cultura que hay en la sociedad en cuanto a evaluación educativa, y no sólo entre el público en general, sino también entre maestros y autorida-des educativas, e incluso entre investigadores y especialistas, lo cual nos lleva a esperar pocos resultados de mejoría en las escuelas gracias a la aplicación de pruebas, sin tener en cuen-ta sus alcances y límites.

Para que se concreten las perspectivas favorables asocia-das con las pruebas, es necesaria una visión más completa de sus posibilidades y que esta visión prevalezca sobre aquellas que son superficiales, para lo cual es fundamental tener pre-sentes estos puntos:

• Por su propia naturaleza, las pruebas a gran escala tienen rasgos que limitan su capacidad para obtener información sobre muchos aspectos importantes que debe incluir el currículo.


63

• Lo anterior puede agravarse en el caso de las aplicacio-nes censales, sobre todo si se pretende cubrir varios grados y con mucha frecuencia.

• Las pruebas a gran escala nunca podrán sustituir el trabajo de los maestros.

El último punto tiene especial importancia, pues debe en-tenderse que sólo un buen maestro puede llevar a cabo la eva-luación más importante que se debe realizar a cada alumno, una que incluya todos los aspectos del currículo y los niveles cognitivos más complejos, que tenga en cuenta las circunstan-cias de cada niño y se lleve a cabo con la frecuencia necesaria para ofrecer la retroalimentación oportuna para que el alumno pueda mejorar. Esta evaluación es la que debe hacerse en cada aula, con acercamientos más finos que los de las pruebas a gran escala.

Mas por bien que se hagan las evaluaciones a cargo de los maestros, no pueden dar resultados agregables, por lo que las pruebas a gran escala siempre serán valiosas para las decisio-nes sobre políticas educativas en diversos niveles del sistema educativo, siempre y cuando sean vistas como complementos del trabajo de los maestros y no como sustitutos del mismo.

Seguramente muchos maestros no tienen la prepara-ción necesaria para hacer bien la evaluación de la que son responsables, pero ninguna prueba a gran escala podrá ocu-par su lugar. Por ello, habrá que ofrecer a los docentes los apoyos necesarios para que cumplan adecuadamente con su función evaluadora, teniendo las pruebas a gran escala como uno de esos apoyos.

Por otra parte, de manera paralela a los avances de las evaluaciones a gran escala de las que se ha discutido hasta ahora, desde mediados del siglo pasado y durante la déca-da de 2000, se han desarrollado formas alternativas de eva-luación en el aula mediante las cuales los maestros pueden acompañar más eficazmente a sus alumnos a lo largo de su trayectoria escolar, monitoreando sus avances y ofreciéndo-les una retroalimentación útil para mejorar.

Presentar esos desarrollos, que suelen ser designados con expresiones como “evaluación formativa” o “evaluación para aprender”, será el propósito del siguiente capítulo.


64

Referencias

Aries, P. (1973). L’enfant et la vie familiale sous l’ancien régime. París: Seuil.

Arnaut, A. y Silvia, G. (2010). Educación. Los grandes proble-mas de México. México: El Colegio de México.

Autor, D., Levy, F. y Murnane, R. (2003). The skill content of recent technological change: an empirical exploration. Quarterly Journal of Economics, 118(4): 1279-1333.

Baker, E. y Choppin, B. (1990). Minimum competency tes-ting (499-502). En Walberg, H. y Haertel, H. (Eds.), The International Encyclopedia of Educational Evaluation. Nue-va York: Pergamon Press.

Black, P. y Wiliam, D. (2004). Classroom assessment is not (necessarily) formative assessment (and viceversa) (183-188). En Wilson, M. (Ed.), Towards Coherence between Clas-sroom Assessment and Accountability. Chicago: University of Chicago Press.

Boes, N. (1991). Un compendio de puntos importantes den-tro del movimiento de competencia mínima (169-202). En Latapí, P. (Ed.), Educación y escuela. Lecturas básicas para investigadores de la educación II. Aprendizaje y rendi-miento. México: sep-Nueva Imagen.

Bracey, G. (1991). Algunas dudas sobre las pruebas de compe-tencia mínima (166-175). En Latapí, P. (Ed.), Educación y escuela. Lecturas básicas para investigadores de la educación II. Aprendizaje y rendimiento. México: sep-Nueva Imagen.

Brennan, R. (2006). Educational Measurement (4a ed.). West-port: Praeger-ace.

Brikell, H. (1991). Siete notas clave sobre la evaluación de la competencia mínima (135-146). En Latapí, P. (Ed.), Educación y escuela. Lecturas básicas para investigadores de la educación II. Aprendizaje y rendimiento. México: sep-Nueva Imagen.

Casanova, M. (1998). La evaluación educativa en la escuela bá-sica. México: sep.

Cawelti, G. (1991). Prueba nacional de competencia. Una solución falsa (147-155). En Latapí, P. (Ed.), Educación y escuela. Lecturas básicas para investigadores de la educación II. Aprendizaje y rendimiento. México: sep-Nueva Imagen.


65

Choppin, B. (1985). Evaluation, assessment and measurement (1747 y 1748). En Husén, T. y Postlethwaite, T. (Eds.), The International Encyclopedia of Education. Nueva York: Elsevier.

Cronbach, L., Gloser, G., Nanda, H. y Rajaratman, N. (1972). The Dependability of Behavioral Measurements. Nueva York: John Wiley.

Donlon, T. (1984). The College Board Technical Handbook for the Scholastic Aptitude Test and Achievement Tests. Nueva York: College Entrance Examination Board.

Ebel, R. (1991). La argumentación a favor de la prueba de com-petencia mínima (156-165). En Latapí, P. (Ed.), Educación y escuela. Lecturas básicas para investigadores de la educación II. Aprendizaje y rendimiento. México: sep-Nueva Imagen.

Ferrer, G. (2006). Educational Assessment Systems in Latin Ame-rica: Current Practice and Future Challenges. Washington: preal.

Forster, M. y Masters, G. (2010). Progression and assessment: developmental assessment (369-377). En Peterson, P., Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Nueva York: Elsevier-Academic Press.

Gaulupeau, Y. (1992). La France a l’école. París: Gallimard.Goldstein, H. (1996). Introduction. Assessment in Education:

Principles, Policy & Practice, 3(2), 125-128.Goodlad, J. y Anderson, R. (1987). The Nongraded Elementary

School (reedición de la edición de 1963). Nueva York: Teachers College, Columbia University.

Grupo de Trabajo sobre Estándares y Evaluación. (2007-2008). Evaluaciones nacionales. En Observatorio regional de políti-cas de evaluación educativa. Santiago: preal.

Hamilton, L., Stecher, B. y Klein, S. (2002). Making Sense of Test-Based Accountability in Education. Santa Mónica: rand.

Herman, J. (2010). Impact of assessment on classroom practice (506-511). En Peterson, P. Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Nueva York: Elsevier-Academic Press.

Husén, T. y Postlethwaite, T. (1996). A brief history of the In-ternational Association for the Evaluation of Educatio-nal Achievement (iea). Assessment in Education: Principles, Policy & Practice, 3(2), 129-141.


66

Husén, T. y Postlethwaite, T. (1985). The International Ency-clopedia of Education. Nueva York: Elsevier.

Husén, T. (1986). Why did Sweden go comprehensive? Oxford Review of Education, 12(2), 153-163.

Instituto Nacional para la Evaluación de la Educación. (2006). Plan maestro de desarrollo 2007-2014. México: Autor.

James, M. (2010). An overview of educational assessment (161-171). En Peterson, P., Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Nueva York: Elsevier-Academic Press.

Joncich-Clifford, G. (1968). The Sane Positivist: A Biography of Edward L. Thorndike. Middletown: Wesleyan University Press.

Keeves, J. (1997). Educational Research, Methodology and Measu-rement. An International Handbook. Nueva York: Pergamon.

Keeves, J. (1997). Measurement in educational research. In-troduction: advances in measurement in education (705-712). En Keeves, J. (Ed.), Educational Research Methodology and Measurement. An International Handbook. Nueva York: Pergamon.

Klein, S. y Hamilton, L. (1999). Large-Scale Testing. Current Prac-tices and New Directions. Santa Mónica: Rand Education.

De Landsheere, G. (1996). La recherche en éducation dans le monde. París: Presses Universitaires de France.

De Landsheere, G. (1994). Le pilotage des systèmes d’éducation. Bruselas: De Boeck.

Latapí, P. (Ed.) (1991). Educación y escuela. Lecturas básicas para investigadores de la educación II. Aprendizaje y rendi-miento. México: sep-Nueva Imagen.

Laveault, D. (2010). Classroom assessment policy context (french sources) (432-437). En Peterson, P., Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Nueva York: Elsevier-Academic Press.

Levy, F. y Murnane, R. (2010). The New Division of Labor. How Computers are Creating the Next Job Market. Princeton: Princeton University Press.

Linn, R. (2000). Assessments and accountability. Educational Researcher, 29(2), 4-16.

Livingstone, I. (1990). Monitoring national standards (435-440). En Walberg, H. y Haertel, G. (Eds.), The Internatio-


67

nal Encyclopedia of Educational Evaluation. Oxford, Nue-va York: Pergamon Press.

Martínez-Arias, R. (1995). Psicometría: teoría de los tests psico-lógicos y educativos. Madrid: Síntesis.

Martínez-Rizo, F. (2010a). Assessment practice in policy context: Latin American countries (479-485). En Pe-terson, P., Baker E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Nueva York: Elsevier-Academic Press.

Martínez-Rizo, F. (2010b). Usos y abusos de la evaluación. Este País, agosto(232), 24-27.

Martínez-Rizo, F. (2008). Las evaluaciones educativas en América Latina. En Instituto Nacional para la Evalua-ción de la Educación (Coord.), Cuadernos de investiga-ción. México: inee.

Martínez-Rizo, F. (2006). Las primarias comunitarias y su desempeño. En Instituto Nacional para la Evaluación de la Educación (Coord.), Cuadernos de investigación. Méxi-co: inee.

Martínez-Rizo, F. y Blanco, E. (2010). La evaluación educa-tiva. Experiencias, avances y desafíos (89-123). En Ar-naut, A. y Silvia, G. (Eds.), Educación. Los grandes proble-mas de México. México: El Colegio de México.

Mathison, S. y Ross, E. (2008). The Nature and Limits of Stan-dards-Based Reform and Assessment. Nueva York: Tea-chers College Press.

Mathison, S. (2008). A short history of educational as-sessment and standards-based educational reform (3-14). En Mathison, S. y Ross, E. (Eds.), The Nature and Limits of Standards-Based Reform and Assessment. Nueva York: Tea-chers College Press.

McClung, M. (1991). ¿Son justos los programas de pruebas de competencia? ¿Son legales? (176-187). En Latapí, P. (Ed.), Educación y escuela. Lecturas básicas para investiga-dores de la educación II. Aprendizaje y rendimiento. México: sep-Nueva Imagen.

Mehan, H. (1979). Learning Lessons. Cambridge: Harvard University Press.

Mecklenburger, J. (1991). Exámenes de competencia mínima. Otra vez la moneda falsa (188-195). En Latapí, P. (Ed.),


68

Educación y escuela. Lecturas básicas para investigadores de la educación II. Aprendizaje y rendimiento. México: sep-Nueva Imagen.

Muñiz-Fernández, J. (1997). Introducción a la teoría de respues-ta a los ítems. Madrid: Pirámide.

Nisbett, R. (2009). Intelligence and How to Get it: Why Schools and Cultures Count. Nueva York: W.W. Norton & Com-pany.

Oakes, J. y Lipton, M. (2007). Teaching to Change the World (3a ed.). Nueva York: McGraw-Hill.

Peterson, P., Baker, E. y McGaw, B. (Eds.) (2010). International Encyclopedia of Education (3a ed.). Nueva York: Elsevier-Academic Press.

Phelps, R. (2000). Trends in large-scale testing outside the United States. Educational Measurement: Issues and Prac-tice 19(1), 11-21.

Phelps, R. (1999). Why testing experts hate testing. Fordham Report, 3(1).

Pipho, C. (1991). Exámenes de competencia mínima. Una mirada a los estándares del estado (207-214). En Latapí, P. (Ed.), Educación y escuela. Lecturas básicas para investi-gadores de la educación II. Aprendizaje y rendimiento. Mé-xico: sep-Nueva Imagen.

Pipho, C. (1991). La conferencia de la naep sobre las pruebas de competencia mínima (203-206). En Latapí, P. (Ed.), Educación y escuela. Lecturas básicas para investigadores de la educación II. Aprendizaje y rendimiento. México: sep-Nueva Imagen.

Popham, W. (2008). Standards-based education: two wrongs don’t make a right (15-25). En Mathison, S. y Ross, E. (Eds.), The Nature and Limits of Standards-Based Reform and Assessment. Nueva York: Teachers College Press.

Popham, W. (2001). Frontline. Testing our Schools. Interviews: James Popham. Recuperado el 15 de marzo de 2010 en http://www.pbs.org/wgbh/pages/frontline/shows/schools/interviews/popham.html.

Postlethwaite, T. (1985). International Association for the Evaluation of Educational Achievement (2645-2646). En Husén, T. y Postlethwaite, T. (Eds.), The International En-cyclopedia of Education. Nueva York: Elsevier.


69

Programme for International Student Assessment. (2001). Knowledge and Skills for Life. First Results from pisa 2000. París: ocde.

Programme for International Student Assessment. (2009). pisa 2009. Results: What Studenst Know and Can Do. Stu-dent Performance in Reading, Mathematics and Science. Vol. I. París: ocde.

Resnick, L., William, D., Apodaca, R. y Rangel, E. (2010). The relationship between assessment and the organi-zation and practice of teaching (397-402). En Peterson, P., Baker, E. y McGaw, B. (Eds.), International Encyclope-dia of Education (3a ed.). Nueva York: Elsevier-Academic Press.

Ross, K. (1994). The Establisment of a Southern Africa Consortium for the Monitoring of the Quality of Education. París: iiep.

Southern Africa Consortium for Monitoring Educational Quality. (1995). Southern Africa Consortium for Monitoring Educational Quality. París: iipe.

Shepard, L. (2006). Classroom assessment (623-646). En Bren-nan, R. (Ed.), Educational Measurement (4a ed.). Westport: Praeger-ace.

Thomas, C. y Shaw, C. (1992). Issues in the Development of Multigrade Schools. Washington: The World Bank-ibrd.

Thorndike, E. (1922). Measurement in education (1-9). En Twenty-first yearbook of the National Society for the Study of Education, Part I. Bloomington: Public School Publishing.

Tuijnman, A. y Bottani, N. (1994). Making Education Count. Developing and Using International Indicators. París: ocde.

United Press International. (2009). Obama: U.S. faces ‘Sputnik moment’. Recuperado el 21 de diciembre de 2010 en http://www.upi.com/Top_News/US/2010/12/06/Obama-US-faces-Sputnik-moment/UPI-42801291635999/.

Walberg, H. y Haertel, G. (Eds.) (1990). The International Encyclopedia of Educational Evaluation. Oxford, Nueva York: Pergamon Press.

Walberg, H. (1990). National assessment of educational pro-gress: retrospect and prospect (435-440). En Walberg, H. y Haertel, G. (Eds.), The International Encyclopedia of Educational Evaluation. Oxford, Nueva York: Pergamon Press.


70

Wilson, M. (2004). Towards Coherence between Classroom As-sessment and Accountability. Chicago: University of Chi-cago Press.

Capítulo segundo

La evaluación formativa

Introducción

Este capítulo se dedica al desarrollo de los nuevos enfoques de la evaluación del aprendizaje, a los cuales se aplica el ca-lificativo de formativos. Al respecto se distinguirán dos ver-siones: la más antigua, surgida en Estados Unidos y el Reino Unido; y la que se ha desarrollado en medios francófonos, inspirada en la anterior pero que ha tomado rumbos propios.

Se hace también referencia a la difusión de la evaluación formativa en otros países, pero en forma breve, puesto que no se aprecia que en esos lugares haya habido aportaciones originales al desarrollo de este enfoque. En cambio, se inclu-ye una revisión de estudios empíricos sobre el impacto de estas formas de evaluación respecto al rendimiento de los alumnos, contrastando trabajos que llegan a conclusiones abiertamente optimistas ante aquellos que advierten limita-ciones que invitan a la prudencia. Y por último, se plantean dos pronósticos en cuanto al futuro de estas tendencias.


74

Desarrollo de la noción de evaluación formativa

En sentido amplio, la evaluación formativa ha estado pre-sente desde hace mucho en la práctica cotidiana de cualquier maestro que, de alguna manera, diera retroalimentación a sus alumnos cuando verificara sus avances. Esto ocurría tanto en las pruebas llamadas objetivas, como en las formas tradicionales de toma de lección, propias de las escuelas anti-guas, y en las de tipo catecismo que, como se señaló en el ca-pítulo anterior, siguen presentes en las escuelas del siglo xxi. Torrance y Prior citan a Sinclair y Clouthers, quienes en 1975 encontraron que “la interacción entre maestro y alumno in-corpora una secuencia básica de tres pasos (ire): iniciación (por el maestro), respuesta (por el alumno) y evaluación/re-troalimentación (por el maestro)” (1995: 312).

Sin embargo, en este capítulo nos interesa un enfoque relativamente reciente, el cual cobró fuerza a fines del siglo xx y en la actualidad constituye un tema novedoso y en auge, con todos los riesgos que ello implica.

El desarrollo original en Estados Unidosy el Reino Unido

El Consejo de Autoridades Educativas Estatales (Council of Chief State School Officers) de los Estados Unidos define la evaluación formativa como un proceso utilizado por maes-tros y alumnos durante la instrucción, que ofrece retroali-mentación para ajustar la forma en que se desarrollan la en-señanza y el aprendizaje, con el propósito de mejorar el logro de los objetivos de enseñanza que se quieren alcanzar.

En varios trabajos recientes, Susan Brookhart (2005, 2007, 2009) propone una definición alterna que distingue cuatro etapas en el desarrollo de la noción de evaluación for-mativa, las cuales son presentadas esquemáticamente a tra-vés de un gráfico que se retoma a continuación, con ligeras modificaciones.

La evaLuación formativa

75

Figura 1. La evaluación formativa: un concepto en expansión.

Scriven,1967

Información sobre los procesos de enseñanzay de aprendizaje…

Bloom et al.,1971

que puede ser usada por los maestros para tomar decisiones instruccionales…

Sadler,1983 y 1989

para que los alumnos mejoren su propio desempeño…

Black, Wiliam, Brookhart,

Stigginsy estén motivados.

Fuente: Brookhart (2009), con adaptaciones del autor.

Al combinar los elementos aportados en cada una de las cuatro etapas del desarrollo de la noción, la evaluación for-mativa, según Brookhart, se puede definir como un proceso mediante el cual se recaba información sobre el proceso de en-señanza-aprendizaje, que puede se usada por los maestros para tomar decisiones instruccionales para que los alumnos mejoren su propio desempeño y estén motivados (Brookhart, 2009: 1).

Cada una de las etapas del desarrollo de la noción, es-quematizadas por Brookhart, ha aportado algo sustantivo a la noción misma: la idea original de Scriven, que distingue evaluación al final o en el proceso; la aplicación explícita de la noción de la evaluación del aprendizaje y no sólo del currículo o los programas, por Bloom; la identificación de los alumnos como destinatarios clave de la información, según Sadler, con su planteamiento de los tres elementos básicos: el punto de partida, el de llegada y el de recorrido entre uno y otro; y por último, el impacto de la “revolución cognitiva” y la atención a la dimensión afectiva, con Black, Wiliam, Shepard, Brookhart y Stiggins, entre otros.


76

El planteamiento inicial de Scriven

La idea que propuso Michael Scriven en 1967, consiste en distinguir la información que se usa para mejorar algo que está en proceso, oponiéndola a la que sirve para valorar el resultado final, lo cual es particularmente útil para la evalua-ción de programas educativos. La idea clave del trabajo se-minal de Scriven (1967) era sencilla: si se evalúa una primera versión de un programa educativo cuando todavía es posible introducir cambios derivados de dicha evaluación, estamos ante un caso de evaluación formativa, pero cuando se evalúa la versión final, madura, de un programa educativo para decidir si debe continuar o terminar, se está ante un ejemplo de evalua-ción sumativa (Popham, 2008: 3).

Pronto otros advirtieron la importancia de esa distin-ción que hoy parece obvia, pero que no se había manejado explícitamente antes del trabajo de Scriven. El primero en hacerlo y tuvo la influencia más duradera, fue Bloom.

Bloom y el modelo Mastery Learning

En 1968 la idea de Scriven fue retomada por el autor de la taxo-nomía de objetivos conductuales de aprendizaje, Benjamín S. Bloom. Poco después apareció la obra que difundió la noción aplicada a la evaluación del aprendizaje de los estudiantes, edi-tada por Bloom, Thomas Hastings y George Madaus (1971), en cuya obra se precisan las diferencias de las evaluaciones que se usan para apoyar decisiones instruccionales, distinguiendo los propósitos formativos y los sumativos, así como los de ubi-cación y diagnóstico; se presentan técnicas para la evaluación de objetivos cognitivos y afectivos; se describe la compleji-dad de los nuevos sistemas de evaluación a gran escala y en una extensa segunda parte se presentan once capítulos con ideas sobre otros tantos campos de especialización.

El trabajo de Bloom y sus socios añade un elemento im-portante a la idea de Scriven: además de “ofrecer información sobre el proceso de aprendizaje y no sólo sobre resultados finales, lo que aporta la evaluación formativa puede servir a los maestros para que tomen mejores decisiones instruccio-nales” (Brookhart, 2009: 1).


77

Thomas R. Guskey señala que Bloom partió de la consta-tación de que muchas veces el contenido de un examen tiene poco que ver con lo visto previamente en clase, que es tam-bién lo que los alumnos repasan al prepararse para la prueba, lo que los lleva a la conclusión de que no vale la pena esforzar-se y que no conviene fiarse de los profesores. Según este autor:

Esta experiencia se deriva de la creencia largamente acepta-da, pero falsa, de que las evaluaciones deben guardarse en secreto y de que no es justo dejar que los alumnos sepan lo que se incluirá en ellas. Lamentablemente esto lleva al alumno a ver las evaluaciones como adivinanzas y a creer que su éxito escolar depende en gran medida de qué tanto puede anticipar lo que sus maestros preguntarán en exáme-nes y pruebas […] es difícil que éstas sean las lecciones que un maestro responsable quiere que aprendan sus alumnos. En contraste con lo anterior, Bloom recomendaba que los maestros utilicen sus evaluaciones como fuentes de infor-mación o retroalimentación para los alumnos. Para destacar el propósito “informativo” Bloom (1968) recomendaba lla-mar a estas evaluaciones “formativas”, tomando el término de Scriven (1967) que, el año anterior, lo había utilizado para describir los aspectos informativos, más que enjuicia-dores, de las evaluaciones de programas (2007: 66).

Para Bloom la evaluación debía servir a los maestros para mejorar la calidad de su enseñanza y no podía verse como punto final del proceso: la evaluación debía ir seguida por la

[…] instrucción correctiva de alta calidad, que no es simple-mente volver a enseñar, lo que típicamente quiere decir repe-tir las explicaciones originales en voz más alta y más despacio; más bien implica la utilización de enfoques que adapten la enseñanza a las diferencias de estilos de aprendizaje, modali-dades y formas de inteligencia de los alumnos (2007: 66 y 67).

A partir de estas ideas, Bloom desarrolló el sistema de enseñanza conocido como Mastery Learning, que propone el uso sistemático de la evaluación de tipo formativo al final de periodos cortos de instrucción, seguida por una instrucción


78

correctiva adaptada a los individuos, con lo cual él esperaba una reducción substancial de las brechas que separan a los alumnos más y menos avanzados.

El uso de evaluaciones formativas frecuentes se comple-menta con otro elemento clave, la diferenciación de la ense-ñanza según las características y condiciones de cada alumno; en otras palabras, para que disminuya la variación de los resul-tados los maestros deben aumentar la variación de su enseñan-za. Al principio esto implica un avance más lento pero, según los defensores del sistema, en el ciclo escolar no es necesario reducir los contenidos por cubrir, ya que

[…] el tiempo que se utiliza para instrucción correctiva o enriquecimiento en las primeras unidades, trae consigo im-portantes beneficios que facilitan las cosas más tarde. El tiempo adicional utilizado al principio se recupera en las unidades posteriores dedicando menos a revisiones y avan-zando a un ritmo más rápido (2010: 116).

El sistema de Bloom se extendió ampliamente y, aunque tal vez no en la medida en que las opiniones más optimistas esperaban, dio resultados interesantes, tal como pusieron en evidencia las revisiones de literatura ejemplificadas por las siguientes citas:

Pocas intervenciones educativas de cualquier tipo se aso-cian de manera consistente con efectos en el rendimiento tan grandes como los que produce el Mastery Learning […] Evaluación tras evaluación los programas que utilizan este enfoque han producido avances impresionantes (Kulik, Ku-lik y Bangert-Drowns, citados en Guskey, 2007: 75).

El Mastery Learning es identificado regularmente como una de las estrategias de enseñanza más efectivas que los maestros pueden utilizar, en cualquier nivel educativo (Walberg, citado en Guskey 2007: 75).

En las décadas siguientes, el trabajo seminal de Bloom fue desarrollado por otros autores, tal como se verá en los puntos siguientes.


79

La década de 1980: cómo llegar a la meta

Un paso más en el desarrollo de la noción de evaluación for-mativa se identifica en los trabajos de Sadler (1989), quien añade que no sólo los docentes pueden utilizar los resultados de la evaluación formativa, sino que también los estudiantes pueden hacerlo. Además de lo anterior, la aportación más sig-nificativa de Sadler consiste que una evaluación formativa, para que sea considerada como tal, debe identificar con pre-cisión los siguientes tres elementos indispensables:

• El objetivo a alcanzar al final del proceso de enseñanza y aprendizaje; es decir, el aprendizaje que se espera obtener.

• La situación en que se encuentra el alumno según la evaluación realizada; es decir, el punto de partida de todo nuevo esfuerzo.

• La forma en que se va a pasar del punto de partida de todo nuevo esfuerzo a lograr aprender lo que se plan-teó como objetivo; es decir, las indicaciones precisas que orientarán al estudiante para que logre alcanzar el aprendizaje esperado.

Brookhart precisa que el trabajo de Sadler se refería a estudiantes de educación superior que por su edad están en condiciones óptimas para tomar decisiones sobre su propio proceso de aprendizaje. Menciona además que con Sadler el calificativo de formativo se aplica al sustantivo con el que en inglés se designa la evaluación del aprendizaje de los alum-nos (assessment), y ya no, como hacían tanto Scriven como Bloom, Hastings y Madaus, al sustantivo más genérico de evaluation, que se refería muchas veces, como se ha apunta-do, a la valoración de currículos y programas (2009: 1).

Wiliam señala que Sadler retomó la noción de retroali-mentación (de Ramaprasad) del campo de la electrónica, con la precisión de que el rasgo fundamental para considerar que una información constituya una retroalimentación, es pre-cisamente que dicha información tenga algún efecto sobre el sistema en que se genera. En relación con esta idea, según Wiliam, Sadler comenta que


80

Un elemento importante de la definición de Ramaprasad es que la información sobre la brecha entre los niveles actuales y los de referencia, podrá considerarse retroalimentación so-lamente si se usa para modificar dicha brecha. Si la informa-ción simplemente se registra, se transmite a un tercer actor que no tiene los conocimientos o la capacidad de modifi-car el resultado, o si está codificada de manera demasiado profunda para que conduzca a una acción apropiada (por ejemplo como una calificación sintética dada por el maes-tro), entonces el ciclo de control no se puede cerrar, y en vez de retroalimentación efectiva se tienen solamente datos sueltos (dangling data) (Sadler, citado en Wiliam, 2010: 19).

Es clara la relevancia de estas ideas para precisar lo que caracteriza a una verdadera evaluación formativa, en el sen-tido de que debe contribuir de manera efectiva a modificar ciertas prácticas de los maestros y de los alumnos.

La década de 1990: el impacto de la revolución cognitiva

Otra etapa en el desarrollo de la idea de evaluación formati-va refleja el impacto de la revolución cognitiva, con autores como Black y Wiliam en el Reino Unido, y en Estados Unidos Susan Brookhart, Lorrie Shepard y Rick Stiggins, entre otros.

Como hemos visto, la evaluación formativa había co-menzado a desarrollarse en el marco del modelo de Mastery Learning de Bloom, con base en los principios neo-conductis-tas del diseño instruccional (enseñanza-prueba-retroalimen-tación o corrección). Por ello es importante explorar cómo se transforma

[…] cuando se basa en otras concepciones de la enseñanza y el aprendizaje; cómo se desarrolla si se basa en principios constructivistas o socio-constructivistas o en las ideas sobre la participación en comunidades de práctica, como proponen los teóricos del aprendizaje situado (Stiggins y Arter, 2002: 4).

Desde los inicios del desarrollo de las pruebas a gran esca-la, algunos de sus promotores más lúcidos, como Tyler, señala-ron que también ese tipo de evaluaciones debían verse como


81

parte de los procesos de enseñanza y de aprendizaje, pero prevaleció un enfoque que en realidad las manejaba como un elemento adicional que sólo tenía lugar al final del mismo.

La teoría clásica de los test y las pruebas a gran escala de diseño tradicional se desarrollaron en la primera mitad del siglo xx; ambas estuvieron marcadas por las concepciones psicológicas de la época, particularmente por el conductismo, pero los avances de las nuevas concepciones psicométricas se dieron en forma paralela a la llamada revolución cognitiva y coinciden en rechazar el planteamiento conductista que reduce el campo de estudio de la psicología a los fenómenos más observables directamente, para intentar abrir la caja ne-gra de la mente, explorando los procesos que tienen lugar en su interior con técnicas como las de “pensar en voz alta”. La revolución cognitiva, dice Lorrie Shepard, fue

[…] una rebelión contra la psicología de las diferencias indi-viduales y el conductismo, una de cuyas premisas básicas era centrar la atención en la adquisición de competencias gracias al refuerzo de conductas observables y no en tratar de expli-car los procesos mentales subyacentes (2006: 627).

En la medida que se identifican y exploran los procesos mentales –y los avances de las ciencias cognitivas muestran que es posible en un grado mucho mayor que el que conside-raban los conductistas– se abren horizontes atractivos para la pedagogía y para las metodologías de evaluación del apren-dizaje, especialmente para las que pretenden servir para pro-pósitos formativos, en el sentido de que esto puede ofrecer elementos que sirvan para que maestros y alumnos modifi-quen sus acciones y en consecuencia logren mejores resulta-dos. Shepard señala que sólo recientemente los especialistas en medición comenzaron a prestar atención al contexto del aula para entender mejor las necesidades de los maestros en lo rela-tivo a la preparación para llevar a cabo evaluaciones. Y añade que otros investigadores (Dorr y Bremme) han concluido que

[…] los maestros razonan prácticamente y actúan como clínicos, orientando su actividad evaluadora a sus tareas cotidianas, como decidir qué enseñar y cómo hacerlo con


82

alumnos de diversos niveles de desempeño; monitorear el progreso de los alumnos para saber cómo ajustar la ense-ñanza en consecuencia; y asignar calificaciones a sus alum-nos con base en su desempeño (2006: 625 y 626).

Shepard identifica varios elementos importantes respec-to al potencial formativo de las evaluaciones, señalando que

[…] la evaluación no puede promover el aprendizaje si se basa en tareas o preguntas que distraen la atención de los objetivos reales de la enseñanza. Históricamente, las prue-bas tradicionales muchas veces orientaban la instrucción en una dirección equivocada, si centraban la atención en lo que es más fácil de medir, en vez de hacerlo en lo que es más importante de aprender (2006: 626).

El interés por la evaluación en el aula –especialmente con propósitos formativos– se deriva en parte de la creciente conciencia de las limitaciones de las pruebas convencionales aplicadas a gran escala para tales fines, y se relaciona con algunos avances paralelos, gracias a que expertos en diversas áreas de contenidos curriculares

[…] comenzaron también a buscar alternativas a las prue-bas estandarizadas para su uso en evaluaciones en el con-texto del aula, movidos tanto por el rechazo de los efectos de las pruebas utilizadas para rendición de cuentas, como por los profundos cambios en las concepciones del aprendi-zaje y del manejo adecuado de los contenidos (2006: 626).

Como se ha apuntado, muchos maestros no tienen la competencia necesaria para hacer pruebas estandarizadas de mejor calidad que las que hacen organismos especializados, y que además sean adecuadas para retroalimentar su trabajo y el de sus alumnos. Por ello, según Shepard, desde 1989 Silver y Kilpatrick sostuvieron que

[…] más allá de la práctica prevaleciente, según la cual los maestros preparan sus propias pruebas para que se parezcan en forma y contenido a las de opción múltiple externas, debe-


83

ría hacerse un serio esfuerzo para prepararlos más bien para que puedan conducir lecciones de solución de problemas, y para evaluar la habilidad y las disposiciones de sus alumnos al respecto en el marco de esas lecciones (2006: 627).

Finalmente, Shepard concluye su importante trabajo, el cual aquí que se ha citado, diciendo lo siguiente:

El nuevo modelo de evaluación formativa aspira a hacer de la evaluación una parte integral de la enseñanza […] La di-ferencia fundamental consiste en que las nuevas estrategias se basan en un modelo de enseñanza y aprendizaje muy diferente, y no se basan en instrumentos estandarizados desarrollados fuera del aula (2006: 627).

El calificativo de revolucionarias que se aplica a las teorías cognitivas se justifica plenamente dadas las enormes reper-cusiones que tiene tanto para la enseñanza como para la eva-luación la idea básica de que es posible explorar los procesos que tienen lugar en la mente de quienes aprenden o enseñan.

La repetición y el ensayo-error no son el mejor modo de desarrollar muchas de las competencias cognitivas más com-plejas en matemáticas, ciencias naturales y sociales, cuestiones tecnológicas y de planeación o gestión avanzada, entre otras.

En estos casos son necesarias acciones más complejas para que los aprendices desarrollen (construyan) los nue-vos conocimientos a partir de los previamente adquiridos en complejos procesos que pueden implicar el abandono de previas concepciones equivocadas (desaprendizaje o decons-trucción) que impiden que ocurra el aprendizaje (obstáculos epistemológicos).

En estos casos no sirve mucho que el maestro indique al estudiante que aún no consigue dominar cierto tema y que debe volver a intentarlo una y otra vez, sino que es nece-sario explorar los preconceptos erróneos, identificar las etapas del proceso de construcción del conocimiento nuevo (mapas de progreso) y ofrecer ejemplos de productos que se acerquen más o menos al esperado, entre otras cosas.

Es fácil apreciar que una enseñanza con esas caracterís-ticas será diferente de la tradicional y mucho más rica; tam-


84

bién se aprecia con claridad que la diferencia será equivalente en cuanto al tipo de evaluación a realizar y al tipo de devolu-ción o retroalimentación para los aprendices. Como dice un importante trabajo de la ocde al respecto: “en última instan-cia, el propósito de la evaluación formativa es conducir a los estudiantes a desarrollar sus propias habilidades de ‘aprender a aprender’, que a veces se denominan también ‘estrategias metacognitivas’” (Centre for Educational Research and In-novation, 2005: 50).

Según McMillan, si se quiere usar la evaluación formati-va para la “comprensión profunda” (deep understanding), son necesarias la metacognición y la autoreflexión.

La metacognición se refiere al monitoreo, la reflexión y la dirección del propio pensamiento por parte de los estudian-tes. Implica monitorear la comprensión, ser consciente de las estrategias que se usan para aprender y reconocer cuan-do ciertos objetivos de aprendizaje se han alcanzado o ne-cesitan ser revisados y mejorados.La meta-cognición es similar a la auto regulación, en el sen-tido de que supone estudiantes autodirigidos (self-directed) […] que se involucran activamente en su propio aprendizaje y usan habilidades metacognitivas […] Utilizan herramien-tas de pensamiento como repaso, elaboración y organiza-ción, administran su tiempo durante el aprendizaje, toman notas y buscan ayuda cuando la necesitan […] Los estudian-tes aprenden cómo y cuándo solicitar retroalimentación y tienden a detectar errores y a tener habilidades correctivas (McMillan, 2010: 47).

En ámbitos lingüísticos distintos al anglosajón, las ideas que se manejan en el marco de la psicología cognitiva, con la denominación de evaluación formativa, se han desarrollado en relación con las ideas de regulación y autorregulación. Por ello esto se retomará más adelante, pero antes se tratará un punto central de la evaluación formativa, que es lo referente a la retroalimentación que se da a los alumnos, así como la importancia que tienen los aspectos afectivos en dicha re-troalimentación.


85

Un punto clave: la retroalimentación

Una breve consideración sobre los tres puntos que Sadler plan-tea como básicos en la evaluación formativa, lleva a destacar la retroalimentación que se debe ofrecer a los alumnos.

La mayoría de los maestros sabe lo que los alumnos de-ben aprender, identifican a los que lo consiguen y a los que no lo alcanzan, pero se sienten impotentes para que los se-gundos, sobre todo aquellos que enfrentan mayores dificul-tades, aprendan más.

Lo que finalmente define si una evaluación es formativa o no, es precisamente si contribuye o no a que los alumnos aprendan. Por eso es fundamental ofrecer a los alumnos una buena retroalimentación, en el sentido de que no se limite a informar al alumno si domina o no algún tema (devolución), sino que contribuya de manera efectiva a que el interesado avance en el proceso de aprendizaje y le ayude a transitar del punto en que se encuentra al que se ha definido como meta del proceso, en términos de la definición de evaluación for-mativa de Sadler.

Aunque implica un esfuerzo particular, no parece espe-cialmente difícil establecer metas de aprendizaje precisas y hacer que los alumnos las comprendan. Algo más complejo es detectar si un alumno ha alcanzado ya la meta, o determi-nar el punto más o menos alejado en que se encuentra res-pecto a la misma. Lo más complicado es ayudar a todos los alumnos que no han llegado a la meta para que lo consigan efectivamente.

En el sentido de informar a los alumnos si saben o no algo, el uso de algún tipo de retroalimentación por los maes-tros es parte de las prácticas convencionales en el marco de tradiciones pedagógicas todavía presentes en muchas aulas. En el capítulo primero se ha citado ya a Resnick y colabora-dores, quienes dicen que

Buena parte de la instrucción de enfoque asociacionista, al menos en las sociedades occidentales, se origina en formas tempranas de educación religiosa en la iglesia cristiana. Pri-mero los protestantes y luego los católicos desarrollaron una forma de instrucción elemental que se desarrolla oral-


86

mente en la forma de preguntas y respuestas, y se conoce como catecismo […] La forma de catecismo todavía está presente en lo que ahora llamamos “enseñanza estándar basada en recitación” (2010: 400).

Luego se contrasta ese tipo de interacción verbal con la que tiene lugar en las aulas actuales, organizada según con-cepciones interpretativas. Según Resnick y colaboradores, las nuevas formas de conversación constituyen un importante cambio en comparación con el catecismo y su recitación, aunque reconocen que el papel del maestro en la conducción del proceso sigue siendo importante, y señalan que por ello hay oportunidad para que la evaluación de conocimientos de los alumnos se integre como parte del proceso. Sin embargo,

Lo que cuenta como conocimiento se amplía; los bloques a aprender y de los que se habla son mucho mayores; hay más oportunidades de que el maestro se vea sorprendido por las comprensiones (e incomprensiones) de los alumnos, y es claro que se trata de mucho más que de encontrar la respuesta única que el maestro espera […] Las oportuni-dades de evaluación están integradas en las actividades de aprendizaje y es difícil pensar que se puedan separar como ítems individuales de una prueba (2010: 401).

Hay que recordar que la retroalimentación tipo catecis-mo pasó a las aulas laicas y se desarrolló en los modelos de enseñanza inspirados en el asociacionismo y el conductismo, con los refuerzos positivos o negativos de las conductas.

Recuérdese también que el neo-conductismo, en espe-cial con Bloom y su modelo de Mastery Learning, llegó a una concepción de la retroalimentación que la identificaba con la diversificación de la instrucción ofrecida por el docente, en forma tal que se adaptara al ritmo y el estilo de aprendizaje de cada alumno. El mismo Bloom señaló que era frecuente que la instrucción diversificada se redujera a que el maestro repitiera más despacio y en voz más alta lo que había expli-cado una primera vez (Cfr. Guskey, 2007: 67).

Por su parte, Sadler aborda lo referente a la retroalimen-tación como se muestra en seguida:


87

[…] en su primera fase, la teoría de estímulo-respuesta identificaba la noción de retroalimentación con el cono-cimiento de los resultados, que podía llevar a corrección (cuando la respuesta era incorrecta) o refuerzo (cuando era correcta), con lo que la motivación aumentaría y se conse-guiría un mejor rendimiento […] La segunda fase tomó un camino distinto: retroalimentar tenía que ver con elogiar el esfuerzo, lo que llevaría a mayor auto-estima, más esfuerzo y, finalmente, mejor rendimiento […] en casos más com-plejos se requieren formas más sofisticadas de retroalimen-tación, [incluyendo] descripciones de rasgos del trabajo del alumno, comentarios evaluativos, sugerencias de caminos o arreglos alternativos […] Una opción alternativa es disociar la retroalimentación relacionada con el ego y la relativa a la tarea, promoviendo fundamentalmente que se alcancen logros verdaderos, los que a su tiempo llevarán a mejorar la autoestima [del alumno. De tal modo que] es la calidad y no la cantidad de retroalimentación lo que merece nuestra mayor atención (1998: 78-84).

En forma similar, Rebeca Anijovich distingue retroa-limentación afectiva y cognitiva, individual y grupal, y de cantidad y calidad. Anijovich señala que el maestro usa dis-tintos códigos para retroalimentar: marcar los errores ade-más anotar la respuesta correcta, o bien, escribir comentarios al respecto, sugerir cómo mejorar o incluso dialogar sobre la retroalimentación con los alumnos; y añade que los estudios indican que

La retroalimentación que se brinda asume en pocas ocasio-nes la función de orientar. No es frecuente el planteamiento de preguntas o la invitación a compartir reflexiones con los estudiantes. Un factor crítico es el tiempo disponible de los docentes para ofrecer retroalimentaciones sustantivas a todas las producciones de los alumnos. Para evitar el “todo o nada” es posible, por ejemplo, definir criterios y determi-nar en forma explícita, qué trabajos, rotativamente, van a recibir retroalimentación escrita, con qué frecuencia, etc. (2010: 17).


88

Según esta autora, al hablar del impacto de la retroa-limentación hay que indagar cuál es el objeto del impacto mismo: los conocimientos de los alumnos, sus procesos de aprendizaje, su autoestima, su motivación o sus acciones fu-turas. Algunos estudios distinguen retroalimentación centra-da en la autoestima o en la tarea:

[…] se ha observado que este tipo de retroalimentaciones puede provocar mejoras en el aprendizaje […] a partir de un incremento en la autoconfianza y en la capacidad de logro, pero también puede inducir un efecto contrario, es decir que, apoyado en comentarios positivos, el alumno no reco-nozca que necesita mejorar algunos aspectos de su trabajo. Para superar este problema, algunos autores señalan que la retroalimentación es más productiva si se centra en la ta-rea, en cómo el alumno la resuelve y cómo autorregula su aprendizaje (2010: 16).

En cuanto a lo que se refiere a la cantidad y calidad de retroalimentación que da el maestro a distintos tipos de alum-nos, la autora señala que, según algunos estudios,

[…] los “buenos alumnos”, con buenas producciones, reci-bían un comentario genérico como “muy buen trabajo”, “buen nivel de análisis”. Estas frases implican muy poca re-troalimentación, vinculada a aspectos específicos de la pro-ducción evaluada. Los alumnos con dificultades importantes también reciben poca información específica. Suelen obtener señalamientos generales como “rehacer el trabajo” o comen-tarios que sirven más para justificar la calificación que para retroalimentar la producción o el desempeño del alumno. Es llamativo que sean los alumnos de nivel intermedio los que reciben más cantidad de información en concepto de retroalimentación [la cual además es] más específica y con-tiene indicaciones como “justificar la pregunta 2 apoyán-dose en la bibliografía”, “rehacer el diagrama revisando los conceptos incluidos”, etc. (2010: 16 y 17).

Anijovich se pregunta si la retroalimentación debería ser individual o grupal, y comenta que, en caso de retroalimenta-


89

ción grupal, si el compromiso del grupo es bajo, “posiblemente nadie se sienta dueño de la información que aporta el docen-te y ésta se perciba como ajena, pasando ‘inadvertida’ para los alumnos” (2010: 17). En cambio, si es mayor el compromiso y el conocimiento que tienen los alumnos de sus propias fortale-zas y debilidades, entonces “las devoluciones grupales enrique-cerán el intercambio de ideas, estrategias y recursos” (2010: 17).

En cuanto a los modos en que se ofrece retroalimenta-ción, la autora señala que dependen de factores como

[…] las experiencias anteriores en relación con el tipo de respuesta obtenida de los alumnos, el tipo de creencia sobre la capacidad de los estudiantes, la construcción de un clima de confianza en el aula, el tipo de comunicación y de víncu-lo establecido entre los educandos (2010: 17).

Llegamos así a la manera en que se concibe la retroali-mentación en el enfoque de evaluación formativa, basado en la revolución cognitiva, con su énfasis en la autorregulación del proceso de aprendizaje por parte de los alumnos.

Una buena evaluación formativa no se puede reducir a no dar calificaciones sumativas, pues con eso no mejora la retroalimentación que necesita el alumno para orientar sus esfuerzos por avanzar. En un trabajo al que se hará referencia más adelante se encontró que no dar calificaciones provocó reacciones adversas de los alumnos, por la ironía que repre-sentaba el hecho de que, en opinión de los chicos, sin califi-caciones ellos no contaban con información suficiente sobre su desempeño ni recibían buena retroalimentación: “quiero conocer mis calificaciones porque los comentarios no nos di-cen mucho” (Stobart, 2005: 4).

Otros autores reflexionan sobre la dificultad de la eva-luación formativa, especialmente para formular preguntas que luego permitan ofrecer una retroalimentación eficaz:

Los alegatos en pro de la evaluación formativa […] parecen dar por supuesto que el proceso de evaluación es entera-mente transparente, con profesores capaces de hacer que los alumnos produzcan respuestas claras en forma inequí-voca. Un buen número de estudios sugieren que no es así,


90

sobre todo entre alumnos pequeños […] esto no quiere de-cir necesariamente que los alumnos no supieran la respues-ta o no entendieran la pregunta, sino que pensaban que se les preguntaba algo diferente, o que tenían que responder más bien una pregunta implícita inferida a partir del con-texto, y no la pregunta explícitamente formulada (Torrance y Prior, 1995: 309).

Según estos autores, los alumnos intentan siempre inter-pretar las preguntas de los maestros y “dar sentido” a lo que se les pregunta, más que entender lo que se podría considerar el significado “obvio” de una pregunta en particular, además

[…] la adquisición de nuevos conceptos parece depender principalmente de las experiencias previas de aprendizaje y de lo que el aprendiz puede estar listo para aprender con la ayuda de un adulto o un compañero. Por ello, para que el aprendizaje sea más efectivo debe tener lugar en la “zona de desarrollo próximo”. [Con una visión constructivista de la educación] la evaluación debería implicar ofrecer al alumno experiencias que pueda captar con las ideas y habilidades que ya tiene, pero que también exigen una extensión o mo-dificación de esas ideas y habilidades (1995: 316).

Estos autores afirman que para que los alumnos pue-dan mejorar, un requisito importante es que tengan la capa-cidad de “apreciar qué es un trabajo de buena calidad y que tengan las habilidades evaluativas necesarias para comparar con objetividad la calidad de sus propias producciones con el estándar más elevado” (1995: 307).

Para que los alumnos desarrollen esa capacidad de iden-tificar productos de buena calidad con los cuales puedan contrastar su propio trabajo, son muy útiles los mapas de progreso (o learning progressions, progresiones de aprendiza-je), citados en el capítulo primero, considerados por algunos como uno de los avances más importantes en la evaluación. Como dice James Popham:

Una learning progression es una secuencia de habilidades par-ticulares (subskills) y conocimientos habilitadores que […]


91

los alumnos deben manejar en el proceso de llegar a dominar un objetivo curricular más amplio. En un sentido casi literal, las learning progressions constituyen mapas que orientan so-bre la manera de hacer evaluaciones formativas […] ¿Qué deben evaluar los maestros? Esas habilidades parti-culares y cuerpos de conocimiento habilitador que el mapa de progreso identifica como claves para que los alumnos lleguen a dominar el objetivo curricular final. ¿Cuándo deben evaluar habilidades y conocimientos habi-litadores? Antes de pasar al siguiente bloque constructivo en el trayecto, cuyo dominio se supone que depende del dominio de su predecesor (2008: 24-30).

En este punto conviene referirse a una idea importante, la que identifica a los alumnos mismos como actores clave de la evaluación formativa. Heidi Andrade dice que, dado su constante e instantáneo acceso a sus propios pensamientos, acciones y trabajos, los alumnos mismos son la fuente fun-damental de una buena retroalimentación; y añade que esta postura no es novedosa para los estudiosos que trabajan con el enfoque del aprendizaje auto-regulado, puesto que

[…] se sabe desde hace mucho que el aprendiz eficaz tiende a monitorear y regular su propio aprendizaje y que por ello aprende más y tiene más éxito académico […] Además de tener mucho en común entre sí, las teorías de la autorre-gulación y la autoevaluación comparten también muchos puntos con la reciente investigación sobre evaluación for-mativa (Andrade, 2010: 90-95).

Apoyado en un trabajo de Wiliam, Andrade presenta un ejemplo de práctica en aula que combina las ideas de autorre-gulación y autoevaluación:

En sus clases de matemáticas y ciencias los alumnos uti-lizaban objetos de color verde, naranja y rojo, que ponían sobre el escritorio para indicar su propia apreciación de qué tan bien habían comprendido el contenido que se estaba estudiando durante una clase o demostración. El maestro podía así reaccionar de inmediato a la distinta confianza


92

en la propia comprensión que manifestaban los alumnos; por ejemplo, poniendo a trabajar juntos a alumnos que hu-bieran puesto el símbolo verde con los de símbolo naranja, para que aclararan los puntos confusos comentando entre ellos, mientras el maestro ayudaba a los alumnos de símbo-lo rojo (Andrade, 2010: 99).

Topping comenta que “en la mayoría de las aulas hay más alumnos que maestros, por lo que la retroalimentación de los compañeros puede ser más inmediata, oportuna e in-dividualizada que la del docente”. Señala que será necesario entrenar a los alumnos para desarrollar habilidades apropia-das, pero sostiene que

[…] una mejor comprensión de cómo se producen los efec-tos positivos de la coevaluación permitirá […] diseñar for-mas más efectivas, pero por muchos años la evaluación por pares […] se ha apoyado sólo en antiguos dichos como el que dice que enseñar es aprender dos veces (2010: 62 y 63).

Si se acepta que los responsables de las decisiones más importantes que se toman en el aula son los alumnos y los maestros mismos, entonces unos y otros deberán manejar bien los tres pasos de Sadler, teniendo claro en qué punto se encuentra cada aprendiz, a qué distancia está de la meta de aprendizaje establecida y cómo es posible reducir esa distancia.

Según Stiggins, lo anterior puede parecer obvio, pero to-marlo en serio no es sencillo, pues supone que cada maestro domine las competencias que se espera alcancen los estudian-tes y tenga seguridad al respecto; si los maestros no cumplen con lo anterior, las consecuencias pueden ser expectativas in-adecuadas o poco claras sobre el rendimiento de los estudian-tes, y entonces será imposible una evaluación confiable.

Evaluar para el aprendizaje requiere que se redacten mapas curriculares basados en estándares, en versiones inteligibles para los alumnos y sus padres, de manera que a todos quede claro el trayecto de aprendizaje a recorrer […] Otra estra-tegia es ofrecer a los alumnos de manera regular retroali-mentación descriptiva, en contraposición a evaluativa, o sea


93

[ofrecerles] información que les ayude a entender cómo me-jorar la calidad de su propio trabajo (Stiggins, 2007: 15-18).

La distinción entre los dos tipos de evaluación es elabo-rada por Davies, para quien los resultados de la investigación sobre las ventajas de la evaluación formativa, las formas de retroalimentación, la motivación y la evaluación sumativa, son cuatro piedras angulares que sustentan la idea de in-volucrar en forma deliberada a los alumnos en los procesos de evaluación en el aula. Davies distingue dos tipos de re-troalimentación, cada uno con diferente impacto sobre el aprendizaje: la retroalimentación específica descriptiva y la retroalimentación evaluativa. La primera

Puede tener lugar durante el aprendizaje o después de él. Es formativa. El trabajo del alumno se compara con crite-rios, rúbricas, modelos, ejemplos, muestras o descripciones de trabajos excelentes. Los alumnos aprenden qué puntos cumplen las expectativas de calidad y dónde deben apren-der más y mejorar su trabajo. Los alumnos comprenden más fácilmente esta retroalimentación por su relación con el aprendizaje. Una retroalimentación menos eficaz simple-mente juzga el resultado (por ejemplo “buen trabajo” o “ne-cesita mejorar”), mientras la retroalimentación específica y descriptiva, relacionada con criterios claros, informa a los aprendices sobre lo que han hecho bien y lo que necesitan hacer de manera distinta. [Mientras que el] segundo tipo [de retroalimentación] tiene lugar al final del aprendizaje. Es sumativo. Dice al aprendiz cómo se ha desempeñado en comparación con otros (referencia a norma estadística) o en relación con lo que se debía aprender (referencia a un criterio). Se comunica mediante letras, números u otros símbolos que constituyen un código. El alumno que reci-be retroalimentación evaluativa usualmente comprende si necesita mejorar o no; sin embargo, a no ser que pueda decodificar la retroalimentación podrá no tener suficiente información para saber cómo mejorar. Los investigadores reportan que las letras, grados y otros símbolos que comu-nican retroalimentación evaluativa pueden tener un efecto negativo sobre el aprendizaje de todos los alumnos y que


94

esos efectos negativos son más marcados en el caso de alumnos de bajo rendimiento (2007: 32 y 33).

A partir de lo anterior, Davies describe algunas estrate-gias particulares que los maestros pueden utilizar para invo-lucrar a los alumnos en el proceso de evaluación. Son cuatro los tipos de estrategias que Davies propone:

[Primera] Definir los puntos de llegada del aprendizaje, de tal manera que los alumnos entiendan bien los objetivos que deben tratar de alcanzar. [Segunda] Involucrar a los alumnos como socios en la construcción conjunta de criterios para evaluar los resultados. [Tercera] Multiplicar la cantidad de retroalimentación que reciben los alumnos para prever el desarrollo subsecuente de su aprendizaje. [Cuarta] Involu-crar a los alumnos en la recolección, selección, discusión y presentación de las evidencias de su aprendizaje (2007: 36).

Además de su impacto cognitivo, la retroalimentación y, en general, la evaluación formativa, tienen una importan-te dimensión afectiva, como se verá a continuación.

El impacto afectivo de la evaluación

Desde la década anterior, el trabajo de psicólogos educativos como Crooks (1988) y Natriello (1987), había mostrado el impacto que tiene retroalimentar a los alumnos sobre su ni-vel de aprendizaje a partir de las evaluaciones, en una forma o en otra. En esta dirección, trabajos como los de Brookhart (1997), Black y Wiliam (1998) o, más recientemente, Stiggins (2008), subrayan esta dimensión afectiva.

Richard (Rick) Stiggins, del Educational Testing Service, señala que hasta hace poco los sistemas educativos conside-raban normal y aceptable que sólo una parte de los alumnos alcanzara los objetivos de aprendizaje, mientras un número importante no lo conseguía, y el papel de la evaluación con-sistía en distinguir a unos y otros en forma consistente; por otro lado, los criterios fundamentales para valorar la calidad de las evaluaciones eran la validez y la confiabilidad de las evaluaciones mismas.


95

Hoy, lo que se espera de las escuelas es que hagan que todos los alumnos alcancen los niveles de competencia nece-sarios para vivir en la llamada sociedad del conocimiento, así que es necesario reflexionar sobre el papel y las formas apro-piadas para evaluar el aprendizaje en este nuevo contexto. Veamos lo que Stiggins dice al respecto:

Las evaluaciones más válidas y confiables del mundo que tengan como efecto hacer que los alumnos abandonen la tarea desesperanzados, no pueden ser consideradas produc-tivas porque hacen más daño que bien [...] En el pasado, los marcos de referencia para el control de la calidad de las eva-luaciones no tomaban en cuenta su impacto en el alumno; la nueva visión de la excelencia en lo relativo a evaluación, en cambio, pone en el centro de la escena este criterio de calidad (2008: 2 y 3).

Más adelante, en relación con el impacto emocional que la evaluación tiene sobre los alumnos, añade:

Desde los primeros grados, algunos alumnos [...] obtienen altos puntajes en las evaluaciones y reciben altas califica-ciones. El efecto emocional es que se ven a sí mismos como capaces de aprender y se sienten cada vez más confiados [...] otros alumnos, en cambio, obtienen puntajes bajos en las pruebas y reciben calificaciones malas. Esto los lleva a dudar de su capacidad como aprendices. La falta de confian-za en sí mismos los priva de las reservas emocionales para correr el riesgo adicional de seguir intentando. El fracaso crónico es difícil de ocultar y se vuelve penoso: mejor ya no intentarlo [...] si unos estudiantes trabajan duro y aprenden mucho el resultado es positivo y ocupan los primeros luga-res en los ordenamientos. Y si otros se resignan a lo que ven como fracaso inevitable, eso es un resultado aceptable para la institución, y [en consecuencia dichos alumnos] ocupan los últimos lugares. Mientras más grande sea la distancia entre los primeros y los últimos, más confiables son los or-denamientos. Misión cumplida. Si un alumno se rinde y deja de esforzarse, o incluso si abandona la escuela, eso es visto como un problema del alumno, no de sus maestros o


96

de la escuela. La responsabilidad de ésta es ofrecer oportuni-dades de aprendizaje, si los alumnos no las aprovechan, no es responsabilidad del sistema (2008: 7).

Después, Stiggins vuelve sobre las implicaciones que tie-ne el hecho de que hoy los sistemas educativos aspiren a que todos los alumnos alcancen los estándares establecidos:

Cuando los que abandonan sin esperanza son los que todavía no alcanzan los estándares, y cuando los educadores tienen que responder ante la sociedad de que todos los estudiantes los alcancen, tenemos un problema serio. Esos alumnos que dejan de esforzarse no dominarán las competencias bási-cas de lectura, redacción y resolución de problemas mate-máticos, y no llegarán a ser personas que sigan aprendiendo a lo largo de su vida. Si la sociedad quiere que todos los alumnos alcancen los estándares, entonces todos los estudiantes deben creer que pueden conseguirlo; todos tienen que tener la confianza su-ficiente y la disposición necesaria para enfrentar el riesgo de intentarlo. Cualquier otro estado emocional de cualquier alumno es inaceptable (2008: 8).

Stiggins añade que, en su opinión, la importancia del cambio de paradigma evaluativo que implica centrar la aten-ción en los alumnos como usuarios privilegiados de los resul-tados, y en especial teniendo en cuenta el impacto afectivo de las evaluaciones, no se puede exagerar.

Durante décadas los expertos en la mejora escolar han co-metido el error de pensar que los adultos del sistema son los usuarios más importantes de las evaluaciones. Hemos creído que si los adultos toman mejores decisiones en lo relati-vo a la enseñanza, las escuelas se volverán más eficaces. Sin duda los padres de familia, los maestros, los directores de es-cuela y las autoridades educativas toman decisiones cruciales que influyen en la calidad de las escuelas, y mientras mejor sustentadas estén esas decisiones en datos duros, tanto me-jor. Pero esta visión pierde de vista la realidad de que los alumnos pueden ser tomadores de decisiones de aprendizaje


97

más importantes que los adultos [...] los estudiantes pueden hacer que las decisiones de sus maestros sobre la enseñan-za sean irrelevantes; tienen el poder de volver ineficaces a los adultos [...] Si un alumno decide que cierto aprendizaje está fuera de su alcance o que el riesgo de fracaso público es demasiado grande o amenazador, entonces, hagamos lo que hagamos los adultos, el aprendizaje termina. Por ello la pregunta fundamental para maestros y directores de escuela es: ¿qué podemos hacer para ayudar a que los alumnos respondan en forma productiva las preguntas an-teriores, que los mantengan con esperanza de que el éxito está a su alcance si persisten en el intento? (2008: 8).

En otro lugar, por la importancia de la dimensión afecti-va de la evaluación, este autor sostiene que el primer desafío a enfrentar, si se quiere que las prácticas docentes incorporen el enfoque de evaluación formativa, no es otro que redefinir la dinámica motivacional de la evaluación, y de esta premisa se derivan consecuencias evidentes en cuanto a las exigencias de una buena evaluación formativa.

Desviaciones y avances de la década de 2000

Durante la última década del siglo xx el interés por la eva-luación formativa se extendió ampliamente, pero al mismo tiempo la noción tendió a desvirtuarse, al grado que ha lle-gado a ser muy ambigua al referirse a veces a lo que se pue-de considerar estrictamente formativo, y otras, a cualquier forma de utilización de datos sobre el rendimiento de los alumnos para tomar decisiones sobre la enseñanza (McMi-llan, 2007: 1).

En este proceso influyeron los esfuerzos de algunas em-presas comerciales que, para promover sus productos, comen-zaron a designar con la etiqueta de “formativas” a pruebas tradicionales que presentaban como si estuvieran a la altura de las tendencias más actuales en el campo.

En una interesante estrategia de mercado, las compañías que desarrollan pruebas reconocen la importancia de la eva-luación formativa, y ahora están promoviendo evaluacio-


98

nes que llaman “formativas”, pero que es más exacto descri-bir como pruebas referidas a ciertos estándares (benchmark), que ofrecen mediciones periódicas en lectura y matemáti-cas para monitorear el avance de los alumnos hacia el logro de lo que cubren las pruebas de alto impacto que se aplican al fin del año escolar (2007: 2).

Esas pruebas de medición de avances, monitoreo o in-termedias se ofrecen como si fueran formativas aunque hay grandes diferencias; en general “no ofrecen el detalle necesa-rio para introducir correctivos instruccionales apropiados y tienden a interrumpir la enseñanza con poca retroalimenta-ción útil” (2007: 3). En este mismo sentido, otro autor preci-sa lo siguiente:

Actualmente hay muchas herramientas computarizadas que pueden usarse para obtener información sobre el apren-dizaje de los alumnos. Sin embargo, si esa información no está bien alineada con los objetivos de aprendizaje y no es recolectada en momentos cercanos a la instrucción […] no cumple los requisitos de la definición de evaluación forma-tiva. La aplicación periódica de pruebas para monitorear el avance hacia objetivos de aprendizaje amplios tampoco cae dentro de esa definición; esas pruebas periódicas son más bien evaluaciones intermedias (interim assessments). Igual-mente, si bien el resultado de evaluaciones sumativas puede usarse para identificar temas y habilidades que los alum-nos parecen no dominar o que necesitan más desarrollo, el tiempo que transcurre entre el momento en que se recibe la información y la siguiente oportunidad de reforzar el de-sarrollo de conocimientos y habilidades particulares impide que las pruebas sumativas se utilicen como formas de eva-luación formativa (Russell, 2010: 125).

Apoyado en trabajos de otros autores (Edwards, Black, Wiliam y Chappuis), Abrams refiere que 34 estados america-nos para 2007 contaban con bases de datos interactivas para retroalimentar las prácticas de enseñanza, pero añade que si esos sistemas


99

[…] no tienen la capacidad de proporcionar retroalimenta-ción correctiva que informe los procesos tanto de maestros como de alumnos, se les debería considerar más bien prue-bas “mini-sumativas” o “sumativas para alarma temprana” (early warning summative), y no herramientas formativas […] por la influencia y la mercadotecnia de los programas de benchmarking se está redefiniendo el sentido de la expresión “evaluación formativa”, que ha llegado a significar “evalua-ción sumativa frecuente” (Abrams, 2007: 93).

Black y Wiliam son otros dos de los principales promo-tores de la evaluación formativa, y afirman que es necesario que la noción se defina de manera precisa porque muchos maestros e investigadores parecen haberla entendido mal. Estos autores dicen que algunos maestros creen que utilizar portafolios en lugar o además de los resultados de pruebas impuestas externamente, constituye una evaluación forma-tiva, cuando en realidad “esa práctica nada tiene de formati-va a no ser que haya retroalimentación activa que capacite a los estudiantes para modificar y mejorar su trabajo a medida que construyen sus portafolios” (2004: 22).

En consecuencia, un grupo de promotores de estas ten-dencias sugiere un cambio de terminología; propone usar la expresión “evaluación para el aprendizaje” (assessment for learning), en lugar de la ya muy trillada y distorsionada “evaluación formativa” (formative assessment). Entre 2001 y 2009 han tenido lugar tres reuniones internacionales sobre el tema, la última de ellas en Dunedin, Nueva Zelanda, de cuyas conclusiones se tomaron las siguientes ideas:

[…] evaluación formativa es una frase ampliamente uti-lizada en el discurso educativo en Estados Unidos, Cana-dá, Nueva Zelanda, el Reino Unido y Europa […] pero las formas en que las palabras se interpretan y reflejan en la política y la práctica educativa revelan muchas veces mal-entendidos en los principios y distorsiones en la práctica que los ideales originales pretenden promover. Algunos de esos malentendidos y desafíos derivan de que las definicio-nes son ambiguas, pero otros surgen de apropiaciones de-liberadas, con intenciones políticas, de principios que han


100

alcanzado un apoyo significativo por parte de los educa-dores (Third International Conference on Assessment for learning, 2009: 3).

Se señala que a veces se han interpretado erróneamente los principios de Sadler (precisar dónde están los aprendices al inicio, a dónde se quiere que lleguen y cómo conseguirlo), como si se tratara de que los maestros aplicaran pruebas su-mativas no sólo una vez al año, sino frecuentemente para valorar en qué medida sus alumnos estarían alcanzando los niveles establecidos, para corregir las fallas y orientarse a al-canzar el siguiente nivel. Los investigadores reunidos en Du-nedin señalaron que, en esos casos,

[…] alcanzar cierto puntaje se vuelve el propósito de la en-señanza, y el aprendizaje real se ve sacrificado en aras del desempeño en la prueba [La lógica del grupo es que cuan-do tenga] lugar el aprendizaje verdadero, se manifestará en el desempeño, mientras que lo contrario no se sostiene: el desempeño en una prueba por sí mismo no significa necesa-riamente que haya habido realmente aprendizaje. Se puede enseñar a los aprendices cómo tener buenos puntajes en las pruebas sin que haya mucho aprendizaje real (2009: 3).

Tratando de evitar malentendidos como los mencionados, en el documento que recoge las conclusiones de la reunión se precisa que lo que se pretende designar con la expresión “eva-luación para el aprendizaje” no es una metodología particular de evaluación, sino la identificación de rasgos del aprendizaje a medida que se desarrolla para que el aprendizaje mismo pue-da mejorar, y si se consigue esa mejora, pasa a ser secundaria la estrategia formal o informal que ayude a hacerlo. Se subraya que la Evaluación Para el Aprendizaje (epa)

[…] busca, analiza y reflexiona sobre información que pro-viene de los mismos estudiantes, sus maestros y sus pares, como se revela en el diálogo, la observación y la respuesta de los aprendices a tareas y preguntas […] Es parte de la enseñanza cotidiana en cada aula; una buena parte ocurre en tiempo real, pero una parte puede derivar de eventos o


101

episodios de evaluación más formal […] Lo distintivo de la epa no es el tipo de información o las circunstancias en que se genera, sino su efecto positivo en el aprendiz. Bien integrada en los contextos de enseñanza/aprendizaje, la epa pone en marcha a los aprendices hacia un aprendizaje más amplio, a lo largo de la vida (2009: 3).

A partir de lo anterior, la conferencia de Dunedin propo-ne la siguiente definición:

La Evaluación Para el Aprendizaje es parte de la práctica cotidiana de estudiantes, maestros y pares, que busca, re-flexiona y responde a información que proviene del diálogo, la demostración y la observación, en formas que mejoran el aprendizaje que está en proceso (2009: 3).

Una reciente definición muestra un propósito análogo de diferenciación:

Una práctica que tenga lugar en el aula será formativa en la medida en que la evidencia sobre el desempeño del alum-no se produzca, interprete y use por los maestros, los estu-diantes o sus pares para tomar decisiones sobre los pasos siguientes en la instrucción que tienen probabilidad de ser mejores, o de estar mejor fundamentadas, que las decisio-nes que se habrían tomado en ausencia de dicha evidencia (Black y Wiliam, 2009: 6).

Con todo lo anterior, debe quedar claro que no es el uso de algún tipo especial de evaluación lo que la hace formativa, sino el uso que se hace de los datos; por lo tanto, concluye Andrade,

Toda definición de evaluación formativa debe basarse en su propósito, que deberá incluir informar sobre el aprendizaje de los alumnos a maestros y directivos para orientarlos en la planeación de la enseñanza y retroalimentar a los alum-nos sobre su propio avance para ayudarlos a definir cómo cerrar las brechas entre su desempeño y los objetivos esta-blecidos. La esencia de la evaluación formativa es la acción informada (2010: 344-351).


102

A continuación retrocederemos en la línea del tiempo para ver el desarrollo de la evaluación formativa en ámbitos lingüísticos distintos al anglosajón, en los cuales el tema ha sido tratado en menor escala. Se destacarán algunas aporta-ciones relevantes enmarcadas en corrientes cognitivas más conocidas en los medios francófonos.

Desarrollos conceptuales en el mundo francófono

Más que en Francia, los trabajos a los que se referirá este apar-tado se han desarrollado en otros lugares, principalmente en la provincia canadiense de Quebec y las regiones francófonas de Suiza y Bélgica.

Tal vez por la influencia cercana del sistema de inves-tigación estadounidense, ha sido en Canadá donde el tra-bajo de investigación empírica en evaluación y temas re-lacionados se ha desarrollado más, muestra de lo cual fue el surgimiento de la Association Professionnelle de Mésure en Éducation (apme), en Montreal (1977), tras dos intentos frustrados en 1968 y 1972 (Poulin, 1978: 4 y 5). Posterior-mente la agrupación adoptó el nombre de Association pour le Développement de la Mésure et l’Évaluation en Éduca-tion (admee).

En 1978 la apme comenzó a editar el boletín Mésure en éducation, cuyo primer número sólo contenía un modesto artículo de seis páginas sobre “estatinas estandarizadas y normalizadas” (Vachon, 1978), además de un texto sobre la historia de la asociación y los estatutos de la misma. A partir del quinto volumen (1982) la publicación adoptó el nombre de Mésure et évaluation en éducation, y comenzó a publicar cin-co números al año en lugar de cuatro.

Con varios cambios en el número de volúmenes y nú-meros publicados al año, la publicación se mantiene hasta la fecha y desde los años 90 es publicada conjuntamente por la Association pour le Développement de la Mésure et l’Évaluation en Éducation (admee-Europe, que agrupa a in-vestigadores de Francia y regiones francófonas de Bélgica y Suiza) y la admee-Canadá, de Quebec, aunque el peso de los trabajos canadienses sigue siendo mayoritario.


103

Incluso en esta revista especializada en temas de eva-luación, la cantidad de textos que tienen como tema central la evaluación formativa, es reducida: sólo 17 en los 30 años transcurridos de 1978 a 2007.

En el primer artículo publicado en Mésure et évaluation en éducation sobre el tema, Linda Allal menciona el trabajo de Bloom como perspectiva inicial, con un enfoque centrado en aspectos metodológicos y técnicos.

Luego menciona una reunión organizada en Ginebra por ella misma con otros investigadores europeos (Allal, Car-dinet y Perrenoud, 1979), en relación a la cual señala que se analizaron

[…] los aspectos conceptuales en función de perspectivas teóricas provenientes de varios marcos de referencia: análisis psico-sociológicos de las desigualdades del éxito escolar, con-cepciones neoconductistas y cognitivistas de los procesos de aprendizaje y desarrollos recientes en el campo de la didáctica de las disciplinas escolares. Desde hace algunos años se esboza un tercer enfoque: a partir de un análisis de varios esfuerzos de maestros por poner en práctica la evaluación formativa, se trata de poner en evidencia los procesos de regulación, toma de decisiones y comunicación, que caracterizan a la acción pedagógica en su realidad cotidiana (Allal, 1983: 37 y 38).

Esta referencia muestra tanto la influencia inicial como la línea que tomarían los trabajos francófonos en los años siguientes, y que refleja la revista de la admee con un texto en 1983 (Cardinet), otro en 1984 (Weiss), dos en 1985 (Sca-llon y Huberman et al.), dos de 1988 (Bain y Dassa), uno de 1989 (Scallon), cuatro en 1991 (Perrenoud, Gagné y Thouin, Gadbois et al. y Cazabon), uno en 1992 (Dassa y Vazquez-Abad), dos de Thouin (uno en 1993 y otro en 1995), otro en 1994 (Van Nieuwenhoven y Jonnaert) y uno más de Richard, Godbout y Picard, en 2000.

Llama la atención que de 2001 a 2007 no se encuentren artículos sobre el tema, puesto que el interés sobre el mismo era muy fuerte en los medios anglosajones.

Hay dos visiones conjuntas de los trabajos francófonos sobre evaluación formativa, una de Linda Allal y Lucie Mot-


104

tier López, en la publicación que dedicaron al tema la Or-ganización para la Cooperación y el Desarrollo Económico (Centre for Educational Research and Innovation, 2005);y un capítulo similar, más actualizado, de Mottier López en la obra colectiva compilada por Rebeca Anijovich (2010).

En los dos trabajos se señala como punto de partida el modelo Mastery Learning de Bloom, que en francés se tradu-jo como pédagogie de maitrise, y en la obra de Anijovich como pedagogía del autocontrol o pedagogía del dominio. En el capítulo que aportó a esta última obra, Mottier López seña-la que aunque algunos autores formularon diversas reservas frente al modelo de Bloom, se debe reconocer que introdujo un cambio paradigmático al dejar de relacionar únicamente la evaluación con la certificación de conocimientos o la se-lección de estudiantes, para verla como un medio cuyo fin es sostener los aprendizajes: “El modelo […] se dirige a docen-tes y apunta a una transformación de sus prácticas […] se trata de una verdadera ‘revolución’ en materia de evaluación de los aprendizajes de los alumnos” (2010: 46).

Según la misma autora, al principio los investigadores francófonos centraron la atención en aspectos particulares de instrumentación de la evaluación formativa a partir del Hand-book publicado por Bloom y colaboradores en 1971. La aten-ción se centraba en la preparación de instrumentos, pruebas y bancos de ítems, así como en la propuesta de métodos para analizar los tipos de errores que cometían los alumnos al selec-cionar diferentes distractores en pruebas de opción múltiple.

Más tarde se desarrolló una reflexión teórica original sobre la evaluación formativa, que aborda tres aspectos prin-cipales: la psicología del aprendizaje, la didáctica de las disci-plinas y los abordajes pluridisciplinares (2010: 46 y 47).

En cuanto a teorías del aprendizaje, la concepción neo-conductista de Bloom es contrastada por Allal, según Mottier López, “con el abordaje constructivista y cognitivista que lle-va a privilegiar modalidades de evaluación formativa centra-das en los procesos cognitivos de aprendizaje y no sólo en los rendimientos de los alumnos y las correcciones” (2010: 47).

Otros trabajos relacionan la evaluación formativa con las teorías socioculturales de la enseñanza y el aprendizaje, así como con las del aprendizaje situado y con la zona de


105

desarrollo próximo de Vygotsky. Mottier López ha utilizado “los marcos teóricos de la cognición y del aprendizaje ‘situa-dos’ para conceptualizar la evaluación como una práctica si-tuada que se co-constituye con los alumnos en el contexto social de cada micro-cultura de clase (o comunidad de apren-dizaje)” (2010: 47 y 48). En el campo de la didáctica se anali-za la evaluación

[…] en tanto componente del sistema didáctico que pone en relación al docente, al educando y el saber que se debe enseñar, [estudiando la evaluación] en términos de “con-trato didáctico” que vincula las expectativas recíprocas del docente y los alumnos en relación con un contenido o con una tarea dada (2010: 48).

Ejemplos de “abordaje pluridisciplinario” de evaluación formativa son aportaciones, como las de Perrenoud, para quien es necesario articular las orientaciones cognitivas, co-municativas y didácticas de la evaluación formativa en un marco más general de la regulación; las de Cardinet, que considera la evaluación formativa como un proceso de co-municación lograda entre el docente y el alumno sobre los objetivos, los criterios y las dificultades de aprendizaje; y las de Bonniol y Vial, que explotan diferentes implicaciones de las teorías cibernéticas, sistémicas y de la complejidad para pensar la evaluación formativa (Cfr. Mottier López, 2010).

Reconociéndolo como punto de partida, los trabajos en lengua francesa han ampliado el modelo Mastery Learning de Bloom en al menos cuatro direcciones:

• La integración de la evaluación formativa en el pro-ceso de enseñanza/aprendizaje, como parte integral del mismo y no como “un acontecimiento específi-co que tiene lugar después de una fase de enseñan-za” (2010: 50), lo que implica diversificar los medios de evaluación, que no deben limitarse a “pruebas de opción múltiple y tareas para verificar si los alumnos han comprendido el contenido de la lección, sino que incluyen observación de las actividades del alumno [e] intercambios entre alumnos (2010: 50).


106

• La diferenciación pedagógica, a la que se da mucha importancia en la literatura francófona. “Se recono-ce que los objetivos de base exigen ser alcanzados por todos los alumnos, pero se ha destacado la cues-tión de una posible adaptación de los objetivos con la finalidad de tener más en cuenta las experiencias culturales y los centros de interés personales de los alumnos” (Mottier López, 2010: 54). Este punto se relaciona con el relativo a la regulación (Cfr. infra), ya que ésta permite identificar diferencias entre los alumnos, las que a su vez hacen necesario diversificar las actividades de instrucción.

• El compromiso del alumno en su propia evaluación. La perspectiva ampliada francófona, a diferencia de Bloom, para quien el docente era el responsable de la evaluación, alienta un compromiso mayor del alum-no en la evaluación formativa, distinguiendo tres variantes: la autoevaluación en el sentido estricto, la evaluación mutua entre pares, y la coevaluación que estipula una confrontación de las evaluaciones reali-zadas por el docente y el alumno (2010: 52 y 53).

• La noción de regulación, que constituye posible-mente la aportación fundamental de la perspectiva ampliada de la literatura en francés al campo de la evaluación formativa, en la que “la idea de remediar las dificultades de aprendizaje (retroalimentación + corrección) es sustituida por la noción más amplia de regular el aprendizaje (retroalimentación + adap-tación)” (Allal y Mottier-López, 2005: 245; Mottier-López, 2010: 51).

Según la autora que se viene siguiendo en este apartado (Lucie Mottier López), este cambio central fue originalmente una aportación de Cardinet, que posteriormente fue segui-do por la distinción de Allal, la cual consiste en tres formas de regulación, y que luego fue retomada ampliamente en los trabajos francófonos:

• La regulación interactiva, basada en la interacción del estudiante con el otro polo de la actividad de instruc-


107

ción –que es el maestro–, con los demás alumnos o con materiales que permiten un aprendizaje autorregulado.

• La regulación retroactiva, que se hace después de ter-minar una etapa de instrucción y permite identificar los objetivos alcanzados o no por cada alumno, y pue-de ser inmediata (por ejemplo on line) o diferida. Ésta es la regulación propuesta por Bloom.

• La regulación proactiva, que aprovecha varias fuentes de información para preparar nuevas actividades de instrucción que tengan en cuenta las diferencias de los estudiantes, ya sea para acciones remediales, o más bien de diferenciación y enriquecimiento (Allal y Mottier-López, 2005: 245 y 246).

Otro autor de habla francesa que ha desarrollado el con-cepto de regulación aplicado a la evaluación de enfoque for-mativo, es Philippe Perrenoud, muy conocido por su trabajo sobre la noción de competencias.

En un artículo de la tercera edición de la International En-cyclopedia of Education (Marshall, 2010), Perrenoud describe “la regulación del aprendizaje como el concepto clave en que se basa la evaluación para el aprendizaje”. También se relaciona con esta visión de la evaluación la concepción del aprendizaje de Vygotsky, con su noción de la zona de desarrollo próximo (zdp), que “es crucial para entender la manera en que él cree que los alumnos avanzan hacia la autonomía”. Se menciona también que la noción de zdp se relaciona con la de andamiaje (scafolding) para el aprendizaje, de Bruner (Marshall, 2010).

Perrenoud dice que la evaluación formativa se vuelve fuente de regulación porque, “para que haya retroalimentación de manera regular, es necesario que haya una clara compren-sión de la forma en que funcionan los alumnos y la manera en que incorporan elementos ajenos a sus propios procesos de pensamiento” (1998: 87).

[…] la influencia regulatoria de la evaluación formativa es débil si se reduce a una evaluación aplicada al final de una etapa de instrucción que destaque lagunas en el conocimien-to, errores y comprensiones insuficientes de un tema, que lleven a ciertas actividades remediales […] Las habilidades


108

involucradas en la regulación dependen tanto de la capaci-dad de observación y diálogo del maestro como de la manera en que comprende los obstáculos cognitivos que hay en la mente del alumno y analiza lo que impide superarlos. En esta tarea la empatía y la perspicacia son cualidades úti-les que implican cierto grado de descentralización: la capa-cidad de ponerse en el lugar de la persona que no sabe, no entiende y no ve una solución. Estas habilidades implican una regulación formativa, en el sentido más amplio de la expresión (1998: 91-97).

Por su parte, Mottier López afirma lo siguiente:

Laveault amplía la conceptualización de la autoevaluación, agregando las regulaciones motivacionales además de las cognitivas y metacognitivas, y observa que las regulacio-nes pueden entrañar efectos disfuncionales, pueden ser insuficientes (underregulation), erróneas (misregulation) o incluso excesivas (overregulation) (2010: 46-55).

La autora concluye señalando que, “no sin reconocer el rol esencial de la autoevaluación con fines de autorregu-lación, estos trabajos muestran que es esencial comprender cómo ‘fracasa’ una autoevaluación/regulación y cuáles son los límites de las que ‘triunfan’” (2010: 46-55).

Laveault dice que los conceptos de regulación y autorre-gulación han contribuido ampliamente a redefinir la evalua-ción formativa como objeto de estudio de las publicaciones en francés, y que los currículos por competencias que sustitu-yen a los objetivos de aprendizaje en varios países, tienen una clara influencia de las teorías socioconstructivistas francesas, “que subrayan el papel central del alumno y de la interacción social en la construcción del conocimiento” (2010), y añade:

[Todos] los nuevos programas de estudio desarrollados en los países de habla francesa enfatizan […] de una u otra forma, el papel fundamental de la evaluación formativa. Tal énfasis no es nuevo, ya que las prácticas de evaluación formativa han estado asociadas desde hace tiempo con las concepciones que valoran la diferenciación de la enseñanza y la igualdad de


109

oportunidades de aprendizaje para todos los estudiantes. La introducción de programas basados en competencias, sin embargo, ha exigido rediseñar los instrumentos de eva-luación formativa e incluir métodos adicionales de reunir información sobre el aprendizaje de los alumnos (Laveault, 2010: 433 y 434).

Este autor advierte que los estudiosos francófonos han hecho mucho en el terreno teórico, “pero han publicado muy poco sobre la verificación del impacto de la evaluación for-mativa sobre el aprendizaje” (2010: 434), así que se necesita mucha más investigación empírica.

Difusión de la evaluación formativa en otros países

El interés por la evaluación formativa se extendió a otros paí-ses principalmente por la influencia de Bloom, pero la litera-tura correspondiente no contiene aportaciones relevantes a la conceptualización del campo. Hay información sobre traba-jos en Australia (Cumming, 2010), Nueva Zelanda (Crooks, 2010) y Hong Kong (Carless, 2010: 438). En cuanto a Europa Oriental, se puede ver el trabajo de Bethell (2010), y respecto a países de África, el trabajo de Howie, Zimmerman y Dra-per (2010).

En Iberoamérica, España destaca por la cantidad de su producción editorial sobre el tema. Una revisión de publi-caciones que tratan expresamente de evaluación formativa, evaluación en el aula, usos pedagógicos de la evaluación, ideas de los maestros sobre la evaluación y procesos cogniti-vos, muestran un interés que se remonta a fines de la década de 1980, con claras alusiones que reflejan la inspiración que representaron los trabajos de Benjamin Bloom.

En América Latina la producción más importante –mu-cho menor a la española– corresponde a Argentina, pero se identificaron también trabajos procedentes de Chile, Uru-guay, Guatemala y Venezuela.

Respecto a México, no se encontraron en los estados del conocimiento que precedieron al Primer Congreso Na-cional de Investigación Educativa (Cámara, 1981), ni en los


110

que se hicieron en relación con el segundo (Carrión et al., 1993 y 1995; Martínez-Rodríguez et al., 1993 y 1995), indi-cios de trabajos que se hayan interesado expresamente por la evaluación formativa o, más generalmente, en aula. En las revisiones de 2003 no se abordó francamente el tema de eva-luación y los pocos trabajos identificados que contemplaron este tema dentro de otras áreas, tampoco incluyeron estu-dios sobre evaluación formativa (Cfr. Estévez y De Gunther, 2003; Guzmán et al., 2003; Zorrilla-Fierro, 2003).

Una revisión de textos más recientes permitió identificar solamente dos trabajos: un estudio de Vidales Delgado y cola-boradores (2005), hecho en el estado de Nuevo León, y otro no publicado, realizado en 2008 por el Instituto Nacional para la Evaluación de la Educación (inee), con alcance nacional.

En el V Congreso Nacional de Investigación Educativa se presentaron dos ponencias sobre la evaluación formativa: uno de Cruz, Crispín y Ávila (1999), y el otro de Fernández Lomelín (1999). En los congresos VII y VIII se encontraron tres trabajos relacionados: uno de López (2003), otro de Mon-treal Reyes (2003), y el tercero de Bonilla y López (2005).

Por otra parte, la normatividad relativa a la evaluación de los aprendizajes en educación básica, refleja cierta influencia de las tendencias que se desarrollan en el medio internacional. Las disposiciones de 1978, relacionadas con la reforma curri-cular de 1973, aún no muestran estas influencias que comien-zan a aparecer en forma limitada en la normatividad de 1992 y 1994, relacionada ésta con la reforma curricular de 1993.

Las normas de evaluación más recientes (octubre de 2009) no avanzan en este sentido, pero sí lo hacen algunos otros elementos, en particular los relacionados con la reforma de la educación básica –que adoptó un enfoque “por competen-cias”– y con las actividades de actualización para los maestros derivadas de la misma reforma.

En las escuelas normales, aunque no haya materias orien-tadas exclusivamente al tema de la evaluación y menos al de la evaluación de enfoque formativo, los contenidos de las ma-terias que se refieren a la enseñanza de los diversos campos formativos (lengua y comunicación, matemáticas, ciencias, y otros) incluyen temas y lecturas orientados a la evaluación.

Así pues, los principales documentos normativos de la


111

educación básica mexicana incorporan paulatinamente con-cepciones de enseñanza y evaluación derivados de los avances cognitivos: constructivismo, enseñanza por competencias, regulación y autorregulación, papel activo del alumno y enfo-que formativo de la evaluación.

Por último, la obra Reforma integral de la educación básica 2009. Diplomado para docentes de primaria. Módulo 3: evalua-ción para el aprendizaje en el aula, como indica su propio título, está destinada a miles de docentes de primaria, aborda el tema de la evaluación para el aprendizaje en el aula y parte explíci-tamente del reconocimiento de “la importancia de transitar hacia una evaluación formativa que favorezca el proceso de enseñanza-aprendizaje” (Díaz-Barriga et al., 2010: 1).

Sin embargo, el módulo parece reflejar una visión algo esquemática y superficial del tema. Se manejan autores espa-ñoles y francófonos y no se aprovechan las ricas aportaciones anglosajonas inspiradas en las corrientes cognitivistas.

Trabajos empíricos sobre el impactode la evaluación formativa

En la investigación educativa, con excepción de Estados Uni-dos, los estudios empíricos no suelen abundar. Posiblemente así ocurre también en cuanto al efecto de las prácticas de eva-luación sobre el rendimiento de los alumnos. En este aparta-do se revisarán los trabajos encontrados al respecto.

Se ha apuntado ya que varias síntesis de trabajos de in-vestigación sobre el sistema Mastery Learning llegaban a la conclusión de que éste era “una de las estrategias de enseñan-za más efectivas que los maestros pueden utilizar, en cual-quier nivel educativo” (Walberg, citado en Guskey, 2007: 75).

Bloom plantea el tema en términos de lo que llama “el problema de las dos sigmas”, haciendo alusión a que la diferen-cia entre los alumnos de alto y bajo rendimiento suele situar-se en el rango de dos desviaciones estándar. Esto quiere decir que el reto de reducir las brechas del rendimiento de manera significativa en un sistema educativo, consiste en hacer que mejore el desempeño de los alumnos de menor rendimiento en lo equivalente a dos desviaciones estándar (dos sigmas).


112

Según Bloom, es posible conseguir mejorías de esa im-portancia con sistemas de enseñanza en los que se asigna un tutor individual a cada alumno de bajo rendimiento (ense-ñanza tutorial uno a uno), lo cual es obviamente muy costo-so; pero el creador del Mastery Learning afirma que con su sistema es posible obtener resultados similares con un costo que no difiere significativamente del que implican las formas tradicionales de enseñanza (Bloom, 1984a y 1984b).

Estudios con perspectiva optimista

Este apartado se basa en algunas revisiones de literatura, lo que permite alcanzar una visión conjunta del tema sin acu-dir a cada uno de los estudios revisados, con las ventajas y limitaciones que ello implica.

Sin contar las revisiones relativas a los resultados del modelo Mastery Learning, como las que se mencionan en los párrafos anteriores, la revisión de literatura que posible-mente más ha influido las ideas que se tienen sobre el efecto de la evaluación formativa, es la que publicaron en 1998 Paul Black y Dylan Wiliam, en el número 1 de la revista Assessment in Education: Principles, Policy & Practice.

El artículo no es, obviamente, el punto de partida de alguna línea de estudio, puesto que revisa un número im-portante de trabajos publicados anteriormente –entre 1988 y 1997–; sin embargo, como se verá luego, la conclusión tan positiva a la que llega, llamó poderosamente la atención entre los interesados en el tema, algunos de los cuales lo retomaron sin considerar sus alcances y límites, lo que posiblemente dio lugar a que se extendiera una visión acrítica de la evaluación formativa en un medio que a veces parece ávido de solucio-nes milagrosas para los problemas que enfrenta.

Black y Wiliam explican que ellos tomaron a su vez como punto de apoyo las revisiones de Natriello (1987) y Crooks (1988), y utilizaron otras revisiones, como las de Black (1993), Bangert-Drowns et al. (1991a y 1991b) y Kulik et al. (1990); después hicieron una búsqueda en el banco bi-bliográfico eric; luego llevaron a cabo un seguimiento de las referencias citadas en las ya localizadas (snowball approach); y por último, realizaron una búsqueda de artículos en 76 revis-


113

tas. De esta manera identificaron un total de 681 publicacio-nes que parecían relevantes a primera vista y que finalmente se redujeron a 250.

La revisión se organizó en siete secciones: ejemplos des-tacados, evaluación por los maestros, perspectiva de los alum-nos, papel del maestro, estrategias y tácticas generales usadas por los maestros, sistemas particulares en los que la evalua-ción formativa tiene un papel especial y retroalimentación.

En cada sección los textos identificados se revisan con diferente amplitud, pero la sección primera, la de ejemplos destacados, es la que atrae más la atención, tanto por su ubi-cación al inicio del artículo, como por la naturaleza positiva de las conclusiones a las que llegan los autores, las cuales sus-tentan las afirmaciones reiteradas y enfáticas que se hacen en dicha sección. Así, en el resumen del trabajo se afirma que “varios estudios muestran firme evidencia de que las innova-ciones diseñadas para reforzar la retroalimentación frecuente que los estudiantes reciben sobre su aprendizaje producen ganancias substanciales” (Black y Wiliam, 1998: 7).

Esta idea se retoma en la parte final del mismo trabajo, en la que los autores abordan las implicaciones de sus hallaz-gos para las políticas:

La investigación reportada en este trabajo muestra de ma-nera concluyente que la evaluación formativa mejora el aprendizaje. Las ganancias en el desempeño parecen muy considerables y, como se ha señalado, son de las más gran-des reportadas para una intervención educativa. Como un ejemplo de la importancia de esas ganancias, un efecto (size effect) de 0.7, si pudiera ser alcanzado a escala nacional, equivaldría a elevar el puntaje promedio en matemáticas de un país “promedio” como Inglaterra, Nueva Zelanda o los Estados Unidos, al nivel de “los cinco mejores”, detrás de los países de la cuenca del Pacífico como Singapur, Corea, Japón y Hong Kong (1998: 61).

Los estudios seleccionados por Black y Wiliam para ser incluidos en la primera sección de su trabajo (ejemplos des-tacados), son ocho:


114

• Un proyecto que involucró a 25 profesores portugue-ses de matemáticas, con 246 alumnos de ocho y nue-ve años de edad, y 108 más de 10 a 14 años.

• La experiencia de un profesor a lo largo de 18 años, durante los cuales utilizó el modelo de Mastery Lear-ning en sus cursos, con unos 7,000 estudiantes.

• Otro estudio que utilizó el modelo Mastery Learning, con 120 estudiantes universitarios estadounidenses, en cuatro grupos, con un diseño 2 x 2.

• Un estudio con 838 niños con 5 años de edad, proce-dentes de un medio desfavorecido, distribuidos en un grupo experimental y otro de control.

• Un experimento con 48 alumnos con 11 años de edad, de 12 grupos en 4 escuelas de Israel, seleccionados de manera que la mitad perteneciera al cuartil superior y el resto al inferior, en las áreas de matemáticas y lengua.

• Un estudio con 44 alumnos de nueve o diez años de edad, en una escuela elemental de Estados Unidos.

• Un trabajo con 12 grupos de 30 alumnos cada uno, en dos escuelas estadounidenses de educación media.

• Un meta-análisis de 21 estudios que abarca alumnos desde preescolar hasta enseñanza media superior, con necesidades educativas especiales de importan-cia media.

En varias partes de su trabajo, Black y Wiliam advierten sobre las limitaciones que encuentran en los estudios revisa-dos; por ejemplo, respecto a la revisión de Kluger y De Nisi (1996) sobre la efectividad de la retroalimentación, señalan que de más de 3,000 reportes analizados, la gran mayoría de-bieron descartarse por tener fallas metodológicas como falta de controles adecuados, mezcla de los efectos de la retroalimen-tación con otros, número reducido de sujetos (menos de 10), ausencia de mediciones del rendimiento y datos insuficientes para poder estimar el tamaño del efecto. Solamente se conser-varon 131 reportes que no presentaban dichas fallas (1998: 48).

Otras revisiones mencionan efectos de la retroalimen-tación en sentidos opuestos, según se refiera a la tarea o a la persona. Un trabajo en particular reporta que la retroalimen-


115

tación referida a la persona parece tener efectos negativos so-bre el desempeño, y otro encuentra que los maestros más efi-caces elogian en menor medida a sus alumnos que el docente promedio, coincidiendo con otros hallazgos en el sentido de que los elogios verbales y la retroalimentación de apoyo a la persona pueden aumentar el interés y mejorar las actitudes de los alumnos, pero tienen poco impacto, o ninguno, sobre su desempeño (1998: 49 y 50).

Al leer la descripción que hacen Black y Wiliam de los ocho ejemplos mencionados, surgen dudas en cuanto a la soli-dez de conclusiones tan contundentes como las antes citadas, las cuales difícilmente se desprenden sin muchas salvedades de una gama bastante reducida de trabajos muy diferentes, algunos de los cuales presentan claras debilidades. Pese a ello, la heterogeneidad misma de los ejemplos es manejada por los autores citados como argumento a favor de su punto de vista:

Pese a la existencia de algunos resultados marginales e in-cluso negativos, el rango de las condiciones y contextos en los que los estudios revisados han mostrado que se pueden alcanzar tales ganancias, debe indicar que los principios que subyacen al logro de mejoras sustanciales en el aprendizaje son robustos (1998: 61).

Al final de su revisión, los autores citados advierten a los lectores sobre la dificultad que supone modificar en profun-didad prácticas muy arraigadas:

[…] de esta revisión no emerge un modelo óptimo en que se pueda sustentar una política. Lo que emerge son principios orientadores, con la advertencia de que los cambios requeri-dos en la práctica docente son centrales y no marginales, y deben ser incorporados por cada docente a su propia prác-tica en la manera propia de cada uno. En otras palabras, una reforma de tales dimensiones inevitablemente llevará mucho tiempo y requerirá el continuo apoyo de educadores e investigadores (1998: 62).

En forma muy clara, el trabajo multicitado señala en otro lugar lo siguiente:


116

Sería deseable, y se podría esperar como lo habitual, que una revisión como ésta tratara de hacer un meta-análisis de los estudios cuantitativos revisados. El hecho de que esto difícil-mente parezca posible, lleva a reflexionar sobre este campo de investigación. Esta revisión aprovechó material útil de va-rios estudios basados en meta-análisis; éstos, sin embargo, centraban la atención en aspectos bastante restringidos de la evaluación formativa, por ejemplo la frecuencia con la que se formulan preguntas. El valor de sus generalizaciones es tam-bién dudoso porque se ignoran aspectos clave de los estudios sintetizados, por ejemplo la calidad de las preguntas que se formulan, ya que la mayoría de los investigadores no ofrecen evidencias sobre estos puntos.Hay estudios cuantitativos que exploran la evaluación for-mativa de manera más comprensiva, y algunos se discu-ten en el texto, pero el número con un rigor cuantitativo adecuado y comparable debe situarse, como máximo, en el orden de 20. Sin embargo, si bien cada estudio es riguroso dentro de su propio marco y en relación con sus objetivos, y aunque muestran cierta coherencia en lo que se refiere a las ganancias de aprendizaje asociadas con las iniciativas de evaluación en aula, las diferencias subyacentes entre los es-tudios son tales que cualquier agregación de sus resultados tendría poco sentido (1998: 52 y 53).

Pese a lo anterior, varias lecturas del texto al que se refie-ren estos comentarios, han retomado únicamente las conclu-siones favorables sin matiz alguna, e incluso contradiciendo afirmaciones expresas, como en el caso siguiente:

Con base en su síntesis de más de 250 artículos, [Black y Wi-liam] reportan que la respuesta [a la pregunta ¿hay evidencias de que mejorar la calidad de la evaluación formativa eleva el rendimiento de los alumnos?] es un rotundo sí. De esas fuen-tes, unas 40 responden la pregunta con diseños experimenta-les suficientemente rigurosos para permitir la agregación de los datos para hacer un meta-análisis que permita estimar el efecto atribuible a evaluaciones formativas mejoradas sobre el puntaje en pruebas sumativas (Stiggins, 2001: 10).


117

La diferencia entre l o que afirma expresamente el texto de Black y Wiliam y la lectura del mismo, hecha por Stiggins, es notable, y explica el tono optimista, al parecer excesivo, de ésa y otras interpretaciones.

Un importante trabajo sobre evaluación formativa, pu-blicado por la ocde, retoma el texto citado con base en las conclusiones del artículo de Black y Wiliam: “la evaluación formativa mejora el aprendizaje. Las ganancias en el desem-peño parecen muy considerables y, como se ha señalado, son de las más grandes reportadas para una intervención educati-va” (Centre for Educational Research and Innovation, 2005: 22). Este trabajo de la ocde, sin embargo, matiza la afirma-ción anterior como sigue:

Si bien la evaluación formativa no es una solución mágica (silver bullet) que puede resolver todos los retos educativos, ofrece un medio poderoso para alcanzar los objetivos de resultados de alto desempeño y alta equidad, y ofrece a los alumnos el conocimiento y las habilidades para seguir apren-diendo a lo largo de la vida. Los sistemas educativos que en-frenten las tensiones que impiden una práctica más amplia de la evaluación formativa y fomenten culturas de evalua-ción probablemente avanzarán mucho más hacia tales metas (Centre for Educational Research and Innovation, 2005: 27).

Según las minutas de la Primera Conferencia Interna-cional sobre Evaluación para el Aprendizaje, que tuvo lugar en 2001, las discusiones sobre las prioridades de investiga-ción en torno al tema,

[…] se desarrollaron con plena conciencia del hecho de que contamos ya con evidencia convincente, basada en inves-tigaciones, en cuanto al impacto de la “enseñanza para el aprendizaje” sobre el rendimiento de los alumnos: se pue-den conseguir avances sin precedentes. Tenemos también evidencia convincente, basada en investigaciones, sobre la baja calidad de muchas evaluaciones que se hacen en el aula, debido a la persistente falta de oportunidades que tienen los maestros para desarrollar sus competencias de evaluación (assessment literacy) (Stiggins y Arter, 2002: 3).


118

En un texto más reciente, Stiggins sigue mostrando su perspectiva optimista: “la evidencia recolectada en todo el mundo revela de manera consistente efectos directamente atribuibles a la aplicación efectiva de evaluaciones formati-vas en el aula, que van de media a una y media desviación estándar” (2007: 18).

Stiggins dice que Bloom (1984a) reportaba avances de una a dos desviaciones estándar gracias a la aplicación de su modelo Mastery Learning; menciona que las ganancias van de media a una desviación estándar, reportadas por Black y William a partir de la revisión ya mencionada; cita el trabajo de Meisels et al. (2003), donde se presumen ganancias de una a una y media desviaciones; y retoma el trabajo de Rodríguez (2004), el cual se basa en los resultados de la aplicación del timss en Estados Unidos. Para terminar, agrega:

Según estos investigadores, los avances esperados en las puntuaciones de desempeño rivalizan con la implementa-ción de sistemas de enseñanza tutorial uno a uno en cuanto a su impacto en el rendimiento de los alumnos, además de que las mayores ganancias son conseguidas por los de menor desempeño, con lo que las brechas se reducen (2007: 19).

Otras revisiones de las que se extraen conclusiones favo-rables para la evaluación formativa se refieren a los efectos de la retroalimentación. Marzano presenta así algunos trabajos sobre el tema:

Como resultado de revisar casi 8,000 estudios, Hattie (1992) encontró que, sin duda, “la modificación singular más pode-rosa para mejorar el rendimiento es la retroalimentación”. La receta más sencilla para mejorar la educación será “cu-charadas de retroalimentación”. Más recientemente, Hattie y Timperley (2007) actualizaron y ampliaron la revisión de la investigación sobre la retroalimentación y llegaron a la misma conclusión. Desafortunadamente no todas las formas de retroalimentación son igualmente efectivas. Un meta-análisis de Bangert-Drowns, J. Kulik, C. Kulik y Morgan (1991) que revisó los hallazgos de 40 estudios so-bre evaluación en aula, encontró que decir simplemente al


119

alumno si sus respuestas son correctas o incorrectas tenía efecto negativo sobre el aprendizaje, mientras que explicar la respuesta correcta y/o pedir que siguiera mejorando sus respuestas se asociaba con ganancias en el desempeño de 20 puntos percentilares (2007: 103 y 104).

En contraste con la perspectiva optimista que presentan los trabajos referidos en este apartado, otros son más críti-cos, como veremos enseguida.

Perspectivas críticas

La experiencia reiterada de la complejidad que tienen los fenó-menos educativos, y por consiguiente la dificultad para intro-ducir cambios que traigan consigo consecuencias importantes, nos lleva a tomar con reservas los textos de la sección anterior, que a veces parecen promover una panacea más, que tras cierto tiempo provocaría una desilusión tanto más fuerte cuanto ma-yores hubieran sido las expectativas inicialmente despertadas. Esta idea se ve reforzada por algunas salvedades que contienen los mismos textos de perspectiva optimista citados, que una lectura atenta no deja de advertir, y que en ocasiones se inclu-yen de manera tan expresa que sorprende que no sean atendi-das con toda su importancia por algunas lecturas posteriores.

Confirma y refuerza esta reflexión crítica sobre las con-clusiones excesivamente optimistas del apartado anterior el trabajo que Dunn y Mulvenon (2009), dos estudiosos de la Universidad de Arkansas, publicaron recientemente con el título Una revisión crítica de la investigación sobre evaluación formativa. La limitada evidencia científica del impacto de la eva-luación formativa en la educación. Al principio de su texto, los autores señalan que

Una creencia casi nunca cuestionada es que la investigación demuestra en forma concluyente que el uso de evaluación formativa facilita la mejora de las prácticas de enseñanza, identifica lagunas en el currículo y contribuye a aumentar el desempeño de los alumnos. Sin embargo […] una revi-sión de la literatura reveló la limitada evidencia empírica que demuestra que el uso de evaluación formativa en el


120

aula resulta directamente en cambios marcados en los re-sultados educativos (2009: 1).

Después de discutir la forma en que se define la noción de evaluación formativa, indicando que la heterogeneidad al respecto dificulta la tarea de analizar en forma rigurosa su posible impacto, el artículo analiza en particular la revisión de Black y Wiliam referida en el apartado anterior de este documento, cuya influencia se puede apreciar por el elevado número de veces que se le cita en las revistas académicas: 194 para ser precisos, según el Social Science Index (2009: 5).

La revisión de las características de los ocho estudios que Black y Wiliam utilizan para sostener sus conclusiones (Cfr. supra), muestra, según Dunn y Mulvenon, serias fallas me-todológicas, muy evidentes en algunos casos y menos claras en otros:

• Además de que el caso de 25 profesores portugueses no parece suficiente para obtener conclusiones generaliza-bles, el estudio adoleció de fallas significativas en cuan-to a la calidad del pretest y a la diferencia que existió en la preparación que se dio a los docentes del grupo control, en comparación con los del experimental.

• Más clara aún es la generalizabilidad del segundo es-tudio citado por Black y Wiliam, en el cual se analiza el caso de un solo profesor durante 18 años.

• El tercer estudio, con 120 universitarios en cuatro grupos, involucró sólo a dos profesores expertos y dos novatos, y analizó la frecuencia de las evaluaciones (una o tres) sin considerar detalladamente el conteni-do y la forma de éstas.

• A juicio de Dunn y Mulvenon, el diseño del cuarto es-tudio (838 niños con 5 años de edad) es bueno, pero no toma en cuenta que además de evaluación formativa el sistema con el que se trabajaba incluía otros aspectos cuya influencia no se puede distinguir de la que haya podido tener la evaluación misma.

• Otros tres estudios de Black y Wiliam mostraron pro-blemas similares, siempre según Dunn y Mulvenon: el quinto estudio, hecho en Israel, además de una


121

muestra muy chica, se basa en tareas que no fueron presentadas por el maestro ni se contemplaban den-tro del currículo; el sexto caso sólo trabajó con alum-nos de cuarto grado, con una muestra muy pequeña y con énfasis en autoevaluación; y en el séptimo caso, además de que los resultados abarcan desde un efecto poco creíble de tres, hasta de solo una desviación es-tándar, no se informa en qué consistieron las “discu-siones generales” en el grupo control, y pareciera que el grupo experimental recibió un trato distinto más allá de lo que tenía que ver con la evaluación forma-tiva misma.

• El octavo caso de Black y Wiliam, que Dunn y Mul-venon tratan en primer término, parecería en prin-cipio el más sólido, ya que se trata del meta-análisis de 21 estudios, pero incluso en este caso hay serias deficiencias: 83% de los alumnos participantes tenían necesidades educativas especiales; y 72% de los efec-tos encontrados se presentaron en estudios que te-nían “no más de dos problemas metodológicos serios” (2009: 5-7).

El texto de los profesores de Arkansas revisa nueve artí-culos más recientes que son en general trabajos de educación en línea, correspondientes a los siguientes autores: Thomp-son et al. (2004), Wininger (2005), Wiliam et al. (2004), Ruiz-Primo y Furtak (2006), Sly (1999), Henly (2003), Buchanan (2000), Wang (2007) y Velan et al. (2002). Dunn y Mulvenon reconocen que esos trabajos “ofrecen apoyo adicional a la evaluación formativa de manera fragmentada [pero siguen teniendo problemas] metodológicos similares a los revisados por Black y Wiliam” (2009: 7).

Aunque subrayan las limitaciones de los trabajos revisa-dos, la conclusión a la que llegan estos autores, no es total-mente negativa, pues afirman que

En cierta medida, las investigaciones discutidas […] apo-yan el impacto de la evaluación formativa sobre el rendi-miento de los alumnos, pero en una medida mayor apoyan la necesidad de hacer investigaciones en las que diseños y


122

metodologías más eficientes lleven a resultados más con-cluyentes […] no argumentamos que la evaluación for-mativa carezca de importancia, sino sólo que la evidencia empírica que existe para apoyar “las mejores prácticas” de evaluación formativa es limitada (2009: 9).

Otros trabajos recientes parecen avanzar en la dirección apuntada en el texto anterior, ya que utilizan acercamientos metodológicos más sólidos.

Tal parece ser el caso de un capítulo de la obra editada por Andrade y Cizek (2010), en el cual Schneider y Randel analizan investigaciones sobre las características de los pro-gramas de actualización para maestros en servicio que bus-can mejorar sus habilidades en evaluación formativa.

Por el enfoque de este trabajo, las investigaciones que se revisan se refieren a experiencias de duración considerable en las que la preparación que se dio a los participantes sobre las técnicas de evaluación formativa, implicó muchas horas de trabajo, lo cual es una ventaja relevante en comparación con varios estudios revisados antes. Por otra parte, la variable relativa a los resultados de los alumnos se incluye siempre, lo que permite aprovechar estos trabajos en este apartado; además, se trata de estudios que involucraron cantidades im-portantes de maestros, alumnos y grupos, y que, a falta de diseños experimentales estrictos, utilizaron acercamientos cuasi-experimentales que cuidaron la comparabilidad de los grupos con y sin tratamiento, y utilizaron técnicas analíticas avanzadas.

El trabajo concluye con reparos sobre los retos metodo-lógicos que se deben enfrentar en este tipo de investigaciones, incluyendo la atención a los estándares para juzgar la calidad de las evidencias, definidos (los estándares) por el reposito-rio What Works Clearinghouse (del Instituto de Ciencias de la Educación del Departamento de Educación del Gobierno de los Estados Unidos); las dificultades que hay al manejar dise-ños experimentales con grupos completos (intact classrooms) y al medir los resultados, así como al momento de definir el tamaño de las muestras, la fidelidad de implementación y la duración del estudio (Schneider y Randel, 2010: 267-272).

En muchos casos, los resultados fueron favorables para


123

la hipótesis de que las prácticas de evaluación formativa con-tribuyen a mejorar el aprendizaje, y en un número menor de casos no se encontraron diferencias significativas. Nueva-mente la evidencia no es concluyente, pero sí parece inclinar paulatinamente la balanza hacia las opiniones a favor de la evaluación formativa.

Otro capítulo de la obra de Cizek y Andrade (2010) es también interesante. Se trata de un trabajo sobre evaluación formativa, motivación y aprendizaje de las ciencias naturales, temas que Ma. Araceli Ruiz Primo y colaboradores (autores del capítulo en cuestión) describen de la siguiente manera:

Se llevó a cabo un estudio de pequeñas dimensiones, alea-torizado, para someter a prueba la afirmación de Black y Wiliam (1998) de que la retroalimentación basada en eva-luación formativa produce un fuerte efecto positivo en el aprendizaje de los estudiantes […] el proyecto ponía a prueba una “gran idea” relacionada con la evaluación for-mativa, [con la cual] “se podría obtener una gran ganancia en el aprendizaje [mediante] una inversión relativamente pequeña: incorporar a un currículo de ciencias utilizado en todo el país evaluaciones formativas conceptualmente co-herentes” (Ruiz-Primo et al., 2010: 143).

Después de explicar las características del estudio cuida-dosamente diseñado e implementado, los investigadores re-portan los resultados relacionados con los cambios esperados en los niveles de rendimiento de los alumnos:

Sorprendentemente los resultados no corroboraron la hi-pótesis […] el grupo experimental no obtuvo resultados significativamente mejores que el grupo de comparación ni en las pruebas de rendimiento ni en las medidas de moti-vación. De hecho los alumnos del grupo de comparación tuvieron resultados promedio ligeramente mejores que los del grupo experimental, aunque no estadísticamente signi-ficativos […] la brecha entre los alumnos de alto y bajo ren-dimiento en el grupo experimental no fue tan grande como en el grupo de comparación (2010: 151).

La revisión de los videos de clases que se grabaron du-


124

rante el estudio, permitió a los investigadores buscar una explicación de esos resultados, revisando la fidelidad de im-plementación.

El estudio de implementación buscaba entender la re-lación entre el tratamiento (el currículo prescrito) y las medi-ciones del aprendizaje de los alumnos (el currículo logrado), para lo cual primero se sistematizó el currículo prescrito se-gún la guía que se había dado a los maestros participantes, y luego se analizaron las grabaciones de las clases para medir en qué grado los maestros realizaron las evaluaciones formati-vas como se esperaba que lo hicieran. El resultado fue que había considerables diferencias en cuanto a la forma de hacer las evaluaciones, lo cual parece reflejarse en un impacto dife-rencial en el rendimiento. La conclusión de los investigadores es la siguiente:

Black y Wiliam (1998) encontraron que era la retroalimenta-ción […] la intervención que tenía impacto sobre el aprendi-zaje de los estudiantes. Hattie y Timperley (2007) encontra-ron además que la calidad de la retroalimentación impacta el grado en que ayuda a los estudiantes a mejorar. No debería sorprender, por tanto, que los estudiantes con mejores re-sultados en el estudio fueran los que tuvieron maestros que cerraban mejor el ciclo de la evaluación formativa […] el uso de información para ajustar la enseñanza […] fue insufi-cientemente implementado por muchos maestros del grupo experimental […] con base en la evidencia recogida duran-te el estudio de implementación sabemos que, en general, los maestros conseguían que los alumnos compartieran sus ideas, pero que no conseguían utilizar la información para ajustar su propia enseñanza. Obviamente recomendar que se ajuste la enseñanza y se actúe es más fácil que hacerlo (2010: 154).

En relación con lo anterior, conviene precisar que el uso de estudios basados en diseños experimentales rigurosos (que in-cluyan la asignación aleatoria de los sujetos a los grupos expe-rimental y de control) como soporte para llegar a conclusiones sobre el impacto de cierta intervención, se justifica plenamen-te en principio, pues sabemos que en ausencia de tal tipo de


125

diseño, es problemático llegar a conclusiones de tipo causal. Sin embargo, en la investigación educativa y social de-

ben cuidarse otros aspectos para que un estudio pueda arro-jar conclusiones sólidas. Es indispensable cuidar la “fidelidad de implementación” a la que han aludido los dos últimos trabajos utilizados en este documento, y cuyo descuido es, al parecer, una de las deficiencias que más influyen para que los resultados de los trabajos sobre el posible impacto de la evaluación formativa no sean concluyentes.

Como ha mostrado Raudenbush (2008), en el caso de la investigación sobre el efecto de ciertos fármacos sobre el organismo, es sencillo garantizar que todos los sujetos de un grupo experimental recibieron un tratamiento idéntico (por ejemplo cierta dosis del fármaco) y que ninguno de los suje-tos del grupo control lo recibió. En educación, en cambio, y aunque se haya dado cierta preparación a los participantes, es difícil asegurar, por ejemplo, que todos los maestros de un grupo experimental manejaron prácticas de evaluación for-mativa del mismo tipo y con idéntica calidad e intensidad, en tanto que ningún docente del grupo control utilizó prác-ticas que pudieran producir resultados análogos.

Un elemento más que se debe tener en cuenta al estu-diar el impacto de la evaluación formativa, tiene que ver con la dificultad que existe en cuanto a la aceptación de prácticas novedosas y que confrontan tradiciones posiblemente nega-tivas, pero muy arraigadas, como aquellas que tienen que ver con las formas tradicionales de evaluar, las cuales prevalecen desde hace muchos años en las aulas de nuestros sistemas educativos.

Al analizar la normatividad sobre las evaluaciones que deben hacer los profesores mexicanos, hemos visto que ésta ha cambiado muy poco desde hace casi medio siglo, pese a que en ese periodo estuvo muy presente la pedagogía constructivista, surgieron y proliferaron las pruebas a gran escala y se comenzó a hablar de evaluación formativa. No debe sorprender que mu-chos actores, incluyendo a maestros, pero también a alumnos y padres de familia, se sientan incómodos cuando se quiere introducir innovaciones como la que es objeto de este trabajo.

Otro trabajo empírico que se revisa en esta sección, tie-ne que ver justamente con esa resistencia en el contexto de


126

sistemas educativos en los que las nuevas formas de evalua-ción están mucho más extendidas que en México.

Smith y Gorard reportan los resultados de un estudio sobre las reacciones de algunos alumnos que participaban en un proyecto de evaluación formativa que, de acuerdo con una recomendación frecuente en estos casos, incluía dejar de entregar regularmente las calificaciones para desalentar la tendencia a trabajar en función de la nota, y comenzar a hacerlo en función del interés intrínseco por el aprendizaje.

Cuando se preguntaba a esos estudiantes cómo se sen-tían, las respuestas eran diversas, pero

[…] un número considerable de alumnos tenían opiniones bastante negativas, particularmente porque, en su opinión, el hecho de no recibir calificaciones no les permitía saber cómo orientar sus esfuerzos […] cuando se les pregunta-ba si los comentarios que recibían eran útiles, la mayoría opinaba que no les daban suficiente información para que pudieran saber cómo mejorar. Tampoco pensaban que el hecho de dar calificaciones estigmatizaría a los de bajo ren-dimiento […] el deseo de recibir calificaciones era tan fuerte que algunos admitían que intentaban calcularlas. Esto era particularmente marcado en materias como matemáticas y lengua, en relación con las cuales los chicos admitían que sumaban las palabras correctamente deletreadas (correct spellings) en las pruebas de vocabulario para calcular cuál sería la calificación que habrían recibido (Smith y Gorard, 2005: 31-33).

Un estudio de implementación de este último trabajo, que hacía que los alumnos echaran de menos sus calificacio-nes, probablemente diría que la forma en que se pusieron en práctica los principios de la evaluación formativa no fue adecuada, y es que, como se señaló en una cita de Ruiz Primo y colaboradores (2010), es más fácil recomendar que se ajuste la enseñanza y se actúe al respecto que hacerlo realmente.

La aplicación en el aula de los principios de la evalua-ción formativa no es sencilla, particularmente si se trata de habilidades cognitivas complejas y no de simples tareas me-morísticas, ya que para ello no basta que se modifiquen las


127

prácticas de evaluación, sino que debe cambiar todo el enfo-que de la enseñanza.

Por último, las conclusiones de un trabajo muy reciente coinciden con las que se desprenden de los textos previamen-te revisados. Kingston y Nash (2011) hicieron una amplia búsqueda de textos sobre evaluación formativa y evaluación para el aprendizaje a partir de 1988, incluyendo revistas (arbitradas o no), ponencias y tesis, en niveles educativos preuniversitarios.

eric permitió localizar 407 artículos y Google Scholar arrojó 17,300 referencias, pero la mayoría con deficiencias metodológicas tan serias que impidieron que se les conside-rara en el análisis. Las que reunieron los criterios necesarios para ser incluidas fueron sólo 13, en las que se encontraron 42 medidas del efecto del uso de la evaluación formativa (effect size). La mayor parte de estas medidas (23) se referían al efecto de programas de actualización de maestros en ser-vicio, siete al impacto de evaluaciones que formaban parte de los materiales curriculares, seis se referían a evaluaciones por computadora, tres al efecto de formas particulares de retroalimentación y tres a los aspectos de autoevaluación y coevaluación.

La mediana del efecto fue de 0.25, menor que la de 0.7 y hasta menor de 1.5, que es lo que se ha reportado en otros trabajos. El efecto varía de 0.09 a 0.32 dependiendo del área curricular y del tipo de intervención (Kingston y Nash, 2011: 32-35).

Como sugiere la parte final de su título (A Call for Re-search), el trabajo de Kingston y Nash termina con un llama-do a los interesados en el tema a realizar estudios con un buen diseño metodológico, para que puedan llegar a conclusiones más sólidas y superen las limitaciones de muchos trabajos previos. Las recomendaciones de este trabajo (v. gr. evitar centrar la atención en grupos extremos, no limitarse a ver si hay efecto, sino buscar determinar cuáles son los factores que influyen en que el efecto sea mayor o menor) se añaden a las que ya se han señalado en esta revisión, en particular el uso de diseños experimentales o cuasi-experimentales y el cuidado de la fidelidad de la implementación.


128

Perspectivas de la evaluación formativa

En las aulas de las escuelas primarias de México y otros paí-ses, se pueden distinguir tres tipos de prácticas de evaluación del aprendizaje de los alumnos: la vieja herencia de la ense-ñanza tradicional, inspirada en el catecismo; la influencia de las pruebas a gran escala, que se ha fortalecido debido a la pro-liferación de evaluaciones censales de alto impacto; y los es-fuerzos incipientes enfocados en las prácticas de orientación formativa, congruentes con la pedagogía constructivista.

Para los años venideros se pueden prever dos posibilida-des que dependerán de las ideas que prevalezcan respecto a las pruebas a gran escala, cuya proliferación se relaciona con la insatisfacción de muchas personas en diversos países en cuanto a los niveles de aprendizaje que alcanzan los alumnos.

Esta preocupación tiene fundamento, pero también se asocia con una visión simplista del problema, las causas de éste y la forma de valorarlo y corregirlo, todo lo cual se con-creta en cuatro puntos que caracterizan la primera de las dos posibilidades que se avizoran para el futuro:

• Diagnósticos descriptivos que detectan catástrofes al leer los resultados de las evaluaciones sin referentes adecuados para ponerlos en perspectiva.

• Diagnósticos explicativos que señalan culpables –sobre todo maestros– sin considerar factores de las escuelas y el contexto que influyen en la calidad.

• Medios para valorar la situación, los cuales se reducen a la aplicación de pruebas a gran escala, sin identificar sus alcances y límites ni distinguir si su propósito y diseño son apropiados para juzgar la calidad de maes-tros y escuelas.

• Recetas fáciles para remediar la situación, las cuales se limitan a estímulos y sanciones para escuelas y maestros, con base sólo en los resultados de sus alum-nos en las pruebas.

El peso de estas ideas en sectores influyentes de la so-ciedad, como los medios de comunicación o las agrupaciones empresariales, así como su amplia aceptación por parte de las


129

más altas autoridades educativas, se refleja en la mencionada proliferación de pruebas con las que se pretende valorar la cali-dad de las escuelas, aunque los instrumentos no hayan sido di-señados de manera apropiada para tal propósito, y en muchos casos adolezcan de deficiencias técnicas que ponen en tela de juicio su validez o su confiabilidad.

A partir de esto se producen dos reacciones: los maestros se ven impulsados a orientar su trabajo en función de los con-tenidos de las pruebas, ya que serán el medio privilegiado para valorar su trabajo; y entre los mismos maestros y los estudiosos de la educación se rechazan las pruebas de manera absoluta.

Las ideas mencionadas tienen parte de verdad pero tam-bién elementos erróneos. No estar totalmente de acuerdo con ellas no implica una postura complaciente. Se puede compar-tir la preocupación por la calidad de la educación, pero con base en una concepción más equilibrada del problema, que da lugar a la segunda posibilidad que se contempla para el futuro, y que se puede resumir como sigue:

• Diagnóstico descriptivo: el aprendizaje de los mexica-nos es inferior al de los alumnos de países más desa-rrollados y al deseable, pero es similar, y a veces mejor, que el de otros países comparables. Antes de calificarlo como catastrófico hay que tener en cuenta muchas cosas, en especial los cambios de un país que hace medio siglo atendía a la mitad de los niños en edad escolar y hoy atiende a casi toda la demanda con una población cuatro veces mayor.

• Diagnóstico explicativo: las causas son complejas y suficientemente conocidas (múltiples factores de la escuela y el entorno). Los resultados no deberían sor-prender a quien tenga una visión informada del con-texto nacional e internacional, y no se debería caer en la tentación de señalar culpables fáciles, sin que esto aplique dejar de tomar las medidas correctivas corres-pondientes.

• Medios para valorar la situación: la complejidad del tema implica que la evaluación de la calidad educa-tiva no puede reducirse a pruebas, aunque debe in-cluirlas con la condición de que sean de buena calidad


130

y se utilicen de manera parsimoniosa. Debe haber indicadores de otras dimensiones, estadísticas y acer-camientos cualitativos acordes a la naturaleza de los sujetos y los procesos educativos.

• Estrategias para mejorar: deberán ser complejas tam- bién. Los resultados sólo podrán observarse en el me-diano y largo plazo, como fruto de esfuerzos serios y sostenidos. Las estrategias deberán incluir la generali-zación del uso formativo de la evaluación por parte de los maestros, en el marco de enfoques del proceso de enseñanza-aprendizaje congruentes con las concepcio-nes actuales.

En la primera de las dos posibilidades consideradas, las pruebas se conciben como la herramienta fundamental para evaluar la calidad de la educación por encima de otros me-dios, en especial de las evaluaciones que hacen los maestros mismos, incapaces de hacer evaluaciones confiables.

En la otra posibilidad, las pruebas se ven como un me-dio, entre otros, que puede aportar elementos valiosos pero siempre incompletos e insuficientes y, por lo tanto, es nece-sario que sus resultados se complementen con otros elemen-tos, especialmente con los aportados por los maestros, cuyo papel se considera insustituible.

Las pruebas como sustitutos del trabajode los maestros

Los sistemas educativos necesitan buenos sistemas de eva-luación que ofrezcan diagnósticos precisos y confiables para fijar metas y diseñar estrategias para mejorar, pero hay que evitar reducir los sistemas de evaluación a la aplicación ma-siva de pruebas de rendimiento, incluso si son de buena ca-lidad técnica.

La extensión de las pruebas va acompañada, en muchas ocasiones, de usos inapropiados de los resultados, sobre todo difundiendo simples ordenamientos jerárquicos de escuelas (rankings) que supuestamente reflejan “objetivamente” la cali-dad que tienen; y es que con base en ello las autoridades ofre-cen estímulos a las escuelas con mejores resultados y los padres


131

de familia deciden a qué escuela enviarán a sus hijos, de manera que la competencia entre escuelas haría mejorar su calidad. Sin embargo, estas ideas ignoran que, al valorar la calidad de las escuelas con base únicamente en los resultados de las prue-bas estandarizadas, se comete un error grave que pone en duda la validez de las inferencias basadas en tales resultados.

Imaginemos dos escuelas: una selectiva, que admite sólo a los mejores aspirantes, lo que hace que buena parte de los mismos provenga de un medio favorecido; además es exi-gente, por lo que los alumnos de bajo rendimiento la aban-donan para ir a otra escuela o dedicarse a otras cosas. La otra escuela acepta a todos los solicitantes de nuevo ingreso sin proceso de selección, lo que hace que la mayoría provenga de un origen humilde; se esfuerza por mantener hasta el fin del trayecto a todos los aceptados y lo consigue en gran medida, aunque no todos alcancen plenamente los objetivos.

En una prueba estandarizada, los alumnos de la prime-ra escuela tendrán seguramente resultados superiores, en promedio, a los de la segunda. ¿Sería adecuado concluir, con base en estos resultados, que la primera escuela es mejor que la segunda?

Sin más datos no debería sacarse tal conclusión. Los resultados de la primera escuela pueden deberse al sustrato social de su alumnado, en parte gracias a sus políticas selecti-vas, y no a un funcionamiento ordenado o mejores prácticas de enseñanza. Los resultados inferiores de la segunda escue-la podrían ser tales aun cuando funcionara bien, gracias al trabajo valioso de los docentes, la alta participación de los padres y otras buenas prácticas que explicarían la retención de los estudiantes, aunque no se obtuvieran resultados altos.

Las “estrategias para mejorar” basadas en asignar estí-mulos económicos o establecer una competencia entre las escuelas con base en los resultados de pruebas, parten de una transferencia poco sustentada de los principios de la econo-mía, y no tienen en cuenta las peculiaridades de la oferta y la demanda educativas, que no siguen necesariamente la lógica del mercado económico. Dichas estrategias ignoran la difi-cultad que representa la desigualdad social para el propósito de lograr que los alumnos de todas las escuelas de un país consigan resultados similares; parten de un supuesto falso,


132

pues creen que hacer buena educación en cualquier contexto es fácil:

Los sistemas de rendición de cuentas basados en pruebas se [apoyan] en la creencia de que la educación pública puede mejorar gracias a una estrategia sencilla: haga que todos los alumnos presenten pruebas estandarizadas de rendimiento y asocie consecuencias fuertes a las pruebas en la forma de premios cuando los resultados suben y san-ciones cuando no ocurra así (Hamilton, Stecher y Klein, 2002: iii).

La asignación de estímulos económicos con base en los resultados, y los ordenamientos simples o rankings de escue-las, hacen que las pruebas se vuelvan “de alto impacto”, lo que propicia que se corrompan al aparecer prácticas negati-vas como preparar a los alumnos para la prueba, subordinar el currículo a la evaluación, o alterar resultados mediante es-trategias más abiertamente deshonestas.

El uso de los “modelos de valor agregado” es un avance que teóricamente corrige algunas limitaciones del uso de las pruebas para evaluar escuelas y maestros, pero los especia-listas coinciden en señalar que en la práctica e incluso en los sistemas educativos que cuentan con más elementos para ello, aún se está lejos de que tengan la precisión y confiabili-dad suficientes para basarse únicamente en ellas (Cfr. Golds-tein y Spiegelhalter, 1996; Goldstein, 1999; McCaffrey et al., 2003; Braun, 2005; Leckie y Goldstein, 2009; Martínez-Arias, 2009; Glazerman et al., 2010; Rothstein, 2011).

Las pruebas como apoyo al trabajo de los maestros

En otra perspectiva, las pruebas a gran escala se pueden ver como un medio útil para complementar el trabajo de los maes-tros, pero no como sustituto del mismo. Se parte de la idea de que el trabajo de un buen docente es insustituible, tanto para que los alumnos alcancen un alto nivel de competencia en los conocimientos y habilidades que necesitarán para una vida plena, como para valorar el grado en que tal cosa ocurre, o sea, para evaluar.


133

Valorar el grado en que un alumno tiene los conocimien-tos y habilidades previstos al final de un ciclo escolar, no es sencillo si se quiere cubrir de manera suficiente las diversas materias o áreas del currículo y los temas de cada área o ma-teria. La tarea se complica si lo que se quiere es conocer el avance del alumno –lo que es esencial para ofrecer retroa-limentación–, ya que la evaluación deberá hacerse desde el inicio del ciclo escolar y en varios momentos del mismo, de forma permanente.

Esto último es básico para que la evaluación no sólo de-tecte el resultado final de un proceso educativo (evaluación sumativa), sino para contribuir sobre todo a que el proceso de aprendizaje mejore en toda su extensión, que es a lo que alude la expresión “evaluación formativa”.

Si se trata de valorar el avance cotidiano de dos o tres decenas de alumnos, y se quiere tener información sobre las circunstancias personales, familiares y sociales de cada uno, con el fin de tenerla en cuenta en el momento de tomar de-cisiones importantes para el futuro de cada uno de ellos, la tarea evaluativa se antoja difícil.

Sin embargo, eso es lo que se espera de los maestros y es crucial para que el trabajo educativo tenga buenos resul-tados, ya que para retroalimentar su propio trabajo docente, así como el esfuerzo de sus alumnos, es fundamental que el maestro conozca con precisión el avance de cada uno de ellos. Es por eso que la calidad de un sistema educativo se basa en última instancia en el profesionalismo de sus maestros, que además de dominar los contenidos que enseña y los métodos pedagógicos necesarios para ello, deben también ser capaces de manejar técnicas de evaluación apropiadas para el trabajo en el aula, las cuales serán las que les proporcionen la infor-mación necesaria para retroalimentar su propio trabajo y el de sus alumnos.

La experiencia muestra que esto no es sencillo, pero sí posible: la evaluación que hace un buen maestro del avan-ce de sus alumnos tiene niveles de validez y confiabilidad suficientes para sustentar las decisiones educativas más de-licadas.

La pregunta es: ¿podrá evaluarse el aprendizaje indivi-dual con validez y fiabilidad comparables con pruebas de gran


134

escala? La respuesta es clara: con la finura que puede alcanzar la evaluación del maestro, NO, sin duda, al menos con las pruebas que hay en la actualidad, y tampoco con acercamien-tos a gran escala más avanzados. Las evaluaciones de apren-dizaje a gran escala pueden, en cambio, dar información de buena calidad sobre conjuntos grandes de alumnos en ciertas áreas del currículo, con intervalos de tiempo amplios.

Las evaluaciones a gran escala suelen utilizar pruebas estandarizadas compuestas por preguntas de opción múl-tiple. Con menor frecuencia se utilizan instrumentos con preguntas de respuesta construida, ejercicios con problemas o situaciones reales, así como evaluaciones orales y observa-ciones de las ejecuciones de los evaluados.

El uso de pruebas de opción múltiple no es accidental: su desarrollo es laborioso, pero pueden aplicarse a miles de sujetos en forma controlada, lo que se traduce en costos uni-tarios bajos. Aunque tengan limitaciones para evaluar nive-les cognitivos complejos, su viabilidad a gran escala es mayor que la de herramientas menos estructuradas, cuyo uso en forma confiable, aun con pocos cientos de alumnos (por no hablar de decenas o centenares de miles), no es posible.

Conclusión

Las posturas simplistas sobre la evaluación a gran escala igno-ran la complejidad del tema y sobrestiman las posibilidades de los instrumentos usuales; pierden de vista que el maestro y los padres son piezas clave para la mejora educativa. Por ello se considera que la postura adecuada es la que concibe el papel de las pruebas a gran escala como complemento del trabajo de los maestros y no como sustituto del mismo. Así y sólo así la evaluación contribuirá efectivamente al mejora-miento de las escuelas.

Como se ha visto ya, una de las motivaciones que im-pulsaba a los pioneros de las pruebas a gran escala a princi-pios del siglo xx, era precisamente su conciencia respecto a la escandalosa falta de confiabilidad de las evaluaciones que solían hacer los maestros. Cien años más tarde, deficiencias similares siguen presentes en las aulas, por lo que es com-


135

prensible la tentación de utilizar evaluaciones estandarizadas que sustituyan el trabajo de los maestros, pero un análisis detallado de la cuestión muestra que esa aparente solución presenta a su vez problemas insuperables.

No hay solución sencilla ni mucho menos panacea mági-ca alguna que resuelva el serio problema de la calidad educa-tiva. Solamente lo conseguirá un arduo trabajo para mejorar profundamente el nivel profesional del magisterio. Ese traba-jo tendrá que incluir lo referente a la capacidad para manejar evaluaciones formativas ricas, que no se limiten a repetir en voz más alta y más despacio las explicaciones que no com-prendieron los alumnos.

Sin embargo, modificar profundamente las prácticas de los maestros no es cosa fácil, tal como muestran los escasos resultados de los programas de actualización que anualmen-te involucran a cientos de miles de maestros de educación básica en un sistema tan grande como el mexicano.

Reflexionar sobre las razones que explican esa dificultad y sobre la forma de conseguir los cambios necesarios será el objeto del siguiente capítulo.


136

Referencias

Abrams, L. (2007). Implications of high-stakes testing for the use of formative classroom assessment (43-62). En Mc-Millan, J. (Ed.), Formative Classroom Assessment: Theory into Practice. Nueva York: Teachers College Press.

Allal, L. y Mottier-López, L. (2005). Formative assessment of learning: a review of publications in french (241-264). En Centre for Educational Research and Innovation, Formative assessment. Improving learning in secondary clas-srooms. París: oecd.

Allal, L. (1983). Évaluation formative: entre l’intuition et l’instrumentation. Mesure et évaluation en éducation, 6(5), 37-57.

Allal, L., Cardinet, J. y Perrenoud, P. (1979). L‘évaluation for-mative dans un enseignement dfférencié. Berna: Lang.

Andrade, H. (2010). Summing up and moving forward: key challenges and future directions for research and develo-pment in formative assessment (344-351). En Andrade, H. y Cizek, G. (Eds.), Handbook of Formative Assessment. Nueva York: Routledge.

Andrade, H. y Cizek, G. (Eds.) (2010). Handbook of Formative Assessment. Nueva York: Routledge.

Anijovich, R. (2010). La evaluación significativa. Buenos Ai-res: Paidós.

Bain, D. (1988). L’évaluation formative fait fausse route. Me-sure et évaluation en éducation, 10(4), 23-32.

Bangert-Drowns, R., Kulik, J., kulik, C. y Morgan, M. (1991a). The instructional effect of feedback on test-like events. Review of Educational Research, 61(2), 213-238.

Bangert-Drowns, R., Kulik, J. y kulik, C. (1991b). Effects of frequent classroom testing. Journal of Educational Re-search, 85, 89-99.

Bethell, G. (2010). Student assessment: policy and practice in eastern Europe (472-478). En Peterson, P., Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Amsterdam: Elsevier-Academic Press.

Black, P. (1993). Formative and summative assessment by teachers. Studies in Science Education, 21, 49-97.


137

Black, P. y Wiliam, D. (2009). Developing a theory of forma-tive assessment. Educational Assessment. Evaluation and Accountability, 21(1), 5-31.

Black, P. y Wiliam, D. (2005). Changing teaching through formative assessment: research and practice (223-240). En Centre for Educational Research and Innovation, Formative assessment. Improving learning in secondary clas-srooms. París: oecd.

Black, P. y Wiliam, D. (2004). The formative purpose: as-sessment must first promote learning (20-50). En Wilson, M. (Ed.), Towards coherence between classroom assessment and accountability. Chicago: University of Chicago Press.

Black, P. y Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education, 5, 7-74.

Bloom, B. (1984a). The search for methods of group instruc-tion as effective as one-to-one tutoring. Educational Lea-dership, 41(8), 4-17.

Bloom, B. (1984b). The 2-sigma problem: the search for methods of group instruction as effective as one-to-one tutoring. Educational Researcher, 13(6), 4-16.

Bloom, B. (1968). Learning for Mastery. Evaluation Comment, 1(2).

Bloom, B., Hastings, J. y Madaus, G. (1971). Handbook on Formative and Summative Evaluation of Student Learning. Nueva York: McGraw-Hill.

Bonilla, M. y López, A. (2005). ¿Las concepciones de eva-luación de los docentes están relacionadas con episte-mología y aprendizaje? Ponencia presentada en el VIII Congreso Nacional de Investigación Educativa, México.

Braun, H. (2005). Using Student Progress to Evaluate Teachers: A Primer on Value-Added Models. Princeton: ets.

Brookhart, S. (2009). Editorial. Educational Measurement: Is-sues and Practice, 28(1), 1 y 2.

Brookhart, S. (2007). Expanding views about formative classroom assessment: a review of the literature (43-62). En McMillan, J. (Ed.), Formative Classroom Assessment: Theory into Practice. Nueva York: Teachers College Press.

Brookhart, S. (2005). Research on Formative Classroom As-sessment: State-of-the-Art. Ponencia presentada en la Con-ferencia Anual de la aera, Montreal, Canadá.


138

Brookhart, S. (1997). A theoretical framework for the role of classroom assessment in motivating student effort and achievement. Applied Measurement in Education, 10, 161-180.

Buchanan, T. (2000). The efficacy of a World Wide Web me-diated formative assessment. Journal of Computer Assis-ted Learning, 16, 193-200.

Cámara, G. (1981). Documento base. Evaluación de la cober-tura y calidad de la educación (315-343). En Documentos Base. Congreso Nacional de Investigación Educativa. Volu-men II. México: Autor.

Cardinet, J. (1983). Quelques directions de progrès possibles pour l’appréciation du travail des élèves. Mesure et éva-luation en éducation, 6(5), 5-35.

Carless, D. (2010). Classroom assessment in policy context (Hong Kong) (438-442). En Peterson, P., Baker, E. y Mc-Gaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Amsterdam: Elsevier-Academic Press.

Carrión-Carranza, C. Bellido, M., Cabello, V., Machuga, V., Orozco, B. y Ruiz, E. (1993). La investigación educativa en los ochenta, perspectiva para los noventa. México: comie y snte.

Carrión-Carranza, C. Bellido, M., Cabello, V., Machuga, V., Orozco, B. y Ruiz, E. (1995). Evaluación de la educación (293-369). En Díaz-Barriga, A. (Coord.), Procesos curri-culares, institucionales y organizacionales. México: comie.

Cazabon, B. (1991). L’évaluation formative de la communi-cation: l’intégration des composantes. Mesure et évalua-tion en éducation, 14(3), 5-21.

Centre for Educational Research and Innovation. (2005). Formative Assessment. Improving Learning in Secondary Classrooms. París: oecd.

Cizek, G. y Andrade, H. (2010). Handbook of Formative As-sessment. Nueva York: Routledge.

Crooks, T. (2010). Classroom assessment in policy context (New Zeland) (443-448). En Peterson, P., Baker, E. y Mc-Gaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Amsterdam: Elsevier-Academic Press.

Crooks, T. (1988). The impact of classroom evaluation practices on students. Review of Educational Research, 58, 438-481.


139

Cruz, I., Crispín, M. y Ávila, H. (1999). La evaluación for-mativa: estrategia para promover el cambio y mejorar la docencia. Ponencia presentada en el V Congreso Nacio-nal de Investigación Educativa, México.

Cumming, J. (2010). Classroom assessment in policy con-text (Australia) (417-424). En Peterson, P., Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Amsterdam: Elsevier-Academic Press.

Dassa, C. (1988). L’intégration du diagnostique pédagogique aux apprentissages scolaires: de la théorie a la voie infor-matique. Mesure et évaluation en éducation, 11(1), 7-26.

Dassa, C. y Vazquez-Abad, J. (1992). De l’évaluation infor-matisée a l’intervention pédagogique. Mesure et évalua-tion en éducation, 15(3), 17-24.

Davies, A. (2007). Involving students in the classroom as-sessment process (31-57). En Reeves, D. (Ed.), Ahead of the Curve. The Power of Assessment to Transform Teaching and Learning. Bloomington: Solution Tree Press.

Díaz-Barriga, A. (2010). Reforma integral de la educación básica 2009. Diplomado para docentes de primaria. Módulo 3: eva-luación para el aprendizaje en el aula. México: sep.

Dunn, K. y Mulvenon, S. (2009). A critical review of research on formative assessment: the limited scientific eviden-ce of the impact of formative assessment in education. Practical Assessment Research and Evaluation, 14(7), 1-11.

Estévez, E. y De Gunther, L. (2003). Parte II. Cognición y educación 1991-2001 (87-187). En Sánchez, P. (Coord.), Aprendizaje y desarrollo. México: comie-sep-cesu.

Fernández-Lomelín, A. (1999). La evaluación como estrategia metacognitiva para el aprendizaje. Ponencia presentada en el V Congreso Nacional de Investigación Educativa, México.

Gadbois, L. (1991). Un instrument de mesure des croyan-ces et attitudes des enseignants à I’ égard des pratiques d’évaluation formative des apprentissages de leurs élèves. Mesure et évaluation en éducation, 14(2), 5-24.

Gagne, F. y Thouin, M. (1991). L’évaluation formative des apprentissages en orthographe et attitude des élèves á l’égard de I’ évaluation. Mesure et évaluation en éducation, 14(1), 5-15.


140

Glazerman, S., Goldhaber, D., Loeb, S., Raudenbush, S. y Staiger, D. (2010). Evaluating Teachers: The Important Role of Value Added. Washington: Brown Center on Educa-tion Policy at Brookings.

Goldstein, H. (1999). Rank injustice. Parliamentary Brief Edu-cation Supplement, marzo, 13-14.

Goldstein, H. y Spiegelhalter, D. (1996). League tables and their limitations: statistical issues in comparisons of institutional performance. Journal of the Royal Statistical Society, 159(3), 385-443.

Guskey, T. (2010). Formative assessment: the contributions of B. Bloom (106-124). En Andrade, H. y Cizek, G. (Eds.), Handbook of Formative Assessment. Nueva York: Routledge.

Guskey, T. (2007). Formative classroom assessment and Ben-jamin S. Bloom: theory, research and practice (63-78). En McMillan, J. H. (Ed.), Formative Classroom Assessment: Theory into Practice. Nueva York: Teachers College Press.

Guzmán, J., Valenzuela, G., Larrauni, R. y López, J. (2003). La evaluación curricular en la década de los noventa (207-257). En Díaz-Barriga, A. (Coord.), La investigación curricular en México. La década de los noventa. México: comie-sep-cesu.

Hamilton, L., Stecher, B. y Klein, P. (2002). Making Sense of Test-Based Accountability in Education. Santa Mónica: Rand.

Hattie, J. (1992). Measuring the effects of schooling. Austra-lian Journal of Education, 36(1), 5-13.

Hattie, J. y Timperley, H. (2007). The power of feedback. Review of Education Research, 77(1), 81-112.

Henly, D. (2003). Use of Web-based formative assessment to support student learning in a metabolism/nutrition unit. European Journal of Dental Education, 7, 116-122.

Howie, S., Zimmerman, L. y Draper, K. (2010). Classroom assessment in policy context (sub-saharan Africa) (449-456). En Peterson, P., Baker, E. y McGaw, B. (Eds.), Inter-national Encyclopedia of Education (3a ed.). Ámsterdam: Elsevier-Academic Press.

Huberman, M., Juge, P. y Hari, P. (1985). La pédagogie de maitrise: une évaluation instructive au niveau gymna-sial. Mesure et évaluation en éducation, 8(3), 43-81.


141

Kingston, N. y Nash, B. (2011). Formative assessment: a meta-analysis and a call for research. Educational Mea-surement: Issues and Practice, 30(4), 28-37.

Kluger, A. y Denisi, A. (1996). The effects of feedback in-terventions on performance: a historical review, a me-ta-analysis, and a preliminary feedback intervention theory. Psychological Bulletin, 119, 254-284.

Kulik, C., Kulik, J. y Bangert-Drowns, R. (1990). Effective-ness of mastery learning programs: a meta-analysis. Re-view of Educational Research, 60(2), 265-299.

Laveault, D. (2010). Classroom assessment policy context (french sources) (432-437). En Peterson, P., Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Ámsterdam: Elsevier-Academic Press.

Leckie, G. y Goldstein, H. (2009). The limitations of using school league tables to inform school choice. Journal of the Royal Statistical Society, 172, 835-851.

López, Á. (2003). Sistemas de análisis categorial para las con-cepciones de aprendizaje y evaluación. Ponencia pre-sentada en el VII Congreso Nacional de Investigación Educativa, México.

Marshall, B. (2010). Formative assessment and instructional planning (365-368). En Peterson, P., Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Amsterdam: Elsevier-Academic Press.

Martínez, R. (2009). Uso, aplicaciones y problemas de los modelos de valor añadido en educación. Revista de edu-cación, (348), 217-250.

Martínez-Rodríguez, F. et al. (1993). Evaluación del apren-dizaje. Cuaderno 8. Estados del conocimiento. En La investigación educativa en los ochenta, perspectiva para los noventa. México: comie y snte.

Martínez-Rodríguez, F. et al. (1995). Evaluación del apren-dizaje (195-260). En Rueda, M. (Coord.), Procesos de enseñanza y aprendizaje I. México: comie y Universidad Veracruzana.

Marzano, R. (2007). Designing a comprehensive approach to classroom assessment (103-125). En Reeves, D. (Ed.), Ahead of the Curve. The Power of Assessment to Transform Teaching and Learning. Bloomington: Solution Tree Press.


142

McCaffrey, D., Lockwood, J., Koretz, D. y Hamilton, L. (2003). Evaluating Value-Added Models for Teacher Accoun-tability. Santa Mónica: Rand Co.

McMillan, J. (2010). The practical implications of educatio-nal aims and contexts for formative assessment (41-58). En Andrade, H. y Cizek, G. (Eds.), Handbook of Formative Assessment. Nueva York: Routledge.

McMillan, J. (Ed.) (2007). Formative Classroom Assessment: Theory into Practice. Nueva York: Teachers College Press.

McMillan, J. (2007). Formative classroom assessment: the key to improving student achievement (1-7). En McMillan, J. (Ed.). Formative Classroom Assessment: Theory into Practice. Nueva York: Teachers College Press.

Meisels, S., Atkins-Brunett, S., Xue, Y., Wicholson, J., Bickel, D. y Son, S. (2003). Creating a system of accountabili-ty: the impact of instructional assessment on elemen-tary children’s achievement test scores. Educational Policy Analysis Archives, 11(9).

Montreal-Reyes, J. (2003). Formas en que los alumnos de 6° de educación primaria perciben las prácticas evaluativas de sus maestros. Ponencia presentada en el VII Congre-so Nacional de Investigación Educativa, México.

Mottier-López, L. (2010). Evaluación formativa de los aprendi-zajes. Síntesis crítica de los trabajos francófonos (43-71). En Anijovich, R. (Ed.), La evaluación significativa. Buenos Aires: Paidós.

Natriello, G. (1987). The impact of evaluation processes on students. Educational Psychologist, 22, 155-175.

Perrenoud, P. (1998). From formative evaluation to contro-lled regulation of learning processes. Towards a wider conceptual field. Assessment in Education: Principles, Poli-cy & Practice, 5(1), 85-102.

Perrenoud, P. (1991). Pour une approche pragmatique de l’évaluation formative. Mesure et évaluation en éducation, 13(4), 49-81.

Peterson, P., Baker, E. y McGaw, B. (Eds.) (2010). International Encyclopedia of Education (3a ed.). Nueva York: Elsevier-Academic Press.

Popham, W. (2008). Transformative Assessment. Alejandría: As-sociation for Supervision and Curriculum Development.


143

Poulin, B. (1978). Historique de l’association. Mesure et éva-luation en éducation, 1(1), 4-5.

Raudenbush, S. (2008). Advancing educational policy by ad-vancing research on instruction. American Educational Research Journal, 45(1), 206-230.

Reeves, D. (2007). Ahead of the Curve. The Power of Assessment to Transform Teaching and Learning. Bloomington: Solu-tion Tree Press.

Resnick, L., William, D., Apodaca, R. y Rangel, E. (2010). The relationship between assessment and the organi-zation and practice of teaching (397-402). En Peterson, P., Baker, E. y McGaw, B. (Eds.), International Encyclope-dia of Education (3a ed.). Nueva York: Elsevier-Academic Press.

Richard, J., Godbout, P. y Picard, Y. (2000). La validation d’une procédure d’évaluation formative en jeux et sports co-llectifs. Mesure et évaluation en éducation, 23(1), 43-67.

Rodríguez, M. (2004). The role of classroom assessment in pupil performance in timss. Applied Measurement in Edu-cation, 17(1), 1-24.

Rothstein, J. (2011). Review of “Learning About Teaching: Initial Findings from the Measures of Effective Teaching Project”. Boulder: National Education Policy Center.

Ruiz-Primo, M., Furtak, E., Ayala, C., Yin, C. y Shavelson, R. (2010). Formative assessment, motivation and science learning (139-158). En Andrade, H. y Cizek, G. (Eds.), Handbook of Formative Assessment. Nueva York: Routledge.

Ruiz-Primo, M. y Furtak, E. (2006). Informal formative as-sessment and scientific inquiry: exploring teachers’ practices and student learning. Educational Assessment, 11(3-4), 205-235.

Russell, M. (2010). Technology-aided formative assessment of learning: new developments and applications (125-138). En Andrade, H. y Cizek, G. (Eds.). Handbook of Formative Assessment. Nueva York: Routledge.

Sadler, D. (1998). Formative assessment: revisiting the terri-tory. Assessment in Education: Principles, Policy & Practice, 5(1), 77-84.

Sadler, D. (1989). Formative assessment and the design of instructional systems. Instructional Science, 18, 119-144.


144

Scallon, G. (1985). La participation des élèves au diagnostic pédagogique: exploration avec des élèves de 4e secondai-re en mathématiques. Mesure et évaluation en éducation, 8(1-2), 5-44.

Scallon, G. (1989). Plaidoyer pour une méthodologie instru-mentée d’évaluation formative. Mesure et évaluation en éducation, 11(1), 43-55.

Scheneider, M. y Randel, B. (2010). Research on characte-ristics of effective professional development programs for enhancing educators’ skills in formative assessment (251-276). En Andrade, H. y Cizek, G. (Eds.), Handbook of Formative Assessment. Nueva York: Routledge.

Scriven, M. (1967). The methodology of evaluation (39-83). En R. Tyler, R. Gagne y M. Scriven (Eds.), Perspectives of Curriculum Evaluation. Chicago: Rand McNally.

Shepard, L. (2006). Classroom assessment (623-646). En Bren-nan, R. (Ed.), Educational Measurement. Westport: Praeger.

Sly, L. (1999). Practice tests as formative assessment impro-ve student performance on computer managed learning assessments. Assessment and Evaluation in Higher Educa-tion, 24(3), 339-343.

Smith, E, y Gorard, S. (2005). “They dont’t give us our marks”: the role of formative feedback in student pro-gress. Assesment in Education: Principles, Policy & Practice, 12(1), 21-38.

Stiggins, R. (2008). Assessment Manifesto: A Call for the Deve-lopment of Balanced Assessment Systems. Portland: ets-ati.

Stiggins, R. (2007). Conquering the formative assessment frontier (8-27). En McMillan, J. (Ed.), Formative Classroom Assessment: Theory into Practice. Nueva York: Teachers Co-llege Press.

Stiggins, R. (2001). Unfulfilled promise of classroom as-sessment. Educational Measurement: Issues & Practice, 20(3), 5-15.

Stiggins, R. y Arter, J. (2002). Assessment for learning, inter-national perspectives. The proceedings of an internatio-nal conference (International Conference on Assessment for Learning, Chester, 2001). Ponencia presentada en la Annual Meeting of the National Council on Educational Measurement, Nueva Orleans, Estados Unidos.


145

Stobart, G. (2005). Lost in translation: moving from prin-ciples to policy to practice formative assessment. As-sessment in Education, 12(1), 3-5.

Thompson, M., Paek, P., Ponte, E. y Goe, L. (2004). Study of the California Formative Assessment and Support System for Teachers: Relationship of btsa/cfasst and Student Achieve-ment. Princeton: Educational Testing Service.

Thouin, M. (1993). L’évaluation des apprentissages en mathé-matiques: une perspective constructiviste. Mesure et éva-luation en éducation, 16(1-2), 47-64.

Thouin, M. (1995). Le développement d’instruments de me-sure des apprentissages en sciences de la nature au pri-maire. Mesure et évaluation en éducation, 18(1), 95-124.

Third International Conference on Assessment for Learning. (2009). Position paper on assessment for learning. Edu-cational Measurement: Issues and Practice, 23(3), 1-4.

Topping, K. (2010). Peers as a source of formative assessment (61-74). En Andrade, H. y Cizek, G. (Eds.). Handbook of Formative Assessment. Nueva York: Routledge.

Torrance, H. y Pryor, J. (1995). Investigating teaching as-sessment in infant classrooms: methodological pro-blems and emerging issues. Assessment in Education, 2(3), 305-320.

Vachon, J. (1978). Staneuf standardisés et staneufs normali-sés. Mesure et évaluation en éducation, 1(1), 19-24.

Van Nieuwenhoven, C. y Jonnaert, P. (1994). Une approche des représentations des enseignants du primaire propos de l’évaluation. Mesure el évaluation en éducation, 16(3-4), 41-79.

Velan, G., Kumar, R. Dziegielewski, M. y Wakefield, D. (2002). Web-based self-assessments in pathology with question mark perception. Pathology, 34, 282-284.

Vidales-Delgado, I. y Elizondo-Garza, D. (2005). Prácticas de evaluación escolar en el nivel de educación primaria en el es-tado de Nuevo León. México: Santillana.

Walberg, H. (1984). Improving the productivity of America’s schools. Educational Leadership, 41(8), 19-27.

Wang, T. (2007). What strategies are effective for formati-ve assessment in an e-learning environment? Journal of Computer Assisted Learning, 23, 171-186.


146

Weiss, J. (1984). Heurs et malheurs d’un instrument d’évaluation. Mesure et évaluation en éducation, 7(1), 31-42.

Wiliam, D. (2010). An integrative summary of the research literature and implications for a new theory of forma-tive assessment (18-40). En Andrade, H. y Cizek, G. (Eds.), Handbook of Formative Assessment. Nueva York: Routledge.

Wiliam, D., Lee, C., Harrison, C. y Black, P. (2004). Teachers developing assessment for learning: impact on student achievement. Assessment in Education, 11, 49-65.

Wilson, M. (2004). Towards Coherence between Classroom As-sessment and Accountability. Chicago: University of Chi-cago Press.

Wilson, S. (2004). Student assessment as an opportunity to learn in and from one’s teaching practice (264-271). En Wilson, M. (Ed), Towards Coherence between Classroom As-sessment and Accountability. Chicago: University of Chi-cago Press.

Wininger, R. (2005). Using your tests to teach: formative sum-mative assessment. Teaching Psychology, 32(2), 164-166.

Zorrilla-Fierro, M. (2003). Parte I. Educación básica (23-115). En Zorrilla-Fierro, M. y Villa-Lever, L. (Coords.), Políti-cas educativas. Educación básica. Educación media superior. La Investigación Educativa en México 1992-2002, Volumen 9. México: comie-sep-cesu.

Capítulo tercero

Implicacionesde la implementación

Introducción

En los dos primeros capítulos de la presente obra se ha re-visado la forma en que evolucionó la evaluación del apren-dizaje que realizan los maestros en las aulas de educación básica. El primer capítulo cubrió la larga etapa del siglo xvi hasta nuestros días, abarcando desde las formas derivadas del catecismo, hasta las evaluaciones marcadas por las prue-bas estandarizadas. El segundo capítulo abordó los distintos enfoques de la evaluación formativa desde que Scriven acuñó el término en 1967 hasta las versiones más recientes en el marco de las concepciones constructivistas de la educación.

Este tercer capítulo retoma la idea del potencial que po-see la evaluación formativa para mejorar el aprendizaje y al mismo tiempo la dificultad que existe para implementarla adecuadamente según muestran los trabajos empíricos reali-zados al respecto. Después de plantear la cuestión, se hace un esfuerzo para entender las razones por las que es difícil trans-formar profundamente las prácticas de los maestros, a partir de un análisis de los factores que influyen en el trabajo de los mismos, cuyo número y variedad explican en parte la dificul-tad mencionada; luego se revisan esfuerzos de intervención


150

orientados precisamente a las prácticas de los maestros, ana-lizando los rasgos que explican su mayor o menor impacto.

Se concluye que cambiar las prácticas de los maestros no es fácil porque influyen en ellas muchos factores profunda-mente arraigados que en buena parte están fuera del control del maestro. Por ello, intervenciones cortas y superficiales no bastan para conseguir cambios importantes: se necesitan trabajos largos y profundos con acompañamiento, comuni-dades de aprendizaje y apoyo institucional.

Una conclusión más es que, en su sentido más rico, las nociones de evaluación formativa y enseñanza constructi-vista coinciden. Por ello no se podrá cambiar la primera si no se modifica simultáneamente la segunda, lo que impli-ca cambiar al mismo tiempo concepciones y prácticas muy arraigadas. El lado positivo de esta conclusión es que si se consigue que un maestro enseñe en forma congruente con los principios constructivistas no tendrá dificultad para eva-luar formativamente. Y si se logra transformar las dos cosas, el cambio educativo será profundo y sus repercusiones en el aprendizaje saltarán a la vista.

Potencial de la evaluación formativa y dificultad de su implementación

Del capítulo anterior se desprende la conclusión de que la eva-luación que se hace en aulas y escuelas respecto a los avances de los alumnos para alcanzar buenos niveles de competencia, es un componente importante de la enseñanza-aprendizaje. Y sin caer en interpretaciones excesivamente optimistas que ignoren las limitaciones de la evidencia disponible, se puede concluir también que si dicha evaluación adopta el enfoque designado con expresiones como evaluación formativa, evaluación para el aprendizaje y similares, su impacto puede ser más positivo que con los enfoques tradicionales.

La literatura revisada muestra que la idea anterior es ampliamente compartida, y que es congruente con las con-cepciones psicológicas y pedagógicas actuales, marcadas por los avances de las ciencias cognoscitivas; también muestra, sin embargo, que no es sencillo modificar realmente las prác-

ImplIcacIones para la ImplementacIón

151

ticas profundamente arraigadas, ya sea que estén basadas en concepciones científicas anteriores, como las teorías conduc-tistas y neo-conductistas, o que simplemente sigan formas tradicionales de enseñar y verificar si los alumnos aprendie-ron lo enseñado.

La persistencia de las prácticas tradicionales de evalua-ción en el aula no debe sorprender, si se considera que los esfuerzos por transformarlas no han sido especialmente im-portantes ni sistemáticos. La atención y los recursos se han concentrado más bien en las evaluaciones a gran escala, a las que se dedican cantidades crecientes de recursos, mientras que las evaluaciones que más influyen en el desempeño de los alumnos, se descuidan casi por completo. Esto es así en cuan-to a la experiencia del sistema educativo mexicano y de otros en los que se podría esperar mayor avance en este terreno, al menos según la opinión de Rick Stiggins, quien considera que:

El principal desafío que enfrentamos actualmente en las escuelas en lo relativo a evaluación es asegurar que las prác-ticas sanas lleguen a cada aula, que las evaluaciones se usen para beneficiar a los alumnos […] Este reto ha permanecido sin ser atendido por décadas y parece que ha llegado el tiem-po de conquistar esa última frontera de la evaluación: el uso efectivo de evaluación formativa para apoyar el aprendizaje (2007: 10).

La formación inicial que recibieron los maestros que tra-bajan en las escuelas mexicanas fue particularmente débil en lo que se refiere a evaluación, y las actividades de actualiza-ción profesional que se ofrecen a los docentes en servicio han descuidado también este aspecto, que sólo comienza a ser atendido de forma limitada en épocas muy recientes.

Para entender por qué no bastan unas horas de actuali-zación para transformar las prácticas docentes, hay que te-ner en cuenta el grado de arraigo de conductas que se han repetido una y otra vez durante mucho tiempo. Al respecto, debemos a Dylan Wiliam la siguiente reflexión:

Un maestro o maestra con 20 años de experiencia debe ha-ber formulado alrededor de medio millón de preguntas a


152

lo largo de su carrera. Cuando uno ha hecho […] medio millón de veces [cierta actividad,] es muy difícil hacerlo de otra forma (2007: 196).

Modificar prácticas de enseñanza y evaluación en aula no significa modificar conductas que se llevan a cabo de vez en cuando, con tiempo suficiente para pensar con calma la manera de actuar en cada caso; se trata más bien de transfor-mar conductas que se repiten muchas veces al día, debiendo reaccionar en segundos a lo que se observa en el grupo y en cuanto a cierto alumno. Esto es mucho más complicado que cambiar solamente las ideas que se tienen sobre el tema:

Las aulas son lugares ruidosos. Los maestros deben tomar decisiones rápidamente, con poco tiempo para reflexionar, y su atención es atraída en múltiples direcciones, por to-dos y cada uno de los alumnos, por el director y los demás maestros, por las políticas y mandatos locales y estatales (Wilson, 2004: 265).

La obra ya citada de la ocde habla sobre las barreras que obstaculizan el cambio en las prácticas de evaluación de los maestros. Señala que, además de problemas logísticos (por ejemplo grupos muy numerosos), los docentes encuentran di-fícil modificar sus prácticas porque implica cambiar muchas cosas, incluyendo la forma de interactuar con los alumnos, la manera de planear sus clases, la atención a las diferencias de los alumnos y hasta la manera de concebir el éxito de éstos (Cfr. Centre for Educational Research and Innovation, 2005: 71).

En la siguiente cita del ceri se destaca otro obstáculo relacionado con la expansión de la evaluación formativa:

[…] la tensión entre la evaluación del aprendizaje de enfo-que formativo que se hace en el aula y la visibilidad de las pruebas sumativas, las evaluaciones nacionales o regionales en gran escala que buscan responsabilizar a las escuelas por alcanzar ciertos estándares y pueden tener consecuencias para las de bajo rendimiento. Con demasiada frecuencia estas pruebas de gran visibilidad determinan lo que sucede en las aulas […] y con demasiada


153

frecuencia la información que se obtiene en el aula se consi-dera irrelevante para la definición de políticas […] Muchos maestros, si es que no todos, perciben esas evaluaciones ex-ternas como algo que está en conflicto o incluso se opone a las prácticas de evaluación formativa. Pruebas externas de baja calidad, ordenamientos de escuelas (league tables) difundidos en los medios que usan un reducido conjunto de datos para comparar el desempeño de las escuelas, y la des-conexión entre pruebas y currículo también pueden inhibir la innovación (2005: 24).

En otra reflexión sobre las dificultades que se enfrentan para extender las prácticas de evaluación formativa, Sutton señala que “cambiar las rutinas básicas del aula mostró ser mucho más difícil de lo que los maestros esperaban” (2010: 355), al grado de que se preguntaban si la idea podría funcio-nar. Los directores también comprendieron que se trataba de “un juego de largo plazo que requiere objetivos claros, pa-sos pequeños, retroalimentación, práctica y perseverancia” (2010: 355).

El mismo autor señala que “algunos maestros simple-mente se sentían espantados por las implicaciones que ten-dría para su carga de trabajo dar retroalimentación de buena calidad a todos sus alumnos” (2010: 355), y que otros veían que sería inevitable verse abrumados por las demandas de otros actores, como la exigencia de calificaciones por los pa-dres de familia y la competencia entre los alumnos por las calificaciones para acceder a la universidad. Todo eso lleva a los maestros a decir: “Tenemos las manos atadas. Adoptar prácticas de evaluación formativa, por muy deseable que sea, es imposible en términos pragmáticos” (Sutton, 2010: 356).

De modo similar, según Harlen, el Assessment Reform Group (Grupo para la Reforma de la Evaluación) sistematiza de la siguiente manera los principales obstáculos que deben enfrentarse:

• Las prácticas prevalecientes que prestan más atención a la calificación y asignación de los alumnos a partir de sus niveles de desempeño que a retroalimentarlos sobre la forma de mejorar.


154

• La falta de conciencia que prevalece entre los maes-tros respecto a las necesidades de aprendizaje de los alumnos.

• El alto impacto de los resultados de las pruebas nacio-nales y estatales, que animan a los maestros a centrar la atención en el contenido de las pruebas y en prepa-rar a los alumnos para ellas (Harlen, 2007: 131).

Harlen cita a Fullan cuando dice que cambiar a los maes-tros es difícil, en especial cuando se trata de transformacio-nes tan profundas como las que implica la adopción de un enfoque formativo para la evaluación, y retoma de Black la ex-plicación de que modificar así las prácticas puede tener como consecuencia que un maestro que tiene confianza en sí mismo se sienta incompetente, lo que resulta amenazador. Sin em-bargo, después de trabajar durante bastante tiempo con maes-tros que cambiaron sus creencias y sus prácticas, Black pudo observar que tanto maestros como alumnos experimentaban alegría y confianza a medida que los primeros transferían a los segundos el control sobre su propio aprendizaje (Harlen, 2007: 132).

Por otro lado, Tierney resume la problemática del cam-bio en cuestión, afirmando que:

Cambiar las prácticas de evaluación no es simplemente cuestión de aumentar los conocimientos de los docentes sobre el tema por medio de talleres de actualización, sino un proceso mucho más amplio que exige una transfor-mación conceptual por parte de todos los involucrados (2006: 259).

Algunos autores señalan que, como el nivel de conoci-miento que tienen en general los maestros sobre temas de evaluación es limitado, para que sus prácticas de evaluación cambien hay que ofrecerles capacitación, para que adquieran elementos sobre los nuevos acercamientos al tema.

Apoyados en trabajos de varios estudiosos, Green, Smith y Brown señalan que para documentar fielmente el avance de los alumnos es necesario un sofisticado conocimiento de las técnicas de evaluación, pero que la investigación muestra


155

que este aspecto de la formación de los educadores ha sido descuidado:

Los maestros dedican probablemente entre una tercera par-te y la mitad de su vida profesional a actividades asociadas con la evaluación, pero tienen habilidades inadecuadas al respecto. Sólo la mitad de estados americanos exigen for-mación en evaluación como requisito para la certificación de los docentes y pocos programas de formación de maes-tros exigen que los alumnos lleven un curso sobre evalua-ción, lo que trae como consecuencia que los maestros se sientan mal preparados para responder a las exigencias de la evaluación en el aula (2007: 39).

Otros indican que para que las prácticas cambien no basta con que los profesores reciban capacitación, pues hace falta que otros cambios apoyen la actualización. Al retomar el modelo utilizado en la implementación del enfoque de evaluación para el aprendizaje en Hong-Kong, Carless pro-pone un conjunto de factores agrupados en tres niveles, para lograr cambios en las prácticas de evaluación:

Nivel de los conocimientos y creencias de los maestros. Co-nocimiento de los principios de la evaluación formativa, y congruencia entre valores y creencias de los profesores y los principios de la evaluación formativa.Nivel de la escuela (micro). Cambios en los usos de la eva-luación y en la cultura evaluativa; apoyos a profesores, adecuación de aulas […] Cambios en la percepción de las funciones y usos de la evaluación por parte de los padres de familia. Apoyo a los maestros por parte de las instancias res-ponsables del currículo.Nivel del sistema educativo (macro). Existencia de grupos para que los profesores discutan sus prácticas. Clima de re-forma curricular. Iniciativas de cambio por parte de las ins-tancias pertinentes. Políticas educativas congruentes con la evaluación formativa (2005: 45-48).

La coincidencia de las opiniones en el sentido de que las prácticas de evaluación formativa están poco presentes en las aulas, pese a que en general se considera que su uso trae


156

consigo grandes beneficios, nos obliga a preguntarnos cuáles son las razones de esta aparente paradoja. Al explorar este tema, otro investigador plantea los siguientes puntos:

• [Las experiencias de los maestros en cuanto a evaluación con-sistieron básicamente en varias formas de enfoque sumativo, pues] los alumnos en primaria y secundaria aprendieron que la prioridad era sacar altas puntuaciones en pruebas externas […] Es difícil abandonar esos valores si el maestro se ve bombardea-do constantemente en los medios y por los padres de familia sobre la necesidad de que sus alumnos consigan otro tanto.

• [Los directores presionan a los maestros para que se concentren en alcanzar altos resultados académicos en sus grupos] En algunos países, como los Estados Unidos […] los que no lo consigan en-frentan consecuencias muy serias, incluyendo el retiro de fondos clave para la escuela o, en algunos casos, incluso el cierre de ésta.

• Las pruebas son hoy extremadamente destacadas en muchos países […] penetran todos los aspectos de la vida social, empre-sarial y política […] Aunque la intención de tales legislaciones […] pueda parecer admirable, muchos educadores consideran que su impacto sobre alumnos y maestros es desastroso […]

• Muchos sistemas dan premios a alumnos de alto desempeño, que casi sin excepción se conceden con base en resultados [de] evalua-ciones sumativas. Muchas culturas elogian a los alumnos que al-canzan un resultado o nivel, pero dan poco reconocimiento a los procesos que implica conseguirlo […] Lo mismo puede decirse de los documentos curriculares que utilizan los maestros […] aun-que en ellos se presta algo de atención a los procesos de aprendiza-je, el foco principal se pone sobre los conocimientos y habilidades medidos por exámenes sumativos (Marsh, 2007: 27 y 28).

La dificultad de introducir prácticas innovadoras, en lo relativo a evaluación como en otros aspectos del traba-jo docente, se entenderá mejor si se considera que esas ac-tividades son el producto final de un amplio conjunto de elementos, que suelen estar profundamente arraigados en los maestros, concretándose en las prácticas que tradicionalmen-te utilizan, que no es sencillo sustituir por unas diferentes. En el siguiente apartado se analizan estos aspectos.


157

Factores que influyen en la implementaciónde la evaluación formativa

La dificultad para poner en práctica en las aulas los princi-pios de la evaluación formativa parece deberse a la influencia sobre las prácticas de factores de peso y antigüedad diferen-tes, que individualmente se podrían considerar menores, pero en conjunto conforman un entramado que se ha mostrado difícil de desmontar, y que se trata de describir mediante la gráfica siguiente:

2.1 Variables remotas: características de los maestros

2.2 Variables intermedias:conocimientos, concepciones y percepciones de los maestros

Característicaspersonales

Sobre símismo

Sobre lasmaterias

Sobre laenseñanza

Sobre laevaluación

Sobre losalumnos

Experienciaescolar temprana

Formación inicialy durante el servicio:

experiencia

2.3 Variablesintervinientesde los alumnos

2.4 Variablesintervinientesde la escuela

y el aula

Prácticasde enseñanzay evaluación


158

La gráfica muestra cuatro bloques de variables que in-fluyen de manera directa o indirecta sobre las prácticas de enseñanza y de evaluación de los maestros.

La influencia más directa sobre las variables que se quie-re explicar (las prácticas de enseñanza-evaluación) es la que proviene del segundo bloque (conocimientos, concepciones y percepciones de los docentes), pero esta relación se ve afecta-da por las variables intervinientes de los alumnos, así como por las variables de la escuela y el aula. A su vez, las variables del segundo bloque están determinadas por factores anterio-res que se agrupan en el primer bloque: características per-sonales, experiencia escolar temprana y formación inicial así como durante el servicio de los maestros.

Los coeficientes de regresión que asocian las variables del primer bloque con las prácticas docentes, suelen ser me-nores que los coeficientes de las variables del segundo bloque, debido simplemente a su posición más distante respecto a las prácticas docentes, lo cual no significa que su importancia sea menor, sino que no es directa, puesto que es mediada por otras variables. Además es particularmente difícil modificar esos aspectos, precisamente porque se deben a experiencias antiguas y muchas veces muy prolongadas. En los siguientes apartados se desarrolla el contenido de cada uno de esos gru-pos de variables.

Variables de los maestros

Características personales: edad, sexo, estado civil, extracción social y habilidades cognitivas

Las investigaciones sobre las prácticas de evaluación de los maestros no suelen considerar expresamente las variables de este grupo, pero sí son consideradas en las investigaciones sobre maestros en general, sobre todo en las que exploran la posible relación entre ciertas características de los docentes y los resultados de sus alumnos; sin embargo, los resultados en general han sido poco consistentes.

No parece haber relación sistemática entre variables como edad, sexo o estado civil de los maestros y el desempeño de sus alumnos, aunque hay tendencias en el sentido de que algunos


159

rasgos se asocian con cierto tipo de trabajos, como el sexo fe-menino con la enseñanza en educación prescolar.

Linda Darling Hammond señala que “desde la década de 1940 algunos estudios encontraron correlaciones positi-vas entre el desempeño de los maestros y [las] medidas de su inteligencia o su habilidad académica, pero en general pequeñas y no significativas estadísticamente” (1999: 6). También señala que se encontraron relaciones más fuertes con la habilidad verbal, y que se hacen hipótesis respecto a que eso puede deberse a que esta última (la habilidad ver-bal) “puede ser una medida más sensible de la capacidad de los maestros para transmitir ideas en forma clara y convin-cente” (1999: 6).

En el mismo sentido, se apuntan otros hallazgos, como que las variables sobre el nivel de habilidad intelectual de los maestros (por ejemplo de competencia lectora o matemáti-ca o su desempeño en pruebas de acceso a la universidad) se asocian positivamente con los resultados de los alumnos, pero los resultados tampoco son consistentes (Cfr. Wayne y Youngs, 2003: 97-100).

Experiencia escolar temprana

Estas variables se refieren a las experiencias que cada maes-tro vivió en su paso por la escuela, el tipo de enseñanza que practicaron los maestros que tuvo y especialmente las eva-luaciones a las que fue sometido.

Respecto a este segundo conjunto de variables, en un trabajo ya citado Dylan William, después de comentar la difi-cultad que existe para que alguien comience a hacer de mane-ra distinta una actividad que previamente ha realizado medio millón de veces, menciona el peso que tiene la experiencia escolar temprana de los maestros sobre su futura práctica profesional:

[…] hay una razón más profunda por la que el cambio resul-ta difícil, aun para maestros sin experiencia. Los maestros aprenden la mayor parte de lo que saben sobre la enseñanza antes de llegar a los 18 años de edad. Así como la mayoría de nosotros aprendemos lo que sabemos sobre cómo ser pa-


160

dres de familia por la experiencia con los nuestros, así tam-bién los maestros han interiorizado los “guiones” de lo que se hace en la escuela a partir de su experiencia como alum-nos. El mejor programa de licenciatura en educación básica encontrará difícil sobreponerse a los modelos de práctica que sus alumnos, los futuros docentes, aprendieron en los 13 o 14 años que pasaron en la escuela (2007: 196).

No se encontraron resultados precisos de estudios en cuanto a la posible influencia de las experiencias tempranas sobre el desempeño de los maestros, pero no debería sorpren-der que los resultados que aparecieran, fueran también débi-les y poco consistentes, ya que al igual que las características personales de los docentes, se trata también de variables muy distantes de las prácticas. Por ello su influencia sobre otras variables que ocupan posiciones más cercanas a las prácticas, puede ser importante y no se debe perder de vista, recordan-do también que se trata de aspectos particularmente difíciles de modificar.

Formación inicial y durante el servicio: experiencia docente

Estas variables se refieren a la duración de la formación del docente, el tipo de institución y de programa en los cuales se preparó, el número de las actividades de actualización profe-sional que ha llevado, la duración de las mismas y los años que lleva en servicio.

La práctica de los maestros también se puede ver in-fluida por la formación que recibieron cuando se preparaban para el trabajo profesional, así como por el mismo ejercicio de la profesión.

En este punto se considerarán sólo aspectos formales, como la duración de la formación inicial, la duración de las actividades de actualización y la antigüedad en el ejercicio profesional, dejando fuera aspectos como el enfoque del pro-grama vigente cuando el maestro se preparaba para su tra-bajo, lo establecido en el currículo y lo realmente cubierto con más o menos profundidad; la proporción de formación teórica y práctica, la formación de conocimientos a enseñar y la formación de elementos pedagógicos.


161

Obviamente el enfoque y la calidad de todos estos as-pectos es muy importante, pero los estudios no suelen cap-tarlos. Por ello en el siguiente bloque se tratará lo relativo a conocimientos, concepciones y percepciones de los maestros, cuya influencia sobre las prácticas es muy directa, indepen-dientemente de si se deben a la formación inicial recibida, a las actividades de actualización, o bien, al esfuerzo autodi-dacta de los docentes, a su interacción con otros colegas, o a sus experiencias tempranas.

Según Wayne y Youngs los estudios antiguos sobre la influencia de la formación de los docentes en su desempeño posterior, no ofrecieron resultados concluyentes, pero tam-poco lo consiguen otros estudios más recientes relacionados con áreas curriculares como lectura, escritura e incluso cien-cias naturales. Los pocos resultados consistentes se refieren a matemáticas y a maestros de enseñanza media. En este caso, el hecho de haber llevado más cursos especializados de matemáticas durante la formación sí parece asociarse con-sistentemente con mejores resultados de los alumnos (2003: 101-103).

Sin embargo, estos autores reportan que algunos estu-dios sí encuentran una relación positiva entre la calidad del programa en el que se formó un maestro y los resultados de sus estudiantes (2003: 95 y 96).

Según Darling Hammond,

De las variables sobre la calificación de los maestros, la re-lación más fuerte se encontró con los exámenes para dar la licencia para enseñar, que miden tanto habilidades básicas como conocimientos para la docencia […] Si se controlan las características de los alumnos, la relación entre la cali-ficación de los maestros y el desempeño de los alumnos es aún más fuerte. Un estudio de escuelas de alto y bajo ren-dimiento de Nueva York, con alumnos similares demográ-ficamente, encontró que la diferencia en la calificación de los maestros (grados en educación, estatus de certificación y experiencia) explicaban aproximadamente el 90% de la varianza total en el desempeño de los alumnos, en el nivel de la escuela, en lectura y matemáticas, en todos los grados estudiados (1999: 12 y 13).


162

Por lo que se refiere a la experiencia del docente, la mis-ma investigadora señala que

Otros estudios […] han encontrado relación entre la efica-cia del profesor y sus años de experiencia, pero no siempre significativa ni lineal. Si bien muchos estudios han estable-cido que los maestros sin experiencia (menos de tres años) son típicamente menos efectivos que maestros con más an-tigüedad, los beneficios de la experiencia parecen plafonar después de unos cinco años (1999: 9 y 10).

En cuanto a los cursos de actualización, Wiliam afirma lo siguiente:

Si bien la inversión en actividades de actualización profe-sional para maestros ha sido durante muchos años un rasgo del panorama educativo, la evidencia de que producen al-guna diferencia en el desempeño de los alumnos es depri-mentemente escasa. “Nada ha prometido tanto y ha sido un desperdicio tan frustrante como los miles de talleres y conferencias que no produjeron cambios significativos en la práctica una vez que los maestros regresaron a sus aulas” (Fullan) (2007: 187).

En el sistema educativo mexicano no se cuenta con in-formación suficiente para analizar el desempeño de los egre-sados de diferentes instituciones o programas que preparan maestros para educación básica.

Sabemos que entre los docentes de primarias públicas casi todos cuentan ya con licenciatura, pero también sabemos que hay sectores del sistema en los que hay muchos docentes con niveles de preparación inferiores, como en las primarias co-munitarias del conafe y algunas telesecundarias. Es relevan-te señalar también que, en general, el nivel de los alumnos de programas de formación de maestros de educación básica suele ser inferior al de los estudiantes de otros programas de nivel universitario.

Se sabe que año con año se ofrece a los maestros en ser-vicio una gran cantidad de cursos de actualización, incluyen-do los que obligatoriamente deben llevar todos los maestros


163

durante tres días, en la semana que precede al inicio del ciclo escolar. Por último, se sabe también que sólo una fracción de los maestros acreditan los cursos no obligatorios, y hay fundamento para afirmar que en muchos casos la calidad de dicha oferta es muy baja.

Variables remotas: conocimientos, concepcionesy percepciones de los maestros

Por su ubicación más lejana respecto a la práctica, como se ha dicho, las variables de los tres grupos del bloque que se acaba de revisar, aunque no hay evidencia de que influyan tan direc-tamente en la práctica de los docentes, sí influyen en forma directa sobre los conocimientos, concepciones y percepciones de los maestros, que forman el segundo bloque, y la influen-cia de éstos sobre las prácticas de los maestros, en cambio, sí es más directa.

Un rasgo en el cual se aprecia el cambio de los enfoques conductistas prevalecientes en la investigación educativa has-ta la década de 1960 y los enfoques más recientes derivados de la revolución cognitiva, es precisamente el hecho de que se preste atención no sólo a las conductas de los sujetos estudia-dos, sino también a aspectos menos directamente observa-bles, como son las concepciones y las creencias.

Al momento de abordar las creencias de los maestros, Campbell y colaboradores retoman de Thompson la defini-ción de los “sistemas de creencias” como:

[…] estructuras mentales dinámicas y permeables, susceptibles de cambio a la luz de la experiencia. La relación entre creencias y prácticas no es simple ni unidireccional de las primeras a las segundas, sino una relación dinámica y bidireccional, en la que las creencias se ven influenciadas también por la expe-riencia práctica (Campbell et al., 2004: 50).

Estos autores citan un estudio de Muijs y Reynolds, donde se utilizó un cuestionario para explorar las creencias de los maestros. Campbell y sus colaboradores mencionan que el estudio no encontró una relación directa entre las


164

creencias de los maestros y los resultados de sus alumnos, pero añade que se hizo un análisis adicional para poner a prueba un “modelo de proximidad”, según el cual se plantea la hipótesis de que

[…] los factores más cercanos a la experiencia de los alumnos (por ejemplo las conductas del maestro) afectan los resultados con más fuerza que los facto-res que están menos directamente relacionados con la experiencia de los alumnos (por ejemplo las creencias de los maestros) (2004: 52).

Así mismo, los resultados del análisis mostraron en efec-to que los maestros que tienen cierto tipo de creencias tienen más probabilidad de poner en práctica ciertas conductas, en particular ciertas formas de enseñanza que a su vez suelen asociarse con resultados distintos de los alumnos, lo que quiere decir que son más o menos efectivas (2004: 52).

A continuación hablaremos de las concepciones y creen-cias que los maestros tienen sobre sí mismos, sobre las materias que enseñan, sobre la enseñanza misma, sobre la evaluación y sobre los alumnos.

• Sobre sí mismos: se refiere a la autopercepción y au-toestima del maestro en general, pero además se re-fiere a la manera en que concibe su función docente y muy especialmente su función evaluadora.

Aunque no se cuente con estudios que analicen especí-ficamente estos aspectos, parece razonable esperar un mejor desempeño de un maestro que se ve a sí mismo como un pro-fesional y tiene confianza en sí mismo; que considera que su profesión es digna y atractiva y no fue la única opción que tuvo a su alcance para buscar cierto estatus social; y que con-cibe su función docente y evaluadora como una tarea cuyo fin último es el bien de sus alumnos.

• Sobre las materias: es la concepción que el docente tiene del lenguaje, las matemáticas, las ciencias de la naturaleza y demás áreas curriculares, así como la


165

valoración que tiene de ellas, su interés, desinterés o eventual rechazo de algunas.

Lógicamente será difícil que un docente consiga que sus alumnos desarrollen el hábito de la lectura si él o ella no lo tienen; o que consiga buenos resultados en matemáticas o ciencias si son alérgicos a los números o tienen una concep-ción precientífica del mundo. Sin embargo, los estudios no muestran una relación tan clara como se esperaría entre los conocimientos del maestro y su práctica.

El conocimiento de la materia es otra variable que se podría pensar se relaciona con la eficacia del docente. Aunque esta suposición encuentra algún respaldo, los hallazgos no son tan fuertes y consistentes como uno podría suponer […] La mayoría de los estudios muestra relaciones pequeñas, no significativas estadísticamente, y tanto positivas como ne-gativas […] Los estudios han mostrado una influencia un poco más fuerte y consistente de los cursos de contenido pedagógico sobre la efectividad de los docentes (Darling-Hammond, 1999: 6-8).

Ya se ha señalado que parece haber una relación más fuerte del rendimiento de los alumnos con los conocimientos de su maestro en el caso de matemáticas, y trabajos recien-tes muestran también la influencia significativa del conoci-miento de las matemáticas que tiene el maestro, pero no de sus conocimientos “puros”, sino muy concretamente de su dominio de lo que Hill, Rowan y Ball (2005) llaman “conoci-miento de las matemáticas para la enseñanza” (mathematics knowledge for teaching, mkt) (Cfr. Wiliam, 2007: 186).

• Sobre la enseñanza: incluyen tanto las ideas teóricas, más o menos consistentes, sobre los diferentes enfo-ques de la enseñanza, como las concepciones prácticas que el maestro tiene respecto a lo que es o no es viable dentro de las condiciones concretas en las que trabaja, lo que funciona, etcétera.

• Sobre la evaluación: son las ideas que tiene el maes-tro respecto al papel de la evaluación en el proceso


166

de la enseñanza-aprendizaje, respecto a las formas de llevarla a cabo, el uso de resultados tanto para retroa-limentar su propia práctica docente como para dar información a los alumnos y a los padres de familia, así como el impacto afectivo de la evaluación, entre otras cosas.

• Sobre los alumnos: se refiere a la forma en que el maes-tro percibe a los alumnos en general (por ejemplo, como sujetos activos de su aprendizaje o como recep-tores pasivos de conocimientos) y en particular (los de este grupo y este curso, o incluso este alumno o alum-na), como capaces o incapaces, listos o no, aplicados o negligentes, dóciles o rebeldes, etcétera.

Según Raquel Katzkovicz, son muchos los factores que influyen en las prácticas de evaluación que dependen, en par-te, de los contenidos con que trabaje el maestro, de los recur-sos de que disponga, del apoyo de padres de familia y de las características del entorno, entre otras cosas; pero esta auto-ra presta especial atención a la influencia de las concepciones de los mismos docentes sobre sus propias decisiones relativas a qué actividades de evaluación asignar a los alumnos, así como sobre la lectura que hacen luego de los resultados:

Conocer las concepciones de los profesores a la hora de de-finir las actividades de evaluación de los aprendizajes de los alumnos y sus estrategias de enseñanza nos permitirá com-prender sus criterios de evaluación y la jerarquización que realizan de los contenidos […] El conocimiento profesional (asociado al conocimiento pedagógico general, al disciplina-rio y al didáctico del contenido) y la experiencia profesional son elementos importantes en estas construcciones men-tales que influyen en las prácticas. Estas concepciones serán las que definan las decisiones que se tomarán en relación con las evaluaciones de aula (2010: 114-117).

Retomando los resultados de trabajos de otros investiga-dores sobre las creencias y concepciones de los maestros en re-lación con las prácticas de evaluación, Katzkovicz señala que se ha encontrado que muchos docentes tienen bajas expec-


167

tativas en cuanto al rendimiento de los chicos provenientes de medio desfavorable por lo que saben al respecto, pero que eso a su vez incide negativamente en el rendimiento de esos mismos alumnos.

Otras investigaciones muestran que la forma en que los docentes conciben la ciencia, los lleva a privilegiar el uso de acercamientos que supuestamente miden con mucha precisión lo que domina cada alumno –aunque se trate de aspectos su-perficiales, como ocurre muchas veces con pruebas integradas por preguntas estructuradas– y a descuidar estrategias de eva-luación que pudieran dar lugar a respuestas más precisas sobre aspectos fundamentales del trabajo científico, como los que se refieren a las relaciones ciencia-técnica-sociedad-ambiente, entre otras, contribuyendo a la transmisión de una imagen de-formada de la ciencia (Cfr. Katzkovicz, 2010: 115).

La misma autora cita una frase de Moreno y Azcárate que concluye lo siguiente:

Las concepciones docentes se constituyen como organiza-dores implícitos referidos a creencias, significados, concep-tos, proposiciones, imágenes mentales y preferencias que influyen tanto la manera de percibir la realidad como las prácticas que implementan (Moreno y Azcárate, citado en Katzkovicz, 2010: 116).

Variables de los alumnos

Como muestra el esquema, este bloque de variables y el si-guiente ocupan una posición lateral respecto a la relación principal, que va de las variables remotas (características de los maestros) y las intermedias (conocimientos, concepcio-nes y percepciones) a las prácticas.

Así pues, las variables de los alumnos, así como las de la escuela y el aula, tienen un estatus de variables intervinien-tes que modifican o modulan la influencia de las variables independientes, próximas o remotas, sobre la dependiente.

El bloque relativo a las variables de los alumnos com-prende las características reales de los estudiantes –en opo-sición a la percepción que de ellos tenga el maestro–, tanto individualmente como en grupo: niños de familias urbanas o


168

rurales, acomodadas o pobres, indígenas, de rendimiento nor-mal o no, que asisten con regularidad o faltan con frecuencia, más o menos homogéneos, entre otras características.

La naturaleza interviniente de este grupo de variables respecto a la relación entre las variables independientes próxi-mas y remotas y las prácticas de los maestros, quiere decir concretamente que la forma en que se conduzcan los docen-tes en el aula (sus prácticas docentes y de evaluación), de-pende directamente de sus características personales, así como de sus conocimientos y concepciones, pero sus conductas se ven afectadas de alguna manera por el tipo de alumnos que tengan. Los maestros deben ajustar sus prácticas teniendo en cuenta si sus alumnos aprenden con mayor o menor rapidez, si son especialmente inquietos o tranquilos, entre otros muchos aspectos, como el tipo de motivaciones a que son sensibles.

Brookhar cita estudios que han encontrado que los alumnos tienen cuatro tipos de patrones motivacionales, se-gún estén orientados al aprendizaje o al éxito, o bien que sean no comprometidos o elusivos (avoidant):

La existencia de diferentes patrones del enfoque de motiva-ción que tienen los alumnos respecto al aprendizaje, tiene consecuencias para la evaluación formativa en aula. La re-troalimentación que se da a los alumnos que no tienen éxito llega en un momento en que se están sintiendo mal por su fracaso. La retroalimentación debe hacer algo para tener en cuenta esos sentimientos negativos si se quiere romper el cír-culo vicioso del fracaso, de lo contrario la retroalimentación no servirá para hacer que la atención de los alumnos se con-centre en el trabajo (Kluger y De Nisi) […] Los alumnos nece-sitan tener tanto habilidad para tener éxito en el aula, como voluntad para ello (skill & will) (Brookhart, 2007: 52 y 53).

Variables de la escuela y el aula

El cuarto bloque del esquema comprende el otro grupo de va-riables intervinientes, las cuales comprenden las característi-cas de las escuelas, por ejemplo si la escuela en que trabaja un profesor es grande o chica, es de organización completa o incompleta, es pública o privada, está bien o mal dotada de


169

infraestructura, mobiliario, equipamiento y material didác-tico; está ubicada en un medio favorable u hostil; los padres de familia participan activamente o no; tiene maestros que trabajan en equipo o no; los maestros cuentan con apoyo del director y de las instancias de supervisión; los alumnos por aula son muchos o pocos, de un solo grado o varios, mu-chos o pocos tienen necesidades especiales, son de bajo ren-dimiento, repetidores, etcétera.

Es claro el carácter modulador o mediador de este tipo de variables en la relación que va de las características, cono-cimientos y concepciones del profesor a su práctica: aunque el maestro tenga ideas muy buenas sobre cómo enseñar o cómo evaluar, no lo podrá hacer de la forma que quisiera con un grupo muy grande, o sin un mínimo de materiales y apoyos.

Además de los aspectos mencionados, un tipo de varia-bles de gran importancia que forman parte de este grupo, es el que se refiere a las orientaciones que debe seguir en su tra-bajo el maestro, tanto las establecidas en las normas aplica-bles, como las que se derivan de las directrices marcadas por el director de la escuela y por las instancias de supervisión.

En este sentido, se debe mencionar en primer lugar el cu-rrículo, que muchas veces es demasiado amplio y comprende una cantidad excesiva de conocimientos particulares, lo que propicia que los maestros traten de enseñarlos de manera superficial, en vez de tomarse el tiempo necesario para de-sarrollar habilidades cognitivas con mayor complejidad, a lo cual se suma que frecuentemente las evaluaciones se orientan a privilegiar los usos sumativos y los instrumentos estandari-zados, tanto los que se aplican en escala nacional o estatal por parte de las autoridades, como los que se manejan en escala menor y de manera menos formal:

[…] sigue habiendo serios obstáculos [para] la implementa-ción de prácticas de evaluación formativa en la enseñanza cotidiana. Hasta cierto punto esto se debe a la confusión sobre lo que es la evaluación formativa, pero el mayor obs-táculo es el antiquísimo problema de la amplitud versus la profundidad. Los maestros de educación básica o superior deben cubrir demasiados contenidos con poca o ninguna


170

profundidad, sin tiempo para la práctica y sin evaluación formativa (Rindone y McQuarrie, 2010: 325).

En cuanto a la evaluación, Black señala el peso que tie-nen en muchos sistemas educativos las pruebas sumativas externas de consecuencias fuertes, y añade:

La necesidad de enseñar tácticas superficiales que mejoren el desempeño en pruebas igualmente superficiales limita la libertad de maniobra del maestro, así como la confianza en él para que desempeñe un papel más responsable en la eva-luación de sus alumnos (2010: 363).

La participación de los padres de familia, si bien es con-siderada generalmente como positiva, puede tener también consecuencias negativas en cuanto a las prácticas de evalua-ción, pues los maestros se pueden ver presionados a utilizar formas de evaluación más distantes del enfoque formativo, pero al menos, a juicio de los padres, más “objetivas”, con lo que las decisiones derivadas de ellas parecen más defendi-bles y ayudan a los profesores a evitan conflictos (McMillan, 2003: 38).

Lecciones para las intervencionesen la práctica docente

En el capítulo 2 se presentaron ya algunas perspectivas críti-cas que en oposición a posturas más optimistas, subrayan las dificultades que deben enfrentarse para poner en práctica los principios teóricos de la evaluación formativa. En términos de Gordon Stobart, es fácil perderse en la transición que exis-te al momento de pasar de los principios a la política, y de ésta a la práctica de la evaluación formativa (2005: 3).

El texto de Stobart introduce un conjunto de trabajos que coinciden en mostrar la complejidad de la puesta en prác-tica de propuestas ambiciosas y la insuficiencia de estrategias, como la de utilizar una terminología nueva (assessment for learning en lugar de formative assessment) cuando se constata que los esfuerzos previos no han dado los resultados espera-


171

dos, con la improbable esperanza de que el nuevo término no se asocie con los fracasos anteriores.

Utilizando como ejemplo el trabajo de Smith y Gorard, comentado en el capítulo 2 de la presente obra, Stobart señala que evitar calificar el trabajo de los alumnos dándoles sólo co-mentarios (típicamente elogiosos o animadores), refleja una pobre concepción de la noción de retroalimentación, lo que además de no dar resultados, condujo a la suprema ironía del alumno que dijo: “Maestra, yo quiero conocer mis calificacio-nes porque los comentarios no nos dicen mucho” (2005: 4).

A continuación se retoman de la literatura algunas ex-periencias que podrán orientar los esfuerzos de intervención que busquen modificar las prácticas de los maestros en el campo de la evaluación, para no caer en errores detectados en esfuerzos anteriores y para aprovechar aquellas experien-cias que sean más positivas.

Limitaciones de esfuerzospor introducir nuevas prácticas

La experiencia de dos sistemas educativos muy distintos, como son el del Reino Unido y el de Francia, coinciden en que en ambos han encontrado una dificultad considerable para lograr que los nuevos enfoques de la evaluación se ge-neralicen.

Según Osborn y Raveaud, muchos maestros ingleses creían poder hacer que sus evaluaciones fueran formativas, pero “en los primeros tiempos de las reformas las dimensio-nes y la complejidad de la tarea de llevar registros y reco-ger las evidencias amenazaban con abrumar a los maestros” (2010: 425), de manera que se reportaba que los cambios en las evaluaciones seguían siendo intuitivos, más que basados en evidencias.

En Francia, las leyes de 1989 y 2005 intentaron provocar un cambio cultural para pasar de una concepción de la eva-luación sumativa a una formativa, pero “hasta ahora estas iniciativas de arriba hacia abajo parecen haber tenido esca-so impacto sobre las prácticas en el aula, según describen la investigación académica y los informes de los supervisores” (Osborn y Raveaud, 2010: 425).


172

Respecto a las variables relacionadas con la formación de maestros, se han citado algunas opiniones sobre el frustrante resultado de las actividades de actualización profesional de los mismos. En este sentido, Wiliam aborda la cuestión de lo que se debe hacer para que el desempeño de los alumnos mejore:

Muchas veces confiamos en soluciones rápidas que rara vez tienen éxito. Para elevar exitosamente el desempeño de los alumnos debemos mejorar la calidad de los maestros […] en particular los que ya están en las escuelas. Tenemos que analizar cuidadosamente los costos y los beneficios de las posibles reformas (2007: 184).

Luego Wiliam considera dos estrategias: una gradual, elevando los requisitos que se exigen para aceptar a los nue-vos docentes en la profesión, lo que llevará muchos años para tener efectos; y otra rápida, permitiendo el acceso a la profe-sión del maestro a personas que no hayan recibido formación para ello, pero señala que la investigación ha mostrado que este tipo de docentes no resulta mejor que los formados de la manera tradicional (2007: 186 y 187).

Una estrategia más tiene como elemento clave ayudar a los maestros a desarrollar prácticas de evaluación formativa, lo que, según Wiliam,”tiene una relación costo-beneficio me-jor, pero cambiar lo que los profesores hacen día a día no se puede lograr efectivamente con métodos tradicionales, como talleres de verano” (2007: 187), y añade:

Ahora es claro que la principal razón por la que la actualiza-ción profesional no ha conseguido en general tener impacto en el rendimiento de los alumnos es porque no ha imple-mentado lo que la investigación muestra que hace la dife-rencia en cuanto al aprendizaje de los alumnos (2007: 187).

Luego de estas consideraciones, el autor concluye lo si-guiente:

Después de muchos falsos comienzos y callejones sin salida he llegado al convencimiento de que la mejor forma de apo-yar a los maestros a adoptar evaluaciones formativas […] es


173

mediante comunidades de aprendizaje de maestros basadas en la escuela (Wiliam, 2007: 196).

A una conclusión idéntica, en el contexto latinoamerica-no, llega Rebeca Katzkovicz, que tras analizar la importancia que tienen las concepciones de los maestros sobre sus prácti-cas, subraya “la necesidad de contar con ámbitos de forma-ción y reflexión profesional para los docentes” (2010: 123 y 124), para que mejoren sus estrategias en el aula y a través de ellas los aprendizajes de todos sus alumnos y sus posibilida-des de éxito escolar. En concreto, Katzkovicz recomienda

Favorecer los espacios de reflexión profesionales en las ins-tituciones para trabajar la cultura de la evaluación en ellas, así como para develar las creencias, las racionalidades y las concepciones de los profesores en relación con sus prácticas de enseñanza y evaluación (2010: 123 y 124).

Necesidad de procesos más adecuadosde capacitación

Después de todas las consideraciones anteriores, podemos tratar de responder la pregunta sobre qué características de-berán tener las actividades de actualización para maestros que busquen modificar a profundidad las prácticas de evalua-ción como parte de una reorientación más amplia de la en-señanza, apoyada en enfoques más congruentes con lo que dicen los avances de las ciencias cognitivas, con el propósito final de ayudar a que los estudiantes alcancen niveles ade-cuados en las competencias que hoy se consideran necesarias para la vida en las sociedades contemporáneas.

Paul Black sintetiza algunos problemas para implemen-tar evaluaciones formativas: la falta de una definición clara del concepto; el conflicto entre la evaluación formativa y las presiones de las pruebas sumativas a partir de la responsabi-lización de las escuelas; y el rechazo a la evaluación forma-tiva en cuanto a que exige un cambio radical y difícil para los maestros (2010: 359). Y da ejemplos de interpretaciones superficiales de la evaluación formativa, como que un docen-te puede formular preguntas abiertas, pero luego califica las


174

respuestas en términos de correcta o incorrecta, en vez de usarlas para reorientar el trabajo de los alumnos; o bien, pue-de pedir a los alumnos que se autoevalúen, pero no usa la in-formación resultante para dar retroalimentación (2010: 363).

Black señala también que el obstáculo más grande con-siste en que implementar prácticas formativas nuevas es una tarea muy demandante para los maestros, ya que en muchos casos implica un cambio profundo de sus creencias sobre su propio papel en el aula, y esos cambios no se pueden conse-guir con una breve sesión de entrenamiento, sino que necesi-tan el apoyo sostenido de la colaboración colegiada.

Finalmente, otro obstáculo es que los maestros necesi-tan una formación básica en temas de evaluación, que in-cluya una buena comprensión de los criterios de validez y confiabilidad (2010: 363).

Conviene reflexionar sobre este punto, ya que una in-adecuada comprensión del mismo puede llevar a una orienta-ción equivocada de los esfuerzos de formación. De modo que La idea de que implementar evaluaciones formativas supone un suficiente dominio de temas de evaluación en general, por parte de los maestros, debe precisarse.

Un autor que ha promovido la mejora de las evaluacio-nes es W. James Popham (2009), que en un trabajo reciente se pregunta si la alfabetización en evaluación que se espera de los maestros es una moda o realmente algo importante.

Popham distingue los conocimientos sobre evaluación que se refieren al aula y los que tratan sobre pruebas a gran escala para la responsabilización de escuelas y maestros. Y opina que en ambos casos un conocimiento inadecuado pue-de traer consigo efectos negativos para la calidad, por lo que el conocimiento básico (literacy) al respecto, parece una con-ditio sine qua non deben desempeñarse los educadores.

Así mismo, el autor propone 13 temas a incluir en las actividades de actualización profesional, y señala que este tipo de formación en servicio será indispensable hasta el mo-mento en que los mismos programas de formación inicial la hagan innecesaria, para que todos los futuros docentes egre-sen con una buena preparación sobre estos aspectos. Añade que el uso de comunidades profesionales de aprendizaje (con la práctica reflexiva de los profesores) puede complementar


175

las actividades tradicionales de actualización o sustituirlas (2009: 8-10).

El error que se comete en cuanto a la orientación que se le debe dar a este tipo de formación, consiste en que esté diri-gida a investigadores que quieran especializarse en temas de evaluación, y no a los maestros, cuyas necesidades son dis-tintas de las de un investigador. Hace ya una década Stiggins había hecho una crítica fundamental que los organizadores de actividades de actualización sobre evaluación para maes-tros deberán tener muy presente.

Después de repasar el preocupante panorama que pre-sentaban las evaluaciones que se hacían en el aula, en con-traste con los sofisticados avances de las pruebas a gran es-cala, Stiggins rechaza que el especialista en pruebas eluda su responsabilidad al atribuir todo el fenómeno al desinterés de otros actores, especialmente de los maestros y las autorida-des educativas. Y siendo él mismo un especialista en pruebas, lo dice asumiendo la responsabilidad que le toca como tal:

¿Por qué no hemos sido escuchados en las salas de las escue-las? En mi opinión porque no nos hemos educado nosotros mismos en las realidades de la vida de las aulas de manera que seamos capaces de traducir nuestras ideas a aplicacio-nes que puedan ser puestas en práctica por los maestros, en beneficio de sus alumnos (2001: 6 y 7).

Con base en los resultados de un trabajo empírico reali-zado por él mismo y Conklin (1992), sobre lo que pasa en las aulas, y en relación con las actividades de desarrollo profe-sional sobre evaluación dirigidas a maestros, Stiggins afirma lo siguiente:

Los resultados dejaron claro el reto a enfrentar. Comprendi-mos lo que los maestros necesitan saber sobre evaluación y no era lo que tratábamos de enseñarles, sin éxito, según re-flejan los tradicionales textos de introducción a la medición […] Durante décadas hemos escrito textos para maestros que incluyen una expectativa de que ellos van a estimar la confiabilidad de una prueba, a calcular índices de validez de la misma y a hacer análisis de ítems para determinar su


176

dificultad y poder de discriminación. Pienso que los autores que tienen tales expectativas revelan su propia ingenuidad sobre la vida en las escuelas y las aulas (2001: 9-14).

Stiggins afirma que sería formidable que los maestros hicieran tales cosas, pero que no va a ocurrir, y añade:

¿Quiere esto decir que los maestros no pueden aprender lo relativo a las fuentes que afectan la confiabilidad o la vali-dez y [van] a evitarlas? Por supuesto que no. Los maestros pueden y deben aprender esas cosas, pero tenemos que ayu-darles a hacerlo en términos que puedan entender y aplicar en su contexto. Nuestro reto es entender su contexto de evaluación (2001: 14).

La distinción más profunda y fundamental, en el plano epistemológico, entre el enfoque del científico y del maestro, es retomada por el mismo Stiggins de un texto de hace casi 70 años:

La ciencia tiene que ver fundamentalmente con la abstrac-ción de elementos particulares de un todo complejo, ais-lando algo que es común a un grupo de sujetos, liberán-dolo de las restricciones de las circunstancias inmediatas. La preocupación de un maestro es justamente la opuesta: trabaja con individuos variables para construir un producto variable (Scates, citado en Stiggins, 2001: 7).

A lo que añade Stiggins:

En pocas palabras quedamos muy sensibilizados a las dife-rencias entre la paleta de colores que los maestros necesitan para manejar el arte de la evaluación en aula y las herra-mientas que subyacen a la ciencia de la evaluación (2001: 9).

Esta concepción acerca de lo que los maestros deberían saber sobre evaluación –más próxima a lo que manejan los es-pecialistas que a lo que realmente necesitan los docentes para su trabajo–, se confirma si se revisan los lineamientos que se definieron en el momento que la preocupación por la calidad


177

de las escuelas ya había hecho que se prestara atención al tema de la evaluación, pero todavía no en el sentido que pro-ponen las corrientes de evaluación formativa.

En 1990 tres organizaciones norteamericanas (American Federation of Teachers, National Council on Measurement in Education y National Education Associaton), relacionadas con el tema de la evaluación que hacen los maestros, adop-taron un conjunto de estándares relativos precisamente a las competencias que debería tener todo maestro (standards for teacher competence in educational assessment of students).

Los estándares adoptados fueron siete, y en su versión más sintética estipulan que los maestros deberán dominar las competencias necesarias para:

1) Seleccionar métodos de evaluación apropiados para sustentar decisiones de enseñanza.

2) Desarrollar métodos de evaluación apropiados para lo mismo.

3) Aplicar, calificar e interpretar los resultados de mé-todos de evaluación, tanto externos como desarro-llados por el maestro mismo.

4) Utilizar los resultados de las evaluaciones al tomar decisiones sobre alumnos individualmente, así como para planear la enseñanza, desarrollar el currículo y realizar actividades para la mejora de la escuela.

5) Desarrollar procedimientos válidos para la asigna-ción de calificaciones, utilizando las evaluaciones.

6) Comunicar los resultados de las evaluaciones a los alumnos, a sus padres y a otras audiencias no espe-cializadas, así como a otros educadores.

7) Identificar métodos de evaluación no éticos, ilegales o inapropiados por otras razones, así como los usos inadecuados de la información derivada.

Recientemente Susan Brookhart (2011) propuso un nue-vo grupo de estándares que buscan tener en cuenta los cambios en evaluación educativa ocurridos en los últimos 20 años: por una parte, las nuevas ideas sobre evaluación formativa –o evaluación para el aprendizaje– y la indisociable relación entre evaluación y enseñanza que suponen; y por otra, los


178

cambios en lo relativo a la concepción de los estándares de aprendizaje, el papel de las pruebas estandarizadas, el movi-miento en pro de la rendición de cuentas y el tránsito de tales evaluaciones de bajo impacto a uno considerablemente mayor.

Estos nuevos estándares son 11, y en forma igualmente sintética establecen que los maestros deberán:

1) Entender el aprendizaje en el marco del área de con-tenido que enseñan.

2) Articular propósitos de aprendizaje claros, congruen-tes con el contenido y la profundidad de pensamien-to que impliquen los estándares y objetivos curri-culares con los que se relacionen, de tal manera que sean tanto alcanzables como evaluables.

3) Tener un repertorio de estrategias para comunicar a los alumnos en qué consistirá el logro de los propó-sitos de aprendizaje.

4) Comprender los propósitos y usos de la gama de op-ciones de evaluación disponibles y tener las habilida-des necesarias para usarlas.

5) Tener habilidades para analizar preguntas de aula, ítems de pruebas y tareas de evaluaciones de ejecu-ción de manera que identifiquen los conocimientos específicos y las habilidades de pensamiento que de-ban manejar los alumnos para responder o realizar esas tareas.

6) Tener habilidades para ofrecer retroalimentación efectiva y útil para el trabajo de los alumnos.

7) Construir esquemas de calificación que cuantifiquen el desempeño de los alumnos en las evaluaciones en aula, de manera que se vuelva información útil para tomar decisiones sobre alumnos, grupos, escuelas y distritos. Esas decisiones deberán llevar a un mejor aprendizaje, crecimiento o desarrollo de los alumnos.

8) Aplicar evaluaciones externas e interpretar sus re-sultados para que sustenten decisiones sobre alum-nos, grupos, escuelas y distritos.

9) Comunicar articuladamente las interpretaciones que hagan de los resultados de las evaluaciones, así como sus razonamientos sobre las decisiones edu-


179

cativas basadas en los resultados, a las poblaciones educativas a las que sirven: los alumnos y sus fami-lias, los grupos, las escuelas y la comunidad.

10) Ayudar a los alumnos para que usen la información derivada de las evaluaciones para tomar decisiones educativas consistentes.

11) Comprender y cumplir sus responsabilidades éticas y legales relativas a la evaluación al momento de rea-lizar su trabajo (Brookhart, 2011: 7).

Es fácilmente apreciable la coincidencia que existe en algunos puntos entre estos últimos estándares y los adopta-dos en 1990, sobre todo si los de hace 20 años se entienden en forma general.

Nadie estará en contra de que los maestros sean capa-ces de seleccionar métodos de evaluación apropiados, desa-rrollarlos, aplicarlos e interpretar sus resultados y utilizarlos para tomar decisiones, así como para asignar válidamente calificaciones, comunicar correctamente los resultados y ac-tuar ética y legalmente.

Sin embargo, en el sentido que hoy se le da a la expresión, también es claro que lo anterior no es suficiente para que el maestro haga evaluación realmente formativa. Como se mos-tró en el segundo capítulo, para ello no basta tener objetivos de aprendizaje claros y detectar si los alumnos los han logrado o no; lo esencial es usar la evaluación de tal modo que ayude al alumno a alcanzar los objetivos a partir del punto en que él se encuentra. Por ello las habilidades clave que un maestro debe dominar para hacer evaluación realmente formativa, son las que se incluyen en los puntos 5, 6 y 7 del listado que propone Brookhart, las cuales le permitirán identificar lo que debe ma-nejar un alumno para responder cierta pregunta o realizar una tarea, ofrecer retroalimentación efectiva y útil para mejorar y construir esquemas de calificación que sean información útil para tomar decisiones que lleven a un mejor aprendizaje.

Consideraciones prácticas

Con lo dicho en este capítulo, se puede concluir que dada la multiplicidad de variables que inciden en las prácticas do-


180

centes y de evaluación de los maestros, las profundas raíces de algunas prácticas y el hecho de que la modificación de otras no está al alcance de los maestros, sino que involucra a otras instancias del sistema educativo y a los padres de familia, las actividades de actualización que tengan como propósito transformar en profundidad las prácticas de eva-luación de los maestros no podrán consistir únicamente en talleres breves, esporádicos y superficiales, como tantas ve-ces ocurre con lo que se ofrece a los maestros.

Una conclusión en particular a que llega el trabajo ya citado de Schneider y Randel, es la siguiente:

[…] los esfuerzos de actualización sobre evaluación forma-tiva en aula deben tener una duración sostenida con sufi-cientes horas de contacto para presentar los conceptos, y ofrecer apoyo sustancial que permita poner en práctica la aplicación de nuevas habilidades. La duración óptima de los programas de actualización está por determinarse. Supovitz y Turner han encontrado que los maestros necesitan entre 40 y 79 horas de actualización para que sus prácticas cam-bien respecto a las del promedio […] los maestros que traba-jan en escuelas de bajos resultados pueden modificar su base de conocimientos sobre evaluación formativa en aula en [un periodo de] 30 a 41 horas; sin embargo, el número de horas necesario para cambiar los conocimientos de los maestros no es necesariamente el mismo que bastará para que el ren-dimiento de los alumnos aumente (2010: 272 y 273).

La última parte de la cita anterior es fundamental: modi-ficar los conocimientos de los maestros sobre la evaluación es necesario para que sus prácticas cambien, pero no es suficien-te. Es por ello que talleres de contenido sólido de 40 o incluso 80 horas de duración tampoco serán suficientes, de manera que será indispensable un esfuerzo continuado durante uno o dos ciclos escolares completos, basado en el trabajo conjun-to de una comunidad de aprendizaje formada por los maestros de una o varias escuelas.

Los maestros necesitan una variedad de ejemplos vivos de la implementación de tales prácticas por parte de colegas


181

con los que puedan identificarse y de los que puedan derivar la convicción y la confianza de que ellos también pueden hacerlo mejor, pudiendo ver qué quiere decir en la práctica “hacerlo mejor” (Black y Wiliam, 2004: 21).

Los autores citados presentan estrategias que los maes-tros pueden aprender unos de otros. Un ejemplo consiste en que cuando el maestro pide a los alumnos que aporten ideas sobre un tema, antes de pedirles que lo hagan se les hace tra-bajar en grupos de dos o tres para que hagan una tormenta de ideas sobre el tema, con lo cual sus aportaciones serán más ricas y “darán una idea más completa al maestro de lo que saben los alumnos, así como sobre cualquier laguna o con-cepción errónea, con lo que las acciones siguientes podrán tener en cuenta mejor las necesidades reales de los alumnos” (Black y Wiliam, 2004: 26).

Por su parte, James recuerda que en general son fallas de implementación lo que impide el éxito de iniciativas para que las prácticas de evaluación sean efectivas y que por ello hay que estudiar las condiciones necesarias para hacerlo bien.

Según este autor, para generalizar en un sistema educati-vo ciertas innovaciones probadas en experimentos a pequeña escala, hay que prever que se deberá conseguir con un apoyo mucho menos intensivo. A su juicio, las condiciones adecua-das incluyen el desarrollo profesional de los maestros así como estructuras organizacionales y procesos culturales adecuados (2010: 169).

Entre las advertencias de este autor se pueden mencio-nar las siguientes en relación con la difusión de prácticas de evaluación formativa:

Si bien los maestros aprecian las recomendaciones prácti-cas, las acciones de evaluación formativa se pueden volver mecánicas y rituales si no se promueve la reflexión sobre los principios que las sustentan. Los valores, las creencias y las prácticas no son uniformes entre los maestros; aunque la mayoría tiene valores educativos claros y positivos la ma-yoría encontró dificultad para alinear las nuevas prácticas y sus valores.


182

La influencia más importante resultó ser la indagación colaborativa entre los maestros sobre sus prácticas […] que se puede extender más allá del aula por medio de redes dentro de la escuela y entre escuelas. Lo anterior depende en buena medida de las estructuras organizacionales, la cultura y el liderazgo. El reto clave para los directivos es, pues, crear el espacio y el clima para que el personal de las escuelas pueda reflexionar sobre su práctica y compartir esa reflexión (James, 2010: 169 y 170).

Para que puedan extenderse las nuevas prácticas será necesario, pues, que las instancias de dirección y supervisión ofrezcan un apoyo consistente, además de que estén presen-tes condiciones de trabajo y recursos de la escuela y el aula mínimamente suficientes, y que se remuevan los obstáculos que representan una normatividad inadecuada y evaluacio-nes externas de enfoque incompatible con el de evaluación formativa bien entendido. Así mismo, habrá que contar con el apoyo de los padres de familia, enterados de la importancia y el sentido de los cambios.

Un rasgo que aparece en todas las recomendaciones so-bre las características de un buen proceso de actualización para maestros en servicio es el que consiste en la confor-mación de una comunidad profesional de aprendizaje que, como hemos visto en la propuesta de Popham, debe ser un complemento fundamental de las actividades tradicionales, o incluso puede sustituirlas.

En este sentido Aschbacher (1993) sostiene que el punto de partida para modificar las prácticas de evaluación debe ser un proceso participativo de reflexión que involucre a maes-tros, directores y otros actores educativos en comunidades de aprendizaje para que sea posible cuestionar los conocimientos previos y entender suficientemente los nuevos enfoques y su sustento, teniendo en cuenta que el cambio no solamente debe referirse a los conocimientos de los profesores, sino también a sus actitudes, de tal forma que estén dispuestos a experimen-tar nuevas formas de trabajo, con el riesgo que ello supone.

Otro punto fundamental es que la actualización para la evaluación formativa no se puede quedar en aspectos teóri-cos. Ya se han visto ejemplos de comprensiones superficiales


183

de conceptos clave, las cuales ocultan la ausencia de cambios reales bajo la apariencia de una nueva terminología.

La búsqueda de referentes teóricos puede llevar a una visión cada vez más abstracta de la evaluación formativa, alejada de las realidades de la práctica en el aula. Por ello es esencial articular el trabajo teórico con el estudio de cómo se pone en práctica realmente la evaluación en el aula (Allal y Mottier-López, 2005: 251).

La obra de la ocde, en la cual aparece el texto anterior, precisa:

Los maestros necesitan traducir ideas abstractas –como las del aprendizaje centrado en el niño– en prácticas concre-tas. Programas vagos puramente conceptuales tienen pocas probabilidades de llegar lejos o durar mucho, especialmente porque los maestros son personas ocupadas que enfrentan demandas crecientes sobre su tiempo (Centre for Educatio-nal Research and Innovation, 2005: 89).

Conclusión

Para terminar este capítulo, conviene subrayar tres puntos que recogen ideas fundamentales en cuanto a la dificultad de introducir innovaciones que representen cambios importan-tes en prácticas arraigadas de los docentes:

• Poner en práctica buenas evaluaciones formativas re-sulta incompatible con un currículo demasiado exten-so, sobrecargado de contenidos, que obliga a los maes-tros a dedicar poco tiempo a cada tema y dificulta los complejos procesos que implica cambiar las concepcio-nes de los alumnos, desarrollar la confianza en sus pro-pias posibilidades de aprendizaje y las habilidades de autorregulación fundamentales para que jueguen un papel activo y productivo como corresponsables de la evaluación.

• Una buena evaluación formativa no se distingue de una buena enseñanza, una que sea verdaderamente


184

congruente con los principios de la pedagogía deriva-da de la revolución cognitiva: el constructivismo.

• La buena evaluación formativa o la buena enseñan-za constructivista suponen que el maestro pueda identificar la etapa de desarrollo cognitivo en que se encuentren sus alumnos y sustituir estructuras y pre-conceptos inadecuados por otros mejores.

En muchos casos no se puede dar por hecho que estos tres puntos se están cumpliendo; conseguirlo constituye un reto mayúsculo. No consiste en otra cosa hacer buenas eva-luaciones formativas.

¿Y cómo se podrá saber si los esfuerzos están dando re-sultados? Brookhart nos habla de lo que se puede considerar un indicio inequívoco al respecto: “Con buenas evaluaciones formativas basadas en el desempeño, la pregunta clave que plantean los alumnos deja de ser si cierto contenido vendrá en la prueba, para dar lugar a otra: ¿ahora qué más puedo aprender?” (2007: 56).

No habrá que olvidar, en todo caso, que “la mejor eva-luación anual del mundo no puede superar los problemas producidos por evaluaciones cotidianas de baja calidad” (Sti-ggins, 2001: 13).


185

Referencias

Allal, L. y Mottier-López, L. (2005). Formative assessment of learning: a review of publications in French (241-264). En Centre for Educational Research and Innovation, Formative Assessment. Improving Learning in Secondary Classrooms. París: oecd.

Andrade, H. y Cizek, G. (Eds.) (2010). Handbook of Formative Assessment. Nueva York: Routledge.

Anijovich, R. (Ed.) (2010). Evaluación significativa. Buenos Ai-res: Paidós.

Aschbacher, P. (1993). Issues in Innovative Assessment for Clas-sroom Practice: Barriers and Facilitators. Tecnical Report 359 359. Los Ángeles: ucla-cresst.

Black, P. (2010). Formative assessment (359-364). En Peterson, P. Baker, E. y McGaw, B. (Eds.) International Encyclope-dia of Education (3a Ed.). Ámsterdam: Elsevier-Academic Press.

Black, P. y Wiliam, D. (2004). The formative purpose: as-sessment must first promote learning (20-50). En Wilson, M. (Ed.), Towards Coherence Between Classroom Assessment and Accountability. Chicago: University of Chicago Press.

Brookhart, S. (2011). Educational assessment knowledge and skills for teachers. Educational Measurement: Issues & Prac-tice, 30(1), 3-12.

Brookhart, S. (2007). Expanding views about formative clas-sroom assessment: a review of the literature (43-62). En McMillan, J. (Ed.), Formative Classroom Assessment: Theory into Practice. Nueva York: Teachers College Press.

Carless, D. (2005). Prospects for the implementation of as-sessment for learning. Assessment in Education: Principles, Policy & Practice, 12(1), 39-54.

Campbell, J., Kyriakides, L., Mujis, D. y Robinson, W. (2004). Review of current research in teacher effecti-veness (41-58). En Campbell, R. (Ed.), Assessing Teacher Effectiveness: A Differentiated Model. Londres: Routledge Falmer.

Centre for Educational Research and Innovation. (2005). Formative Assessment. Improving Learning in Secondary Classrooms. París: oecd.


186

Darling-Hammond, L. (1999). Teacher Quality and Student Achievement: A Review of State Policy Evidence. Seattle: University of Washington.

Green, S., Smith J. y Brown, E. (2007). Using quick wri-tes as a classroom assessment tool: prospects and pro-blems. Journal of Educational Research & Policy Studies, 7(2), 38-52.

Harlen, W. (2007). Formative classroom assessment in scien-ce and mathematics (99-115). En McMillan, J. (Ed.), Formative Classroom Assessment: Theory into Practice. Nue-va York: Teachers College Press.

Hill, H., Rowan, B. y Ball, D. (2005). Effects of teachers’ mathe-matical knowledge for teaching on student achievement. American Educational Research Journal, 42(2), 371-406.

James, M. (2010). An overview of educational assessment (161-171). En Peterson, P., Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Ámster-dam: Elsevier-Academic Press.

Katzkowicz, R. (2010). Diversidad y evaluación (114-122). En Anijovich, R. (Ed.), Evaluación significativa. Buenos Aires: Paidós.

Marsh, C. (2007). A critical analysis of the use of formati-ve assessment in schools. Educational Research Policy & Practice, 6, 25-29.

McMillan, J. (Ed.) (2007). Formative Classroom Assessment: Theory into Practice. Nueva York: Teachers College Press.

McMillan, J. (2003). Understanding and improving teachers’ classroom assessment decision making: implications for theory and practice. Educational Measurement: Issues and Practice, 22(4), 34-43.

Osborn, M. y Raveaud, M. (2010). Classroom assessment in policy context (England and France) (425-431). En Peterson, P. Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Ámsterdam: Elsevier-Academic Press.

Peterson, P. Baker, E. y McGaw, B. (Eds.) (2010). International Encyclopedia of Education (3a ed.). Ámsterdam: Elsevier-Academic Press.

Popham, W. (2009). Assessment literacy for teachers: faddish or fundamental? Theory into Practice, 48, 4-11.


187

Reeves, D., (Ed.) (2007). Ahead of the Curve. The Power of As-sessment to Transform Teaching and Learning. Blooming-ton: Solution Tree Press.

Resnick, L. Wiliam, D., Apodaca, R. y Rangel, E. (2010). The relationship between assessment and the organization and practice of teaching (397-402). En Peterson, P. Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Edu-cation (3a ed.). Amsterdam: Elsevier-Academic Press.

Rindone, D. y McQuarrie, D. (2010). Strategies and policies for incorporating formative assessment into comprehen-sive and balanced state assessment systems (316-327). En Andrade, H. y Cizek, G. (Eds.), Handbook of Formative Assessment. Nueva York: Routledge.

Sadler, D. (1998). Formative assessment: revisiting the terri-tory. Assessment in Education: Principles, Policy & Practice, 5(1), 77-84.

Scates, D. (1943). Difference between measurement criteria of pure scientists and of classroom teachers. Journal of Educational Research, 37, 1-13.

Schneider, M. y Randel, B. (2010). Research on characteris-tics of effective professional development programs for enhancing educators’ skills in formative assessment (251-276). En Andrade, H. y Cizek, G. (Eds.), Handbook of Formative Assessment. Nueva York: Routledge.

Smith, E. y Gorard, S. (2005). “They dont’t give us our marks”: the role of formative feedback in student pro-gress. Assesment in Education: Principles, Policy & Practice, 12(1), 21-38.

Stiggins, R. (2008). Assessment Manifesto: A Call for the Deve-lopment of Balanced Assessment Systems. Portland: ets-ati.

Stiggins, R. (2007). Conquering the formative assessment frontier (8-27). En McMillan, J. (Ed.), Formative Clas-sroom Assessment: Theory into Practice. Nueva York: Tea-chers College Press.

Stiggins, R. (2001). Unfulfilled promise of classroom as-sessment. Educational Measurement: Issues & Practice, 20(3), 5-15.

Stiggins, R. y Conklin, N. (1992). In Teachers’ hands: Investi-gating the Practice of Classroom Assessment. Albany: suny Press.


188

Stobart, G. (2005). Lost in translation: moving from prin-ciples to policy to practice formative assessment. As-sessment in Education, 12(1), 3-5.

Sutton, R. (2010). Challenges of developing and implemen-ting formative assessment practices in schools (353-358). En Peterson, P. Baker, E. y McGaw, B. (Eds.), International Encyclopedia of Education (3a ed.). Ámsterdam: Elsevier-Academic Press.

Tierney, R. (2006). Changing practices: influences on clas-sroom assessment. Assessment in Education, 13(3), 239-264.

Wayne, A. y Youngs, P. (2003). Teacher characteristics and student achievement gains: a review. Review of Educatio-nal Research, 73(1), 89-122.

Wiliam, D. (2007). Content then process: teacher learning communities in the service of formative assessment (183-204). En Reeves, D. (Ed.), Ahead of the Curve. The Power of Assessment to Transform Teaching and Learning. Bloomington: Solution Tree Press.

Wilson, M. (Ed.) (2004). Towards coherence between classroom assessment and accountability. Chicago: University of Chicago Press.

Wilson, S. (2004). Student assessment as an opportunity to learn in and from one’s teaching practice (264-271). En Wilson, M. (2004), Towards coherence between classroom assessment and accountability. Chicago: University of Chicago Press.

Conclusión general

A lo largo de la historia las sociedades han estado formadas por grupos que se dedican a actividades diferentes y tienen acceso a satisfactores muy distintos en cantidad y calidad. La estratificación o las clases sociales son omnipresentes. De acuerdo a esto, los sistemas educativos se han organizado con base en el supuesto de que no todos los niños tienen la capacidad necesaria para alcanzar niveles complejos de com-petencia en lectura, escritura, matemáticas, ciencias y otras disciplinas que integran el currículo.

Hasta principios del siglo xx esto se reflejaba en la dis-tinción entre enseñanza de primeras letras, a la que todo niño debía acceder, y la enseñanza media y superior, re-servadas para una minoría. La expansión de los sistemas educativos ha consistido en un largo proceso por el que el acceso a la educación media, y luego a la superior, se ha incrementado paulatinamente. Esta tendencia forma parte de una mayor que, sin negar las diferencias individuales, postula que la gran mayoría de las personas tiene capacidad suficiente para desarrollar las competencias intelectuales considerablemente complejas que las economías modernas y las democracias maduras esperan de cada trabajador y cada ciudadano.


190

Lo anterior ha traído consigo importantes consecuen-cias para los sistemas educativos, particularmente para las concepciones de la evaluación. Según Katzkovicz, el educa-dor francés Philippe Perrenoud sostiene que

[…] hasta un período reciente la noción de igualdad de opor-tunidades no significaba otra cosa que el hecho de que cada uno tuviera acceso a la enseñanza, sin trabas geográficas o económicas, sin que se tuviera en cuenta su sexo o su condi-ción de origen. La escuela no se sentía responsable de los aprendizajes; se limitaba a ofrecer a todos la ocasión de aprender y ¡a cada uno le tocaba aprovecharla! Cuando Bloom, en los años sesenta del siglo xx, propuso una peda-gogía del dominio, señaló que, por lo menos en el nivel de la escuela obligatoria, “todo el mundo puede aprender”, y esto a condición de que se organice la enseñanza de manera [que se pueda] individualizar el contenido, el ritmo y las modalidades de aprendizaje en función de objetivos defini-dos con claridad. De pronto […] la evaluación llegaba a ser el instrumento privilegiado para una regulación continua de las interven-ciones y las situaciones didácticas. En la perspectiva de una pedagogía del dominio su papel ya no era el de fabricar je-rarquías, sino el de tener en cuenta las adquisiciones y los modos de razonar de cada alumno en la medida necesaria como para ayudarlo a progresar en el sentido de los objeti-vos. Contando con esta evaluación formativa, el profesor podría desplazar la regulación de su acción en el aula, no en función del grupo todo, sino en función de los aprendizajes de cada alumno en particular (Katzkovicz, 2010: 122).

Según Perrenoud, para tener sentido pleno es necesario que la evaluación formativa se desarrolle “en el marco de una estrategia pedagógica de lucha contra el fracaso y las des-igualdades” (Katzkowicz, 2010: 122), pero que este nuevo enfoque no siempre se lleva a la práctica en forma coherente y con la necesaria continuidad, porque para ello es necesa-rio “el marco de una pedagogía diferenciada basada en una política perseverante de democratización de la enseñanza” (Katzkowicz, 2010: 122).

ConClusión general

191

Otros promotores de la evaluación formativa deposi-tan grandes esperanzas en estos nuevos enfoques, de los que esperan efectos notables en cuanto a la mejora del aprendi-zaje. Richard Stiggins, por ejemplo, se refiere a los cambios que la evaluación formativa implica para el papel tanto de los maestros como de los alumnos, de la siguiente manera: en la evaluación del aprendizaje, el papel del maestro es el tradicional (hace evaluaciones cuidadosas y emplea prácti-cas correctas para calificar), pero en la evaluación para el aprendizaje su papel debe incluir una secuencia que comien-za con la confianza del docente en cuanto a que domina los estándares que deberán satisfacer las necesidades de sus alumnos, sigue con la desagregación de cada estándar en me-tas parciales de aprendizaje que constituyan el andamiaje que permita alcanzar el estándar, continúa con la formula-ción de una versión comprensible para compartirla con los alumnos desde el primer momento del proceso, luego pasa a la aplicación de evaluaciones de buena calidad que reflejen las metas parciales, y concluye con el uso de la evaluación junto con los alumnos, para monitorear sus avances a lo lar-go del tiempo.

En cuanto a los alumnos, Stiggins dice que en la eva-luación del aprendizaje su papel es el de siempre: estudiar duro y tratar de obtener las mejores calificaciones; y en la evaluación para el aprendizaje, en cambio, su papel consiste en tratar de entender qué es exactamente un producto bien logrado, y utilizar la evaluación para entender qué hay que hacer mejor en la siguiente oportunidad. Concluye que lo anterior lleva a una redefinición fundamental de la relación entre la evaluación y la motivación de los alumnos:

En lugar de basarse en la evaluación como fuente de infor-mación para decidir quién merece premio o castigo, o sea para distinguir los ganadores de los perdedores, la evalua-ción se usará como un mapa que dirija a los alumnos al éxi-to, con señales a lo largo del camino tanto para los alumnos como para sus maestros. El éxito en avanzar en el aprendi-zaje se vuelve por sí mismo el premio, fomentando la con-fianza y la persistencia. Esto cambia la dinámica emocional de la experiencia de evaluación en formas inmensamente


192

productivas para todos los alumnos, especialmente los que aún no alcanzan los estándares. El chico se vuelve bueno para escribir no para sacar una buena calificación, porque cree que puede hacerlo y es precisamente esta creencia lo que lo motiva (2007: 71 y 72).

En el segundo capítulo se comentó que las visiones más optimistas sobre los resultados de la evaluación formativa parecen sustentadas en evidencia no muy consistente, y que una perspectiva más crítica muestra que en muchas ocasio-nes la puesta en práctica de estos nuevos enfoques no da los notables resultados que textos como los de Richard Stiggins permitirían esperar. En el tercer capítulo se reflexionó sobre los muchos factores que inciden en las prácticas de los maes-tros, cuya compleja interacción hace comprensible la dificul-tad de modificarlas.

El problema que enfrenta todo maestro es que, una vez que detecta lo que un alumno ha logrado o no aprender, no por ello el docente sabe cómo hacer que aprenda lo que le falta. Es aquí donde radica la limitación fundamental de la evaluación formativa o sumativa: no basta detectar el pro-blema para resolverlo.

En unos casos la solución no es difícil en sentido pe-dagógico, aunque sea muy seria en el terreno práctico, por ejemplo si se tratara de que el alumno no tuviera oportuni-dad de aprender cierto contenido porque él mismo o el maes-tro estuvieron ausentes, o porque el tema no fue cubierto o ni siquiera lo incluye el currículo.

En otros casos el problema es más difícil de resolver por razones pedagógicas: cuando, pese a reiterados esfuerzos del maestro y del alumno, este último no puede alcanzar ciertas competencias cognitivas, en especial las más complejas. No se trata de que recuerde ciertos datos, sino de que sea capaz de inferir, relacionar, analizar, sintetizar, contrastar, concluir. Independientemente de que se deba a factores personales, familiares o escolares, hay alumnos que, pese a los mayores esfuerzos, no consiguen alcanzar los niveles de aprendizaje deseables.

Los resultados de los programas compensatorios de la década de 1960 mostraron que para mejorar en forma dura-

ConClusión general

193

dera los resultados de los niños más pobres, no bastaban apo-yos especiales durante algunas horas a la semana y durante pocos meses. Esfuerzos más recientes muestran también que apoyos que comiencen a aplicarse desde edades tempranas, los cuales se ofrezcan con intensidad suficiente y durante pe-ríodos de tiempo amplios, dan mejores resultados.

La investigación muestra también que una enseñan-za que se apegue realmente a los principios de la pedagogía constructivista consigue resultados superiores a los que se obtienen con las prácticas tradicionales. Los nuevos enfoques pedagógicos implican un trabajo muy diferente al habitual por parte de los docentes, que deben ser capaces de detectar los puntos débiles en los procesos cognitivos de cada alumno, para deconstruir los preconceptos y otros obstáculos que se oponen a los conocimientos más adecuados que el alumno debe construir.

Lo anterior permitirá evitar un error en el que se puede incurrir fácilmente en relación con la evaluación formativa. Un componente de ésta tiene que ver con el impacto afectivo al que tanta importancia da Stiggins. Es indudable que un impacto negativo puede ser demoledor para un estudiante, y que uno positivo favorece la autoestima y la continuidad de los esfuerzos de los aprendices, pero es necesario no sobredi-mensionar estos aspectos.

La confianza en sí mismo no siempre es suficiente para alcanzar ciertas metas, e incluso puede ser engañosa y, a me-diano plazo, decepcionante. La investigación ofrece bases sólidas para sostener que la motivación y la autoestima no bastan para producir desempeños sobresalientes.

Es el caso, sin duda, de cuando se trata de alcanzar metas ambiciosas, especialmente en contextos de carácter competiti-vo, en los que finalmente sólo una persona o un equipo puede alcanzar el triunfo. Sin un muy buen entrenador, excelentes jugadores, intensa preparación, e incluso algo de suerte, nin-gún equipo ganará una copa del mundo, por mucha moti-vación que tengan sus integrantes. Tampoco será suficien-te el mejor esfuerzo (echarle muchas ganas, como se diría coloquialmente) para dominar los aspectos más complejos de cualquier disciplina. Por ello el proceso de selección para ingresar a un programa de posgrado es razonable, ya que im-


194

porta verificar el dominio de ciertos prerrequisitos por parte de los aspirantes, de ahí que en estudios profesionales no son aceptables las prácticas de no reprobación (social promotion) que en educación primaria tienen mucho sentido.

Pero en el terreno educativo y sobre todo en los niveles básicos, no hay razón para trabajar con un enfoque competiti-vo similar al que prevalece en los deportes, ya que el propósito no es identificar al alumno que supere a los demás, sino lograr que todos alcancen al menos un nivel satisfactorio. Los objeti-vos de la educación básica no tienen que ver con los niveles de complejidad más altos, sino que se refieren a los conocimien-tos y habilidades que todo ciudadano debería manejar para poder participar adecuada y fructíferamente en la sociedad en que vive.

No todo ciudadano tiene que dominar las sutilezas de la filología, pero todos deberían tener competencias básicas en lectura y escritura. Al terminar secundaria todo joven de-bería ser capaz, por ejemplo, de captar el contenido de un diario o una revista con suficiente comprensión para for-marse un juicio propio sobre el asunto de que se trate, y redactar una página expresando en forma coherente algunas ideas. También debería haberse aficionado a la lectura en un grado tal que, además de lo indispensable por motivos labo-rales, dedique una parte de su tiempo libre a esta actividad simplemente por el gusto de hacerlo.

En forma similar, no todo ciudadano tiene que domi-nar temas avanzados de matemáticas, ciencias naturales o ciencias sociales, pero todos deberían tener competencias básicas en esas áreas. Al terminar secundaria los jóvenes no necesitan dominar el álgebra superior o el cálculo infinitesi-mal, ni tampoco la teoría de la relatividad o la bioquímica, ni tomar posición entre las disputas teóricas de historiadores y sociólogos, pero todos debería ser capaces, por ejemplo, de entender datos expresados en porcentajes o conceptos esta-dísticos básicos; comprender y disfrutar un texto de divul-gación científica; distinguir consistentemente un argumento científico de la charlatanería de los productores de horósco-pos o los que ven alienígenas por todas partes; así como com-prender los elementos básicos de un sistema democrático, las instituciones del estado y los derechos humanos.

ConClusión general

195

Para alcanzar esos niveles de competencia lectora, más allá de los enfoques que adopten sus maestros, desde los pri-meros años de la primaria los chicos deberán leer mucho, para que hacia el 3° o 4° grado logren hacer la transición de “aprender a leer” a “leer para aprender”, y para ello es necesa-rio que la enseñanza –y la evaluación– no los lleven a perder la esperanza de alcanzar esas metas.

Algo similar debe decirse de las demás áreas curricula-res; para ello los maestros no necesitan conocimientos ma-temáticos y científicos avanzados, pero sí las competencias necesarias para emplear modelos de enseñanza acordes con la pedagogía constructivista. Además deberán utilizar eva-luaciones formativas, para que sus alumnos reciban una re-troalimentación adecuada para seguir avanzando, reafirmen la esperanza de que son capaces de aprender y adquieran el gusto por conseguirlo en todas las áreas.

Una ciudadanía formada por egresados de secundaria con ese perfil estaría, sin duda, mejor preparada que la actual para enfrentar los retos del mundo del mañana; una educa-ción básica con esas características también prepararía mejor a los jóvenes para acceder con buenas perspectivas de éxito a la educación media superior y luego a la superior.

Para que lo anterior pueda hacerse realidad, teniendo en cuenta el contexto actual de la educación mexicana, y limi-tándonos a lo relativo a evaluación en el aula, es necesaria una estrategia que integre varios elementos que, retomando lo dicho en el tercer capítulo, pueden sintetizarse así:

• Actividades de actualización para maestros en servi-cio que den una visión adecuada de los enfoques de evaluación y la formación necesaria para desarrollar las competencias propuestas por Brookhart, así como para modificar las concepciones de los docentes.

• Actividades de actualización para maestros en servi-cio en lo que se refiere al conocimiento para la ense-ñanza de las áreas curriculares.

• Acciones orientadas a la transformación de las prác-ticas de los maestros en servicio, basadas en las ac-tividades de actualización antes mencionadas, pero con mayor duración, en comunidades de aprendizaje


196

y con acompañamiento de asesores técnico-pedagó-gicos calificados.

• Medidas de apoyo en el nivel de escuela y zona esco-lar que permitan poner en práctica las competencias adquiridas, por ejemplo la adecuación del tamaño de los grupos y el aseguramiento de tiempo para los maestros, entre otras.

• Medidas de apoyo en el nivel nacional y estatal que no obstaculicen la práctica de las competencias ad-quiridas. Algunas medidas particularmente relevan-tes son la flexibilidad curricular, para que no se le exija al maestro agotar los temas de un currículo ex-cesivamente amplio, y el abandono de los usos desa-fortunados de las evaluaciones a gran escala, que van en sentido contrario a la concepción educativa que supone la evaluación formativa.

• Actividades de formación inicial para futuros maes-tros similares a las antes descritas para los maestros en servicio.

La introducción del enfoque de evaluación formativa, en el sentido preciso que hoy se da a esta expresión, es relati-vamente reciente en el mundo, y muy reciente en el sistema educativo mexicano. La investigación al respecto, en especial la que se basa en diseños rigurosos, todavía no es muy abun-dante, pero ya ha dado lugar a una literatura importante, como se ha podido apreciar en estas páginas.

Además de la implicación lógica de que hay que redoblar los esfuerzos de investigación, la experiencia acumulada es ya una base razonablemente sólida para emprender intervencio-nes en aula que busquen enriquecer las prácticas docentes con estos nuevos enfoques de la evaluación, en el marco de una vi-sión igualmente renovada de la enseñanza y del aprendizaje.

Esperamos que esta revisión de la literatura contribuya a que surjan ese tipo de intervenciones, acompañadas de in-vestigaciones bien diseñadas que eviten las deficiencias de los trabajos más limitados del pasado, y permitan que las expe-riencias den frutos cada vez más jugosos.

ConClusión general

197

Referencias

Katzkowicz, R. (2010). Diversidad y evaluación (114-122). En Anijovich, R. (Ed.), Evaluación significativa. Buenos Aires: Paidós.

Stiggins, R. (2007). Assessment for learning: an essential foundation of productive instruction (59-76). En Reeves, D. (Ed.), Ahead of the Curve. The Power of Assessment to Transform Teaching and Learning. Bloomington: Solution Tree Press.

Primera edición 2012

Se terminó de imprimir en el mes de octubre de 2012,en Corporativo Gráfico, Filemón Alonso No. 210,Cd. Industrial, C.P. 20290, Aguascalientes, Ags..

Se imprimieron 2000 ejemplares.

El cuidado de la edición estuvo a cargodel Departamento Editorial de laDirección General de Difusión y Vinculación de la Universidad Autónoma de Aguascalientes.

LA EVALUACIÓNEN EL AULAPromesas y desafíos de la evaluación formativa

Documents

LA EVALUACIÓN EN EL AULA - | fmrizo.netfmrizo.net/fmrizo_pdfs/libros/L 50 2012 La Evaluacion en el Aula UAA.pdf · hacer de maestros y alumnos, y que la manera de realizarla tiene