25
MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART JARDí (*) RESUMEN. Se presenta el informe final de tres estudios integrados en una misma investigación, cuyos objetivos eran: profundizar en el conocimiento de las Pruebas de Acceso a la Universidad (PAU) en Catalunya, experimentar técnicas de segui- miento y obtener conclusiones, sobre la base de la investigación empírica y de la apli- cación de modelos estadísticos. El informe ofrece una visión general de la investiga- ción llevada a cabo, destacando la metodología desarrollada —modelos estadísticos y estrategias de análisis—, así como los principales resultados y las líneas de investiga- ción abiertas, tratándose con especial atención los aspectos relativos a la validez y fia- bilidad de los exámenes de COU y de PAU. La metodología desarrollada, basada en gran parte, en los modelos de coeficientes aleatorios, ha permitido contrastar una se- rie de preguntas relativas a dos de las principales fuentes de variación en el proceso de admisión a la universidad: los centros de secundaria y la corrección de los exámenes. INTRODUCCIÓN El presente informe resume tres estudios integrados en la tesis doctoral' de la auto- ra. Dicho trabajo ha consistido en el desa- rrollo y aplicación de técnicas estadísticas orientadas al estudio de las Pruebas de Acceso a la Universidad (PAU) en Cata- lunya. Se pretendía profundizar en el co- nocimiento del proceso, experimentar técnicas de seguimiento y obtener conclu- siones, sobre la base de la investigación empírica y de la aplicación de modelos es- tadísticos. El objetivo de este informe es ofrecer una visión general de la investigación lle- vada a cabo, destacando la metodología desarrollada —modelos estadísticos y estra- tegias de análisis—, así como los principa- les resultados y las líneas de investigación (*) Universidad Pompeu Fabra. (1) Esta investigación ha sido, en parte, financiada por DGES PB96-0300 y Concurso Nacional de Pro- yectos de Investigación Educativa 1995, Ministerio de Educación. (2) Models estadistics en avaluació educativa: les pro ves d'acres a la universitat, dirigida por Manuel Martí Recober y presentada en la Universidad Politécnica de Catalunya, en noviembre de 1998. Con motivo de la edición de un número monográfico dedicado a las Pruebas de Acceso a la Universidad en España, se publicó en esta revista (CuxART, et al., 1997) un avance de la investigación realizada. Revista de Educación, núm. 323 (2000), pp. 369-394 369 Fecha de entrada: 30-6-1999 Fecha de aceptación: 21 - 1-2000

MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

MODELOS ESTADÍSTICOS Y EVALUACIÓN:TRES ESTUDIOS EN EDUCACIÓN'

ANNA CUXART JARDí (*)

RESUMEN. Se presenta el informe final de tres estudios integrados en una mismainvestigación, cuyos objetivos eran: profundizar en el conocimiento de las Pruebasde Acceso a la Universidad (PAU) en Catalunya, experimentar técnicas de segui-miento y obtener conclusiones, sobre la base de la investigación empírica y de la apli-cación de modelos estadísticos. El informe ofrece una visión general de la investiga-ción llevada a cabo, destacando la metodología desarrollada —modelos estadísticos yestrategias de análisis—, así como los principales resultados y las líneas de investiga-ción abiertas, tratándose con especial atención los aspectos relativos a la validez y fia-bilidad de los exámenes de COU y de PAU. La metodología desarrollada, basada engran parte, en los modelos de coeficientes aleatorios, ha permitido contrastar una se-rie de preguntas relativas a dos de las principales fuentes de variación en el proceso deadmisión a la universidad: los centros de secundaria y la corrección de los exámenes.

INTRODUCCIÓN

El presente informe resume tres estudiosintegrados en la tesis doctoral' de la auto-ra. Dicho trabajo ha consistido en el desa-rrollo y aplicación de técnicas estadísticasorientadas al estudio de las Pruebas deAcceso a la Universidad (PAU) en Cata-lunya. Se pretendía profundizar en el co-nocimiento del proceso, experimentar

técnicas de seguimiento y obtener conclu-siones, sobre la base de la investigaciónempírica y de la aplicación de modelos es-tadísticos.

El objetivo de este informe es ofreceruna visión general de la investigación lle-vada a cabo, destacando la metodologíadesarrollada —modelos estadísticos y estra-tegias de análisis—, así como los principa-les resultados y las líneas de investigación

(*) Universidad Pompeu Fabra.(1) Esta investigación ha sido, en parte, financiada por DGES PB96-0300 y Concurso Nacional de Pro-

yectos de Investigación Educativa 1995, Ministerio de Educación.(2) Models estadistics en avaluació educativa: les pro ves d'acres a la universitat, dirigida por Manuel Martí

Recober y presentada en la Universidad Politécnica de Catalunya, en noviembre de 1998. Con motivo de laedición de un número monográfico dedicado a las Pruebas de Acceso a la Universidad en España, se publicó enesta revista (CuxART, et al., 1997) un avance de la investigación realizada.

Revista de Educación, núm. 323 (2000), pp. 369-394 369Fecha de entrada: 30-6-1999 Fecha de aceptación: 21 - 1-2000

Page 2: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

abiertas. Es también un objetivo de es-te informe el intentar contribuir a ladivulgación de los modelos de coeficien-tes aleatorios —también conocidos comomodelos de nivel múltiple—, en el ámbitode educación, en su calidad de instrumen-tos de análisis para el estudio de datos conestructura jerárquica. La metodología de-sarrollada, basada en gran parte en estetipo de modelos, ha confirmado las dife-rencias existentes entre los estándares apli-cados por los centros de secundaria en elCOU. Los indicadores propuestos paraevaluar el efecto centro son más eficientes yestables que los actuales (diferencia entreel promedio de cada centro en las PAU yen el COU), según se desprende del análi-sis de una muestra de centros del distritode Catalunya a lo largo de tres años.

La modelización propuesta para elanálisis y seguimiento de la calidad de lacorrección ha permitido evaluar su im-pacto en términos de la varianza debida ala severidad y de la varianza generada porla inconsistencia. Las técnicas de revisióny diagnosis del modelo han sido especial-mente útiles en la detección de «fuentes dediscrepancia» entre correctores.

La aplicación de un modelo multiva-riante multi nivel para explicar la variaciónconjunta de las notas del primer ejerciciode las PAU, revela que dentro de los

centros se dan comportamientos diferen-ciados, de manera que aunque algunoscentros globalmente destaquen por conse-guir en las PAU resultados por encima delpromedio, este hecho no conlleva que encada prueba —ni tan sólo en buena partede ellas— hayan obtenido también resulta-dos por encima del promedio general.

Resumiendo, en la investigación rea-lizada se han tratado con especial atenciónlos aspectos relativos a la validez y fiabili-dad de los exámenes COU y PAU, asícomo dos de las principales fuentes de va-riación en el proceso de admisión a la uni-versidad: los centros de secundaria y la co-rrección de los exámenes.

Las pruebas PAU son una etapa claveen el proceso de transición de la enseñan-za secundaria a la universidad'. Los exá-menes de las pruebas PAU 4 se basan en lasmaterias cursadas en el COU s . El estu-diante concurre a las PAU una vez que haaprobado todas las asignaturas del COUen el centro de secundaria en que las ha se-guido. Las pruebas PAU son, en este sen-tido, una segunda evaluación de la prepa-ración del alumno. Tratándose, en estecaso, de una evaluación externa al centro ycon un alto grado de homogeneidad: setrata de la misma prueba para todos losalumnos del distrito —en el caso de Cata-lunya, la misma prueba para todos los

(3) Para un tratamiento más profundo sobre el tema de la transición secundaria-universidad y en rela-ción a la reforma de las pruebas, véase el artículo de MARTI, et al., «El desarrollo de la LOGSE: las nuevas Prue-bas de Acceso a la Universidad», en Revista de Educación, 314 (1997), pp. 89-114.

(4) Para superar las pruebas, el estudiante ha de obtener una nota de acceso superior a 5 puntos. La notade acceso es la media aritmética entre la nota expediente (media aritmética de cuatro notas globales, correspon-dientes a los tres cursos de Bachillerato y al COU) y la nota PAU (media ponderada de las puntuaciones de ochopruebas, nueve en las comunidades autónomas con lengua propia), calculándose dicho promedio siempre quela nota PAU no sea inferior a 4.

(5) La investigación que presentamos se refiere a estudios realizados entre 1994 y 1998 para las promo-ciones del COU. Los resultados de la investigación puedan dar luz también sobre temas de interés en el sistemaeducativo LOGSE. De hecho, en 1997 iniciamos la aplicación de la modelización, que aquí presentamos, a lasprimeras promociones del Bachillerato LOGSE que realizaban las pruebas de acceso a la universidad. En estecurso 1999-00, se examinará en Catalunya la primera promoción al completo que ha seguido el nuevo Bachille-rato (junto con un reducido número de estudiantes que habrán repetido el COU). Los resultados sobre estasprimeras promociones del Bachillerato LOGSE serán motivo de una publicación específica.

370

Page 3: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

alumnos de los, aproximadamente, 400centros (unos 25.000 alumnos en 1993).

El primero de los estudios que se pre-sentan analiza la asociación entre las notasmedias individuales de COU y de lasPAU y la variación entre centros de dichaasociación.

El segundo estudio se centra en la in-vestigación de la calidad de la corrección enlas pruebas PAU. El objetivo es evaluar elimpacto de los correctores y detectar lospuntos débiles del proceso de corrección.Consta de un estudio empírico que per-mite experimentar una metodología deanálisis, y de un estudio cualitativo de ám-bito estatal que complementa las conclu-siones y preguntas surgidas en el anterior.Esta investigación formó parte de un pro-yecto6 de investigación financiado por elMinisterio de Educación. Se incluye eneste informe un resumen de las entrevistasrealizadas, en el marco de dicho proyecto,a los responsables de las PAU de seis dis-tritos universitarios.

El último estudio se ha dedicado, enun enfoque multivariante, a la exploracióndel vector de notas PAU En un intento dedesvelar la estructura interna y el papel decada una de las materias, se estudia la co-rrelación y la estructura de covarianza, anivel estudiante y a nivel centro, del con-junto de materias de las PAU.

La metodología seguida se ha basadoen la exploración de datos y la posteriormodelización estadística. Los datos' sehan obtenido a partir del muestreo aleato-rio de la población de centros de Catalun-ya y mediante el diseño de experimentosadecuados. En consecuencia, las conclu-siones que se derivan de la investigación

empírica deben limitar su alcance al dis-trito de Catalunya.

En la fase de análisis de datos, el soft-ware estadístico utilizado han sido lasaplicaciones estadísticas MINITAB ySPAD. En la fase de estimación de mode-los y diagnosis se ha combinado la utiliza-ción de la aplicación MIn 8 con programaselaborados por la autora.

PRIMER ESTUDIO: ASOCIACIÓNENTRE LA NOTA COU Y LA NOTA PAUINDIVIDUALES. EL EFECTO CENTRO

En primer lugar se plantea el estudio de lavariabilidad de la nota media que cada es-tudiante obtiene en las PAU —a la cual nosreferiremos como nota PA U—, así como ladeterminación de las posibles fuentes devariabilidad asociadas. En especial, puestoque tanto la nota COU como la nota PAUsirven para evaluar la preparación delalumno para su ingreso en la universidad,se aborda el estudio de la variación con-junta entre ambas puntuaciones. Las pre-guntas planteadas al inicio de la investiga-ción se concretaron en:

• ¿Todos los centros obtienen losmismos resultados en el COU y lasPAU? ¿Existen diferencias signifi-cativas desde el punto de vista esta-dístico?

• En el caso que la respuesta sea afir-mativa, además de conocer cual esla magnitud de la diferencia entrecentros y de identificar los centrosque en un sentido u otro se apartendel comportamiento medio, nos

(6) Los sistemas de corrección de las pruebas de Selectividad en España. Análisis y propuestas. Proyecto de Investi-gación Educativa. Convocatoria 1995. BOE 13-06-1995. Memoria final presentada en noviembre de 1998.

(7) Datos obtenidos gracias a la colaboración de la Oficina de Coordinació del COU i les PMU de Cata-lunya.

(8) Mln es un programa creado por The Multilevel Project del Institute of Education, University of Lon-don. Para más detalles sobre su funcionamiento, se puede consultar http://www.ioe.ac.uklmultileyel/

371

Page 4: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

interesará conocer a qué se debenlas diferencias observadas: ¿a lacomposición del alumnado?, ¿a ladiferente preparación que ofrecenlos centros? t•a la aplicación de cri-terios de evaluación no uniformes?Pero, ¿es estadísticamente posiblediscernir una causa de otra con losdatos de que disponemos? En todocaso, ¿qué información adicionalnecesitaríamos para poder discer-nir?

• ¿Existe asociación positiva entre lanota COU y la nota PAU de cadacentro, es decir, los centros de se-cundaria que en COU se mantie-nen por encima de la media, tam-bién hacen lo mismo en las PAU?

• En el caso que el comportamiento delos centros varíe, ¿cómo recoger lasdiferencias entre centros? Concreta-mente, ¿en cuál de los siguientes in-dicadores que actualmente se pro-porcionan a los centros, vale la penaponer más énfasis, en el sentido quereflejan diferencias significativas paraun número importante de centros?:

—Media de la nota COU de losalumnos del centro.

—Media de la nota PAU de losalumnos del centro.

—Diferencia entre ambas medias.La vertiente empírica de esta primera

investigación se ha basado en su mayorparte9 en una muestra aleatoria de 26 cen-

tros y 1.619 estudiantes. La muestra fueextraída a partir de la población de centrosde Catalunya (PAU de junio de 1993) yha sido estudiada a lo largo de tres arios.

El análisis exploratorio de los datosilustra las diferencias entre los resultadosde los exámenes COU y las pruebas PAU,sentando las bases para el estudio de laasociación entre ambas puntuaciones. Di-cha asociación varía de un centro a otro.La modelización de la nota PAU indivi-dual, por medio de modelos de regresiónde coeficientes aleatorios, permite eviden-ciar (y medir) las diferencias existentes en-tre centros de secundaria, diferencia quese materializa en el que se ha dado en lla-mar efecto centro. El primer capítulo de latesis contiene una detallada introduccióna los modelos de coeficientes aleatorios,también llamados modelos de nivel múl-tiple. La aplicación de estos modelos,complementada por su diagnosis, confir-ma la variabilidad entre los estándaresaplicados en COU.

El modelo de variación de dos niveles,en que los alumnos o unidades de primernivel aparecen agrupados en centros ounidades de segundo nivel, especificadopara la nota PAU y que llamaremos mode-lo (1), es el siguiente:

y,g = a + 13x,g Ug -4- E Ig

En este modelo, y,, es la nota PAU in-5dividual x g la nota COU correspondiente,i

(9) Todos los modelos introducidos en este estudio han sido posteriormente validados con una segundamuestra de 53 centros y 3.500 estudiantes (PAU de junio de 1995).

(10) Con frecuencia, los datos en educación —también, en Ciencias sociales— presentan una estructurajerárquica (cada estudiante pertenece a un centro donde comparte profesores, métodos de enseñanza...). Lasobservaciones o unidades del nivel inferior se agrupan en unidades del nivel superior, existiendo mayor homo-geneidad entre los datos de un mismo grupo que entre un grupo y otro. Los modelos estadísticos para este tipode datos han sido objeto de un intenso desarrollo en los últimos años. Véase AITKIN y LONGFORD (1986);Gowsuiri (1995); PLEWIS (1997) y KREFT y DE LEEUW (1998). En especial, el artículo de AITKIN y LONGFORD

(1986), en el cual los autores comparan la efectividad de un conjunto de centros, utilizando diferentes modelosestadísticos, representa un punto de partida en la investigación de modelos adecuados para el estudio de la varia-bilidad entre centros.

372

Page 5: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

u es el residuo específico del centro g (co-mún a todos los alumnos de dicho centro)y E,g es el residuo específico del alumno idel centro g. I As hipótesis sobre ugE Ig esque varían según una distribución cre pro-babilidad de media O y varianzaa„2 y a',respectivamente.

La diferencia entre este modelo y elmodelo habitual de regresión de un solonivel es .que el primero admite la posibili-dad de diferencias entre centros y permitela estimación de dos tipos de residuos (losdebidos a cada centro y los debidos a cadaalumno). El residuo u, del centro g es unamedida de la desviación de dicho centrorespecto del comportamiento promedio.De ahí que se proponga llamar a u, efectocentro. El efecto centro u, es el valor añadi-do que debemos sumar a la predicción ge-neral de nota PA Ua partir de la nota indi-vidual de COU por el hecho de procederde un centro en concreto. El modelo espe-cificado (1), en el cual se distingue unaprimera parte “ fija» seguida de una partealeatoria constituida por la suma de losdos residuos, admite una formulación al-ternativa como modelo de coeficientesaleatorios:

y,, = ag + í3Xig + ig

en que a, = a + u, es un coeficiente aleato-rio (no es fijo, compartido por todos loscentros, sino que varía de un centro a otrosegún una distribución de probabilidadde media a y varianza csj. Esta última for-mulación permite interpretar que, en elcaso de que la varianza de u, sea significa-tivamente distinta de cero, para cada cen-tro existe una recta de regresión identifi-cada por su ordenada en el origen ag. La

desviación de cada ordenada respecto dela ordenada media a es, precisamente, elefecto centro u,.

El análisis y aplicación de estos mo-delos a los datos de la muestra confirmóque el coeficiente p es fijo, común a to-dos los centros, mientras 'que el coefi-ciente ag es aleatorio, varía de un centro aOCIO.

La tabla I resume las estimacionesderivadas de la aplicación de diversosmodelos de variación de la nota PAU alos datos de la muestra citada. En la co-lumna de la izquierda se encuentran lasestimaciones de los coeficientes del mo-delo de regresión ordinario (modelo Aen la tabla I) estimado por el métodode Mínimos Cuadrados Ordinarios(MCO). A su derecha, las estimacionesderivadas del modelo (modelo B1 en latabla I) de descomposición de la varian-za de la nota PA U en dos niveles (varia-ción entre centros y variación entre es-tudiantes dentro de los centros). Elmodelo B2 es el modelo de regresión dela nota PAU sobre la nota COU de dosniveles. El modelo B3 es una ampliacióndel modelo anterior que incorpora lasvariables ex g licativas que identifican elgénero (GENMAS vale 1 para los hom-bres y O para las mujeres), si el estudian-te ha repetido o no el COU (REPCOUvale 1 en caso afirmativo y O en caso ne-gativo) así como la opción" cursada enCOU (por ejemplo, OPA vale 1 si el es-tudiante ha cursado la opción A y O encaso contrario). En la estimación de losmodelos de coeficientes aleatorios se hautilizado el método Iterativo de los Mí-nimos Cuadrados Generalizados,IMCG (Goldstein, 1995).

(11) En un primera estimación del modelo B3 de la tabla! y tomando como referencia base la opción C,del COU, se encontró que los resultados para la opción D no presentaban diferencias significativas. Los resulta-dos que aparecen en la tabla I son las estimaciones generadas por el modelo B3, después de prescindir de la va-riable OPD.

373

Page 6: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

TABLA I

Modelos de regresión de la variable nota PAU en relación a la variable nota COU y a una seriede variables binarias

Modelo AMCO

Modelo B IIMCG

Modelo B2IMCG

Modelo B3IMCG

Variables explicativasConstante —0.84 (.17) 5.24 (.10) —0.68 (.17) —0.36 (.18)Nota COU 0.90 (.03) 0.88 (.02) 0.85 (.02)G EN MAS 0.20 (.02)REPCOU —0.23 (.05)OPA —0.27 (.04)OPB —0.41 (.05)

VarianzasEntre centros, a ;,Entre estudiantes, cr2 0.706

0.22 (.07)1.03 (.04)

0.18 (.07)0.52 (.02)

0.18 (.05)0.48 (.02)

Gel.' de correlación intra-centros p — 0.175 0.25 0.27

Entre paréntesis las estimaciones de los errores estándar.Muestra de 26 centros. Datos de junio de 1993.

Un enfoque complementario, basadoen el estudio de la covarianza de las me-dias de COU y de PAU, de cada centro, através de un modelo bivariante de des-composición de la variación total en varia-ción entre centros y variación en los cen-tros permite, una vez estimado el modelo,discutir la eficiencia de algunos indicado-res educativos de los centros12.

Entre las conclusiones de este primerestudio, cabe destacar:

• Mientras que la media de la notaPA Uvaría significativamente entrecentros, la media de la nota COUapenas varía. Un 20%, aproxima-damente, de la variación total" dela nota PAU corresponde a varia-ción entre centros. Esta diferencia-

ción entre centros que presenta lanota PAU se incrementa al hacer laregresión de la nota PAU respectode la nota COU.

• En consecuencia, las diferenciasexistentes entre centros en cuanto alos resultados en las PAU no pue-den atribuirse solamente a la com-posición de su alumnado. Una po-sible explicación sería que loscentros se estuvieran rigiendo pordiferentes estándares en la prepara-ción y en la aplicación de criteriosde evaluación de sus estudiantes,ordenando a sus alumnos sin teneren cuenta un referente externo, in-troduciendo cada profesor (y cen-tro) su propio sesgo. Los centrosestarían puntuando con criterios y

(12) Para más detalles sobre los análisis y resultados de esta primera parte de la investigación, véase(CuxART, et al., 1997).

(13) En 1993 y para la muestra de centros en estudio, la media y la varianza de la nota PA Ufueron 5.30 y1.23, respectivamente. A su vez, para la nota COU, dichos valores fueron 6.75 y 0.68.

374

Page 7: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

escalas diferentes a pesar de que,como resultado, se obtengan distri-buciones de aprobados en COU si-milares de un centro a otro.

• El modelo de regresión de dos nive-les de la nota PAU versus la notaCOU que contempla el género, si elalumno ha repetido o no el COU,las opciones de COU y el tipo decentro (público o privado) nos llevaa una serie de conclusiones en cuan-to al papel predictor de estas varia-bles, que son coincidentes con otrosestudios realizados a nivel estatal(Muñoz-Repiso et al., 1991). La no-vedad de nuestro enfoque se encuen-tra en la utilización de un modeloque permite determinar el efecto de-bido al centro en la nota PAU indi-vidual, y que tiene en cuenta al mis-mo tiempo la nota COU delestudiante así como otras caracterís-ticas individuales y del centro.

• Se comprueba" que los estudiantesrepetidores de COU obtienen en lasPAU resultados, comparativamente,por debajo de sus compañeros. Lasmujeres obtienen resultados en lasPAU inferiores a lo que sería de espe-rar a partir del expediente de secun-daria. Ambos factores (género y re-petición de COU) se mantienensignificativos a lo largo de los tresarios estudiados, 1993-95. No seaprecian diferencias significativas enla nota PAU entre el conjunto decentros públicos y centros privados,en dicho período. En cambio, el fac-tor opción de COU no mantiene di-

cha estabilidad. Una posible explica-ción de este último hecho se encon-traría en que la dificultad de las prue-bas puede diferir de un ario a otro (lavariabilidad observada de las medias,por materias, de toda la población alo largo de los años pone en duda, asu vez, la constancia en el grado dedificultad de los exámenes de cadauna de las materias).

• El grado de asociación entre notasmedias de COU y de las PAU decada centro es muy débil (no pode-mos rechazar, desde el punto devista de la significación estadística,que la correlación entre dichas me-dias sea O), indicando que los cen-tros que en COU presentan unanota media alta, en relación a la po-blación de centros, no siempre lamantienen en las PAU, sino quepueden incluso pasar a obtener re-sultados por debajo del promedio.

• En cuanto a la «posibilidad» de or-denación de los centros a partir delos resultados académicos de susalumnos, se concluye que la orde-nación más informativa, la que per-mite incluir todos los centros, seobtiene a partir de la diferencia en-tre la media de la nota COU y lamedia de la nota PAU de cada cen-tro. Sin embargo, este indicadordel centro, que se ha venido utili-zando en muchas administracio-nes, no es —como hemos podidocomprobar a lo largo de los tresaños—, tan estable como el indica-dor 1 ' que se deriva de la aplicación

(14) Se estima, a partir de los datos, que los estudiantes repetidores de COU obtienen en promedio unanota PAU inferior en dos décimas de punto al resto de la población. Al mismo tiempo, en igualdad de condicio-nes en cuanto al resto de variables estudiadas, las mujeres obtienen en las PAU una nota inferior en dos décimasa la de sus compañeros, en promedio.

(15) Según dicho modelo, la varianza estimada del efecto centro es de 0.18. Los valores estimados del efec-to centro para los 26 centros de la muestra varían entre 0.71 para el centro mejor situado y —0.86 para el peor si-tuado (aquel que obtiene los peores resultados en las PAU en relación a las notas de sus alumnos ene! COU).

375

Page 8: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

del modelo de regresión multinively que hemos llamado efecto centro(u en el modelo [1]).

SEGUNDO ESTUDIO: LA CALIDADDE LA CORRECCIÓN EN LASPRUEBAS PAU. EXPERIMENTACIÓNDE UN SISTEMA DE SEGUIMIENTO

En el segundo estudio se analiza la calidaddel proceso de corrección de las pruebasPAU. La investigación pretende evaluar lacalidad de la corrección mediante el cálcu-lo de indicadores adecuados, desvelar lospuntos débiles del proceso de corrección yconocer el impacto de los mismos en el ac-ceso a la universidad.

Estudios anteriores" habían apun-tado la necesidad de evaluar la fiabilidadde dichos exámenes. A partir de un ex-perimento de doble corrección' 7 en elque participaron los correctores de Ma-temáticas y Filosofía de 18 tribunales,de las PAU de junio de 1995, se genera-ron los datos necesarios para un estudiosobre la fiabilidad de la corrección enambas materias. Un primer análisis delos datos ofrecía una clara evidencia dela discrepancia existente entre correcto-res así como de una mayor coincidenciaen los exámenes de Matemáticas que enlos de Filosofía. Por ejemplo, para un72% de los exámenes de Matemáticas, ladiferencia entre los dos correctores fueinferior o igual a un punto", mientrasque en Filosofía este porcentaje fue tansólo del 51%. La diferencia entre las doscorrecciones superó los dos puntos en

77 exámenes de Filosofía (21%) y en 14exámenes de Matemáticas (7% del totalde dicha asignatura).

La exploración inicial de los datosofrecía también indicios de la existenciade una componente sistemática en el errorde medida, componente que correspondíaa diferencias entre correctores en cuantoal grado de severidad.

El modelo de variación para la notaobservada' 9 que se propone a continua-ción, permite evaluar el impacto de los co-rrectores en términos de la varianza debi-da a la severidad y de la varianza generadapor la inconsistencia, ratificando las con-clusiones de la exploración basada en lasimple comparación de las notas de cadapar de correcciones.

Por severidad de un corrector, en-tenderemos la diferencia entre dos can-tidades no observables: da media del co-rrector (que conoceríamos si dichocorrector corrigiera todos los exámenes)y la media global» (calculable si todoslos exámenes fueran corregidos por to-dos los correctores).

De sobras es sabido que la discre-pancia no se debe solamente a los dife-rentes grados de severidad. Un mismoexamen al ser corregido por un correctorpuede obtener una puntuación diferen-te si se trata de uno de los primeros exá-menes que corrige o si el corrector ya lle-va corregidos un buen número de ellos.El cansancio puede influir en la agudezay en la atención. También el hecho dehaber visto el contenido de muchos exá-menes puede modificar el criterio ha-ciéndolo, a partir de un cierto momento,

(16) SANS (1989), MUNOZ-REPISO, et al. (1991), Memoria del C. de Universidad (1993), ESCUDERO(1994).

(17) Véase en CUXART, et al. (1997) los detalles del diseño y ejecución del experimento.(18) La escala de puntuación era de O a 10.(19) El modelo propuesto aparece documentado en LONGFORD (1995, cap. 2) en estudios sobre la fiabi-

lidad de la corrección de preguntas con respuesta abierta. Para más detalles sobre su aplicación, véase el artículocitado de CUXART, et al. (1997) donde se incluyen el análisis y los resultados relativos a 1995.

376

Page 9: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

más indulgente o más exigente que alprincipio. Esta segunda fuente de error,que engloba una serie de imperfeccionespresentes en el proceso de corrección, lallamaremos inconsistencia o «error nosistemático». La inconsistencia específicade cada examen y corrector sería la «des-viación de la puntuación otorgada res-pecto a la puntuación que en promediodicho corrector otorgaría al examen encuestión».

El modelo concreto de componentesde la varianza que se propone para expli-car la variación de la puntuación de unexamen es el modelo aditivo (2):

yig = U + Eli

siendo i = 1, 2,..., I el índice del examen oestudiante y j = 1, 2,..., J el índice del co-rrector. El número de puntuaciones queentran en el estudio es 21; y„ es la puntua-ción que el corrector j ha dado al exameni; 0, es la puntuación verdadera y no obser-vable del- examen i; f3, es la severidad delcorrector j; C„ representa la inconsistenciaespecífica de cada corrección. Se suponeque estos tres últimos términos están mu-

tuamente no correlacionados con mediasiguales a jA, 0 y O, y varianzas a t; yo,respectivamente. Según este modelo la va-rianza total de las notas observadas debe-rían igualar a la suma de las tres varianzascomponentes.

Una buena corrección requiere quelas componentes de la varianza relativas ala severidad y a la inconsistencia sean pe-queñas con relación a la varianza de lanota verdadera.

El estudio sobre la fiabilidad se am-plió en 1997 a dos materias más: Biologíay Literatura catalana. El estudio de esta se-gunda muestra ha corroborado los resul-tados de 1995 validando la modelizaciónadoptada y 'permitiendo, al mismo tiem-po, el inicio .del estudio de dos nuevos te-mas: la dificultad y la capacidad discrimi-nadora de las preguntas.

Los resultados de la estimación se in-cluyen en la tabla II, donde se puede vercomo la varianza debida a la inconsistenciaen el año 95 representa un 13% de la va-riación total en Matemáticas y un 34% enFilosofía. La severidad no se aprecia enMatemáticas pero en Filosofía correspon-de al 6% de la varianza total.

TABLA II

Estimación de las componentes de kt varianza de la puntuación observada:(Y entre notas verdaderas, &", varianza de la severidad,

varianza de la inconsistencia.

^ 2 63 Var. total

Junio 95Matemáticas 5.350 (86.5%) 0.011(0.2%) 0.827 (13.3%) 6.188Filosofía 2.475 (60.2%) 0.248(6.0%) 1.386(33.7%) 4.109

Junio 97Matemáticas 5.738(92.1%) 0.163 (2.6%) 0.329 (5.3%) 6.230Filosofía 1.390 (41.2%) 0.641 (19.0%) 1.342 (39.8%) 3.374Biología 2.462 (84.8%) 0.143 (4.9%) 0.299 (10.3%) 2.905Literatura cat. 2.134 (57.0%) 0.528 (14.1%) 1.085 (29.0%) 3.463

377

Page 10: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

En la tesis se han desarrollado diver-sas técnicas de diagnosis que permiten,mediante la comparación con la distribu-ción global, la identificación de correcto-res con influencia en el cálculo de la in-consistencia, correctores que adjudicannotas muy dispares, correctores que ad-judican notas demasiado similares entresí, correctores que discrepan ostensible-mente de sus parejas. La investigación hapermitido detectar puntos débiles en elproceso de elaboración y corrección delas pruebas PAU. La opcionalidad, exis-tente en la mayoría de exámenes (A o B),es uno de ellos. Se ha comprobado que elgrado de discrepancia entre correctorespuede variar, de forma notable, entre op-ciones de examen.

Entre las conclusiones que se derivandel estudio de 1997 en cuanto a la variabi-lidad en la corrección, cabe destacar:

• Se observa un comportamiento si-milar en las asignaturas de Mate-máticas y Biología en claro con-traste con Filosofía y Literaturacatalana.

• En relación al estudio de 1995, seobserva un aumento de la concor-dancia en la corrección de Matemá-ticas. Dado que en este período detiempo se han hecho esfuerzos paraconcretar las pautas específicas decorrección, podríamos inferir queestas pautas ayudan a reducir lasdiscrepancias entre correcciones y

sería menester incorporarlas enaquellas asignaturas que aún no dis-ponen de ellas.

• Aunque la prueba de Filosofíaconsta de 5 preguntas, valoradas endos puntos cada una, y la de Litera-tura catalana consta tan sólo de dospreguntas, valoradas en 5 puntoscada una, ambas materias presen-tan un patrón de descomposiciónde la variabilidad en la correcciónmuy similar.

• El examen de Biología muestra unafiabilidad muy alta, hecho que po-dría estar relacionado con su for-mato de preguntas de respuestamuy cerrada, con criterios de co-rrección muy precisos.

• En las asignaturas de Filosofía y Li-teratura catalana los correctoressólo disponen de los criterios gene-rales de corrección. Este hecho po-dría explicar el comportamientodiferenciado de un grupo de asig-naturas respecto al otro.

Se incluye a continuación, por suinterés como soporte cualitativo al estu-dio empírico presentado, un resumen delas entrevistas realizadas a los responsa-bles de varios distritos universitarios20.Las entrevistas tomaron como punto departida un cuestionario relativo a laspruebas PAU-COU, de junio de 1996,al que previamente habían dado res-puesta.

(20) Agradecemos la colaboración de los responsables de los distritos universitarios que a continuaciónseñalamos: Comunidad Autónoma de Madrid (que incluye la Universidad de Alcalá, UAM, Carlos III, UCM yUI'M, con un total de 41.155 estudiantes); Catalunya (que incluye la UAB, Universidad de Girona, UPC,UPF, URiV y Universidad de Lleida, con un total de 29.850 estudiantes); Zaragoza (los centros de Teruel yHuesca también pertenecen a la Universidad de Zaragoza que en total son 6.461 estudiantes); Comisión Inte-runiversitaria de Galicia, CiUG (A Coruña, Santiago y Vigo) con 14.616 estudiantes. El cuestionario tambiénse envió a otras universidades pero no se obtuvo respuesta.

378

Page 11: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

LOS SISTEMAS DE CORRECCIÓN DELAS PRUEBAS DE SELECTIVIDAD ENESPAÑA. ANÁLISIS Y PROPUESTAS

DATOS GENERALES

Todas las universidades, a excepción deCatalunya, dedican tres días a la realiza-ción de las PAU. El número de alumnospor tribunal suele ser superior a 500 enpromedio, excepto en las universidadesUPC y UPF de Catalunya, donde el nú-mero habitual es 200. Los correctores dis-ponen de 5 o 6 días para corregir y el pe-ríodo de reclamaciones suele ser tambiénde 5 días tal como establece la normativa.La publicación de las notas definitivas tie-ne lugar la segunda semana de julio. Elnúmero de alumnos que se examinaron enla convocatoria 96 ole las PAU-LOGSEfueron: 577 en Galicia, 410 en la UA/v1,700 en la UCM, 2.538 en Catalunya y810 en Zaragoza. El número de tribunalesfue, respectivamente: 1, 1, 1, 14 y 3.

ELABORACIÓN DE LAS PRUEBAS

En todos los distritos y para cada materiase nombra un profesor universitario comocoordinador responsable de la elaboraciónde la prueba, excepto en el distrito de Ma-drid donde, para cada asignatura, se for-ma un equipo con dos responsables decada universidad. Antes de darlos por de-finitivos, los exámenes son resueltos porpersonas que, en su mayoría, han partici-pado también en la elaboración de losmismos. La valoración del grado de difi-cultad de las preguntas se basa en el crite-rio del coordinador. No se utilizan refe-rencias empíricas 21 . En algunos distritos ycon posterioridad al examen, antes o des-

pués de su corrección, se recoge la opiniónsobre su dificultad. En Galicia, antes de lacorrección, se reúne el Seminario Perma-nente para establecer los criterios específi-cos. En Catalunya se recoge la opinión delos centros de secundaria a través de unaencuesta posterior a la entrega de notas.Tan sólo la UAM y para las asignaturas deLengua y Literatura, Historia y Filosofía,utiliza una base de datos con preguntas ymodelos de examen en la elaboración delos mismos.

SOBRE EL FUTURO (SISTEMA LOGSE)

En referencia a las novedades que presentala elaboración de los exámenes de laspruebas PAU-LOGSE, la mayoría de losentrevistados coinciden en destacar el he-cho que el temario de las pruebas no estéfijado por la universidad, la falta de defini-ción en muchas materias, la dificultad deincluir en las pruebas contenidos relativosa procedimientos, en definitiva, la com-plejidad del nuevo sistema y la escasa in-formación acerca de las enseñanzas impar-tidas en los centros.

En algunos distritos se han formadogrupos mixtos, universidad-secundaria,en aras de una mayor coordinación entrelos dos ámbitos y con la intención de con-cretar los contenidos y objetivos de laspruebas de acceso a la universidad. Entrelas propuestas de los entrevistados, señala-mos las más comunes:

• Establecimiento de un grupo esta-ble de profesores elaboradores delas pruebas. Coordinación de estegrupo de profesores con profesoresque están impartiendo clases. Pre-viamente, debería garantizarse unnivel mínimo de homogeneidad en

(21) Debe observarse que, puesto que las notas no se introducen en el ordenador teniendo en cuenta laopción de examen ni la puntuación de cada pregunta, es imposible, en la actualidad, hacer un seguimiento em-pírico, ni tan siquiera para una muestra, de la dificultad de cada pregunta y cada opción de examen.

379

Page 12: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

la interpretación de los temarios aimpartir en el Bachillerato.

• Reducción del número de asigna-turas objeto de examen. Adecuarlas materias de examen al accesouniversitario.

• Avanzar hacia un formato de exa-men, al menos en parte, de pregun-tas de respuesta cerrada. Abarcar enel examen la casi totalidad del te-mario exigido. Limitar la opciona-lidad o, al menos, racionalizarla.

• Realizar pruebas piloto para cono-cer la dificultad cíe las preguntas.Elaborar unos criterios de correc-ción más precisos. Para aseguraruna uniformidad de criterios en lacorrección de las preguntas de res-puesta abierta, se propone la elabo-ración de pautas de correcciónaplicadas al examen concreto, asícomo la realización de reunionescon los correctores. Debería arbi-trarse un mayor seguimiento de lasactuaciones de cada corrector. Sepropone separar la labor de vigilan-cia de la labor de corrección —en al-gunos distritos, como CiUG, ya seestá realizando.

En conclusión, según se desprende delas opiniones de los entrevistados, los últi-mos años del COU cierran un período en elque se ha hecho un avance importante en:

• Estandarización: la mayoría de losdistritos universitarios elaboran unúnico examen para todas las uni-versidades y tribunales.

• Anonimato: se han arbitrado siste-mas que garantizan el anonimatodel estudiante y del corrector (algu-nos sistemas son mejores que otros).

• Informatización: poco a poco sehan ido informatizando todos lossistemas con una ganancia conside-rable en tiempo, seguridad e infor-mación.

Los responsables de las PAU, sin em-bargo, son conscientes de las imperfeccio-nes que permanecen en el sistema de eva-luación: discrepancia entre correctores deuna misma materia, falta de homogenei-dad en los planteamientos y evaluacionesde las diferentes pruebas, diferencias en loscriterios y escalas de evaluación en aquellaspuntuaciones que son responsabilidad delos centros de secundaria. A la preocupa-ción por reducir las imperfecciones citadasse añade la entrada en vigor de una nuevasecundaria (la ESO y el BachilleratoLOGSE) y la necesaria adecuación de laspruebas de acceso a la universidad.

Coinciden los responsables de lasPAU en señalar la necesidad de fijar loscontenidos de las materias evaluables enlas PAU-LOGSE. Al mismo tiempo, que-rrían sacar más partido de la informacióngenerada por estas pruebas. En general, seacusa la falta, en mi opinión, de un plande control de la calidacf.del sistema de eva-luación, así como de seguimiento de lasnovedades y mejoras que se vayan intro-duciendo.

TERCER ESTUDIO: ESTRUCTURA DECOVARIANZA DEL CONJUNTO DEPUNTUACIONES PAU. ELEMENTOSDE ANÁLISIS ALREDEDOR DE LANUEVA FÓRMULA DE ACCESO

En el momento en que se inició este estu-dio, las pruebas de acceso a la universidad,para los estudiantes del BachilleratoLOGSE, habían sido reguladas de maneraprovisional. Las propuestas sobre cuál de-bería ser su diseño (materias, contenidos,ponderaciones, criterios de evaluación)apuntaban hacia una doble prueba: unaprueba común, genérica, de madurez aca-démica y una prueba específica o de conte-nidos sobre los conocimientos adquiridosen el Bachillerato y que estaría relacionadacon los estudios universitarios que elalumno deseera cursar. En las actuales

380

Page 13: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

pruebas PAU, que siguen los estudiantesque han superado el COU, ya se observa-ba esta doble orientación. El primer ejer-cicio, con un carácter más general y el se-gundo, determinado por las materiasespecíficas de la opción de COU cursada.

La discusión generada sobre las fun-ciones22 y estructura del nuevo examen erauna invitación a la reflexión sobre las fun-ciones de las PAU del COU y el análisisdel comportamiento del conjunto de laspruebas, a la luz de los datos existentes.Este último ha sido el motivo del estudioque se presenta: explorar la estructura delvector de notas PAU del COU, conocer lacapacidad discriminadora de cada pruebay cada ejercicio, así como el grado de aso-ciación entre las diferentes pruebas. El in-terés se ha centrado no solamente en la va-riación total de las notas sino también enlas diferencias entre centros.

Una de las funciones de las pruebasde acceso es ubicar a los estudiantes ade-cuadamente, ordenarlos en función desus aptitudes y conocimientos demostra-dos en el examen y reflejados en el expe-diente académico. Una de las «virtudes»que ha de satisfacer una prueba comoésta es la de ser discriminadora, en el sen-tido que separe correctamente los estu-diantes. No es bueno 9ue una prueba«iguale»' alumnos con niveles diferentesde conocimientos y/o aptitudes. El siste-ma debería «aprovechar al máximo la in-formación disponible». Por ejemplo, sidos asignaturas están midiendo las mis-mas habilidades o conocimientos y ade-más presentan una correlación alta perouna de ellas está calificada con mas fiabi-lidad que la otra, sería recomendable eva-luar únicamente la de mayor fiabilidad o,en todo caso, evaluar ambas, asignándo-les pesos diferentes al calcular una notaagregada. La idea subyacente es clara: el

proceso de evaluación ha de ser el máseficiente posible. Está claro que previa-mente deberíamos saber qué se pretendeevaluar, comprobar que las pruebas real-mente evalúen las habilidades o conoci-mientos especificados (validar las prue-bas) y conocer la fiabilidad del proceso.

La actual nota de acceso a la universidades la media aritmética de la nota PAU y lanota expediente del alumno. La nota PA Uesla semisuma de dos notas agregadas que lla-maremos, respectivamente, nota primerejercicio y nota segundo ejercicio.

La nota primer ejercicio es una mediaponderada de las pruebas que componenel primer ejercicio: Comentario de texto,Lengua catalana, Lengua castellana, Len-gua extranjera y Filosofía. Las pruebas delprimer ejercicio tienen como finalidadevaluar la madurez y formación generaldel alumno. Es de interés observar si todasestas pruebas correlacionan entre sí, y porun igual, con la nota primer ejercicio,como sería de esperar si todas ellas estuvie-ran midiendo el factor madurez del estu-diante.

La nota segundo ejercicio es la mediaaritmética de las cuatro pruebas que com-ponen el segundo ejercicio. Las pruebasde este ejercicio tienen como finalidadevaluar la formación específica del alum-no en las materias de la opción escogida.Estas cuatro pruebas corresponden a lascuatro asignaturas específicas cursadas porel alumno en el COU: dos son las mate-rias obligatorias de la opción y las otrasdos las escogió el alumno entre las optati-vas de la opción de COU.

Las preguntas planteadas al inicio deeste estudio se concretaron en:

• Cuál es la dimensionalidad de laspruebas? ¿Qué información aportanlos dos ejercicios? ¿Son diferentes?

(22) Véase MARTÍ, eral. (1997) y MuÑoz-Rernso, eral. (1997).

381

Page 14: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

• ¿Cuáles son las materias o agrega-ciones que mejor discriminan (se-paran los estudiantes) a nivel glo-bal? ¿Qué materias o agregacionespresentan diferencias entre cen-tros? ¿Qué materias o agregacionespresentan diferencias entre estu-diantes dentro de los centros?

• ¿Cómo es la relación entre los re-sultados de las diferentes materias?¿Es homogénea dicha relación, omás bien, se dan diferencias segúngénero, opción de COU, tipo decentro, haber repetido o no elCOU?

• ¿Qué ponderaciones son «razona-bles» en la situación actual?

Para el estudio de la variación total sehan aplicado técnicas clásicas de análisisexploratorio, como el Análisis de Compo-nentes Principales (ACP), que han permi-tido poner en evidencia la capacidad «se-paradora» de cada prueba y de cada notaagregada (nota de las pruebas comunes,nota de las pruebas específicas de la op-ción, nota PA U,...), destacando las dife-rencias que se observan en cuanto al papelde cada bloque de pruebas, en los cuatrogrupos de estudiantes, que se derivan de laopción de COU escogida. Para el estudiode la variación entre centros se especificóun modelo multivariante que distingue lavariación, a nivel centro, de la variación anivel estudiante.

Los datos utilizados en este estudioproceden de la muestra de 26 centros deldistrito de Catalunya, presentada en el

primero de los estudios y analizada a lolargo de tres años.

ANÁLISIS EXPLORATORIO

Entre las conclusiones que se derivan delos Análisisn de Componentes Principales(ACP), por opciones, de las notas PAU,cabe destacar:

• Un hecho común a los cuatroanálisis es la pobreza de la repre-sentación (el porcentaje de va-rianza que recogen los dos prime-ros ejes ronda el 50%) y el papeldel primer eje o factor rendimien-to, que separa los estudiantes conmejores resultados de aquellosque, en general, los obtienen peo-res. El primer eje está relacionadocon las asignaturas comunes ycon las obligatorias de la opción(sobretodo con las tres Lenguas).El segundo eje separa, tanto en laopción A como en la B, las mate-rias específicas de las tres Len-guas. En la opción C, el segundoeje viene definido por Matemáti-cas II, prueba que también pre-senta una correlación alta con elprimer eje. El segundo eje, en laopción D, no presenta ningunaasociación relevante.

• Las pruebas del primer ejerciciocorrelacionan débilmente entre sí(valores alrededor de 0.3). En par-ticular, la prueba de Comentario

(23) Con anterioridad, T. NET (1996) había estudiado los resultados de COU y PAU, de los estudiantesde la muestra, con una atención especial a la matriz de covarianza de las notas PAU por materias. Net realizó dosanálisis ACP tomando como variables activas las puntuaciones de COU, en primer lugar, y las de PAU, poste-riormente. En el ACP de las notas COU los porcentajes de inercia que recogen el primer y el segundo eje son,respectivamente, 37.6% y 12.6%. En el ACP de las notas PAU, dichos porcentajes son 24.3% y 11.1%. En am-bos casos aparece un primer eje de rendimiento académico o nivel del estudiante y un segundo eje que separa lasasignaturas de ciencias de las de letras. El análisis de la nota PAU permite distinguir los resultados de los alum-nos según el género, si son o no repetidores de COU, la opción de COU y el tipo de centro, sugiriendo, al mis-mo tiempo, la necesidad de estudiar por separado las cuatro opciones de COU.

382

Page 15: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

de Texto24 presenta correlacionesmuy bajas (alrededor de 0.2), in-cluso negativas, con el resto depruebas de dicho ejercicio. Unaexplicación para este hecho podríaser que esta prueba (nos referimosexclusivamente al distrito de Ca-talunya) esté valorando aptitudesmuy diferentes del resto de exáme-nes. Nosotros nos inclinamos apensar que, por un lado, la pruebase puede mejorar tanto en su for-mato como en sus criterios de co-rrección y por el otro, que el entre-namiento que han recibido losalumnos es muy diverso.

• El hecho de que las pruebas delprimer ejercicio aparezcan pococorrelacionadas entre sí, siendoéste un resultado común a otrosestudios de ámbito estatal, se po-dría interpretar como que dichaspruebas estén valorando aspectosdiferentes de la preparación" delestudiante.

• Del análisis del grado de correla-ción entre el primer eje factorial ylos resultados de las pruebas (pri-mer y segundo ejercicio), cabedestacar que mientras en las op-ciones A y B el primer eje está máscorrelacionado con el segundoejercicio que con el primero, en laopción C, la correlación es prácti-camente la misma con los dos

ejercicios, y en la D, justamenteal revés.

• Las materias que más influyen enla ordenación de los alumnos, enlas PAU, son Matemáticas I, enlas opciones A y B, y MatemáticasII e Historia del mundo contem-poráneo, en la opción C. Cabedestacar que, al mismo tiempo y alo largo de los tres arios estudia-dos, estas tres materias se encuen-tran entre las de nota media glo-bal más baja.

• En cuanto a los grupos que pre-sentan diferencias al realizar losanálisis ACP del vector de notaPAU, cabe destacar los siguientesaspectos:

—El ser repetidor es el efecto másimportante. Se podría interpre-tar que el nivel exigido enCOU es alto y requiere unapreparación adquirida con an-terioridad.El tipo de centro (público o pri-vado) también presenta dife-rencias. El análisis de la notaCOU y la nota PAU (primeraparte de la tesis) no señalaba di-ferencias significativas entre es-tos dos tipos de centros. Encambio, al estudiar el vector denotas PAU sí se revelan dife-rencias entre centros públicos y

(24) Parece ser que la prueba de Comentario de texto, en Catalunya, presenta diferencias respecto delresto de distritos universitarios. Según un estudio (MuÑoz-REPIso, et al., 1997) realizado por el equipo que di-rige Mercedes Muñoz-Repiso, del CIDE, a partir de los resultados de las pruebas PAU de junio de 1995, de12.117 estudiantes procedentes de 130 centros adscritos a la UAM, en las cuatro opciones, la correlación entreComentario de texto y el resto de pruebas del primer ejercicio toma valores alrededor de 0.3. Este mismo estu-dio, al comparar los resultados de las diferentes universidades del Estado revela que en Catalunya se dan los por-centajes de aprobados, en Comentario de texto, más bajos de todo el Estado. En la mayoría de universidades delresto del Estado esta prueba es la que obtiene el porcentaje más alto de aprobados.

(25) Los datos estadísticos sugieren en este caso preguntas pero no ofrecen respuestas. Se plantea la nece-sidad de definir qué se entiende por madurez, cómo evaluarla y si las actuales pruebas de acceso están diseñadaspara tal evaluación. ¿La madurez tiene una única dimensión? ¿Qué dice al respecto la psicología y, en particular,la psicometría?

383

Page 16: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

privados. Un elemento que di-ferencia los centros privados,de los públicos, es que en estosúltimos el porcentaj e de repeti-dores es mucho mayor, siendo,como hemos dicho, los alum-nos repetidores los que obtie-nen los peores resultados en lamayoría ncle pruebas.

— El género. En especial, en la op-ción A, los resultados de las mu-jeres son inferiores a los de suscompañeros. ¿El tipo de examenlas perjudica?

MODELIZACIÓN: DESCOMPOSICIÓN DE LAVARIACIÓN TOTAL

A continuación se resume el modelo espe-cificado y los resultados obtenidos en elestudio conjunto de las materias del pri-mer ejercicio.

En primer lugar, la aplicación de unmodelo de efectos aleatorios, sin cova-riances, a cada una de las pruebas del pri-mer ejercicio, por separado, permitiódescomponer la variación total en varia-ción entre centros (entre medias de loscentros) y variación dentro de los cen-tros (entre sus estudiantes) y la consi-guiente estimación del valor del coefi-ciente de correlación intra-centros p encada prueba. Los resultados de dicha es-timación se encuentran en la tabla III.Los valores del coeficiente(' p, sugeríanla conveniencia de aplicar modelos mul-tinivel para el estudio de las posibles di-ferencias entre centros. Al mismo tiem-po, puesto que el interés también secentraba en el estudio de la asociaciónentre materias, se planteó la necesidadde formular un modelo multivariante.En consecuencia, la elección recayó enlos modelos multinivel multivariantes(Goldstein, 1995).

TABLA III

Variación total y variación entre centros para cada materia de/primer ejercicio

Lenguacatafana

Lenguacastellana Filosofía Lengua

extranjeraComentario

de texto

Varianza total 3.846 2.744 3.113 3.782 2.482Varianza entre centros 0.935 0.574 0.473 0.391 0.592Coef. Corr. intra-centros p 0.24 0.21 0.10 0.15 0.23

Muestra: 26 centros.unio 1993.

(26) Con valores por encima de 0.10, en todas las materias, y superior a 0.20, en tres de ellas, según se re-coge en la tabla III. El coeficiente de correlación mira -grupos, que ya apareció en el primer estudio de este infor-me, se suele representar con la letra del alfabeto griego p. Es una medida de la homogeneidad de los grupos enrelación a toda la población. En situaciones de dos niveles (estudiantes y centros, por ejemplo) el coeficiente decorrelación intra -centros se interpreta como la proporción de variación total observada que corresponde a varia-ción entre centros. En presencia de correlación mira, la hipótesis de independencia entre observaciones, tradi-cional de los modelos de regresión, no se satisface. Se puede estimar el coeficiente de correlación intra -grupos através de un análisis de la varianza ADEVA clásico o vía descomposición de la variación total por un modelo deefectos aleatorios con ausencia de covariances (SEAFtLE, 1991).

384

Page 17: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

Para el estudio de la variación conjun-ta de las cinco pruebas comunes que cons-tituyen el primer ejercicio de las PAU, seespecificó un modelo multivariante mul-tinivel que descompone la matriz de va-rianzas y covarianzas residual en variaciónentre centros y variación dentro de loscentros y que permite, al mismo tiempo,estimar para cada materia el efecto ukg de-bido al centro y el efecto E k , g específico decada alumno en la nota observada (el sub-índice k representa cada una de las cincomaterias, el subíndice i se refiere al estu-diante y el subíndice g al centro de secun-daria en que ha cursado el COU). Los pa-rámetros correspondientes a las varianzasy covarianzas de estos efectos aleatoriosforman la matriz de variación entre cen-tros y la matriz de variación entre estu-diantes. Dichas matrices son un elementoclave en el estudio de la variación conjun-ta (Longford, 1994). El modelo (3) encuestión es:

X lig = 11 1 EPrYrig +111g

X 5ig = 11 5

PrYrig -1-11 5g +g5ig

Según se desprende de los análisisACP de las puntuaciones PAU, el factorgénero así como el factor repetidor, el tipode centro y la opción de COU son ele-mentos significativamente diferenciado-res. De ahí que en el modelo (3) se incor-poren para cada respuesta una serie devariables explicativas y r ,g , binarias en este

caso, que recogen las características cita-das. En el modelo (3) se distingue unaparte de efectos fijos, integrada por las p,que representan las medias de las catego-rías base (alumna no repetidora de centroprivado que cursa la opción D) en cadamateria y por los parámetros 0, que repre-sentan los efectos principales debidosa las diferentes categorías (alumno versusalumna, público versus privado, repetidorversus no repetidor, opción A/B/C versusD) y una parte de efectos aleatorios inte-grada por los u kg y, los Ek,g . En ausencia decovariantes, las p., representan el paráme-tro media de cada materia.

Se ha estimado el modelo (3), desde laversión más simple, que admite solamentevariación entre estudiantes, hasta la ver-sión más compleja, que admite, también,variación entre centros e incorpora varia-bles explicativas. La tabla IV recose los re-sultados de la estimación muluvariantemultinive1 27 . De la información que se de-riva de las tablas III y IV, cabe destacar:

• Las pruebas del primer ejercicio queen la exploración inicial presentanmás variabilidad de resultados sonLengua catalana (varianza totaligual a 3.85) y Lengua extranjera(3.78). Las medias de los centros va-rían significativamente en todas laspruebas del primer ejercicio. Las di-ferencias más acusadas, entre cen-tros, se dan en Lengua catalana (va-rianza entre centros igual a 0.94) yen el Comentario de texto (0.59).

(27) Las estimaciones de la tabla IVcorresponden al modelo que ofrece un mejor ajuste a los datos de lamuestra. En los modelos de nivel múltiple, la significación de los parámetros fijos se suele analizar —siempreque se disponga de una muestra suficientemente grande de datos, como en el caso que nos ocupa— a partir delcriterio común (distribución del estadístico aproximadamente normal) de dividir la estimación por el error es-tándar. Si el cociente es superior a 2, se considera el parámetro como significativo. En el caso de coeficientesaleatorios de los que queremos estimar su varianza o covarianza, no es aconsejable hacer uso exclusivo del crite-rio anterior (GOLDSTEIN, 1995). Es mejor tener en cuenta, al mismo tiempo, la información que suministra eltest de la razón de verosimilitud, que compara el ajuste de los datos observados a los modelos estadísticos que re-sultan de incluir o no los parámetros en cuestión. Éste ha sido el método seguido en la selección del modelo devariación para nuestros datos.

385

Page 18: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

TABLA IV

Estimaciones resultantes de la aplicación del modelo (3) de descomposición de la variaciónconjunta para las pruebas que integran el primer ejercicio de las PAU

Lenguacatafana

Lenguacastellana Filosofía Lengua

extranjeraComentario

de texto

Efectos principalesMedia categoría base 5.07 6.12 4.85 5.43 5.78Repetidor de COU -1.05 -0.82 -0.67 -0.87 -0.31

Variación entre centrosLengua catalana 0.69Lengua castellana - 0.44Filosofía - - 0.45Lengua extranjera - - 0.33Comentario de texto - - - 0.51

Variación intra centrosLengua catalana 2.74Lengua castellana 0.32 2.05Filosofía 0.23 0.27 2.57Lengua extranjera 0.25 0.32 0.22 3.24Comentario de texto 0.23 0.23 0.19 0.25 1.87

En la diagonal las varianus, debajo las correlaciones.Muestra de 26 centros, junio de 1993.Todas las estimaciones que aparecen en la tabla son significativas, para un nivel de significación de 0.05.

Dentro de los centros, las materiasque presentan más diversidad depuntuaciones son Lengua extranje-ra's (varianza entre estudiantes den-tro de los centros igual a 3.24) yLengua catalana (2.74).

• En el modelo de variación que nocontempla variación entre centros,las covariantes opción de COU, gé-nero, tipo de centro y ser o no repeti-dor de COU, tienen un efecto signi-ficativo en las pruebas del primer

ejercicio. Al admitir la existencia devariación entre centros (como en laversión más completa del mode-lo (3)) desaparecen los efectos de to-das estas covariantes, a excepción delser o no repetidor de COU. Este he-cho abona la necesidad de considerarel modelo multinivel: los efectos esti-mados en el modelo de un solo nivelse debían al comportamiento sin-gular29 de algunos centros y no res-pondían a un comportamiento más

(28) Para más de un 95% de los estudiantes se trata de Lengua inglesa.

(29) El análisis detallado de los efectos centro, en cada materia, puso en relieve, por ejemplo, que un bajorendimiento femenino (en promedio) en Lengua catalana, se debía a la existencia de un centro de secundaria de40 chicas que habían obtenido los peores resultados en esta asignatura. Al admitir diferencias entre centros, de-sapareció este efecto global (y ficticio) siendo capitalizado por el correspondiente efecto debido al referido centroen dicha asignatura.

386

Page 19: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

general de los alumnos. El ser repeti-dor tiene un efecto negativo en losresultados de las cinco pruebas (losrepetidores obtienen notas, alrede-dor de un punto en cada una de lasLenguas y 0.7 puntos en Filosofía,por debajo de sus compañeros).

• Por materias, no se han estimadocorrelaciones significativas entrelas medias de los centros. El hechode que un centro se sitúe por enci-ma de la media en una asignaturano lleva asociado que ocurra lomismo en otra asignatura. La esti-mación vía estimadores encogidos(Longford, 1994) de los efectos de-bidos a los centros en cada materiaconfirma este comportamiento nouniforme de los centros: no encon-tramos centros con resultados porencima de la media global en todaslas materias, o por debajo de la me-dia en todas. Sí destacan, en cam-bio, algunos centros que para algu-nas ce las materias 'presentanresultados muy alejados del com-portamiento general. Quizás seríamás adecuado hablar de efecto pro-fesor que de efecto centro...

cluso si las calculamos para los estudiantesde una misma opción. De ahí que los análi-sis de componentes principales deban serconsiderados tan sólo como elementos deayuda en la reflexión. Las diferencias entrecentros no explican suficientemente las ba-jas correlaciones observadas, puesto que aldescomponer la variación total tampoco seobtienen correlaciones entre materias másaltas entre los alumnos, dentro de los cen-tros.

La pregunta sigue abierta ¿por qué lascorrelaciones son tan bajas? Entre las res-puestas posibles se encontrarían las si-guientes:

• Las materias del primer ejercicioque, en un principio, deberían eva-luar la madurez del alumno, seajustan más al prolrama de COU,de las correspondientes asignatu-ras, que a un criterio de evaluaciónque tenga que ver con el conceptode madurez.

• La corrección de preguntas de res-puesta abierta conlleva subjetividad,imprecisión. Un error de medidaimportante, 3° en cada evaluación,tiene el efecto de atenuar (Fuller,1987) los coeficientes que miden larelación u entre variables.

DISCUSIÓN

Las correlaciones entre las diferentes prue-bas que integran las PAU son muy bajas, in-

En el caso de las pruebas específicas decada opción", se añaden las siguientes re-flexiones:

(30) En la tabla 11 se estimaba la proporción de varianza de la nota observada que correspondía a unerror de medida (error aportado por la imprecisión en el proceso de corrección). En el caso de Filosofía, estaproporción, tanto en 1995 como en 1997, rondaba el 40%. En la tesis, partiendo de la hipótesis que el grado defiabilidad de las cinco pruebas comunes sea similar al de Filosofía (60%, aproximadamente) se realiza un cálcu-lo estimativo de las correlaciones dentro de los centros, resultando valores notablemente más altos y tambiénmás cercanos a los valores observados entre las respectivas asignaturas de COU.

(31) La imprecisión en la corrección incrementa la varianza estimada entre estudiantes dentro de loscentros. Si se consigue reducir el error de medida, es de esperar que, no solamente se observe una mayor asocia-ción entre las notas de las materias, sino que también las diferencias entre centros sean más acusadas que las ob-servadas hasta el momento.

(32) No se ha incluido en este informe el análisis de las pruebas del segundo ejercicio de las PAU por op-ciones. Destaca uno de los resultados del análisis relativo a los alumnos de la opción A: mientras que Matemáti-

387

Page 20: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

• Si los formatos de examen de dosasignaturas propias de la opciónson muy dispares, las pruebas pue-den estar evaluando no solamenteconocimientos distintos sino tam-bién diferentes habilidades de losestudiantes.

• Los actuales exámenes no cubrende manera exhaustiva la programa-ción (Muñoz-Repiso et al., 1997).De ahí que pueda hablarse de unfactor suerte en cuanto a los temasque aparecen cada año en el exa-men. La suerte puede variar de unaasignatura a otra y nos encontra-mos con otra fuente de variabili-dad.

Respecto a la consideración formuladaal inicio de este estudio sobre si valía lapena examinar si la correlación entre dosmaterias era muy alta, podemos decir queno tiene demasiado sentido su 'plantea-miento, puesto que no se han observadocorrelaciones de dicha magnitud. Segúnlos análisis realizados, se podría inferir guelas pruebas están midiendo aspectos dife-rentes de la preparación del alumno y, portanto, un examen no debería sustituir aotro automáticamente. Pero, también escierto que el alto grado de imprecisión enla corrección introduce incertidumbre enel proceso y alerta sobre la formulación detales conclusiones. Aunque es evidente quelas pruebas de corrección objetiva tienentambién sus limitaciones, parece aconseja-ble estudiar la posibilidad de introducireste tipo de pruebas —al menos como partecomún del examen de cada materia— paraun adecuado seguimiento del proceso.

En el futuro sería aconsejable trabajarcon una muestra mayor de centros. Estu-dios recientes basados en la simulación re-comiendan que en el caso de que la corre-

lación intracentros sea superior a 0.10 elnúmero de unidades del segundo nivel(centros) sea como mínimo de 30 unida-des, para asegurar una estimación eficien-te de los parámetros relativos a las varia-bles de este nivel y de las interaccionesentre los dos niveles. La estimación de losparámetros relativos al primer nivel (ca-racterísticas de los estudiantes, en los estu-dios que nos conciernen) demandan unnúmero total de unidades suficiente, pre-ferentemente el mismo número de estu-diantes por cada centro. Una muestra de30 estudiantes por centro sería un buenpunto de partida. El criterio leneral(Kreft and De Leeuw, 1998) es el siguien-te: para asegurar una potencia alta de aná-lisis es preferible un diseño muestral demuchos centros, con pocos alumnos encada centro, que la situación inversa (po-cos centros con muchos alumnos en cadacentro), sobretodo si la variación entrecentros es alta en relación a la variacióndentro de los centros.

CONCLUSIONES

Se detallan, a continuación, algunas de lasprincipales conclusiones que se despren-den del conjunto de los tres estudios.Puesto que la investigación empírica se habasado en muestras de centros de Cata-lunya, es obligado matizar que todas lasconclusiones que se apoyan en dichos da-tos deben limitarse a este distrito.

• La nota PAU revela que la prepara-ción de los alumnos no es tan similarcomo refleja la nota COU Esto nosllevaría a presuponer que mientras laprimera varía significativamente en-tre centros (alrededor de un 20% dela variación total de la nota PAU

cas I es la prueba que presenta más variabilidad, globalmente y entre estudiantes, dentro de los centros, es en Fí-sica donde se dan los resultados más variables de un centro a otro.

388

Page 21: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

corresponde a variación entre cen-tros, según datos de los tres arios ana-lizados), no ocurre lo mismo con lanota COU La diferenciación entrecentros, que revela la nota PAU, nosolamente se mantiene sino que seincrementa33 al hacer la regresión dela nota PAU respecto de la notaCOU, confirmando que las diferen-cias entre centros, en cuanto a los re-sultados en las PAU, no se debenúnicamente a la composición de susalumnos. Nuestra conclusión es quelos centros se rigen por diferentes es-tándares en la preparación y evalua-ción de sus alumnos. Los profesoresy los centros estarían clasificando yordenando a sus alumnos sin teneren cuenta un referente común exter-no, introduciendo cada profesor supropio sesgo. Este hecho avala la pre-caución con que se debería conside-rar tanto la nota COU como la notaexpediente y, al mismo tiempo, cues-tiona la afirmación recogida en laMemoria del Consejo de Universida-des de 1993:

Y hay datos concluyentes 34 de que elexpediente es mejor predictor del

rendimiento en los estudiantes uni-versitarios que las pruebas realizadas(Escudero, 1981, 1986). Por ello noestaría en absoluto justificada la mi-nusvaloración de aquél en el cálculode la calificación global de acceso.

Tampoco estaría justificado, sin em-bargo, que el mismo Ministerio de Educa-ción se basara en estos argumentos paradefender un mayor peso" de la nota expe-diente en el cómputo de la nota de acceso,sobretodo porque ha pasado muchotiempo desde el trabajo de Escudero(más de 20 años) y de Touron (más dequince) y en este período, las universida-des han introducido cambios importan-tes en los primeros cursos (como las nor-mas de permanencia y las fases selectivas,por ejemplo). Además, son muchas lasfacultades y escuelas universitarias quehan realizado estudios —la mayoría parauso interno, sin llegar a ser publicados—que analizan la relación entre el éxito enlos primeros cursos de universidad y laspuntuaciones en las diferentes pruebasPAU. Por ejemplo, un estudio de la Fa-cultad de Informática, de la UPC, sobre165 estudiantes que ingresaron en 1993,y de los cuales se disponía de todas sus

(33) El coeficiente de correlación intra-centros p, calculado a partir de los residuos individuales del mo-delo de regresión ordinario (modelo A en la tabla I), es superior a 0.3, confirmando que dentro de los centros seda mayor similitud que en general y rebatiendo la hipótesis de independencia entre residuos que presupone di-cho modelo.

(34) Al hablar de datos concluyentes interpreto que se refieren a los resultados de un estudio longitudi-nal de seguimiento —realizado por un equipo de investigadores, que dirigía Tomás Escudero— de 417 estudian-tes, que en el curso 1975-76 superaban las pruebas de acceso y accedían a las universidades de Navarra y Zarago-za. El mismo autor, además de precisar las limitaciones del estudio, nos decía: «En definitiva, la prueba demadurez académica —seguida de cerca por el expediente secundario— aparece como el mejor predictor del rendi-miento universitario cuando se trata de la muestra total». Y es que, en mi modesta opinión, el hecho más rele-vante del estudio de Tomás Escudero (1987) donde se resumen los dos documentos citados en la Memoria de...es que pone en evidencia las diferencias existentes entre estudios universitarios: para los estudiantes de Medicina(127 de 417, un 30% de la muestra), el rendimiento en la universidad aparece más asociado a la nota de expe-diente (correlación 0.40) que a la nota PAU (correlación 0.05); para los estudiantes de Ingeniería Superior (35de 417, un 8%) las correlaciones son, en cambio, 0.44 y 0.56, respectivamente.

(35) En el momento de redactar este informe ya se ha publicado el Real Decreto 1640/1999 de 22 de oc-tubre (BOE de 27-10-99) por el que se regula la prueba de acceso a estudios universitarios que en su artículo 14,establece.

389

Page 22: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

notas en COU y de las de PAU, revelóque la materia mejor relacionada con eléxito en primer curso era la prueba deMatemáticas en las PAU, por delante dela puntuación de esta materia en COU yde la nota expediente de secundaria.

• Si quisiéramos resumir en pocas pa-labras el papel evaluador de la notaCOU y de la nota PAU, diríamosque mientras la nota COU es el re-sultado de una evaluación en prin-cipio muy completa (el profesor tie-ne muchas oportunidades paravalorar el conocimiento y madurezdel alumno) pero afectada de sesgo(los criterios de evaluación no sonlos mismos de un centro a otro), lanota PAU es el resultado de la apli-cación de un instrumento estándar(el mismo para todos los alumnos)pero afectado de error de medida(debido al tipo de examen de pre-guntas con respuesta abierta). Paracomparar los efectos de ambas im-perfecciones, en el cómputo de lanota de acceso, hemos de tener encuenta que dicha nota es la mediade la nota PAU y la nota expediente.En la actualidad son muchos los es-tudiantes que solicitan una revisiónde la corrección de algunas de laspruebas PAU. Según se ha podidoestimar a partir de los datos, la revi-sión (en caso de ser oportuna) po-dría comportar una rectificación alalza de la nota de acceso de 0.23puntos, si la asignatura revisada esMatemáticas y de 0.32 si es Filoso-fía. Sin embargo, no se cuestiona enabsoluto la nota expediente cuandocabría preguntarse ¿por qué no seadmite la rectificación de la nota deacceso de todos los alumnos de uncentro si existen indicios suficientespara pensar que dicho centro haevaluado con mucho más rigor queel resto?

• El hecho de que el acceso a algunosestudios universitarios, en que laoferta es inferior a la demanda, noesté restringido a determinadas op-ciones, y la evidencia de la no apli-cación de criterios uniformes depuntuación entre las diversas mate-rias de las PAU, provoca una situa-ción desigual. Dicha situación dedesequilibrio puede facilitar la apa-rición de estrategias de acceso nodeseables. Al mismo tiempo, cues-tiona el sentido de la actual fórmulade acceso, concretamente la necesi-dad de examinar de determinadasmaterias y en su caso la ponderaciónasignada. No parece adecuado exa-minar de materias que no se consi-deren importantes para los estudiosuniversitarios que solicita el estu-diante si, al mismo tiempo, no sepuede garantizar la aplicación decriterios de evaluación uniformes.

• Surge la pregunta de si las pruebasdel primer ejercicio están evaluan-do adecuadamente la madurez delalumno. Parece ser que se reducena pruebas sobre los contenidos delas materias de COU comunes.

• En la nota de acceso a la universidad(y en consecuencia en la ordena-ción de estudiantes en el momentode competir por las plazas disponi-bles) de un estudiante de Ciencias,tiene el mismo peso la nota de Ma-temáticas que la de Filosofía cuan-do, según hemos podido compro-bar, se trata de asignaturas condiferente capacidad discriminado-ra y diferente calidad en la correc-ción. ¿Debería ser así?

• El análisis por materias pone enevidencia la heterogeneidad de loscentros de secundaria en cuanto alos resultados en las PAU y la con-veniencia de informar a los centrossobre sus resultados en compara-ción con la población de centros.

390

Page 23: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

MONITORIZACIÓN DE LAS PRUEBASPAU

En el artículo «Monitoring the universityadmissions process in Spain» (Cuxartand Longford, 1998) se encuentran mu-chas de las reflexiones que han ido sur-giendo a medida que avanzaba la investi-gación, así como diferentes propuestas,algunas de las cuales ya se han podido ex-perimentar. Cabría distinguir tres áreasespecíficas de reflexión y posible actua-ción en el futuro:

• Mejora de los exámenes en cuantoa su elaboración, homogeneizaciónde la corrección y posible interven-ción para corregir discrepancias odesajustes. Considerar en cada ma-teria la posibilidad de sustituir elexamen actual, o una parte del mis-mo, por una prueba de preguntascon respuesta cerrada.

• Formación de coordinadores y co-rrectores. Posibilidad de separar lalabor de vigilancia de la labor decorrección.

• Creación de un sistema de infor-mación útil para la administra-ción educativa y para los centrosde secundaria (profesores y alum-nos).

FUTURAS LÍNEAS DEINVESTIGACIÓN

Son varias las líneas de investigación quesurgen motivadas por la necesidad de pro-fundizar en temas que tan sólo han podi-do ser apuntados:

• La validación de las pruebas PAUrequiere un estudio detallado delos enunciados y contenidos delos exámenes. ¿Son pertinenteslas presuntas? ¿Certifican la se-cundaria? ¿Preparan para la uni-versidad?

• El conocimiento empírico de ladificultad y el poder discrimina-dor de las preguntas36 permitiríaexplicar mejor las diferencias ob-servadas entre convocatorias y fa-cilitaría la confección de nuevosexámenes.

• El seguimiento de los alumnos en launiversidad se plantea como un ele-mento de estudio imprescindible'toda vez que, según parece, en lasfuturas PAU, los alumnos deberánexaminarse de un número menorde asignaturas y con una relaciónmás estrecha con los estudios uni-versitarios.

• El estudio (cualitativo en su mayorparte) de los mecanismos de elecciónde los alumnos que les lleva a prefe-rir una materia optativa a otra, ypara cada materia, una opción deexamen frente a otra, permitiríaconocer el porqué de las preferen-cias de los alumnos y proporciona-ría un mayor soporte en la elabora-ción de las pruebas.

• Tanto en las pruebas PAU-COUcomo en las pruebas PAU-LOGSE's,las mujeres han obtenido peores re-sultados que sus compañeros, aigualdad de condiciones (para unamisma nota expediente). En cam-bio, los resultados en secundaria delas mujeres están muy por encimade los de sus compañeros (el por-

(36) La Oficina de Coordinació del COU i les PAU de Catalunya ha iniciado una investigación al respecto.(37) Son varias las universidades que han iniciado estudios de seguimiento de sus alumnos.(38) Según se deduce del estudio de las primeras promociones del Bachillerato LOGSE.

391

Page 24: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

centaje de aprobadas supera en va-rios puntos al de aprobados). Seplantea un interrogante sobre cuá-les son las dificultades específicasde cada género, los mecanismos deaprendizaje, la evaluación de resul-tados, los incentivos (la valoraciónpor parte de los profesores y fami-liares,...).

• Otro tema importante y que hacereferencia al comportamiento delos correctores en las preguntas conrespuesta abierta, es el estudio delas causas de la inconsistencia en lacorrección de cada materia: ¿Quéfactores provocan la modificaciónde criterio de un corrector? ¿ ueelementos le producen inseguridaden la puntuación? El conocimientode los mismos influiría en la redac-ción de los exámenes y pautas decorrección, así como en la defini-ción de las condiciones adecuadaspara una buena corrección (tiem-po, lugar, entorno...).

BIBLIOGRAFÍA

AITKIN, M. y LONGFOFtD, N.: «Statistical mo-delling issues in school effectiveness stu-dies J. R.», en Statistical Society, A, 149(1986), Part 1, pp. 1-43.

CUXART I jARDI, A. y LONGFORD, N. T.:«Monitoring the university admissionsprocess in Spain», en Higher education inEurope. Vol. XXIII, 3 (1998), Unesco.

CUXAR"I', A.; MARTÍ, M. y FERRER, F.: «Algu-nos factores que inciden en el rendimientoy la evaluación en los alumnos de las Prue-bas de Aptitud de Acceso a la Universi-dad», en Revista de Educación, 314 (1997),pp. 63-88.

ESCUDERO, T.: «Buscando una mejor selec-ción de universitarios», en Revista de Edu-cación, 283 (1987), pp. 249-283.

ESCUDERO, T. y BUENO GARCÍA, C.: «Exa-men de Selectividad. El estudio del tribu-nal paralelo», en Revista de Educación, 304(1994), pp. 281-297.

FULLER, W.: Measurement Error Models. Wi-ley, New York, 1987.

GOLDSTEIN, H.: Multilevel Statistical Models.(2. a ed), Kendall's Library of Statistics 3London, Edward Arnold, 1995.

KREFT, G.: Models and methods for the measu-rement ofschool effects. Tesis doctoral. Uni-versidad de Amsterdam, 1987.

KREFT, G. AND DE LEEUW: Introducingmul-tilevel modelling. Sage publications, Lon-don, 1998.

LONGFORD, N. T.: «Random CoefficientModels», en Handbook of Statistical Mode-ling for the Social and Behavioral Sciences.Arminger and Sobel editors. PlenumPress, New York, 1994a.

— Modell for uncertainty in Educational Tes-ring. Springer Series in Statistics. NewYork, 1995.

MARTÍ RECOBER, M. et al.: Los sistemas de co-rrección de las pruebas de Selectividad enEspaña. Análisis y propuestas. Concurso na-cional de Proyectos de Investigación Edu-cativa. Ministerio de Educación y Ciencia,CIDE, 1995-98.

MARTÍ, M.; FERRER, F. y CUXART, A.: «Eldesarrollo de la LOGSE: las nuevasPruebas de Acceso a la Universidad», enRevista de Educación, 314 (1997),pp. 89-114.

—Memoria de actividades del Consejo de Uni-versidades. Junio 1991-Julio 1993.

MUÑOZ-REPiso, et al.: «Las calificaciones enlas Pruebas de Aptitud para el Acceso a laUniversidad», en Colección investigación,61 (1991), Madrid, CIDE.

— El sistema de acceso a la Universidad enEspaña: tres estudios para aclarar el debate.Madrid, CIDE, 1997.

NET, T.: Análisis multivariant de la informaciócontinguda a l'expedient dels alumnes queaccedeixen a les PM U. Projecte final de ca-

392

Page 25: MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN …b6805a76-cfcb-447e-baf3-586db397bd27/... · MODELOS ESTADÍSTICOS Y EVALUACIÓN: TRES ESTUDIOS EN EDUCACIÓN' ANNA CUXART

rrera, Diplomatura d'estadística. UPC,Barcelona, 1996.

PLEWIS, I.: Statistics in Education. Arnold,London, 1997.

SANS, A.: Fiabilidad y consistencia del procesode selectividad. La investigación educativasobre la universidad. Madrid, CIDE, 1989,pp. 201-208.

SEARLE, S. R.; CASELLA, G. y MCCULLOCH,CH. E. Variance Components. Wiley Inter-science, New York, 1991.

TOURON, J.: «High school ranks and ad-mission tests as predictors of first yearmedical students' performance», enHigher Education (1987), pp. 257-266.

393