104
Universidad Autónoma de Baja California Instituto de Investigación y Desarrollo Educativo Aspectos psicométricos básicos de la evaluación del aprendizaje Resumen del libro Popham, J. (1990). Modern Educational Measurement. A Practitioner’s Perspective. MA. Allyn and Bacon. Luís Ángel Contreras Niño Febrero de 2003

Una segunda distinción se refiere a la interpretación

  • Upload
    yan

  • View
    41

  • Download
    1

Embed Size (px)

DESCRIPTION

- PowerPoint PPT Presentation

Citation preview

Page 1: Una segunda distinción se  refiere a la interpretación

Universidad Autónoma de Baja CaliforniaInstituto de Investigación y Desarrollo Educativo

  

Aspectos psicométricos básicos de la evaluación del aprendizaje

  Resumen del libro Popham, J. (1990). Modern Educational Measurement. A Practitioner’s Perspective. MA. Allyn and

Bacon.

Luís Ángel Contreras Niño

 

Febrero de 2003

Page 2: Una segunda distinción se  refiere a la interpretación

Propósitos de la evaluación

del aprendizaje

Diferentes propósitos educativos requieren diferentes pruebas educativas y diferentes usos de esas pruebas: cuando una prueba no empata con sus propósitos

las inferencias erróneas se multiplican vertiginosamente

Page 3: Una segunda distinción se  refiere a la interpretación

Aplicaciones actuales de los tests

Evaluar individuos para decidir aspectos instruccionales o vocacionales (orientación a determinar el estatus)Evaluar programasCatalizar la instrucción (orientación a mejorar la instrucción)

Page 4: Una segunda distinción se  refiere a la interpretación

Evaluación referida a una norma y evaluación referida a un criterio

La principal distinción entre ambos tipos de tests depende de la manera en que interpretamos la ejecución ante el test de un examinadoEn un test referido a una norma interpretamos la ejecución de un examinado, en relación a las ejecuciones de otros que también respondieron la prueba

Page 5: Una segunda distinción se  refiere a la interpretación

Test referido a una norma

En este caso, interpretamos los puntajes de un individuo en relación al grupo normativoAsí, podemos decir que el puntaje se encuentra arriba, abajo o dentro de la norma o promedio. Es decir, cómo es la ejecución comparada con la normalSe trata de una interpretación relativa

Page 6: Una segunda distinción se  refiere a la interpretación

Test criterial

Se emplea para determinar el estatus que tiene un individuo con respecto a un criterio o dominio evaluativo bien definidoEl dominio evaluativo típico son conocimientos o habilidadesUn test criterial nos permite conocer lo que un examinado puede hacer o noSu característica distintiva es la claridad con que describe lo que mide

Page 7: Una segunda distinción se  refiere a la interpretación

Dos distinciones basicas entre pruebas criteriales y normativas

Test normativo

Un test normativo mide categorias de competencias de los examinados que son típicamente generalesUn test criterial típicamente se enfoca en dominios específicos de la conducta del examinado

Test criterial

Page 8: Una segunda distinción se  refiere a la interpretación

Una segunda distinción se refiere a la interpretación de los puntajes brutos obtenidos en la pruebaEn un test normativo se elaboran tablas normativas de tal manera que se pueda encontrar con facilidad el equivalente percentil de cada puntaje brutoEjemplo: Juan contestó bien 37 ítems de 60. En la tabla ese puntaje es equivalente al rango percentil 63. Por lo tanto, el puntaje de Juan es igual o mejor que la ejecución del 63% de los examinados del grupo normativo Así, la interpretación es completamente relativa

Dos distinciones basicas entre pruebas criteriales y normativas

Page 9: Una segunda distinción se  refiere a la interpretación

En un test criterial, Juan contestó bien 20 preguntas de 25. Dado que queremos saber qué tan bien logró el dominio conductual definido por el test, reportamos que obtuvo un puntaje de 80% de respuestas correctasEn este caso, la interpretación es absoluta pues describe el estatus del examinado en relación con el dominio total

Dos distinciones basicas entre pruebas criteriales y normativas

Page 10: Una segunda distinción se  refiere a la interpretación

Relación entre la estrategia de medición y la misión del test

1. Selección de alumnos. Para esta misión tenemos dos escenarios:Escenario con cuotas fijasEscenario con requisitos de habilidad

Page 11: Una segunda distinción se  refiere a la interpretación

Relación entre la estrategia de medición y la misión del test

Escenario con cuotas fijas (solo hay 100 lugares y demandan servicio 500 aspirantes). Aquí se requiere sortear a los aspirantes de acuerdo con sus habilidades relativas; por lo tanto, se necesita un test referido a una normaEn este caso un test criterial no es útil: Si 150 aspirantes obtienen esencialmente los mismos puntajes altos, ¿cómo seleccionamos a los 100 mejores?En cambio, los tests normativos están diseñados para detectar la variabilidad de los puntajes de los examinados, a fin de discriminar entre ellos a los mejores

Page 12: Una segunda distinción se  refiere a la interpretación

Escenario con requisitos de habilidad. Aquí no se requiere saber quién es el mejor o el peor, sino quién está calificado; se quiere reflejar el dominio con precisión. Por lo tanto se requiere un test criterial.Un test normativo no sería útil en este caso: ¿te dejarías operar por un cirujano que recibió su título porque obtuvo el percentil 75 de entre una clase de incompetentes?En cambio un test criterial se orienta a detectar a los candidatos que despliegan las habilidades que son requisito para tal ejercicio profesional; es decir, que reflejan el dominio del campo de conocimientos que

mide el test

Relación entre la estrategia de medición y la misión del test

Page 13: Una segunda distinción se  refiere a la interpretación

2. Evaluación de programas.Al estimar el mérito de un programa instruccional es preferible emplear un test criterialLos tests normativos, por ser más bien generales, usualmente no tienen correspondencia con los aspectos curriculares de los programas evaluados; además, ofrecen pocos indicadores para el mejoramiento instruccional

Relación entre la estrategia de medición y la misión del test

Page 14: Una segunda distinción se  refiere a la interpretación

3. Diagnóstico y diseño instruccionalPara apoyar la elaboración de secuencias instruccionales apropiadas o para descubrir las carencias de habilidades a fin de proporcionar instrucción remedial a ciertos estudiantes, los tests criteriales son definitivamente superiores a la normativos; pues en tales casos, los profesores están menos interesados en la posición que tiene un estudiante respecto a otros

Relación entre la estrategia de medición y la misión del test

Page 15: Una segunda distinción se  refiere a la interpretación

4. Asignación de recursos a gran escalaCuando se trata de decidir como distribuir recursos financieros o humanos a gran escala, enfatizar ciertas áreas de formación o comparar estudiantes de diferentes áreas geográficas, curriculares u otras, la estimación de un amplio espectro de los logros académicos de los estudiantes, aunque no esté muy bien definido, es lo más indicado. Cuando se tiene necesidad de un nivel tan general de información, un test referido a una norma resultaría de mayor utilidad.

Relación entre la estrategia de medición y la misión del test

Page 16: Una segunda distinción se  refiere a la interpretación

Evaluando la calidad de un test

Los énfasis recientes en la calidad educativa, en la noción de asumir la responsabilidad y el incremento del impacto social de la evaluación del aprendizaje, obligan cada vez más a los educadores a estar interesados e informados en los elementos técnicos que definen la calidad de una pueba educativaExisten siete factores que son de primera importancia para decidir si un test es apropiado:

Page 17: Una segunda distinción se  refiere a la interpretación

1. Descripción de la conducta medidaAl evaluar, se pretende determinar el nivel de un examinado respecto a un foco particular (no podemos medir todo en una sola ocasión)Por ello, el test debe incluir una descripción de las habilidades, aptitudes y actitudes del examinado que se pretende medirLa descripción puede ser breve (enunciado de un objetivo conductual) o muy detallada (especificaciones de ítems)

Evaluando la calidad de un test

Page 18: Una segunda distinción se  refiere a la interpretación

¿Cuántos ítems debe incluir la prueba?Un factor clave a considerar es la importancia de la decisión involucrada.Si se quiere hacer una estimación general de la ejecución del examinado, en general se requieren pocos ítems. Si se quiere diagnosticar habilidades particulares, en conjunto se necesitan bastantes reactivos

Evaluando la calidad de un test

2. Número de Ítems por conducta medida

Page 19: Una segunda distinción se  refiere a la interpretación

Si el examen tiene alto impacto (las consecuencias de su aplicación afectarán de manera importante la vida de los examinados, profesores o directivos escolares), usualmente serán necesarios muchos más reactivos que si se trata de un examen parcial de un curso.Como regla práctica, podría decirse que deberían emplearse 10 ítems por conducta medida cuando se toma una decisión educativa razonablemente importante. Tal número podría elevarse a 20 ítems o más si el examen es de gran impacto y disminuir a unos 5 reactivos cuando el impacto sea menor.

Evaluando la calidad de un test

2. Número de Ítems por conducta medida

Page 20: Una segunda distinción se  refiere a la interpretación

Se refiere a la amplitud del atributo que mide el test.Puede ser muy restringido (objetivo conductual, lo cual resulta fácil de enseñar pero puede resultar muy puntual para ser útil: objetivitis) o ser muy

amplio (Ej. el conocimiento, lo cual resulta difícil de definir y medir)A mayor espectro de contenido a evaluar, menos precisa la descripción conductual y será necesario

un mayor número de ítemsLa determinación del alcance de la medida es una

operación de juicios

Evaluando la calidad de un test3. Alcance de la medida

Page 21: Una segunda distinción se  refiere a la interpretación

Se refiere a la consistencia con la que una prueba mide lo que se supone que mideLa consistencia de la medida puede ser en el tiempo, en cuyo caso nos referimos a ella como el índice de estabilidad. Aquí, los alumnos son examinados tras un período de tiempo para ver qué tan comparables son los puntajes individuales en las dos ocasiones (operación denominada test-retest; si el coeficiente de correlación es alto, digamos 0.80 ó 0.90, podemos tener la seguridad de que los examinados obtienen puntajes comparables en el test aún cuando se administre en tiempos diferentes)

Evaluando la calidad de un test

4. Confiabilidad

Page 22: Una segunda distinción se  refiere a la interpretación

Evaluando la calidad de un test

4. Confiabilidad

Dado el alto costo que implica y otras dificultades asociadas, pocas pruebas realizan estudios de estabilidad. En algunos casos aplican retests a muestras de estudiantesTanto en los tests normativos como es los criteriales la estabilidad de la prueba aumenta a medida que se incrementa el número de ítems

Page 23: Una segunda distinción se  refiere a la interpretación

Una segunda forma de confiabilidad es emplear formas alternas; es decir, administramos dos formas del mismo test y correlacionamos los puntajes obtenidos por cada examinado en las dos formas de la prueba. El resultado es llamado coeficiente de confiabilidad de formas alternasCabe señalar que las dos formas deben ser equivalentes en cuanto a su contenido, su dificultad y su discriminación, entre otros aspectosSatisfacer esta forma de confiabilidad puede ser importante por razones de seguridad del examen

Evaluando la calidad de un test

4. Confiabilidad

Page 24: Una segunda distinción se  refiere a la interpretación

Para crear retos de una dificultad equivalente, se puede emplear un sistema de puntajes escalares

Se trata de un procedimiento estadístico, post facto, de igualación de formas de examen.

En un sistema escalar de 500 a 1000, un alumno necesita para pasar 800 puntos en un examen de 75 ítems. En una versión muy difícil del test, un puntaje de 55 ítems correctos puede ser igual al puntaje escalar de 800. En una forma muy fácil, se necesita un puntaje de

60 ítems correctos para lograr un puntaje escalar de 800 y lograr pasar.

Evaluando la calidad de un test 4. Confiabilidad

Page 25: Una segunda distinción se  refiere a la interpretación

Otra forma de confiabilidad es la consistencia interna, misma que indica la consistencia individual de los ítems del test;

Sirve para determinar la medida en la que los ítems individuales están funcionando más o menos de la misma manera; es decir, si son homogéneosUna técnica consiste en dividir la prueba en dos partes iguales, digamos reactivos pares y nones. Los dos

subtests se correlacionan. El coeficiente de correlación resultante es una estimación del grado en que las mitades del test están cumpliendo su función de manera consistente

Evaluando la calidad de un test

4. Confiabilidad

Page 26: Una segunda distinción se  refiere a la interpretación

Otra medida de confiabilidad, que no se centra en la consistencia de los puntajes de un grupo de examinados es el error estándar de medidaSe trata de proporcionar un índice de la precisión o consistencia de la ejecución en el test de un individuoRefleja la variabilidad que tendrían los puntajes del examinado si el test se le administrara una y otra vezCon ello queremos establecer una banda de confianza en la cual pueda ser encontrado, con cierta probabilidad, el puntaje verdaderoPor ejemplo, con este índice podríamos hacer la interpretación de que el puntaje 37 de un examinado miente, más o menos, un error estándar de medida de su puntaje verdadero

Evaluando la calidad de un test4. Confiabilidad

Page 27: Una segunda distinción se  refiere a la interpretación

Es la medida en la que un test mide lo que dice que mideTécnicamente, es más apropiado hablar de validez de la inferencia que hacemos basada en los resultados del testCuando determinamos la validez, nuestro foco es la evidencia que soporta la inferencia basada en los puntajes obtenidos en el testExisten tres tipos de evidencias complementarias de validez: la relacionada con el contenido, la relacionada con el criterio (predictiva y concurrente) y la relacionada con el constructo

Evaluando la calidad de un test5. Validez

Page 28: Una segunda distinción se  refiere a la interpretación

Evidencia de validez relacionada con el contenidoDemuestra el grado en el que la muestra de ítems del test es representativa de un universo definido o dominio de contenido (¿el test cubre el contenido que se supone que cubre?La clave para asegurarla es el juicio humano:Expertos en contenido definen el universo de contenido que el test representa (muestra)Después, expertos independientes juzgan la representatividad del contenido

Evaluando la calidad de un test5. Validez

Page 29: Una segunda distinción se  refiere a la interpretación

Puesto que los tests normativos cubren el contenido de manera general, para usar la prueba de manera efectiva es suficiente detectar el nivel del examinado en relación con el grupo normativoEn cambio, los tests criteriales realizan un esfuerzo muy importante para asegurar la relevancia y una adecuada cobertura del contenidoEl uso de los juicios de expertos se complementa con procedimientos empíricos para asegurar la evidencia de validez de contenido

5. Validez

Evaluando la calidad de un test

Page 30: Una segunda distinción se  refiere a la interpretación

Pobre coberturade contenido

Universo de contenido

5. Validez

Evaluando la calidad de un test

Buena coberturade contenido

Page 31: Una segunda distinción se  refiere a la interpretación

Evidencia de validez relacionada con el criterioDemuestra en qué medida los puntajes en el test de un examinado nos permiten inferir la ejecución que tendrá en una variable criterio (por ejemplo, las calificaciones que obtendrá en la universidad-- el criterio )Existen dos tipo de evidencias: predictiva y concurrenteLos estudios de validez predictiva requieren que ocurra un intervalo de tiempo considerable (por ejemplo, para correlacionar los resultados del examen de admisión y el promedio de calificaciones obtenidas por el examinado durante el primer semestre de la carrera, es necesario esperar 6 u 8 meses al menos)

5. Validez

Evaluando la calidad de un test

Page 32: Una segunda distinción se  refiere a la interpretación

En los estudios de validez concurrente tal intervalo de tiempo no ocurre

Por ejemplo, aplicamos el examen de admisión a la universidad a los alumnos que recién terminaron el primer semestre de la carrera, el mismo día en que se da a conocer

el promedio de calificaciones que obtuvieronAunque el test fue diseñado para egresados del bachillerato y no para estudiantes universitarios, los coeficientes de correlación resultantes entre los puntajes en el test de los examinados y su promedio de calificaciones en el primer semestre, nos proporcionan alguna evidencia relacionada

con el criterioSe denomina concurrente por que ambas medidas ocurren

aproximadamente en el mismo tiempo

5. Validez

Evaluando la calidad de un test

Page 33: Una segunda distinción se  refiere a la interpretación

En ambos casos, la calidad del estudio de validación depende del tipo de variables criterio que se emplean. Las más utilizadas son el promedio de calificaciones que el test pretende predecir, los resultados obtenidos en otras pruebas que miden el mismo atributo u otro que permite predecirlo, las estimaciones de la ejecución que realizan profesores, supervisores y otros; así como productos permanentes que testifican la ejecución

5. Validez

Evaluando la calidad de un test

Page 34: Una segunda distinción se  refiere a la interpretación

Dado que la principal misión de los tests normativos es distinguir entre los examinados a fin de que puedan efectuarse comparaciones significativas, la evidencia de validez criterial es el tipo de datos de validación más útil para propósitos de predicciónEn cambio, puesto que casi siempre los tests criteriales se orientan a determinar lo que el estudiante puede hacer ahora, no a predecir su ejecución futura en otros escenarios, muy pocas veces se enfatiza la obtención de este tipo de evidencias de validez

5. Validez

Evaluando la calidad de un test

Page 35: Una segunda distinción se  refiere a la interpretación

Evidencia de validez relacionada con el constructoSe enfoca en los puntajes en el test como una medida de la característica psicológica de interés: el constructo (construcción teórica)Primero, el diseñador de la prueba concibe la existencia de un constructo hipotético (ej. inteligencia social), basado en investigación previaDespués, desarrolla un test que se supone mide este constructo, el Test de Inteligencia Social (TIS)Se dice que altos puntajes en el TIS indican que el examinado tiene inteligencia social

5. Validez

Evaluando la calidad de un test

Page 36: Una segunda distinción se  refiere a la interpretación

Para reunir evidencia relacionada con el constructo efectuamos una investigación en la cual predecimos que si el TIS hace lo que se supone, los examinados que gozan de popularidad, que ocupan puestos de elección y tienen otros rasgos semejantes, obtendrán puntajes más altos en el TIS, que quienes rehuyen los eventos sociales, son conflictivos y presentan otros comportamientos similares.Si logramos obtener puntajes en el TIS de ambos grupos y encontramos que la hipótesis se confirmó, tenemos evidencia no solo sobre la validez de las inferencias basadas en el TIS, sino también acerca de la legitimidad del constructo mismo

5. Validez

Evaluando la calidad de un test

Page 37: Una segunda distinción se  refiere a la interpretación

En un solo estudio no es posible obtener evidencia satisfactoria de la validez del constructo; se requiere la acumulación de evidencias de diferentes estudios de investigaciónExisten tres tipos de estudios de validación de constructos: estudios de intervención, estudios sobre poblaciones diferenciales y estudios de medidas relacionadas

5. Validez

Evaluando la calidad de un test

Page 38: Una segunda distinción se  refiere a la interpretación

Estudios de intervenciónPretenden mostrar que los examinados responden diferente a la medida trás recibir algún tratamientoQuien recibe un tratamiento debe comportarse mejor o peor (según sea el caso), que quien no lo recibePor ejemplo, a 50 examinados les informamos que el resultado del test es crucial para su permanencia en la escuela y a otros 50 les decimos que se trata de un mero trámite, sin consecuencias para ellos. A continuación aplicamos nuestro recién elaborado test de ansiedad ante los exámenes (constructo para el que nos interesa reunir evidencia de validez)

5. Validez

Evaluando la calidad de un test

Page 39: Una segunda distinción se  refiere a la interpretación

Estudios de población diferencialEn ellos se hacen esfuerzos por mostrar que individuos que representan a distintas poblaciones obtienen puntajes diferentes en la medidaAquí, se pretende determinar si quienes tienen más de lo que se supone es el constructo, obtienen un puntaje mayor en el test, que quienes no lo tienen o lo poseen en menor medidaEjemplo: se diseño un cuestionario para medir la preocupación de las personas por la calidad de su piel. El test se aplica a 500 jóvenes de ambos sexos que tienen acné y a residentes de un asilo de ancianos, quienes tienen al menos 60 años de edadNuestra predicción es que los adolescentes tendrán un puntaje más alto (reflejarán más preocupación) que los ancianos

5. Validez

Evaluando la calidad de un test

Page 40: Una segunda distinción se  refiere a la interpretación

Estudios de medidas relacionadasAquí, las correlaciones positivas o negativas dependen de las medidas en el test y en otras medidas atingentesEjemplo: podemos predecir que los puntajes en nuestro nuevo test de solución de problemas estarán correlacionados negativamente con los puntajes de un test de rigidez mentalCabe señalar que no se trata de predecir la ejecución en otro test o en un criterio, el foco es el constructo (sus atributos y las posibles relaciones que tiene con otros atributos)

5. Validez

Evaluando la calidad de un test

Page 41: Una segunda distinción se  refiere a la interpretación

Una validación ideal de un test incluye acumular evidencias de distintos tipos, incluidas las tres categorías tradicionales antes descritasLa evidencia de validez (junto con la confiabilidad) es el indicador más importante de la calidad de un testLa confiabilidad es una condición necesaria para la validez de la prueba, pero no es una condición suficiente, como hemos visto

5. Validez

Evaluando la calidad de un test

Page 42: Una segunda distinción se  refiere a la interpretación

La calidad y la cantidad de datos comparativos (normativos) permiten efectuar interpretaciones apropiadas de la ejecución de los examinadosLos datos comparativos constituyen el marco referencial interpretativo clave en los tests normativosCuando decimos que Luis obtuvo un puntaje en el percentil 47, queremos decir que su puntaje excede o es igual al 47% de los examinados en el grupo normativoUn buen test normativo debe estar acompañado por datos comparativos actuales, amplios y ensamblados de manera cuidadosa

6. Datos comparativos

Evaluando la calidad de un test

Page 43: Una segunda distinción se  refiere a la interpretación

Actualmente resultan particularmente importantes las serias desigualdades que puede ocasionar el uso inadecuado de los testsLos ítems del test pueden ofender o penalizar a un examinado con antecedentes socioeconómicos, culturales, de género u otros, que los pongan en desventaja respecto a otros examinadosExisten dos aproximaciones para detectar problemas de sesgo: basadas en juicios y empíricas

Evaluando la calidad de un test7. Ausencia de sesgo

Page 44: Una segunda distinción se  refiere a la interpretación

Esencialmente, las técnicas de juicios para detectar sesgo en la prueba se basan en paneles formados con individuos similares a los examinados que pueden ser sesgados por los ítems, a quienes se les pide buscar que las preguntas:No ofendan a cierto grupo (que los retrate de manera esterotipada)No los penalice injustamente (que los examinados tengan una ejecución más deficiente aún cuando posean la misma habilidad que se está midiendo)

Evaluando la calidad de un test7. Ausencia de sesgo

Page 45: Una segunda distinción se  refiere a la interpretación

Además de los siete factores de primer orden mencionados, es posible atender otros:La facilidad de la administraciónLa facilidad para calificar las respuestasEl costo del desarrollo, aplicación y evaluación del instrumentoLa calidad de las evidencias documentales que acompañan a la pruebaEntre otras más que es posible identificar

Evaluando la calidad de un testOtras consideraciones

Page 46: Una segunda distinción se  refiere a la interpretación

Al evaluar un test, es obvio que necesitamos tener una buena idea acerca de las ejecuciones de los estudiantes en élCon miles, cientos o incluso un puñado de ejecuciones ante el test reportadas individualmente, es casi imposible obtener conclusiones significativas a partir de los puntajes brutos obtenidos por los examinadosPara atender este problema, contamos con los esquemas descriptivos aportados por la estadística

Nociones de estadística

Page 47: Una segunda distinción se  refiere a la interpretación

Los examinados obtienen todo tipo de puntajes, a pesar de que por efectos de la instrucción cabría esperar más estabilidad en los resultados del examenAsí, los puntajes en el examen tienden a distribuirse de manera normal, lo cual significa que la mayor parte de los puntajes se agrupan en una zona intermedia, en la cual la ejecución es la típica, tiene una frecuencia mayor, es el promedio o la ejecución normal de los examinadosAntes y después de dicha zona se encuentran otras dos zonas, primero una de baja frecuencia y posteriormente una de alta frecuencia

Nociones de estadísticaDistribuciones de frecuencia

Page 48: Una segunda distinción se  refiere a la interpretación

Lo anterior se conoce como distribución normal de frecuencias y es la manera en que se distribuyen la mayor parte de las características humanas, como la estatura, el color del pelo, la inteligencia, etc.Su representación gráfica es la curva de distribución normal de frecuencias o campana de Gauss. Su apariencia es la siguiente:

Nociones de estadísticaDistribuciones de frecuencia

Page 49: Una segunda distinción se  refiere a la interpretación

0 30 60

Nociones de estadística

Curva de distribución normal de frecuencias

Puntajes en el test

Fre

cuen

cia

75

60

30

15

Page 50: Una segunda distinción se  refiere a la interpretación

Los puntajes en la prueba tienden a centrarseLos tres indicadores de tendencia central son:La media, el promedio aritmético de todos los puntajes de la distribución. Por ello, es una medida muy representativaSe calcula mediante la fórmula:

X =

Nociones de estadísticaIndicadores de tendencia central

M

nX

Page 51: Una segunda distinción se  refiere a la interpretación

La mediana, es el punto que divide los puntajes en dos partes igualesA diferencia de la media, no se ve afectada por puntajes muy altos o muy bajos (a los cuales trata como un puntaje más)Sin embargo, falla en reflejar el impacto de cada puntaje en la distribuciónLa moda, que es el puntaje que ocurre más frecuentementeUna distribución puede ser bimodal o trimodal

Nociones de estadísticaIndicadores de tendencia central

Page 52: Una segunda distinción se  refiere a la interpretación

0 30 60

Nociones de estadísticaEn una distribución normal se encuentran sobre el mismo puntaje la media, mediana y moda

Puntajes en el test

Fre

cuen

cia

75

60

30

15

Page 53: Una segunda distinción se  refiere a la interpretación

Las medidas de variabilidad nos indican cómo se dispersan los puntajes; qué tan variables son

Nociones de estadísticaIndicadores de variabilidad

X=38.2 X=38.2

Page 54: Una segunda distinción se  refiere a la interpretación

El índice más fácil de calcular es el rango. se obtiene restando el puntaje más bajo del más alto: X - XSin embargo su simplicidad es su única virtud. Como solo hay dos puntajes, si uno de ellos es muy alto o bajo, el rango resultante puede conducir a conclusiones erróneas acerca de la variabilidad

Nociones de estadísticaIndicadores de variabilidad

a b

Page 55: Una segunda distinción se  refiere a la interpretación

Otro índice que resuelve esos problemas es la desviación estándar; es decir, el promedio de la variabilidad de los puntajes del examenEn esencia, la desviación estándar nos indica la distancia promedio respecto a la media de cada uno de los puntajes en una distribución

Nociones de estadísticaIndicadores de variabilidad

Page 56: Una segunda distinción se  refiere a la interpretación

Desviación estándar

0 10 20 30 40 50 60

75

60

30

15

X=43

X=9

X=54

Page 57: Una segunda distinción se  refiere a la interpretación

Nociones de estadísticaIndicadores de variabilidad

Así, Para determinar la desviación de un puntaje se resta la media de la distribución del puntaje:

x = X - XSin embargo, obtener la desviación promedio o estándar de todas las desviaciones no puede hacerse mediante el promedio directo (el resultado sería 0, pues se cancelan las desviaciones positivas y negativas ); Por ello se emplea la fórmula:

Page 58: Una segunda distinción se  refiere a la interpretación

s =

Nociones de estadísticaIndicadores de variabilidad

Fórmula de la desviación estándar

M x 2

n

Mientras más dispersos estén los puntajes, mayor será la desviación estándar. Por esta razón, su uso es tan relevante para efectos comparativos, en el caso de los tests normativos

Page 59: Una segunda distinción se  refiere a la interpretación

¿Los examinados que obtienen puntajes altos en una prueba de selección tienden a lograr buenas calificaciones cuando ingresan a la escuela que los

selecciona?Aquí se trata de determinar en que medida están

relacionadas dos variablesLa medida para determinarlo es un coeficiente de correlación. El más común es el de Pearson, mismo

que establece que la correlación r , es igual a la raíz cuadrada del cociente de la sumatoria de los productos cruzados de las desviaciones, entre el producto de las dos sumatorias de las desviaciones cuadradas, correspondientes a las variables relacionadas

Nociones de estadísticaIndicadores de relación

Page 60: Una segunda distinción se  refiere a la interpretación

r = M xy2x

Nociones de estadísticaIndicadores de relación

Es decir:

M ( ) 2yM ( )

Gráficamente, la relación puede representarse de la siguiente manera:

Page 61: Una segunda distinción se  refiere a la interpretación

Correlación entre los puntajes en el examen de admisión y el promedio de calificaciones en el primer semestre

11 31 49 59 770

2

4

6

8

10

CalificacionesPuntajes en el examen

Pro

me

dio

de

ca

lific

ac

ion

es

Page 62: Una segunda distinción se  refiere a la interpretación

La habilidad para construir pruebas de alta calidad es clave en el contexto educativoComo todo proceso educativo, los tests deben ser planeados; mientras más importante sea su impacto, requiere de una planeación más sistemática La planeación de una prueba enfrenta restricciones prácticas importantes que afectan su administración y calificación: ¿qué tan largo será el test? ¿se dispone de un lector óptico para calificar las pruebas? ¿se puede controlar la seguridad del test o será necesario contar con versiones diferentes cada vez que se aplique? ¿los examinados tendrán una cantidad finita de tiempo para completar la prueba? ¿Podrán emplear diccionario o calculadora?

Planeación de la pruebaEspecificar lo que el test debe medir

Page 63: Una segunda distinción se  refiere a la interpretación

Existen diferentes esquemas de evaluación: Pruebas de lápiz y papel o por computadora, observación de los examinados en acción, como demostraciones y pruebas orales, productos permanentes, etc.Entre ellas, las pruebas de lápiz y papel han sido uno de los esquemas preferidos por los diseñadores de tests, principalmente por las ventajas que ofrecen para atender restricciones como las antes mencionadas No obstante, aún entre los de lápiz y papel existen muchas opciones: respuesta alterna, relación de columnas, opción múltiple, ensayo, etc.

Planeación de la pruebaEspecificar lo que el test debe medir

Page 64: Una segunda distinción se  refiere a la interpretación

En este contexto, lo que se requiere primero es tener una buena idea del atributo que se desea medirTeniendo clara esa idea, se deben revisar los posibles esquemas evaluativos para detectar los que satisfacen mejor las necesidades,sin apresurar la decisiónLa siguiente tarea es crear un conjunto de especificaciónes que normen tanto la generación del test, como de sus ítems

Planeación de la pruebaEspecificar lo que el test debe medir

Page 65: Una segunda distinción se  refiere a la interpretación

A diferencia de los tests criteriales, los normativos requieren información descriptiva más general, pues su interés principal son los contrastes relativos entre los examinados, más que lo que estos son capaces o no de hacer Por ello, las especificaciones de una prueba normativa usualmente se denominan estructura del test o tabla de especificaciones Normalmente, la tabla de especificaciones es una tabla de doble entrada en la cual una dimensión está representada por el contenido que cubre el test y la otra dimensión los tipos de conducta del examinado que serán evaluados

Planeación de la pruebaEspecificaciones para los tests normativos

Page 66: Una segunda distinción se  refiere a la interpretación

Tabla de especificacionesContenido Comprensión Aplicación Analisis

Tópico 1 2 3 2

Tópico 2 4 2 2

Tópico 3 3 3 3

Tópico 4 2 5 4

- La tabla es útil para evitar que de manera inadvertida se sobreenfaticen o subenfaticen ciertos aspectos de contenido

Page 67: Una segunda distinción se  refiere a la interpretación

Desde luego es posible añadir otras dimensiones adicionales al contenido y la conducta, a fin de balancear los ítems en aspectos tales como el sexo, el tipo de ítem y otros que se consideren relevantes

Contenido Comprensión Aplicación Tolal

Tópico 1 12 8 20

Subtópico 1.1 7 3 10

Subtópico 1.2 5 5 10

Tópico 2 4 8 12

Subtópico 2.1 2 3 5

Subtópico 2.2 2 5 7

Page 68: Una segunda distinción se  refiere a la interpretación

Como ya se dijo, en el caso de los test criteriales las especificaciones son bastante detalladas. Se requiere especificar lo que el examinado es capaz de hacer en relación a un dominio de conducta determinadoSi el test criterial medirá más de un dominio, se deberá crear un conjunto de especificaciones por cada dominio evaluado. El procedimiento para la especificación de ítems es el siguiente:

Planeación de la pruebaEspecificaciones para los tests criteriales

Page 69: Una segunda distinción se  refiere a la interpretación

Descripción general de la conducta a evaluarDiseñar un ítem muestra que refleje las dos clases de

atributos siguientes:Delimitar, mediante afirmaciones, los atributos de los estímulos que serán presentados a los examinadosDelimitar, mediante afirmaciones, los atributos de la respuesta que el examinado selecciona o explicar los estándares que servirán para juzgar las respuestas construidasEspecificación adicional, mediante anexos, de contenidos elegibles u otros aspectos relevantes para los estímulos y respuestas involucrados

Planeación de la pruebaEspecificaciones para los tests criteriales

Page 70: Una segunda distinción se  refiere a la interpretación

Las especificaciones de ítems tienen dos propósitos:Comunicar a los usuarios de los resultados del test qué es lo que el ítem mide, a fin de que se aclare el significado de las calificaciones para propósitos instruccionales y para evaluar la efectividad de los

programasComunicar a los elaboradores de ítems detalles que

les permitan generar ítems efectivos Cabe señalar que las especificaciones de reactivos

deben ser elaboradas antes de redactar los ítems

Planeación de la pruebaEspecificaciones para los tests

Page 71: Una segunda distinción se  refiere a la interpretación

Todos los tipos de ítems solicitan al examinado seleccionar una respuesta o que construya una respuesta

Los principales tipos de ítem de respuesta seleccionada son los de respuesta alterna, opción múltiple y relación de columnasLos principales tipos de ítem de respuesta construida son los de respuesta breve y los de ensayoLa escritura de ítems enfrenta cinco dificultades generales:

Elaboración de reactivosElaboración de Ítems

Page 72: Una segunda distinción se  refiere a la interpretación

Instrucciones confusas (exigen mucha atención e intuición al examinado; lo mejor: elaborarlas y probarlas antes)Afirmaciones ambiguas (el examinado puede tener incorrecta la respuesta aún cuando sabe. Ejemplo: al

referir, aclarar el referente)Pistas no intencionales (se dan pistas al examinado que no

sabe, de modo que acierta la respuesta correcta)Sintaxis compleja (falta de unidad y uso de demasiadas cláusulas, lo que dificulta la comprensión: emplear menos

los "el que", "el cual", "quien")Vocabulario difícil (uso de terminología polisilábica e hipersofisticada que dificulta la comprensión. Redactar

simple)

Elaboración de reactivosElaboración de Ítems

Page 73: Una segunda distinción se  refiere a la interpretación

Proporciona dos respuestas y pide al examinado elegir una (si-no, faso-verdadero, etc.)Su uso más común es para identificar la corrección de afirmaciones factuales y definicionesSu uso más importante es para observar en qué medida el estudiante tiene dominio de un área, indicado por su éxito al juzgar la verdad o falsedad de proposiciones relacionadas con tal áreaVentaja: cubre bien el contenidoDesventaja: resulta fácil de adivinarRecomendación: tratar de no dar pistas

Elaboración de reactivosÍtems de respuesta alterna

Page 74: Una segunda distinción se  refiere a la interpretación

Solicita al examinado que haga corresponder correctamente dos listas, una de premisas y otra de respuestas, que están relacionadas de alguna manera (lógica, cronológica, teórica, etc.)Ventaja: su forma compacta permite un buen muestreo de contenido en poco espacioDesventaja: se restringe a asociacionesRecomendación: hacer las listas homogéneas en contenido, cortas y desiguales en número

Elaboración de reactivosÍtems de relación de columnas

Page 75: Una segunda distinción se  refiere a la interpretación

Solicita al examinado, mediante una pregunta o una afirmación incompleta llamada base, elegir la respuesta correcta o la mejor opción entre 4 ó 5 que se ofrecen

(distractores)Ventajas: es el tipo de reactivo más flexible, pues se puede emplear para medir aprendizajes cognitivos y afectivos, tanto simples como complejos; es difícil adivinar y las respuestas a los distractores permiten rastrear errores en la comprensiónDesventaja: el examinado selecciona la respuesta correcta, no la produce; así, es difícil que sintetice su pensamiento, muestre su creatividad, etc.Desarrollos adicionales: multiítem de base común, opción múltiple justificada, opción mejorada, etc.

Elaboración de reactivosÍtems de opción múltiple

Page 76: Una segunda distinción se  refiere a la interpretación

Hay habilidades, como la expresión oral, que no se pueden evaluar de manera válida con ítems de respuesta seleccionadaHay dos tipos de respuesta construida: en la que el examinado construye un producto (la conducta deja una huella) o en la que emite una respuesta (la conducta es evanescente y, por tanto debe registrarse)Al comparar los tests de respuesta seleccionada con los de respuesta construida, estos presentan las siguientes características:

Elaboración de reactivosÍtems de respuesta construida

Page 77: Una segunda distinción se  refiere a la interpretación

Aunque son difíciles de calificar, miden mejor la habilidad para sintetizar ideas, la originalidad, la redacción y otros aprendizajes complejosSe requiere menos tiempo para elaborar los ítems, pero más para calificar las respuestasAniman al estudiante a considerar aspectos más amplios del contenidoSin embargo, si ambos tipos de examen satisfacen el propósito de la evaluación, por razones prácticas casi siempre será elegido el de respuesta seleccionada

Elaboración de reactivosÍtems de respuesta construida

Page 78: Una segunda distinción se  refiere a la interpretación

Piden al examinado proporcionar una palabra o frase en respuesta a una pregunta directa o para completar una afirmación incompletaVentaja: el examinado construye su respuesta, en particular en relación al conocimiento de información factualDesventaja: difícil de calificar, debido a la variedad de posibles respuestasRecomendación: es mejor una pregunta directa, que una afirmación incompleta

Elaboración de reactivosÍtems de respuesta breve

Page 79: Una segunda distinción se  refiere a la interpretación

Es el tipo más común de respuesta construidaSe puede estructurar para obligar al examinado a producir una respuesta muy corta, restringiendo la forma y el contenido de la respuesta o limitando el espacio para responder, con lo cual se mejora la confiabilidad al calificarVentaja: es la mejor estrategia para evaluar el aprendizaje complejoDesventajas: mucho tiempo y poca confiabilidad al calificar y muestreo pobre de contenidoRecomendación: establecer explícitamente la tarea del examinado y el valor de cada pregunta

Elaboración de reactivosÍtems de ensayo

Page 80: Una segunda distinción se  refiere a la interpretación

Basadas en juicios. Estrategia a priori para estimar el mérito de un ítem. Expertos en contenido, psicometría y otros se enfocan en la pregunta a fin de detectar fallasPrueba empírica. Se enfoca en datos derivados de las respuestas de los examinados a los ítems, con el mismo finAmbos tipos de análisis son necesariosUsualmente las técnicas de juicios anteceden a las empíricasLos tests de gran escala enfatizan la prueba empírica, principalmente los normativos

Análisis de reactivosTécnicas para mejorar los ítems

Page 81: Una segunda distinción se  refiere a la interpretación

Los tests normativos emplean más los métodos empíricos, pues queremos determinar diferencias entre los examinados para contrastar sus ejecuciones. Así, el refinamiento de los ítems solo puede realizarse observando cómo contribuyen a detectar diferencias entre los examinadosCon los tests criteriales nos esforzamos por describir con precisión el dominio medido y luego aseguramos que los ítems son congruentes con dicha descripción, lo cual solo puede hacerse mediante juicios humanos

Análisis de reactivosAplicaciones normativas y criteriales

Page 82: Una segunda distinción se  refiere a la interpretación

Existen varias fuentes de datos derivados de juiciosLos redactores de los ítems, quienes tras diseñarlos pueden revisarlos, después de un tiempo prudentePaneles de jueces independientes, sin interés en los ítems y expertos en el contenido, revisan y mejoran

los ítemsLos propios examinados reportan ítems ambiguos, engañosos, difíciles, fáciles, instrucciones confusas, tiempo insuficiente, etc., inmediatamente después de contestar el examen y solo en situaciones donde

no se penalice su ejecución

Análisis de reactivosMejoramiento de ítems mediante juicios

Page 83: Una segunda distinción se  refiere a la interpretación

Si el ítem es congruente con su especificación (más fácil en los normativos)Si no contiene determinantes específicos y otras fallas de redacción técnica (pistas, ambigüedades, etc.)La corrección del contenidoSi el ítem y el test presentan sesgo cultural, socioeconómico, de género u otro

Análisis de reactivos¿Qué deben buscar los jueces?

Page 84: Una segunda distinción se  refiere a la interpretación

El ítem análisis tradicional, particularmente útil para los tests normativos, incluye tres técnicas:Indice de dificultad: P, que es la proporción de examinados que contestaron bien el ítem:

P = C / T

El valor de P debe considerarse en relación con la probabilidad de responder bien el ítem al azar (opción múltiple 4 = .25; binarios = .50)

Análisis de reactivosMejoramiento de ítems mediante prueba empírica

Page 85: Una segunda distinción se  refiere a la interpretación

¿Un ítem con valor P=.80 es fácil?¿Un ítem con valor P=.20 es difícil?La facilidad o dificultad del ítem están relacionados con el programa instruccionalEn un examen de aptitud verbal aplicado a un grupo poco familiarizado con su contenido, tiene sentido considerar un ítem con un alto valor de P como difícil; pero existen situaciones diferentes:Con un profesor hábil, ¿Un ítem con P=.95 significa que es fácil o que los examinado, bien enseñados, lo contestaron

correctamente?Con un profesor deficiente, dicho ítem, con P=.45 ¿no tenemos incluso más razón para creer que el item no es fácil?

Análisis de reactivosInterpretación del valor P

Page 86: Una segunda distinción se  refiere a la interpretación

Para un test normativo, el indicador más poderoso de la calidad de un ítem es el índice de discriminaciónNos indica qué tan frecuentemente responden bien al ítem quienes obtuvieron buena calificación total en el examen; es decir, si discrimina entre los que saben y los que no

sabenSe trata de establecer una correlación biserial entre una variable contínua (calificación total en la prueba) y la variable dicotómica de la ejecución al ítem (correcto o

incorrecto)El índice de discriminación le pone una bandera al ítem que indica que puede tener alguna falla

Análisis de reactivosÍndice de discriminación

Page 87: Una segunda distinción se  refiere a la interpretación

Ordenar los exámenes de mayor a menor puntaje totalDividir los exámenes en grupo alto (27%), grupo bajo (27%) y grupo medio (se elimina para el análisis)Calcular el valor P para los grupos alto y bajoSe resta el P bajo del P alto, para obtener el índice de

discriminación del ítem:

D = P a - Pb

Existe una relación estrecha entre P y D. Si P=1.0 ----> D=0 (D= 1.0 - 1.0 = 0). Lo mismo sucede si P = 0. Por lo tanto, si la dificultad es media, la discriminación es alta (D = 1.0 - 0 = 1.0)

Análisis de reactivosProcedimiento para calcular el índice de discriminación

Page 88: Una segunda distinción se  refiere a la interpretación

Cuando un ítem necesita revisión (ejemplo: P = .50; D = -.33), es necesario un análisis más profundo para detectar la fallaEn los ítems de opción múltiple se puede analizar cómo respondieron a los distractores los grupos alto y bajoEjemplo:

Análisis de reactivosAnálisis de distractores

Page 89: Una segunda distinción se  refiere a la interpretación

P=.50; D=-.33

A B C D Omisión

Grupo alto (16)

2 5 0 8 1

Grupo bajo (15)

4 10 0 0 1

Análisis de reactivosAnálisis de distractores

Atráe a losque sabenrevisar

No sirveHacer másatractiva

Principal problema da pistas a los que no saben: Revisar

Page 90: Una segunda distinción se  refiere a la interpretación

En un test criterial esperamos que por efecto de la instrucción todos los examinados respondan bien en el examen, por lo que habrá un bajo índice de discriminaciónPor ello, se requiere un esquema diferente. Existen dos

alternativas: La diferencia pretest-postest, en la que se administra la

prueba al mismo grupo antes y después de la instrucción y se calcula la discriminación: Ddpp = Ppost - Ppre

Análisis de reactivosÍtem análisis para tests criteriales

+1.0

-1.0

Pretest

Postest

Tendencia sin instrucción

Ddpp

Page 91: Una segunda distinción se  refiere a la interpretación

Si el ítem es sensible a la instrucción, discrimina (detecta la diferencia entre la ejecución antes y después de la instrucción)Desventaja: Hay que esperar que termine la instrucciónLa solución es la Diferencia entre el grupo instruido y no instruido, donde se aplica el test a dos grupos (instruido y no instruido) y se calcula la discriminación basada en las diferencias entre ambos: Dgin = Pi - Pn

Análisis de reactivosÍtem análisis para tests criteriales

+1.0

-1.0 No instruidos

Ddgin

Instruidos

Test

Page 92: Una segunda distinción se  refiere a la interpretación

Estandarización de la prueba

Los aspectos prácticos que rodean al test revisten una gran importanciaAparte de los aspectos estrictamente técnicos considerados, una mala administración de la prueba puede ocasionar respuestas poco significativas por parte del examinado y, por ello, problemas de validez y confiabilidadEntre los principales factores a considerar, de naturaleza administrativa están:

Ensamble, administración y calificación de la prueba

Page 93: Una segunda distinción se  refiere a la interpretación

Las instrucciones del test (propósito de la prueba, tiempo permitido, formato de la mejor opción, forma de registrar la respuesta, indicaciones sobre la adivinación, etc.)Administración del test (escenario, seguridad entrenamiento a los aplicadores, etc.)Calificación de la prueba (calificación manual, calificación automática, corrección por adivinación, pesos diferenciales, formato de registro, etc)

Estandarización de la pruebaEnsamble, administración y calificación de la prueba

Page 94: Una segunda distinción se  refiere a la interpretación

Un estándar es una medida del nivel de ejecución del examinado que es adecuado para algún propósito (¿qué tan bueno es lo suficientemente bueno?)Un estándar general produce tranquilidad; uno específico: terrorEn los test de gran escala y de alto impacto, si el estándar es alto los errores tienen consecuencias desastrosas y duraderas; si es bajo, la sociedad pierde, se devaluan los diplomas, etc.El establecimiento de estándares requiere del juicio humano, pero ello no lo hace arbitrario

Estandarización de la pruebaEstablecimiento de estándares y puntos de corte

Page 95: Una segunda distinción se  refiere a la interpretación

Establecer estándares es un proceso: lo haremos, cometeremos errores con seguridad y los corregiremos, hasta contar con unos realistas y apropiadosPero ¡ojo!, es más fácil ajustar los estándares hacia arriba que hacia abajo; de igual modo, ponerlos después de aplicar la prueba, que antesLos principales factores a considerar al establecer estándares son:

Estandarización de la pruebaEnsamble, administración y calificación de la prueba

Page 96: Una segunda distinción se  refiere a la interpretación

Análisis del contexto de la decisión (¿qué pasa si el examinado falla en lograr el estándar? depende de de la magnitud de la decisión y de consideraciones

contextuales:En el salón no queremos falsos dominadores: estándares altosPara dar un diploma o ingresar a otro ciclo, no queremos no-dominadores: estándares bajosPara el caso de los exámenes normativos, es difícil poner estándares debido a su esquema descriptivo vago; por ello, se requiere consultar los datos derivados de la aplicación de los ítems (grupos

contrastados)

Estandarización de la pruebaEnsamble, administración y calificación de la prueba

Page 97: Una segunda distinción se  refiere a la interpretación
Page 98: Una segunda distinción se  refiere a la interpretación

Nodominadores Dominadores

Page 99: Una segunda distinción se  refiere a la interpretación

Nodominadores Dominadores

Page 100: Una segunda distinción se  refiere a la interpretación

Nodominadores Dominadores

Estándaralto

Instrucción

Page 101: Una segunda distinción se  refiere a la interpretación

Nodominadores Dominadores

Estándaralto

Instrucción

Page 102: Una segunda distinción se  refiere a la interpretación

Nodominadores Dominadores

Estándarbajo

Certificación

Page 103: Una segunda distinción se  refiere a la interpretación

Nodominadores Dominadores

Estándarbajo

Certificación

Page 104: Una segunda distinción se  refiere a la interpretación

Nodominadores Dominadores

Estándaralto

Estándarbajo

InstrucciónCertificación