Confiabilidad y validez en la elaboración de pruebas

Preview:

DESCRIPTION

Generalidades sobre la confiabilidad y validez como requisitos fundamentales en la elaboración de pruebas e instrumentos psicologicos.

Citation preview

El término “confiabilidad” se refiere a la consistencia de las puntuaciones obtenidas por las mismas personas cuando se las examina en distintas ocasiones con el mismo test, con conjuntos equivalentes de reactivos ó en otras condiciones de examinación.

El instrumento de medida que se usa en caso y con el propósito dado debe realmente medir el rasgo que se intenta medir.

El instrumento debe dar medidas confiables, de manera que se obtenga los mismos resultados al volver a medir el rasgo.

La confiabilidad de las diferencias es de primera importancia para las comparaciones intra e interindividuales.

La confiabilidad del puntaje de una distribución puede obtenerse cuando se conocen la varianza de los puntajes de error y la varianza de los puntajes observados.

a) la administración del test;

b) la adivinación, y

c) la calificación. 

El aplicador del test sin duda desempeña un papel decisivo en los errores de medida que pueden producirse durante la aplicación.

Es importante el efecto que tiene la inevitable interacción entre los examinadores y examinados sobre la ejecución y el comportamiento de los individuos examinados.

El lugar en que se lleva a cabo el examen, el grado de las perturbaciones exteriores, etc.

Un aspecto especialmente importante son las instrucciones dadas a los individuos examinados, las cuales también pueden ser fuente de error.

En los métodos llamados de elección múltiple, las respuestas se presentan en forma de opciones, una de las cuales es correcta, si un individuo examinado es capaz de resolver un ítem, puede adivinar y hará una adivinación correcta con cierta probabilidad para cada ítem.

La persona que evalúa las respuestas, es decir la que decide si una respuesta es correcta o errónea, desempeña un papel importante en la producción de errores de medida.

El puntaje depende de la habilidad y criterio de calificador.

El método de test-retest.

El método de los test paralelos.

Los métodos de división por mitades.

El método de kuder-richardson

El método de test-retest: Este método requiere la aplicación del mismo test dos veces. Usando la notación dada anteriormente para los diferentes términos de varianza y suponiendo que los términos no están correlacionados.

Test paralelos: En la forma clásica de este método, se construyen dos test tratando de satisfacer lo mejor posible las condiciones de estricto paralelismo.

Los dos test se aplican con un intervalo de tiempo dado, y la confiabilidad se calcula como la correlación de los resultados de las dos medidas.

Métodos de división por mitades:Se construyen dos test paralelos, para probar su confiabilidad, son aplicados en la misma ocasión, con ítem escogidos alternadamente de cada uno de los test.

El método de kuder-richardson:Se puede por supuesto, dividir un test en más de dos partes. Si un test se considera formado por tantos test paralelos como ítems tenga, de manera que cada ítem es tratado como paralelo de cada uno de los demás ítems, es posible derivar alguna de las ecuaciones más comunes usadas para computar los coeficientes de confiabilidad, esto fue derivado originalmente por Kuder y Richardson suponiendo que todos los ítems tienen la misma media y la misma varianza.

Extinción de la prueba: entre mas reactivos existan en una prueba y más homogéneos sean, es probable que la confiabilidad sea mayor.

Adivinación: entre menos adivinación ocurra en una prueba (es decir menos sujetos respondan aleatoriamente a los reactivos), es probable que la confiabilidad sea mayor.

La validez de los instrumentos de medición tiene que ver con lo que miden y con que tan bien lo hacen; nos indica que se puede inferir a partir de sus resultados

El rasgo medido por determinada prueba solo puede definirse mediante el examen de las fuentes objetivos de información y las operaciones empíricas utilizadas para establecer su validez.

Validez de contenido

Validez empírica

Validez estructural

Validez predictiva

Validez concurrente

Este tipo de test está destinado a medir el grado de dominio del individuo en una actividad específica o un concurso de estudio.

La validez de contenido depende de la pertinencia de las respuestas del individuo.

Esta nos indica la eficacia de un test en la predicción de la conducta del individuo en situaciones específicas.

Para ello se compara la actuación en el test con un criterio, es decir, una medida directa e independiente de lo que está destinado a medir el test.

La validez estructural de un test es el grado en que este mide una elaboración o un rasgo teórico.

Como ejemplos de estas hipótesis, citemos la inteligencia, la comprensión mecánica, la fluidez verbal, la velocidad de marcha el neocriticismo y la ansiedad.

Cuando computamos la validez predictiva, deseamos usar el test para predecir las posiciones de los individuos sobre una distribución de la que solo podemos disponer mas tarde.

El test predice cierto resultado después de un tiempo dado. Los datos de criterio consisten en alguna medida del resultado.

La validez concurrente se utiliza para test en situaciones de diagnostico.

La razón para construir un test que mida una variable de la cual ya se tiene datos es que en la mayoría de los casos, el test ahorra tiempo y esfuerzo y da le mismo resultado que la medida de criterio.

Los coeficientes de validez se ven afectados por factores como: el rango de talento que se mide y la longitud del intervalo entre la aplicación de las dos medidas.

También por las habilidades de pruebas, ansiedad, motivación, velocidad, comprensión de instrucciones de pruebas, raport, incapacidades físicas,etc.

Las condiciones en las que se aplica el instrumento de medición

Las instrucciones son deficientes

Quienes aplican el instrumento no generan empatía ni conocen el instrumento.

Categorización

Contrastación 

Estructuración y

Teorización:

Aquellas medias de criterio que probamos para probar la valides de un instrumento rara vez dan una medida exacta de las posiciones de los individuos sobre el continuo del “criterio verdadero” algunas de las dificultades encontradas en la obtención de buenas medidas de criterio.