18
Análisis de valores perdidos Ana María López Departamento de Psicología Experimental

Valores Perdidos

Embed Size (px)

Citation preview

Page 1: Valores Perdidos

Análisis de valores perdidos

Ana María López

Departamento de Psicología Experimental

Page 2: Valores Perdidos

Introducción

• La presencia de valores perdidos (información ausente o faltante) es un problema común a

cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos

ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio

hasta la aparición de sesgos inaceptables. La eliminación de sujetos con características

especiales limita la representatividad o validez externa de los resultados del estudio.

• Las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de

medida, los sujetos no asisten a la entrevista (en diseños longitudinales pueden abandonar el

estudio en una oleada concreta), no contestan a una serie de preguntas o responden con la

opción no sabe/no contesta incorporada en el cuestionario, etc. Por todas estas razones y

muchas otras los datos perdidos son ubicuos en la investigación en ciencias sociales y de la

salud (Allison, 2002).

Page 3: Valores Perdidos

Introducción

• Hay una solución fácil para el tratamiento de bases de datos con valores perdidos y consiste en

analizar sólo los casos con Información completa en el conjunto de variables. Esta solución, es

la opción por defecto de la mayoría de los paquetes estadísticos, se conoce como análisis de

casos completos (Casewise, Listwise). El análisis de casos completos tiene la ventaja de su

simplicidad pero el inconveniente de que se pueden excluir a muchos casos y perder potencia en

los análisis estadísticos.

Page 4: Valores Perdidos

Patrones de pérdida de información

• La forma o patrón para la pérdida de datos puede ser muy variada. En la figura siguiente

aparecen representada tres posibles matrices de datos con perdida de información univariante,

monótona y aleatoria.

123......N

?

b)

X1 X2 X3 ..…Yp

? ?

?

? ? ?

Y1 Y2 Y3 ……Yp Y1 Y2 Y3....Yp

Figura 1. Patrones de pedida de información: a) univariado, b) monótono, y c) arbitrario

a) c)

Page 5: Valores Perdidos

Mecanismos de perdida de datos

Se distinguen tres mecanismos de perdida de datos:

• Datos perdidos completamente al azar (MCAR = missing completely at

random)

• Datos perdidos al azar (MAR= missing completely at random)

• Datos perdidos no ignorables o no debidos al azar (MNI=missing non-

ignorable, o MNAR=missing not at random).

Page 6: Valores Perdidos

Mecanismos de perdida de datos

Se considera que los datos perdidos son MCAR cuando las características de los sujetos con

información son las mismas que las de los sujetos sin información. Dicho de otra manera la

probabilidad de que un sujeto presente un valor ausente en una variable no depende ni de

otras variables del cuestionario ni de los valores de la propia variable con valores perdidos.

Las observaciones con datos perdidos son una muestra aleatoria del conjunto de

observaciones. Ejemplo de MCAR:

1. Las personas que no nos proporcionan su salario tienen, en promedio, el

mismo salario que las personas que nos lo proporcionan.

2. Las características estadísticas (media, porcentajes) del resto de las variables

son las misma para los sujetos que nos proporcionan su salario y para los que no lo

proporcionan.

Page 7: Valores Perdidos

Mecanismos de perdida de datos

La perdida de datos es MAR cuando los sujetos con datos incompletos son

diferentes significativamente de los que presentan datos completos en alguna

variable, y el patrón de ausencia de datos puede ser predecible a partir de

variables con datos observados en la base de datos del estudio que no muestran

ausencia de datos. La probabilidad de que se produzca la ausencia de una

observación depende de otras variables pero no de los valores de la variable con

el valor ausente. Es imposible probar si la condición MAR es satisfecha y la razón

es que dado que no conocemos la información faltante no podemos comparar los

valores de aquellos sujetos que tienen información con los que no la tienen. Un

ejemplo de MAR

1. La pérdida de valores en la variable sueldo es MAR si depende del estado civil pero

dentro de cada categoría, la probabilidad de missing no está relacionada con el sueldo.

Page 8: Valores Perdidos

Mecanismos de perdida de datos

La perdida de datos es MNAR cuando la probabilidad de los datos perdidos sobre una

variable Y depende de los valores de dicha variable una vez que se han controlado el resto

de las variables. Ejemplo:

1. Si son los hogares de renta mayor los que con menos probabilidad nos proporcionan el

salario, una vez controladas el resto de las variables, entonces la perdida de datos no es

aleatoria ni ignorable.

2. En los siguientes archivos se simula el mecanismo MAR y MNAR para una variable y

para dos variables. En este último ejemplo tomado de Schafer y Graham, 2002 se

simulan los tres mecanismos de pérdida con dos variables.

Page 9: Valores Perdidos

Análisis de Valores perdidos con SPSS

Page 10: Valores Perdidos

Análisis de Valores perdidos con SPSS

Archivo: opinion.sav

Page 11: Valores Perdidos

Análisis de valores perdidos

Estadísticos univariados

71 1536,0563 567,98511 29 29,0 0 5

100 4,2900 1,77693 0 ,0 0 0

100 0 ,0

salario

opinion

sexo

N MediaDesviación

típ. Recuento Porcentaje

Perdidos

Bajos Altos

No de extremosa

Número de casos fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).a.

Resumen de las medias estimadas

1536,0563 4,7324

1536,0563 4,2900

1637,1620 4,2900

1585,1126 4,2900

Según lista

Todos los valores

EM

Regresión

sala

rio

opin

ion

Resumen de las desviaciones típicas estimadas

567,98511 1,57623

567,98511 1,77693

598,12110 1,77693

517,90342 1,77693

Según lista

Todos los valores

EM

Regresión

sala

rio

opin

ion

Page 12: Valores Perdidos

Análisis de valores perdidos

Pruebas T con varianzas separadasa

. 4,0

. 46,5

71 71

0 29

1536,0563 4,7324

. 3,2069

t

gl

no presente

no perdido

Media(Presentes)

Media(Perdidos)sala

rio

sala

rio

opin

ion

Para cada variable cuantitativa, los pares de grupos estánformados por variables indicador (presente, perdido).

Las variables indicador con menos del 5% de losvalores perdidos no se muestran.

a.

Tablas de contingencia de variables indicador frente a categóricas

sexo

71 45 26

71,0 81,8 57,8

29,0 18,2 42,2

Recuento

Porcentaje

Presente

% perd. sistemaPerdidos

salario

Tota

l

muj

er

hom

bre

Las variables indicador con menos del 5% de sus valoresperdidos no se muestran.

Page 13: Valores Perdidos

Análisis de valores perdidos

Patrones perdidos (casos con valores perdidos)

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

1 33,3 S

Caso43

44

45

47

48

49

50

52

54

55

79

80

81

82

83

84

85

86

87

88

89

91

92

93

95

96

98

99

100

no p

erd

ido

% p

erd

ido

opin

ion

sexo

sala

rio

Patrones devalores

extremos yperdidos

a

- indica un valor extremo bajo, mientras que + indica un valorextremo alto. El rango utilizado es (C1 - 1,5*AIC, C3 + 1,5*AIC).

Los casos y las variables se ordenan según lospatrones de los perdidos.

a.

Patrones tabulados

71

X 100

Número de casos71

29

opin

ion

sexo

sala

rio

Patronesperdidos

a

Com

plet

o si

...b

Los patrones con menos del 1% de los casos (1 o menos) nose muestran.

Las variables se ordenan según los patronesperdidos.

a.

Número de casos completos si las variables perdidasen ese patrón (marcado con X) no se utilizan.

b.

Page 14: Valores Perdidos

Análisis de valores perdidos

Estadísticos según lista

Medias según lista

71 1536,0563 4,7324

Núm

ero

de c

aso

sala

rio

opin

ion

Covarianzas según lista

322607,08250

-567,92757 2,48451

salario

opinion

sala

rio

opin

ion

Correlaciones según lista

1

-,634 1

salario

opinion

sala

rio

opin

ion

Estadísticos según pareja

Frecuencias según pareja

71

71 100

71 100 100

salario

opinion

sexo

sala

rio

opin

ion

sexo

Medias según pareja

1536,0563 4,7324

1536,0563 4,2900

1536,0563 4,2900

salario

opinion

sexo

sala

rio

opin

ion

Media de la variable cuantitativacuando está presente la otra variable.

Desviaciones típicas según pareja

567,98511 1,57623

567,98511 1,77693

567,98511 1,77693

salario

opinion

sexo

sala

rio

opin

ion

Desviación típica de la variable cuantitativacuando está presente la otra variable.

Covarianzas según pareja

322607,08250

-567,92757 3,15747

salario

opinion

sala

rio

opin

ion

Correlaciones según pareja

1

-,634 1

salario

opinion

sala

rio

opin

ion

Page 15: Valores Perdidos

Análisis de valores perdidos

Estadísticos de EM estimados

Medias de EMa

1637,1620 4,2900

sala

rio

opin

ion

Prueba MCAR de Little: Chi-cuadrado= 15,175, GL = 1, Sig. = ,000

a.

Covarianzas de EMa

357748,85539

-721,71074 3,15747

salario

opinion

sala

rio

opin

ion

Prueba MCAR de Little: Chi-cuadrado= 15,175, GL = 1, Sig. = ,000

a.

Correlaciones de EMa

1

-,679 1

salario

opinion

sala

rio

opin

ion

Prueba MCAR de Little: Chi-cuadrado= 15,175, GL = 1, Sig. = ,000

a.

Estadísticos de regresión estimados

Medias de regresióna

1585,1126 4,2900

sala

rio

opin

ion

Se añade a cada estimación el residuode un caso elegido aleatoriamente.

a.

Covarianzas de regresióna

268223,95183

-611,10178 3,15747

salario

opinion

sala

rio

opin

ion

Se añade a cada estimación el residuode un caso elegido aleatoriamente.

a.

Correlaciones de regresióna

1

-,664 1

salario

opinion

sala

rio

opin

ion

Se añade a cada estimación el residuode un caso elegido aleatoriamente.

a.

Page 16: Valores Perdidos

• Análisis de casos completos: para el conjunto de variables (Listwise,

Complete case)

• Análisis de casos completos: por pares de variables (Pairwise)

Métodos para tratar valores perdidos

Page 17: Valores Perdidos

Métodos de imputación de datos

1. Imputación simple

• Sustitución por la media de las observaciones con información.

• Imputación mediante regresión múltiple. Asigna a los valores missing los valores

predichos por una ecuación de regresión estimada a partir de los sujetos con

información completa.

• Algoritmo EM

2. Imputación múltiple

Métodos para tratar valores perdidos

Page 18: Valores Perdidos

Allison, P.D. (2002). Missing values. Sage

Little, R. J. A. y Rubin, D. B. (1989) “The Analysis of Social Science Data with Missing Values.”

Sociological Methods and Research 18: 292-326.

Little, R. J. A. y Rubin, D.B. Statistical Analysis with Missing Data,

2nd edition. New York: Wiley.

Rejas, J. Imputación de datos ausentes en estudios de calidad de vida relacionados con la salud:

patrones de pérdida de datos y métodos de imputación. Investig. Clín. Farm. 2005, Vol. 2 (1):

23-29

Schafer, J.L. y Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological

Methods, Vol. 7, No. 2, 147–77

Tutorial sobre análisis de valores perdidos con SPSS 13.

http://www2.chass.ncsu.edu/garson/pa765/missing.htm

Referencias bibliográficas: