39
Aguascalientes, 25-27 de septiembre 2013

Aguascalientes, 25-27 de septiembre 2013

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Aguascalientes, 25-27 de septiembre 2013

Inferencia Estadística con Valores Faltantes en Datos

Longitudinales Usando modelos de Curvas Latentes de

Crecimiento

Delfino Vargas (UNAM)

María Merino (ITAM)

Introducción

• En la práctica los investigadores de diferentes disciplinas (Ciencias sociales, Ciencias Políticas, Economía, Educación, Investigación de Mercados, Biología, Medicina, etc.) se enfrentan con problemas inevitables de datos faltantes

• En muchas disciplinas ocurre que los datos que se generan faltan por diversas causas.

• Por ejemplo, se pueden planear por diseño de acuerdo a un plan de aleatorización previamente planteado.

• O bien ocurre en situaciones cuando se colectan datos longitudinales y las unidades abandonan el estudio (muerte de datos) lo cual potencialmente puede generar algún sesgo o disminuir la potencia estadística.

Introducción…

• Típicamente la forma como se han tratado los datos faltantes es ignorarlos (i.e., se borran), o bien se imputan los valores promedio para todos los datos faltantes.

• Los métodos de imputación se han utilizado extensamente en datos del Censo de los E.E.U.U. (Treiman &

Bielby, 1988) y para el ingreso en datos transversales (Martin &

Little, 1986).

• El modelo que se utilizará para este ejemplo es el de curvas latentes de crecimiento que se utiliza para explorar modelos de maduración y desarrollo de individuos en el tiempo (McArdle & Epstein, 1987). Así como en el contexto de modelos con ecuaciones estructurales con datos incompletos (McArdle, 1994).

Introducción y Objetivos

• Los métodos de imputación se han aplicado en modelos multiniveles para datos longitudinales (Little, Schnabel & Baumert,

2000). También se han utilizado para imputar el ingreso en datos transversales (Martin, Little et al. 1988).

• Otros enfoques consisten en usar modelos de regresión para imputar datos faltantes (Muthen, Kaplan, & Hollis,1987)

• Objetivo:

Evaluar la eficiencia de dos métodos de imputación de datos: Máxima verosimilitud con Información Completa (FIML) e Imputaciones Múltiples (MI).

Se ajusta un modelo longitudinal de curvas latentes de crecimiento y se comparan los estimadores “poblacionales” con los diferentes escenarios de datos faltantes.

Conceptos Básicos

• La habilidad de imputar datos faltantes depende fundamentalmente del conocimiento que tengan los investigadores sobre los datos faltantes. Para ello se requiere definir el concepto de ignorabilidad.

• La ignorabilidad incluye definir tres conceptos complementarios (Little & Rubin 2002; Rubin, 1976):

Datos faltantes completamente al azar (missing completelyat random, MCAR);

Datos faltantes al azar (missing at random, MAR);

No ignorables (non ignorable missing , NI)

Mecanismo MCAR

• La situación MCAR quiere decir que el mecanismo que gobierna los datos faltantes no está relacionado con los datos observados ni con los ausentes.

• El mecanismo MCAR es equivalente a borrar aleatoriamente una submuestra de una población hipotética en la cual cada observación tiene igual probabilidad de ser eliminada.

• En realidad la condición MCAR es un supuesto muy fuerte que solo se puede satisfacer cuando hay una planeación del cuestionario donde algunos ítems se preguntan al azar.

• Esta mecanismo de ignorabilidad en la práctica es poco frecuente. 7

Mecanismo MAR

• El segundo mecanismo se llama datos faltantes al azar (MAR).

• El mecanismo MAR define que la distribución de los valores faltantes no dependen de los valores perdidos en sí, sino solamente se explican a partir de variables observables.

• En otras palabras, el mecanismo de los datos faltantes MAR se puede modelar a partir de los variables que se observan.

• Por ejemplo, si un individuo con un ingreso muy alto no proporcionó datos sobre su ingreso por temor a reportarlo pero sí se tienen variables que potencialmente pueden explicar la no respuesta, entonces se tiene un mecanismo MAR.

8

Ejemplos. MCAR, MAR

• Ejemplo. Se tienen dos variables continuas y una de ellas tiene valores faltantes: Y1=edad y Y2=abuso de alcohol.

• Si la probabilidad de registrar el puntaje de abuso de alcohol es la misma para todos los individuos sin importar su nivel de ingesta o edad, entonces el mecanismo de datos faltantes es MCAR.

• Si la probabilidad de registrar abuso de alcohol depende de la edad pero no del nivel de ingesta y esta probabilidad es la misma dentro de cada grupo de edad, y se dispone de esta covariable entonces el mecanismo de datos faltantes es MAR.

Mecanismo NI

• El mecanismo es NI si las covariables que explican los datos faltantes están ausentes de la base de datos y esta la ausencia está asociada con la variable misma (endogeneidad).

• Por ejemplo, si estamos haciendo un estudio sobre ingesta de alcohol y uso de drogas, si la propensión de que un individuo no conteste la pregunta precisamente porque su ingesta de alcohol y uso de drogas es alta y además no disponemos de otras variables que expliquen el uso de alcohol y otras sustancias, entonces el mecanismo es no ignorable (NI).

• Este patrón es el más difícil de tratar analíticamente. El enfoque más recomendables para resolver estos casos es usar Métodos de Monte Carlo y Cadenas de Markov en combinación con métodos Bayesianos.

10

Remplazos, 2a a 5a ronda

Datos

faltantes

Datos

completos

Y1 Y2 Y3 Y4 Y5

Datos 1

Y1 Y2 Y3 Y4 Y5

….

Y1 Y2 Y3 Y4 Y5

Datos 2

Y1 Y2 Y3 Y4 Y5

Datos n

• Representación hipotética de datos longitudinales con remplazos en la 2a a 5a rondas.

• La áreas sombreadas representan datos completos, los espacios en blanco los datos faltantes

• Los valores faltantes se imputan, las versiones completas de datos se muestran a la derecha.

Una situación semejante sucede cuando en un estudio tipo panel, algunas unidades de estudio deciden no responder a la encuesta, o bien reaparecen en mediciones posteriores.

Métodos de imputación

Máxima Verosimilitud con

Información Completa (FIML)

Imputaciones Múltiples (MI)

? ?

?? ?

? ?

?

Observaciones

Caso

s

Máxima Verosimilitud con Información Completa (FIML)

Datos Completos

Datos Faltantes

)2(

88

)2(

85

)2(

81

)2(

58

)2(

55

)2(

51

)2(

18

)2(

15

)2(

11

)2(

)2(

8

)2(

5

)2(

1

)2( ,

x1

n1

x2 x3

n2

n3

n4

)3(

88

)3(

81

)3(

18

)3(

11

)3()3(

8

)3(

1

)3( ,

)(

pp

)(

p

)(

p

)(

n

)()(

)(

n

)()(

)(

)(

n

)(

)(

)(

11

2

1

1

1

2

1

22

1

21

1

1

1

12

1

11

1

1

1

2

1

1

1

Método de Imputación: FIML

• El método de Máxima Verosimilitud con Información Completa (FIML , Arbuckle, 1994).

Usando este enfoque, primero se usan la estimación MV para diferentes subconjuntos de datos con valores completos y luego se generan matrices de covarianzas con y sus correspondientes funciones de verosimilitud.

De esta forma se genera una función de verosimilitud que incorpora todos los posibles subconjuntos de funciones de verosimilitud a partir de datos completos.

Con este enfoque, en realidad no hay un procedimiento de imputación, en lugar de ello existen funciones de verosimilitud que estiman los parámetros a partir de los datos disponibles. Este método se usa dentro del contexto de SEM.

Enfoque de FIML (cont)

• Se define (1) como un vector de medias con observaciones calculadas a partir de observaciones con datos completos, la información se obtiene a partir de n datos completos:

• Esto es equivalente a calcular las medias y matriz de covarianzas usando el método de los datos completos (listwise deletion), las expresiones correspondientes son:

scovarianzadematrizyxxxx n )1(

)1()1(

2

)1(

1)1( ,...,,

)1()1(

2

)1(

1

)1(

2

)1(

22

)1(

21

)1(

1

)1(

12

)1(

11

)1(

)1(

)1(

2

)1(

1

)1(

nnnn

n

n

n

y

Enfoque de FIML (cont)

• En este caso para (i) para i = 1,2, …, q, denotan un vector de medias con casos completos para un subconjunto de variables

• donde x(i) es el i-ésimo subconjunto formado con variables con información completa de tamaño ni.

• Note que el número de variables y tamaño de cada conjunto no es el mismo y depende del número de preguntas con valores faltantes. El correspondiente vector i-ésimo de medias y matriz de covarianzas para cada subconjunto es igual a

)()(

2

)(

1)( ,...,, i

n

ii

i xxxx

)()(

2

)(

1

)(

2

)(

22

)(

21

)(

1

)(

12

)(

11

)1(

)(

)(

2

)(

1

)(

i

pp

i

p

i

p

i

n

ii

i

n

ii

i

n

i

i

i y

Ejemplo. FIML con 8 variables.

• Por ejemplo, supongamos que el vector (2) está formado con las medias y variables con casos completos de tamaño n2.

• El vector (3) está formado con las medias y variables con casos completos de tamaño n3.

• La matriz de covarianzas para cada subconjunto es igual a

)2(

8

)2(

5

)2(

1)2( ,, xxxx

)3(

8

)3(

1)3( , xxx

)2(

88

)2(

85

)2(

81

)2(

58

)2(

55

)2(

51

)2(

18

)2(

15

)2(

11

)2(

)2(

8

)2(

5

)2(

1

)2( ,

)3(

88

)3(

81

)3(

18

)3(

11

)3()3(

8

)3(

1

)3( ,

Máxima Verosimilitud con Información Completa (FIML)

• Bajo condiciones de normalidad se tiene que la log-verosimilitud del i-esimo caso es igual a

• donde Ki es una constante que depende de ni. La log-verosimilitud de la muestra es igual a

• En esta función se busca minimizar la función C(q)

)()(||loglog )()(

1

)(

'

)(21

)(21

iiii(i)iii xxKL

N

i

iLL1

log),(log

.)()(||log

2))(),((log2)(

1

)()(

1

)(

'

)()()(

1

qqq

N

i

iiiiii

N

i

i

xx

KLC

))(),((log qq LO bien

Imputación Múltiple.

• La imputación múltiple (MI) es una técnica estadística basada en simulaciones de MonteCarlo que permite analizar datos con valores faltantes. Consiste básicamente en tres pasos.

La imputación. Se producen M conjuntos de datos (versiones completas) que se generan bajo un modelo de imputación

Ajuste del Modelo. Se analizan los datos de acuerdo a un modelo previamente establecido

Obtención de estimadores en un modelo único. Se obtienen los resultados de los M conjuntos de datos y se combinan en un solo resultado.

• La Teoría de Imputación

La crítica más recurrente al los métodos de imputación simple es la subestimación de la varianza. Es decir en el método EM se obtiene un solo conjunto de datos imputados pero no se incorpora la incertidumbre que se origina al generar los datos faltantes.

La esencia de este procedimiento MI yace en la Teoría Bayesiana.

Imputación Múltiple.

• La imputación múltiple (MI) es una técnica estadística basada en simulaciones que permite analizar datos con valores faltantes. Consiste básicamente en tres pasos.

»La imputación. Se producen M conjuntos de datos (versiones completas) que se generan bajo un modelo de imputación

»Ajuste del Modelo. Se analizan los datos de acuerdo a un modelo previamente establecido

»Obtención de estimadores en un modelo único. Se obtienen los resultados de los M conjuntos de datos y se combinan en un solo resultado.

Imputaciones Múltiples (MI)

Datos en sección cruzada

• La idea fundamental es crear más de una versión del conjunto de datos imputados.

• Las imputaciones múltiples k=1,.., 5 reflejan el mecanismo de incertidumbre.

• Por tanto las versiones de datos son diferentes.

?

?

?

?

?

Observaciones

Cas

os

k

1 2 3 4 5

Generación de las Muestras

• Lo primero que debemos determinar es el número de conjuntos a imputar. Esto se calcula con la siguiente formula que calcula la eficiencia de las imputaciones.

• Donde g es la proporción de datos faltantes, k es el número de imputaciones seleccionado. En general se determina k

entre 3 y 10 para obtener una buena calidad de los estimadores.

• Por ejemplo si se usan k=5 conjuntos de datos y g = 0.30 porque se tiene el 30% de datos faltantes, entonces se tiene una eficiencia relativa del 94%,.

1

1

g

kEF

94.5

30.1

1

EF

Eficiencia Relativa de las Imputaciones

• La siguiente tabla muestra algunos valores calculados usando la formula

g

k 10 30 50 70 90

3 97 91 86 81 77

5 98 94 91 88 85

10 99 97 95 93 92

20 100 99 98 97 96

Rubin (1987; p. 114)

1

1

g

kEF

Cadenas de Markov

• Se corren m cadenas independientes o iteraciones de calentamiento (burn in iterations) de longitud t.

• Un aspecto importante al correr cadenas de Markov es probar el numero de iteraciones necesarias para garantizar que la imputación sea confiable. La razón es “quemar” un número necesario de iteraciones de entrenamiento para inducir independencia en la estimación de qt+m de qt.

• De esta manera se asegura que, después de terminar con las m iteraciones de entrenamiento, cada valor de q se es independiente de P(q |Yobs) y por tanto se puede tomar a Ymis como el valor imputado.

Serie de Tiempo

• Serie de tiempo para iteraciones

25

57

58

59

60

61

62

63

I t er at i on

- 600 - 400 - 200 0 200 400 600 800

Calentamiento

No hay tendencia

Función de Autocorrelación

• Función de autocorrelación, se observa un decaimiento súbito, lo cual se traduce en una convergencia aceptable del proceso simulación.

- 1. 0

- 0. 5

0. 0

0. 5

1. 0

Lag

0 2 4 6 8 10 12 14 16 18 20

La función de autocorrelación cae súbitamente

Para los parámetros del los modelos. Reglas de Rubin

• Se calcula el promedio de los estimadores

• Ahora se calcula la varianza promedio dentro de las imputaciones

• Se calcula la varianza entre imputaciones

• Se estima la variación total

• Los grados de libertad se estiman usando la aproximación de Satterthwite

• El IC95% para los estimadores es

qqk

l

llk 1

ˆ1

,

k

l

lWk

W1

ˆ1

,

qq

k

l

llk

B1

2)ˆ(1

1

,

Bk

kWT

1

,

2

11)1(

B

W

k

kkdf

.

Ttdf 21, q

Ejemplo. Un estudio longitudinal. Uso de Alcohol en población de Adolescentes.

• Estudio realizado por Vargas (2000).

• Uso de alcohol durante cuatro años (1989, 1990, 1991, 1992) en población de adolescentes en Iowa. Cuando el estudio se inició, los adolescentes cursaban el 1o de secundaria.

• Los datos originales con valores faltantes fueron N=451. Los datos con casos completos fueron n=369.

• Se parte de la muestra de n=369 de casos completos que se toma como “universo” y a partir de ahí se descarta aproximadamente el 10%, 20% y 30%, simulando datos faltantes bajo los siguientes esquemas:

MCAR (se eliminan observaciones al azar)

MAR (adolescentes con alta ingesta de alcohol, mayor que la mediana cuando cursaban el 2o grado de secundaria)

NI (adolescentes de familias con alta desventaja, usando técnicas de agrupamiento).

Generación de las Muestras

• A partir de la muestra con datos completos (universo), se crearon tres patrones con datos incompletos que simularon las características de MCAR, MAR y NI.

• Se descartaron aproximadamente 10, 20 y 30% de los datos usando los tres esquemas de datos faltantes, previamente descritos.

• El segundo paso consistió en recuperar los valores faltantes y estimar los parámetros del modelo de CLC para evaluar la eficacia del método de imputación de datos.

• Se usaron dos métodos: FIML y IM.

• Las IM usaron k=5 conjuntos de datos con una eficiencia relativa del 94%,. En la fórmula siguiente se tiene que g = 0.30, porque se tiene el 30% de datos faltantes.

1

1

g

kEF

Grafico de las trayectorias individuales

05

0

1 2 3 4 1 2 3 4

Hombres Mujeres

Uso d

e A

lcohol

Ocasión de MediciónGraphs by Target´s Gender

Fuente: Elaboración propia (Vargas Chanes, 2000)

Modelo de Curvas de Crecimiento

iii

iii

ijijiiij

rX

rX

Nivel

TY

Nivel

111101

001000

10

2

1

X

t=1 t=2 t=3 t=4

1 2 3 4

Y1 Y2 Y3

0 1

roi r1i

Y4

Evaluación del sesgo de los estimadores

100

i

iii

ˆsesgo

Muestra Intersección 0 (err std)

Pendiente

1 (err std)

Cov(0, 1) (err std)

2(5) RMSEA N

Universo 0.973(.140) 0.979(.097) 0.18(.37) 27.98 0.11 369

LD

10 MCAR 0.911(.143) 1.009(.104) .07 (.38) 49.52 0.16 331

20 MCAR 1.106(.153) 1.013(.110) -.02(.43) 24.56 0.12 298

30 MCAR 1.034(.186) 1.057(.117) -.46(.52) 16.69 0.10 253

MAR 0.642(.111) 0.869(.102) -.19(.27) 69.06 0.21 296

NI 0.493(.118) 0.219(.056) 1.18(.16) 69.94 0.22 257

Tabla de Resultados para LD, comparado con los parámetros poblacionales

Sesgo parámetro Sesgo Error Est.

Muestra π0 π1 (π0) (π1)

LD

10 MCAR -6.4% 3.1% 2.1% 7.2%

20 MCAR 4.4% 3.5% 9.3% 13.4%

30 MCAR 6.3% 8.0% 32.9% 20.6%

MAR -34.0% -11.2% -20.7% 5.2%

NI -49.3% -77.6% -15.7% -42.3%

Aquí no hay imputaciones

Muestra Intersección 0

(err std)Pendiente 1

(err std)Cov(0, 1)

(err std)2(5) RMSEA N

Universo 0.973(.140) 0.979(.097) 0.18(.37) 27.98 0.11 369

FIML

10 MCAR 0.976(141) 0.976(.098) -0.22(.38) 31.51 0.12 369

20 MCAR 0.961(.141) 0.949(.097) -0.21(0.39) 24.51 0.10 369

30 MCAR 0.970(.141) 0.977(.100) 0.03(.41) 21.01 0.09 369

MAR 0.978(.141) 0.960(.102) -.48(.39) 53.89 0.16 369

NI 0.854(.137) 0.688(.079) 1.22(.27) 61.61 0.17 369

Tabla de Resultados para FIML comparado con los parámetros poblacionales

Sesgo parámetro Sesgo Error Est.

Muestra π0 π1 (π0) (π1)

FIML

10 MCAR 0.3% -0.3% 0.7% 1.0%

20 MCAR -1.2% -3.1% 0.7% 0.0%

30 MCAR -0.3% -0.2% 0.7% 3.1%

MAR 0.5% -1.9% 0.7% 5.2%

NI -12.2% -29.7% -2.1% -18.6%

Muestra Intersección p0

(err std)Pendiente p1

(error std)Cov(p0, p1) (error std)

c2(5) RMSEA N

Universo 0.973(.140) 0.979(.097) 0.18(.37) 27.98 0.11 369

MI 369

10 MCAR 0.963(.148) 0.943(.098) 0.12(.28) 41.03 0.14 369

20 MCAR 0.978(.141) 0.924(.096) 0.33(.39) 23.00 0.09 369

30 MCAR 0.960(.141) 1.066(.092) 0.23(.45) 21.03 0.09 369

MAR 0.900(.146) 1.012(.104) -.34(.55) 43.37 0.15 369

NI 0.896(.175) 0.527(.151) 1.27(.62) 22.22 0.09 369

Tabla de Resultados MI comparando con los parámetros poblacionales

Sesgo parámetro Sesgo Error Est.

Muestra π0 π1 (π0) (π1)

MI

10 MCAR -1.0% -3.7% 0.7% 1.0%

20 MCAR 0.5% -5.6% 0.7% -1.0%

30 MCAR -1.3% 8.9% 0.7% -5.2%

MAR -7.5% 3.4% 4.3% 2.1%

NI -7.9% -46.2% 25.0% 19.6%

Conclusiones

• Los resultados muestran que bajo condiciones MCAR usando el 30% de los datos eliminados, los parámetros estimados son insesgados respecto del “universo” pero los errores estándar se incrementan.

• Pero bajo condiciones MAR y NI resulta contraproducente eliminar datos faltantes al usar el enfoque de LD (sin imputar).

• Los métodos MI y FIML generan resultados insesgados con respecto al “universo” usando los supuestos MCAR y MAR.

• Si los datos faltantes cumplen las condiciones de NI debe ponerse más cuidado en la imputación de datos

• En general es recomendable imputar datos. En el 90% de los casos el supuesto MAR se cumple.

Recomendaciones

• Cuando sólo se tiene una proporción pequeña de datos faltantes (e.g, menos de un 10%) entonces es razonable utilizar los casos completos (eliminar los casos con datos faltantes) y producen resultados confiables.

• Se recomienda construir un modelo de imputación que contiene todas las variables posibles, que puedan explicar el mecanismo de valores faltantes y así realizar la imputación usando MAR. Esta estrategia mejorará la calidad de las imputaciones, especialmente cuando se trata de modelos no ignorables.

• Existe la posibilidad de usar el enfoque Bayesiano para la imputación de datos.

GRACIAS