Mónica López Ratón – BIOSTATECH, Advice, Training & Innovation in Biostatistics, S.L. Octubre 2012 [email protected]
Tablas de contingencia y tests asociados
3
Índice
1. Datos categóricos
2. Tablas de contingencia
3. Algunos tests estadísticos asociados
– Tests de independencia y homogeneidad
– Tests para muestras relacionadas
4. Software
5. Bibliografía
4
1. Datos categóricos
5
1. Datos categóricos
¿Cuándo hablamos de datos categóricos?
• En general …
– Variables nominales (no hay un orden en las categorías). Por ejemplo, el sexo .
– Variables ordinales (hay un orden en las categorías). Por ejemplo, el estatus socioeconómico.
– Variables de intervalo discretas con pocos valores.
– Variables de intervalo continuas en las que los valores están agrupados en un nº pequeño de categorías/ intervalos.
6
2. Tablas de contingencia
7
1. Tablas de contingencia
• Múltiples estudios, en particular en el campo biomédico, clasifican a los individuos en base a dos o más factores (datos categóricos).
• Dicha información puede resumirse en una tabla de contingencia (Pearson, 1904): en cada celda la frecuencia de cada combinación de las variables analizadas.
• Nos centraremos en el caso más simple: tablas de contingencia bidimensionales (dos factores o variables).
8
Tablas de contingencia bidimensionales
B1 … Bj … BJ Margin.
A1 n11 … n1j --- n1J n1.
… … … … … … …
Ai ni1 … nij --- niJ ni.
… … … … … … …
AI nI1 --- nIj nIJ nI.
Margin. n.1 n.j n.J n..
Número de individuos
con Ai y Bj
Marginales fila
J
j
iji nn1
.
Marginales columna
I
i
ijj nn1
.
I
I
J
j
ij nnn1 1
..
9
3. Algunos tests estadísticos asociados
10
Contrastes de independencia y homogeneidad
• En general, la cuestión más importante que se plantea ante una tabla de contingencia es si las variables son independientes o no (están asociadas).
Con
• Diversos tests estadísticos que dan respuesta a esta cuestión:
ji,pppH jiij ,: ..0 (Modelo de independencia o no asociación)
Tests de independencia/asociación
nnp ijij /
11
Contrastes de independencia y homogeneidad
Test Ji-cuadrado de Pearson
• Hipótesis nula: No discrepancias entre las frecuencias observadas en la tabla y las frecuencias esperadas.
2
)1)(1(
1 1
2
2 ~
JI
I
i
J
j ij
ijij
e
en
n
nne
ji
ij
..
< 20% de las celdas con frecuencia esperada < 5 y ninguna celda con frecuencia esperada < 1.
Validez de la prueba:
Frecuencias
esperadas
12
Contrastes de independencia y homogeneidad
Test Ji-cuadrado de Pearson con corrección de Yates
• Para tablas 2x2, existe una versión del test Ji-cuadrado que para mejorar la aproximación, incorpora la llamada corrección de Yates.
YATES = “CORRECCIÓN DE CONTINUIDAD”: Una distribución continua está siendo utilizada para representar una distribución discreta.
2
)1)(1(
1 1
2
2 ~ 5.0
JI
I
i
J
j ij
ijij
e
en
13
Contrastes de independencia y homogeneidad
Test de razón de verosimilitudes
• Alternativa al test Ji-cuadrado, basada en la teoría de la máxima verosimilitud.
• Compara la probabilidad de los datos observados con la probabilidad de los datos esperados bajo la hipótesis de independencia.
• Validez de la prueba:
Puede no ser apropiado si el tamaño muestral es pequeño, dado que la distribución del estadístico es aproximada.
2
1
2 ~ln2 n
ij
ij
ijn
enG
14
Contrastes de independencia y homogeneidad
• ¿Y si NO se cumplen las hipótesis de VALIDEZ del test Ji-cuadrado?
Test exacto de Fisher
• Para tablas 2x2, existe la prueba exacta de Fisher que calcula la probabilidad exacta de obtener los resultados observados si las dos variables son independientes y los totales marginales son fijos.
TESTS
EXACTOS
!!!!!
!!!!
22211211
2..21..1
1.
21
.2
11
.1
nnnnn
nnnn
n
n
n
n
n
n
p
15
Aplicación a datos reales
Asociación exposición-enfermedad
• Estudio transversal: 400 mujeres con edades entre 50-
54 años.
• ¿Existe ASOCIACIÓN entre osteoporosis
y antecedentes de dieta pobre en calcio?
16
Aplicación a datos reales
• Respuesta a la pregunta:
• Prueba de asociación: Ji-cuadrado de Pearson
Prevalencia de osteoporosis
en expuestos
Prevalencia de osteoporosis
en no expuestos
120
581 p
280
222 p
48,3%
7,9%
17
Aplicación a datos reales
• Contraste:
• Si H0 es cierta, la proporción de mujeres con
osteoporosis NO depende de los antecedentes de dieta
pobre en calcio y su estimación sería:
80/400 = 0,2 = 20%
18
Aplicación a datos reales
• Las frecuencias esperadas si H0 es cierta :
24 = 120 x 0,2
96 = 120 - 24
24 96
56 224
Total
Expuestos
No Expuestos
Total 80 320
120
280
400
56 = 280 x 0,2
224 = 280 - 56
Osteoporosis
Sí No
19
Aplicación a datos reales
= 86,01
p < 0,001
2
El valor p de la prueba es la probabilidad
de que esa discrepancia se deba sólo
al azar.
mide la “discrepancia” entre los
datos observados y los datos esperados.
2
p es pequeño (p < 0.05)
Hay evidencia de que la discrepancia
no se debe sólo al azar.
Hay ASOCIACIÓN entre
osteoporosis y dieta
pobre en calcio
20
Aplicación a datos reales
• Validez de la prueba:
– Celdas con frecuencia esperada <5: 0 (0%)
– Celdas con frecuencia esperada <1: 0
Otras pruebas ALTERNATIVAS:
Test Ji-cuadrado con corrección
por continuidad de Yates
Test exacto de Fisher
Test de Razón de verosimilitudes
= 83,50
p = 0,000< 0,001
p = 0,000< 0,001
G2 = 79,95
p = 0,000< 0,001
2
c
21
Contrastes de independencia y homogeneidad
• Variación del contraste de independencia: Cuando los totales fila son fijados por el diseño muestral:
con
• Los tests estadísticos de HOMOGENEIDAD son los mismos que los tests de INDEPENDENCIA.
Contrastes de homogeneidad
ji,pneH jiij ,: ..0
nnne jiij /..(Modelo de homogeneidad)
22
Contrastes para muestras relacionadas
• Estas pruebas comparan las distribuciones de dos variables relacionadas (no independientes).
• Se suelen utilizar en una situación de medidas repetidas para detectar cambios en las respuestas causados por la intervención experimental en los diseños del tipo antes-después.
Contrastes para muestras relacionadas
23
Contrastes para muestras relacionadas
Test de McNemar (2 proporciones relacionadas)
• Principalmente dos situaciones:
1. En los mismos sujetos:
2. Una sola medida a pares de sujetos igualados en algún criterio de interés
Medición variable A
(dicotómica)
Medición variable A
(dicotómica)
t (unidades de tiempo) después/ Aplicación tratamiento Antes Después
Estudios de casos y controles
EMPAREJADOS
24
Contrastes para muestras relacionadas
A ausente A presente
A presente
a b
A ausente
c d
Antes
Después
2
1
2
2 ~ da
daMcNemar
Con corrección por continuidad:
2
1
2
2 ~1||
da
daMcNemar
(bajo H0)
25
Aplicación a datos reales
• Objetivo: Estudiar el efecto del síntoma de despersonalización en el pronóstico de pacientes depresivos.
• Se seleccionaron 23 pacientes con depresión endógena diagnosticados como despersonalizados.
• Se aparearon con otros 23 no despersonalizados (de forma que coincidan en sexo, edad, …).
26
Aplicación a datos reales
• Se acepta la hipótesis nula H0
84.328.1
25
25 2
1,05.0
2
2
McNemar
NO HAY EVIDENCIA de que el síntoma influya en el pronóstico.
Despersonalizados
No
recuperados
Recuperados
No desper- Recuperados 5 14
sonalizados No
recuperados 2 2
27
Contrastes para muestras relacionadas
Test de Cochran y Mantel-Haenszel (combinación de tablas 2 x 2)
• Contrastan la hipótesis de independencia condicional: independencia entre factor y respuesta cuando se introduce una tercera variable control.
• Estrategia: ESTRATIFICAR por esa variable control.
2
13
2.1..2.1
2
2
2
2 ~/
k
kkkk
k
k
k
k
k
n
k
k
k
k
Cochrannnnnn
enen
k
2
12
2
2 ~)1(
5.0
nn
enk
k
k
k
MH
Frecuencias observadas
en el estrato k
Test de Cochran
Test de Mantel-Haenszel
Frecuencias esperadas
en el estrato k
28
Aplicación a datos reales: Estudio de casos y controles
• Asociación positiva entre consumo de café y cáncer de páncreas
Al considerar un tercer factor: el tabaco NO relación entre café y cáncer de páncreas.
= 0,000
p = 1,000
2
McNemarNO ASOCIACIÓN entre
consumo de café y cáncer de
páncreas una vez controlado
el efecto del tabaco
FACTOR DE
CONFUSIÓN
29
4. Software
30
4. Software
• 1. EN SPSS:
Analizar / Estadísticos descriptivos / Tablas de contingencia
Contrastes de independencia/asociación
31
4. Software
32
4. Software
Analizar / Pruebas no paramétricas / 2 muestras relacionadas
Contrastes para muestras relacionadas
33
4. Software
Si se controla por una tercera variable (ESTRATIFICACIÓN)
Analizar / Estadísticos descriptivos / Tablas de contingencia
Si se controla por una tercera variable (ESTRATIFICACIÓN)
En Capa metemos la
variable control
34
4. Software
• 2. EN EPIDAT:
Métodos / Tablas de contingencia
35
4. Software
Test Ji-cuadrado de asociación, con y sin corrección Test exacto de Fisher Para datos emparejados: Prueba de McNemar
Test de homogeneidad (entre los diferentes estratos) Test de asociación de Mantel-Haenszel
Test de homogeneidad (entre los diferentes estratos) Test de tendencia lineal
Test de tendencia lineal
Test Ji-cuadrado de Pearson Test de razón de verosimilitudes Test Ji-cuadrado con corrección de Yates (tablas 2x2) Test exacto de Fisher (tablas 2x2)
36
4. Software
Por ejemplo en Tablas 2 x 2
Estratificadas
37
4. Software
• 3. EN R:
Contrastes de independencia/asociación
Test Ji-cuadrado con
corrección de Yates
Test Ji-cuadrado
sin corrección
Tabla 2 x 2
38
4. Software
Test de Fisher
39
4. Software
Contrastes para muestras relacionadas
Test de McNemar
40
4. Software
Test de Mantel-Haenszel
41
4. Software
Otra opción: mediante el R Commander (sin necesidad de programación)
42
5. Referencias/Bibliografía
43
• Everitt BS. The analysis of contingency tables. London: Chapman and Hall, 1977.
• Haberman SJ. Analysis of qualitative data. 1: Introductory topics. New York: Academic Press, 1978.
• Haberman SJ. Analysis of qualitative data. 2: New developments. New York: Academic Press, 1979.
• Ato M, López JJ. Análisis estadístico para datos categóricos. Madrid: Síntesis, 1996.
5. Referencias bibliográficas
Recommended