Upload
nguyenngoc
View
230
Download
0
Embed Size (px)
Citation preview
Capıtulo 10
Contrastes basados en elestadıstico Ji–Cuadrado
10.1. Introduccion
Existen multitud de situaciones en el ambito de la salud en el que lasvariables de interes, las cuales no pueden cuantificarse mediante cantida-des numericas, entre las que el investigador este interesado en determinarposibles relaciones. Ejemplos de este tipo de variables pueden ser las com-plicaciones tras una intervencion quirurgica, el sexo, el nivel socio-cultural,etc. En este caso tendrıamos, a lo sumo, las observaciones agrupadas enforma de frecuencia, dependiendo de las modalidades que presente cadapaciente en cada una de las variables, por los que los metodos estudiadosen los capıtulos anteriores no serıan aplicables.
El objetivo de este tema es el estudio de este tipo de cuestiones en re-lacion con las variables cualitativas (y tambien v.a. discretas o continuasagrupadas en intervalo). Estos son los contrastes asociados con el estadısti-co χ2. En general este tipo de tests consisten en tomar una muestra yobservar si hay diferencia significativa entre las frecuencias observadas ylas especificadas por la ley teorica del modelo que se contrasta, tambiendenominadas “frecuencias esperadas”.
Sin embargo, aunque este sea el aspecto mas conocido, el uso del test
255
256 Bioestadıstica: Metodos y Aplicaciones
χ2 no se limita al estudio de variables cualitativas. Podrıamos decir queexisten tres aplicaciones basicas en el uso de este test, y cuyo desarrolloveremos en el transcurso de este capıtulo:
Tres son los temas que abordaremos de esta manera:
Test de ajuste de distribuciones: Es un contraste de significacion para saber si los datos de una muestrason conformes a una ley de distribucion teorica que sospechamos quees la correcta.
Test de homogeneidad de varias muestras cualitativas: Sirve para contrastar la igualdad de procedencia de un conjunto demuestras de tipo cualitativo.
Test para tablas de contingencia: Es un contraste para determinar la dependencia o independencia decaracteres cualitativos.
10.2. El estadıstico χ2 y su distribucion
Sea X una v.a. cuyo rango son los valores i = 1, 2, . . . , k, de modo quepi es la probabilidad de cada valor;
X;
1 → P[X = 1] = p1
2 → P[X = 2] = p2
. . .i → P[X = i] = pi
. . .k → P[X = k] = pk
Supongamos que el resultado de un experimento aleatorio es una clasec1, c2, . . . , ck (ci, i = 1, . . . , k), que puede representar valores cualitativos,discretos o bien intervalos para variables continuas. Sea pi la probabilidadde que el resultado del experimento sea la clase ci. Vamos a considerar con-trastes cuyo objetivo es comprobar si ciertos valores p0
i , propuestos para lascantidades pi son correctas o no, en funcion de los resultados experimentales
10.2. EL ESTADISTICO χ2 Y SU DISTRIBUCION 257
H0 : Los p0
i son correctos
H1 : Alguno de los p0i es falso
⇐⇒
H0 :
∣∣∣∣∣∣∣∣∣p1 = p0
1 yp2 = p0
2 y. . .pk = p0
k
H1 :
∣∣∣∣∣∣∣∣∣p1 6= p0
1 o bienp2 6= p0
2 o bien. . .pk 6= p0
k.(10.1)
Mediante muestreo aleatorio simple, se toma una muestra de tamano ny se obtienen a partir de ella unas frecuencias observadas de cada clase querepresentamos mediante O1, O1, . . . , Ok
Clase Frec. Abs.ci Oi
c1 O1
c2 O2
. . . . . .ck Ok
k∑i=1
Oi = n
Supongamos que la hipotesis nula es cierta. Al ser pi = p0i la proporcion
de elementos de la clase ci en la poblacion, el numero de individuos deque presentan esta modalidad al tomar una muestra de tamano n, es unav.a. de distribucion binomial, B
(n, p0
i
). Por tanto la frecuencia esperada de
individuos de esa clase es
Ei = n · p0i ∀ i = 1, 2, . . . , k
k∑i=1
Ei = n ·k∑
i=1
p0i = n
258 Bioestadıstica: Metodos y Aplicaciones
Observese que a diferencia de las cantidades Oi, que son las frecuencias querealmente se obtienen en una muestra, las frecuencias esperadas no tienenpor que ser numeros enteros. De cualquier modo, bajo la suposicion de queH0 es cierta cabe esperar que las diferencias entre las cantidades Ei y Oi
sea pequena.
Pearson propuso el estadıstico
χ2 =k∑
i=1
(Oi − Ei)2
Ei
el cual, siguiendo la linea de razonamiento anterior debe tomar valorespequenos si H0 es cierta. Si al tomar una muestra, su valor es grandeeso pone en evidencia que la hipotesis inicial es probablemente falsa. Paradecidir cuando los valores de χ2 son grandes es necesario conocer su ley deprobabilidad. Se tiene entonces el siguiente resultado
Teorema
[Ley asintotica para χ2] Si la hipotesis H0 es cierta, entonces χ2 sedistribuye aproximadamente como:
χ2 =k∑
i=1
(Oi − Ei)2
Ei≈; χ2
k−p−h
donde el numero de grados de libertad depende de
El numero k, de clases usadas;
El numero p de parametros estimados a partir de la muestra paracalcular los Ei. Por ejemplo si todas las cantidades p0
i son especificadasentonces p = 0.
El numero de relaciones o condiciones impuestas a los Ei. Por ejemplo,si la unica condicion sobre los Ei es que
∑ki=1 Ei = n entonces h = 1.
10.2. EL ESTADISTICO χ2 Y SU DISTRIBUCION 259
La aproximacion mejora cuando n es grande y los pi son cercanos a 12 .
Como solo son los valores grandes de χ2 los que nos llevan a rechazarH0, la region crıtica es
C = (χ2k−p−h,1−α,∞)
0 5 10 15 20 25
χn, 1−α2
Se rechaza H0No se rechaza H0
χn2 para n=10
Figura 10.1: Region crıtica (sombreada) para un contraste con el estadısticoχ2.
es decir,
sean
χ2
exp =k∑
i=1
(Oi − Ei)2
Ei
χ2teo = χ2
k−p−h,1−α
−→
Si χ2
exp ≤ χ2teo no rechazamos H0;
Si χ2exp > χ2
teo se rechaza H0 y se acepta H1.
Observacion
A pesar de que el contraste parece ser bilateral al ver la expresion dela relacion (10.1), la forma de C, nos indica que el contraste es unilateral:
260 Bioestadıstica: Metodos y Aplicaciones
Solo podemos saber si existe desajuste entre los esperado y lo observado,pero no podemos contrastar hipotesis alternativas del tipo “pi mayor quecierto valor”.
Observacion
Observese que en realidad χ2 no es una variable aleatoria continua: Losposibles resultados de la muestra se resumen en las cantidades O1, O2, . . . ,Ok, que unicamente toman valores discretos. Luego las cantidades
χ2exp(O1,O2, . . . ,Ok)
solo puede tomar un numero finito de valores distintos (aunque sean can-tidades con decimales). Por tanto su distribucion no es continua. Luego alrealizar la aproximacion mencionada hay que precisar en que condicionesel error cometido es pequeno. De modo aproximado podemos enunciarel siguiente criterio que recuerda al de la aproximacion binomial por ladistribucion normal:
1. n > 30;
2. Ei = n · pi > 5 para todo i = 1, . . . , k.
Sin embargo esta regla resulta demasiado estricta a la hora de aplicarlaen la practica. Se utiliza entonces una regla mas flexible y que no sacrificademasiada precision con respecto a la anterior:
1. Para ninguna clase ocurre que Ei = n · pi < 1
2. Ei = n · pi > 5 para casi todos los i = 1, . . . , k, salvo a lo sumo un20 % de ellos.
Si a pesar de todo, estas condiciones no son verificadas, es necesario agruparlas clases que tengan menos elementos con sus adyacentes.
10.2. EL ESTADISTICO χ2 Y SU DISTRIBUCION 261
Observacion
El lector puede considerar los contrastes con el estadıstico χ2 comouna generalizacion del contraste de proporciones. Para ello le invitamos aestudiar el siguiente ejemplo.
Ejemplo
Se desea saber si cierta enfermedad afecta del mismo modo a los hombresque a las mujeres. Para ello se considera una muestra de n = 618 individuosque padecen la enfermedad, y se observa que 341 son hombres y el restoson mujeres. ¿Que conclusiones se obtiene de ello?
Solucion:
El contraste a realizar se puede plantear de dos formas que despuesveremos que son equivalentes:
Contraste de una proporcion: Si p es el porcentaje de hombres en lapoblacion de enfermos, podemos considerar el contraste:
H0 : p = 1/2
H1 : p 6= 1/2
De la muestra obtenemos la siguiente estimacion puntual del porcen-taje de enfermos de sexo masculino:
p = 341/618 = 0, 55178
Para ver si esto es un valor “coherente” con la hipotesis nula, calcu-lemos la significatividad del contraste:
Zexp =p− p√p ∗ q/n
;N (0, 1).
Por otro lado,
262 Bioestadıstica: Metodos y Aplicaciones
Zexp =0, 55178− 0, 5√
0, 5× 0, 5/60= 2, 574
Como el contraste es de tipo bilateral, la significatividad del contrastees (buscando en la tabla de la distribucion normal):
P[|Z| > 2, 574] = 2 · P[Z > 2, 574] = 2 ∗ 0, 005 = 1 % < 5 %
Lo que nos indica que se ha de rechazar la hipotesis nula y aceptarla hipotesis alternativa, es decir, afirmamos que existe una evidenciasignificativa a favor de la hipotesis de que la enfermedad no afectapor igual a hombres y mujeres.
Contraste con el estadıstico χ2: En este caso planteamos el contraste:H0 :
∣∣∣∣∣ phombres = 1/2 ypmujeres = 1/2
H1 :
∣∣∣∣∣ phombres 6= 1/2 o bienpmujeres 6= 1/2
Para resolverlo escribimos en una tabla los frecuencias muestralesobservadas de hombres y mujeres, junto a los valores esperados en elcaso de que la hipotesis nula fuese cierta:
frecuencias frecuenciasobservadas esperadas diferenciaOi Ei Oi − Ei (Oi − Ei)2/Ei
Hombres 341 618× 1/2 = 309 9 322/309Mujeres 277 618× 1/2 = 309 -9 (−32)2/309
618 618 0 6,63
Consideremos entonces el estadıstico
χ2 =k∑
i=1
(Oi − Ei)2
Ei≈; χ2
k−p−h = χ22−0−1 = χ2
1
donde:
10.2. EL ESTADISTICO χ2 Y SU DISTRIBUCION 263
k = 2 es el numero de modalidades posibles que toma la variablesexo: hombres y mujeres;
p = 0 es el numero de parametros estimados;
h = 1 es el numeros de restricciones impuestas a los valoresesperados. Solo hay una (que es habitual), que consiste en queel numero esperado de enfermos entre hombres y mujeres es 60.
El estadıstico calculado sobre la muestra ofrece el valor experimental:
χ2exp = 6, 63
que es el percentil 99 de la distribucion χ21. De nuevo se obtiene que
la significatividad del contraste es del 1%<5 %.
En conclusion, con los dos metodos llegamos a que hay una fuerte evi-dencia en contra de que hay el mismo porcentaje de hobres y mujeres quepadecen la enfermedad. La ventaja de la ultima forma de plantear el con-traste (diferencia entre frecuencias observadas y esperadas) es que la tecnicase puede aplicar a casos mas generales que variables dicotomicas, como severa mas adelante.
Observacion
Hay una formula alternativa para el calculo de χ2 cuya expresion es masfacil de utilizar cuando realizamos calculos:
Proposicion
χ2 =k∑
i=1
O2i
Ei− n
Demostracion
264 Bioestadıstica: Metodos y Aplicaciones
χ2 =k∑
i=1
(Oi − Ei)2
Ei
=k∑
i=1
O2i − 2OiEi + E2
i
Ei
=k∑
i=1
O2i
Ei− 2
k∑i=1
Oi +k∑
i=1
Ei
=k∑
i=1
O2i
Ei− 2 n + n
=k∑
i=1
O2i
Ei− n
10.3. Contraste de bondad de ajuste para distri-buciones
Vamos a aplicar el contraste χ2 para determinar a traves de una muestrasi una v.a. X sigue o no cierta distribucion. Podemos encontrarnos entoncescon dos casos:
La ley de la v.a. X que deseamos contrastar esta completamente determi-nada.
La ley de la v.a. X no es totalmente conocida y es necesario estimaralgunos de sus parametros.