Prueba x Cuadrada

Preview:

Citation preview

  • Captulo 14 Estadstica no paramtrica

    498

    INTRODUCCINEl trmino estadstica no paramtrica se refiere a un conjunto de mtodos inferenciales vlidos paraformas muy diversas de distribucin de la poblacin. La aplicacin de estos mtodos no requiere modelode poblacin, en el sentido de un parmetro especfico relacionado con la forma de la curva que repre-senta a la poblacin en estudio, como s es necesario, por ejemplo, en el caso de la distribucin normal.En el contraste de hiptesis, las pruebas estadsticas no paramtricas emplean usualmente algunos datosms simples de la muestra, como los signos de las mediciones, las relaciones de orden o las categorasde las frecuencias. Estos rasgos generales no requieren escalas numricas de medicin. Por otra parte,es ms importante indicar que a estos mtodos no les afecta el alargamiento o estrechamiento de la escala.Una aclaracin final indispensable es que los trminos distribucin libre y estadstica no paramtricano son sinnimos, aunque en este texto se usarn indistintamente.

    A estos procedimientos se les llama de distribucin libre, por no considerar la forma como se dis-tribuye la poblacin. Tienen ventajas sobre las pruebas paramtricas, algunas de ellas son: i) implicanmenos requisitos de uso, ii) son ms sencillas de entender y aplicar, y iii) los procedimientos de clculoresultan menos laboriosos. Por otra parte, los mtodos no paramtricos tienen ciertas desventajas: i) sepierde informacin, ii) la potencia es menor que la de las pruebas paramtricas y iii) tienden a ser con-servadoras, es decir, se orientan hacia la aceptacin de la hiptesis nula con ms frecuencia de lo quedeberan.

    En estas circunstancias, las pruebas estadsticas paramtricas son preferibles a las no paramtricas,pero si la poblacin no est normalmente distribuida o las varianzas poblacionales no son homogneaso iguales, entonces puede utilizarse una prueba de distribucin no paramtrica como un buen sustituto desu anloga paramtrica, sobre todo cuando la muestra en estudio es pequea.

    Se discutirn mtodos que nicamente requieren mediciones nominales, comparando distribucionesenteras. Tambin se considerarn las tcnicas que requieren datos ordinales. Cuando los datos soncategricos o continuos se har un anlisis estadstico, utilizando el modelo de la r2 ( ji-cuadrada), quesi bien algunos autores la consideran no paramtrica, se ha credo oportuno que forme parte de este cap-tulo en sus aplicaciones ms relevantes, como:

    a) Independencia.b) Homogeneidad o proporcin.c) Mediana.

    Para la prueba de bondad de ajuste se emplearn dos tcnicas:

    i) La r2 ( ji-cuadrada); yii) La Kolmogorov-Smirnov.

    PRUEBAS DE BONDAD DE AJUSTE

    En esta seccin se considerarn dos tipos de bondad de ajuste. El primer tipo se aplica cuando la hipte-sis nula concierne a una distribucin discreta; el segundo se aplica si la hiptesis nula es bsicamenteuna distribucin continua. Los modelos que se describirn son:

    1. r2 ( ji-cuadrada). Este modelo es clsico y se emplea cuando la H0 concierne a una distribucin discreta.2. K-S (Kolnogorov-Smirnov) para una muestra, cuando la hiptesis nula concierne una distribucin

    continua.

  • Parte 5 Asociacin

    499

    Estas pruebas son de importancia vital, ya que para una aplicacin adecuada de los modelos estads-ticos es necesario obtener informacin acerca de la forma de la distribucin poblacional de donde seextrae la muestra. Esta forma puede ser el tema de investigacin, ya que las variables aleatorias que repre-sentan constructos tales como ansiedad, inteligencia, estrs, por mencionar algunos, pueden distribuirseen forma normal, binomial, Poisson, etc. y aplicar la prueba estadstica adecuada t de Student, ANOVA,Kruskal-Wallis, entre otras. Dicho de manera distinta, utilizar modelos paramtricos o no paramtricosadecuadamente.

    Para el anlisis de varianza se utilizarn dos modelos:

    a) La prueba de Kruskal-Wallis, para muestras independientes.b) La prueba de Friedman para disear bloques, o tambien, para una sola muestra medida ms de dos

    ocasiones.

    Por ltimo se encuentran los coeficientes de asociacin, tambin llamados de correlacin: as, o, t, abp.

    Ji-cuadrada (r2)Este modelo, obtenido por K. Pearson en 1900, mide la discrepancia entre la frecuencia observada y laesperada tericamente, con base en una distribucin hipottica.

    La prueba de bondad de ajuste ayuda a decidir si los resultados de un experimento coinciden con losesperados de acuerdo con alguna ley, modelo o teora cientfica.

    Esto se lleva a cabo de la siguiente manera:

    1. Se obtienen las frecuencias observadas y se ubican en un cuadro de contingencia (tambin llamadatabla de doble entrada o diagrama de Carroll) (vase captulo 3).

    2. Se construye un cuadro de frecuencias esperadas que concuerden con la distribucin terica o elmodelo cientfico.

    3. Segn el nmero de variables de criterio que se consideren, ser el cuadro de contingencia (l c) o(r l); la prueba de bondad de ajuste se emplear para una muestra y una o ms variables de criterio.

    Existe una familia de curvas r2, derivadas de una variable normalmente distribuida, cuya formadepende del tamao de la muestra. Para muestras pequeas (que tienen pocos grados de libertad), estadistribucin se halla fuertemente sesgada en direccin positiva (todos sus valores son positivos y varande cero a infinito). Cuando la muestra es grande (n A '), la r2 se aproxima a la distribucin normal(vase el captulo 7).

    El modelo que se utilizar en esta seccin es el siguiente:

    donde:

    fo = frecuencia observadafe = frecuencia esperada

    r 22

    =

  • Captulo 14 Estadstica no paramtrica

    500

    Para cada clase o categora se obtiene el cuadrado de la diferencia entre la frecuencia observada y laesperada, resultado que se divide por la misma frecuencia esperada de dicha categora. La suma totalde cada categora proporciona el valor de r 2.

    A continuacin se enumeran los requisitos de uso de la prueba de r 2 para bondad de ajuste.

    1. Se requiere un mnimo de 50 observaciones (mediciones) para que la distribucin r2 sea una aproxi-macin razonable de la distribucin muestral esperada.

    2. La frecuencia esperada para cada categora debe ser por lo menos de 5; a fin de cumplir este requi-sito, se pueden combinar las categoras.

    3. En el caso de la bondad de ajuste para la distribucin normal, deben conocerse +X y mX o sus esti-madas x y s, a fin de poder calcular las frecuencias esperadas.

    Procedimiento

    Paso 1. Identifique la variable de inters.

    Paso 2. Establezca las hiptesis estadsticas.

    H0: las observaciones muestrales han sido extradas de una distribucin con ciertaspropiedades tericas, independencia y forma de la distibucin poblacional,

    o bien

    H0 : el modelo que genera fe es vlido.

    H1 : no es vlida.

    Paso 3. Proponga el valor de _.

    Paso 4. Determine el modelo estadstico que se utilizar. En este caso

    r 22

    =

  • Parte 5 Asociacin

    501

    Paso 6. Especifique la regla de decisin (RD) para rechazar H0.

    Si , entonces H0 se rechaza.

    Paso 7. Calcule r 2, por medio de , habiendo calculado previamente fe,

    donden = tamao de la muestrap = probabilidad de ocurrencia en cada categora

    Paso 8. Obtenga las conclusiones considerando el rechazo de H0 o de H1 (la distribucinmuestral se ajusta a la especificacin de la distribucin o no se ajusta a ella).

    Una variable de criterio. Cuando las categoras de la distribucin de frecuencias se basan en unasola variable, constituyen un anlisis de frecuencias de una variable de criterio, no obstante queexistan varios resultados: lanzar una moneda (cara, cruz), tirar un dado (1, 2, 3, 4, 5 o 6).

    Ejemplo 1Si se lanza una moneda al aire, nicamente caer cara o cruz; pero si se lanzan 1 000 monedas,la nica variable a tomar en cuenta es la cara de la moneda que aparecer, pero se contarncuntas caras y cruces caern.

    Despus de determinar el muestreo, las 1000 monedas se lanzan al aire y se registra la fre-cuencia de caras y cruces en un cuadro de frecuencias observadas. A continuacin, se cons-truye el cuadro de frecuencias esperadas, previstas por los resultados ms simples de probabi-lidad elemental. Para una muestra de 1000 monedas, la hiptesis nula (H0) implica que debenobtenerse 500 caras y 500 cruces. En este caso, la prueba de ji-cuadrada ayudar a decidir sila discrepancia entre los resultados observados y los esperados corresponde simplemente a lafluctuacin del muestreo o indica el sesgo de la poblacin.

    r 22

    =

  • Captulo 14 Estadstica no paramtrica

    502

    Paso 1. Como la variable de criterio es la posicin de la cara de la moneda al caer, entoncesse establecen las hiptesis nula y alternativa de la siguiente manera:

    H0: cara y cruz ocurren con igual frecuencia.H1: cara y cruz no ocurren con igual frecuencia.

    Paso 2. Como gl = 1 y _ = 0.01 = 1%, entonces:r 2 crtica = r 2 (1, 0.01) = 6.64

    fo2

    fe2

    fon

    fen

    fo1

    fe1. . .

    donde foi es la frecuencia observada i, i = 1, 2, ..., n

    y fei es la frecuencia esperada i, i = 1, 2, ..., n

    Paso 3. Se define la poblacin de estudio como: todos los lanzamientos de las monedas decierto valor y con caractersticas determinadas.

    Paso 4. La muestra n son 1000 monedas seleccionadas al azar de la poblacin anterior, o ellanzamiento 1000 veces de una moneda.

    Paso 5. El modelo estadstico por aplicar es:

    Paso 6. Al sustituir los datos concentrados en los cuadros anteriores y efectuar las opera-ciones, resulta:

    Paso 7. Regla de decisin (RD):

    si H0 se rechaza. Como 3.60 < 6.64, entonces no se rechaza H0.

    Paso 8.

    Conclusin

    Los resultados no son significativos. En este estudio de las monedas no se encontr indicacin alguna desesgo, debido a que no se predice respuesta (salida) especfica alguna; por ejemplo, las caras ocurrirncon mayor frecuencia. Por ello, el nivel de significancia se establece relativamente bajo (0.01) por dosrazones: i) el tamao de la muestra es grande y se minimiza (error tipo II) y ii) el error ms grave seradecidir que las monedas tienen un sesgo, cuando en realidad no es as.

    r r_

    2 22 * , gl

    =r2 3 60c .

    r22 2530 500

    500

    470 500

    5003 60 =

  • Parte 5 Asociacin

    503

    La regla de decisin (RD) establece que H0 se rechazar si la ji-cuadrada (r2)calculada es mayor que el valor crtico de 6.64 (los procedimientos para determinarlos valores crticos se estudiarn despus).

    Pudo cometerse un error del tipo II; sin embargo, el inters en un posible sesgode las monedas disminuye en gran escala, si no es que desaparece por completo.

    Dos variables de criterio. En algunos problemas de bondad de ajuste seobtienen medidas de dos o ms variables categricas. Las frecuencias esperadas encada combinacin de categoras se generan a partir de algunas distribuciones teri-cas; para evitar confusiones en este tipo de estudios, es recomendable colocar losdatos en una tabla de contingencia de doble entrada.

    donde foij es la frecuencia observada ij, i = 1, 2, ..., n y j = 1, 2, ..., n

    y feij es la frecuencia esperada i = 1, 2, ..., m,

    j = 1, 2, ..., n

    Ejemplo 2Aplicacin de una prueba de bondad de ajuste para una sola muestra y dos variables de criterio.Un genetista efecta la cruza de una muestra de chcharos con la siguientes variables de crite-rio: color (verde o amarillo) y textura (liso o rugoso). Existen cuatro combinaciones posiblescomo resultados de las cruzas: amarillo-liso (AL), amarillo-rugoso (AR), verde-liso (VL) yverde-rugoso (VR); de acuerdo con las leyes de Mendel, la combinacin AL deber ocurrirnueve veces ms frecuentemente que la VR, mientras que las mezclas AR y VL ocurrirn tresveces con mayor frecuencia que la VR. Esta distribucin terica se utiliza para construir unatabla de frecuencias esperadas de (2 2).

    Debido a que en dicho ejemplo la muestra consta de 960 elementos (chcharos), el inves-tigador podr esperar que las combinaciones posibles ocurrirn aproximadamente con lassiguientes frecuencias esperadas (E ):

    VR = 60VL = 180AR = 180AL = 540

    fo12

    fe12

    fo1n

    fe2n

    fo11

    fe11

    fo22

    fe22

    fo2n

    fe2n

    fo21

    fe21

    fom2

    fem2

    fomn

    femn

    fom1

    fem1

    . . .

    . . .

    . . .

    . . .

    . . .

    . . .

    . .

    .

    . .

    .

    . .

    .

    Una s puede ser controlada, por ejemplo, tratamientos en un experimento.

  • Captulo 14 Estadstica no paramtrica

    504

    Las frecuencias observadas (O) son las siguientes:

    VR = 50

    VL = 200

    AR = 160

    AL = 550

    Por tanto, las frecuencias observadas y esperadas se ubicarn en las tablas de contingencia.Los grados de libertad para estas tablas de contingencia son:

    gl = k < l = 4 < 1 = 3

    gl = 3

    aplicando el modelo se tiene

    Tambin puede utilizarse la frmula siguiente:

    r 22

    2 2 2 250

    60

    200

    180

    160

    180

    550

    540960 = < =

    ( )+

    ( )+

    ( )+

    ( )

  • Parte 5 Asociacin

    505

    Suponga que el genetista decide tomar un nivel de confianza de 5%, o sea, _ = 0.05, y elvalor crtico de r 2, determinado en la tabla de r 2, es de 7.81. En ese caso, la hiptesis nulade la distribucin observada, es igual que la distribucin esperada por la ley de Mendel, nose rechazara, ya que la r 2 = 6.30 no es mayor que el valor crtico de 7.81. En las pruebas debondad de ajuste, la fe (frecuencia esperada) ya est definida por el investigador, o las condi-ciones de estudio.

    Ejemplo 3Se realiza una investigacin con el fin de producir un nuevo tipo de insulina, la hormona uti-lizada para controlar enfermos de diabetes mellitus. Los siguientes criterios de inclusin seconsideran en la muestra de estudio:

    n = 400 pacientes del mismo sexo. Mismo grado de evolucin de la enfermedad. Dieta controlada. Supervisin mdica.

    En este experimento se medir la respuesta de los pacientes a la insulina convencional, ascomo el porcentaje de ellos en cada una de las siguientes categoras estandarizadas:

    Categora 1. Decremento intenso en la glucosa.Categora 2. Decremento moderado en la glucosa.Categora 3. Decremento ligero en la glucosa.Categora 4. Decremento nulo o ligero incremento en la glucosa.

    Con base en un estudio de nivel nacional, se determin que los porcentajes por categorason, respectivamente: 50%, 25%, 15% y 10%. Por otra parte, los resultados de las pruebasclnicas con el nuevo tipo de insulina aplicadas en 400 pacientes son: 240, 120, 30 y 10.

    Paso 1. La variable de inters es la respuesta a cada categora.

    Paso 2. H0: P1 = 50%, P2 = 25%, P3 = 15%, P4 = 10%.H1: al menos una probabilidad de una categora es diferente del valor esperado.

    Paso 3. _ = 0.05

    Paso 4.

    r 22

    =

Recommended