7.3 Apéndice 5 El curso de Estadística

Embed Size (px)

Citation preview

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    1/111

    Unidad 5

    EL TEOREMA DEL LMITE CENTRAL

    5.1 Estadgrafos como estimadores de parmetrospoblacionales

    Estadgrafos Estadsticos

    En este captulo se tratarn funciones de las variables X1, X2, ... , Xn observadas en unamuestra aleatoria seleccionada de una poblacin bajo estudio. Las variables sonindependientes y tienen una distribucin comn. Con mucha frecuencia se utilizan

    ciertas funciones de v.a. observadas en una muestra para estimar o tomar decisiones conrespecto de parmetros poblacionales desconocidos. Por ejemplo, supongamos que se

    desea estimar la media de una poblacin . Si obtenemos una muestra aleatoria de n

    observaciones, x1, x2, ... , xn, resulta adecuado estimar a travs de la media de lamuestra:

    La bondad de la estimacin del comportamiento de las v.a. X1, X2, ... , Xn y el efecto de

    este comportamiento sobre . Ntese que la v.a. es unafuncin de (solamente) las v.a.X1, X2, ... , Xn y el tamao (constante) n de la muestra.

    Por lo tanto la v.a. representa un estadgrafo estadstico.

    Una definicin ms formal sera: Un estadstico (estadgrafo) es una funcin de lasvariables que se pueden observar en una muestra y de las constantes conocidas. Losestadsticos se utilizan para hacer inferencias (estimaciones o decisiones) con respecto a

    parmetros poblacionales desconocidos.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    2/111

    Como el estadstico es una funcin de variables aleatorias observadas en una muestraaleatoria, un estadstico en s, es una variable aleatoria.

    Por lo anteriormente expuesto, deduciremos su distribucin de probabilidad, la cual lallamamosDistribucin Muestraldel estadstico.

    Debe quedar claro que la forma de distribucin muestral terica de un estadsticodepender de la distribucin de las variables aleatorias observadas en la muestra.

    5.2 Muestreo Aleatorio Simple

    La teora del muestreo tiene por objetivo, el estudio de las relaciones existentes entre ladistribucin de un carcter en dicha poblacin y las distribuciones de dicho carcter entodas sus muestras.

    Las ventajas de estudiar una poblacin a partir de sus muestras son principalmente:

    Coste reducido:Si los datos que buscamos los podemos obtener a partir de una pequea parte deltotal de la poblacin, los gastos de recogida y tratamiento de los datos sernmenores. Por ejemplo, cuando se realizan encuestas previas a una eleccin, es

    ms barato preguntar a 4.000 personas su intencin de voto, que a 30.000.000;Mayor rapidez:Estamos acostumbrados a ver cmo con los resultados del escrutinio de las

    primeras mesas electorales, se obtiene una aproximacin bastante buena delresultado final de unas elecciones, muchas horas antes de que el recuento finalde votos haya finalizado;Ms posibilidades:Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto tipo de

    bombillas, no es posible en la prctica destruirlas todas para conocer su vidamedia, ya que no quedara nada que vender. Es mejor destruir slo una pequea

    parte de ellas y sacar conclusiones sobre las dems.

    De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos con dosproblemas:

    Eleccin de la muestra (muestreo), que es a lo que nos dedicaremos en estecaptulo.

    Extrapolacin de las conclusiones obtenidas sobre la muestra, al resto de lapoblacin (inferencia).

    El tipo de muestreo ms importante es el muestreo aleatorio, en el que todos los

    elementos de la poblacin tienen la misma probabilidad de ser extrados.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    3/111

    Muestreo aleatorio

    Consideremos una poblacin finita, de la que deseamos extraer una muestra. Cuando elproceso de extraccin es tal que garantiza a cada uno de los elementos de la poblacin lamisma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de

    seleccin muestreo aleatorio.

    El muestreo aleatorio se puede plantear bajo dos puntos de vista:Sin reposicin de los elementos;Con reposicin.

    Muestreo aleatorio sin reposicinConsideremos una poblacin Eformada porNelementos. Si observamos un elemento

    particular, , en un muestreo aleatorio sin reposicin se da la siguientecircunstancia:

    La probabilidad de que e sea elegido en primer lugar es ;

    Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de ), la

    probabilidad de que sea elegido en el segundo intento es de . en el (i+1)-simointento, la poblacin consta de N-i elementos, con lo cual si e no ha sido seleccionado

    previamente, la probabilidad de que lo sea en este momento es de .

    Si consideramos una muestra de elementos, donde el orden en la eleccin de losmismos tiene importancia, la probabilidad de eleccin de una muestra

    cualquiera es

    lo que corresponde en el sentido de la definicin de probabilidad de Laplace a un casoposible entre las VN,n posibles n-uplas deNelementos de la poblacin.Si el orden no interviene, la probabilidad de que una muestra

    sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas,tantas veces como permutaciones en el orden de sus elementos sea posible, es decir

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    4/111

    Muestreo aleatorio con reposicinSobre una poblacinEde tamaoNpodemos realizar extracciones de n elementos, perode modo que cada vez el elemento extrado es repuesto al total de la poblacin. De estaforma un elemento puede ser extrado varias veces. Si el orden en la extraccin de lamuestra interviene, la probabilidad de una cualquiera de ellas, formada porn elementoses:

    Si el orden no interviene, la probabilidad de una muestra cualquiera, ser la suma de laanterior, repitindola tantas veces como manera de combinar sus elementos sea posible.Es decir,sea n1 el nmero de veces que se repite cierto elemento e1 en la muestra;

    sea n2 el nmero de veces que se repite cierto elemento e2;sea nk el nmero de veces que se repite cierto elemento ek,

    de modo que . Entonces la probabilidad de obtener la muestra

    es

    es decir,

    Muestreo aleatorio Simple

    El Muestreo Aleatorio Simple es aquel en que cada uno de los elementos de la

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    5/111

    poblacin tiene la misma probabilidad de ser elegido, y en las que la seleccin de unnuevo elemento no afecta las probabilidades de eleccin de cualquier otro elemento. Deforma ms general, se puede considerar que una muestra aleatoria simple es aquella enla que todas las posibles muestras extradas tienen la misma probabilidad de serelegidas.

    Adems todos las observaciones de la v.a. son independientes, es decir

    5.3 El teorema del Lmite Central

    Si se saca una muestra de una poblacin que es normal, tiene una distribucinmuestral que es Normal. Pero que podemos decir de la distribucin de si losXi noestn distribuidos normalmente?.

    El Teorema del Lmite Central nos mostrar que tendr una distribucinaproximadamente normal si el tamao de la muestra es grande.

    Matemticamente lo podemos definir de la siguiente manera:

    Sean X1,X2, ... ,Xn variables aleatorias independientes e idnticamente distribuidas conE(Xi) = y V(Xi) = < . Definimos

    Un = ( - )( / n )

    en donde

    entonces la funcin de distribucin Un converge a una funcin de distribucin normalestndar cuando n.

    Ejemplo

    Los tiempos de espera para los clientes que pasan por una caja registradora a la salida deuna tienda de menudeo son variables aleatorias independientes con una media de 1.5minutos y una varianza de 1.0. Aproxime la probabilidad de que se pueda atender a 100clientes en menos de 2 horas.

    Solucin

    SiXi denota el tiempo de espera para el i-simo cliente, entonces se desea calcular

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    6/111

    P ( Xi 120 ) = P ( 120/100)= P ( 1.20)

    As la probabilidad de que se pueda atender a 100 clientes en menos de 2 horas esaproximadamente 0.0013. Esta pequea probabilidad indica que es prcticamenteimposible despachar a 100 clientes en menos de 2 horas.

    Resumiendo, el Teorema del Lmite Central establece que cuando el tamao de la

    muestra se incrementa, la distribucin de muestreo de la media (as como de otrasestadsticas muestrales) se aproxima en cuanto a su forma a la distribucin normal,independientemente de la distribucin de la poblacin de la que fue tomada la

    muestra.

    Para efectos prcticos, puede suponerse que la distribucin de muestreo de la mediatiene una distribucin aproximadamente normal, incluso en las poblaciones o procesosmenos normales, siempre que el tamao de la muestra sea n 30.

    Ejemplo

    Un auditor toma una muestra aleatoria de tamao n =36 de una poblacin de 1000cuentas por cobrar. El valor medio de las cuentas por cobrar para la poblacin es =$260.00, con la desviacin estndar de la poblacin = $45.00. Cul es la probabilidaddeque la media muestral sea inferior a $250.00?

    Solucin

    Figura: En la figura aparece la curva deprobabilidad. La distribucin de muestreo esdescrita por la media y el error estndar.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    7/111

    E( ) = = 260.00 (como se estableci) = ( /n ) = ( 45.0 / 36 ) = ( 45.0 / 6 ) = 7.50

    Por lo tanto,

    P( < 250.0 | = 260.0 , = 7.50 ) = P( z < -1.33 )P( z < -1.33 ) = 0.0918 (valor tabulado).

    5.4 Ley de los grandes nmeros

    Convergencia en Probabilidad

    Recordemos que si X es una v.a. continua y X1,X2, ... , Xn son v.a. independientes eidnticamente distribuidas, que tienen la misma probabilidad que X.

    => Y = Xi tiene

    y = E [ y ] = E [ Xi ] = n

    z = Xi / n =

    E [ z ] =

    es una v.a.

    V(Y) = n 2V(Z) = 2 / n

    Recordemos que la desigualdad de Tchebysheff

    P ( | X - | K /n ) 1 / k2

    Si tomamos como la v.a.

    => P ( | - | K /n ) 1 / k2

    sea = K /n => k = n /

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    8/111

    P ( | - | ) ( 2 / 2 n )

    Para > 0

    LmnP( | - | > ) = 0

    Si se cumple esta igualdad, decimos que converge con probabilidad a .

    Al hecho de que sea consistente con , o que converja en probabilidad a , sueledesignarse como la Ley de los Grandes Nmeros. Esta es la justificacin terica del

    procedimiento de promediar las mediciones utilizado por muchos investigadores paraobtener mayor precisin en las medidas.

    Por ejemplo, un investigador puede calcular el promedio de varias mediciones del peso

    de un animal para obtener una estimacin ms exacta de dicho peso. Su consideracin,es que el promedio de muchos pesos obtenidos independientemente debe estar bastanteprximo del peso real, con una alta probabilidad.

    Ejemplo

    A una poblacin de cuatro mecangrafas se les pidi que escribieran la misma pgina deun manuscrito. Los errores cometidos por cada mecangrafa fueron:

    Mecangrafa No. de Errores

    A 3B 2C 1D 4

    Solucin

    Cuando se dispone de la informacin de una poblacin se puede calcular la media deella, entonces

    x = ( Xi ) / Ny la desviacin estndar

    Por lo tanto

    x = ( 3 + 2 + 1 + 4 ) / 4 = 2.5 errores

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    9/111

    x = 1.12 errores ( aplicando la frmula anterior)

    Si se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posiblesmuestras (Nn = 42 = 16), si se realizara muestreo con reposicin, la media de estos

    valores ( ) sera igual a 2.5, que es la media de la poblacin x.Por otra parte, si el muestreo se hubiera realizado sin reposicin debera haber seismuestras posibles de dos mecangrafas:

    N! / [ n! ( N n )! ] = 4! / [ 2! * 2! ] = 6

    A continuacin se presentan las posibles muestras

    1. Total 16 muestras de n =2 y N =4, muestreo con reposicin

    Muestra Mecangrafa Resultados dela muestra

    Mediamuestral i

    1 A, A 3,3 32 A, B 3,2 2.53 A, C 3,1 24 A, D 3,4 3.55 B, A 2,3 2.56 B, B 2,2 27 B, C 2,1 1.5

    8 B, D 2,4 39 C, A 1,3 210 C, B 1,2 1.511 C, C 1,1 112 C, D 1,4 2.513 D, A 4,3 3.514 D, B 4,2 315 D, C 4,1 2.5

    16 D, D 4,4 4=2.5= x

    2. Total 6 muestras posibles de n =2, N =4, muestreo sin reposicin

    Muestra Mecangrafa Resultados dela muestra

    Mediamuestral i

    1 C, D 1,4 2.52 A, B 3,2 2.53 A, C 3,1 2

    4 A, D 3,4 3.55 B, C 2,1 1.5

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    10/111

    6 B, D 2,4 3

    =2.5= x

    En este pequeo ejemplo, aunque se puede observar gran fluctuacin en la mediamuestral, dependiendo de las mecangrafas que se seleccionaron, no hay tantafluctuacin como en la poblacin real en s. El hecho de que las medias muestrales seanmenos variables que los datos de poblacin, se deriva directamente de la Ley de losGrandes Nmeros.

    5.5 Distribuciones muestrales basados en normalidadSe ha mencionado que muchos fenmenos observados en la realidad tienendistribuciones de frecuencias relativas que se pueden representar en forma adecuadamediante el modelo de una distribucin de probabilidad normal. Es por esto que se

    establece la distribucin muestral del estadstico

    Sea una muestra aleatoria de tamao n de una distribucin normal con

    media y varianza . entonces

    Tiene una distribucin normal con media y varianza / n, es decir

    Figura: Funcin de densidad de una v.a. con respecto a una v.a.Xque tiene

    funcin de densidad de probabilidad Normal Estndar.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    11/111

    Ejemplo

    Una mquina embotelladora puede regularse de tal manera que llene un promedio deonzas por botella. Se ha observado que la cantidad de contenido que suministra lamquina presenta una distribucin normal con = 1.0 onza. De la produccin de lamquina cierto da, se obtiene una muestra aleatoria de n = 9 botellas llenas (todasfueron llenadas con las mismas posiciones de control operativo) y se miden las onzas

    del contenido de cada una. Determinar la probabilidad de la media real para tales

    posiciones del control.Solucin

    Si X1, X2, ... , X9 representan las onzas de contenido a observarse, se deduce que X i

    presenta una distribucin normal con una media y una varianza =1 para i = 1,

    2, ... , 9. por tanto, tiene una distribucin normal con media y X = /n = 1/9.Se desea calcular

    P( | - | 0.3 ) =P( -0.3 ( - ) 0.3 )

    ya que ( - ) / ( / n ) representa una distribucin normal estndar. Aplicando losvalores tabulados, se tiene

    P ( - 0.9 Z 0.9 ) = 1 2 P( Z > 0.9)

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    12/111

    = 1 2 (0.1841)= 0.6318

    Por tanto la probabilidad es solo de 0.63 de que la media muestral diste a lo ms en 0.3de onza de la poblacin real.

    Distribucin Ji Cuadrado ( )

    Sean una muestra aleatoria de tamao n de una distribucin normal

    con media y varianza . EntoncesZi= (Xi - ) / son v.a. normales estndar eindependientes, i = 1, 2, ...,n, y la suma de los cuadrados de variables aleatoriasnormales estndares e independientes tiene una distribucin Ji-cuadrado con n grados delibertad.

    Bajo las condiciones anteriormente expuestas, para cuestiones ms prcticas se sueletrabajar con la siguiente frmula:

    = ( n 1 )S2/

    Ejemplo

    Continuando con el ejemplo anterior, se supone que las onzas del contenido que vaca lamquina embotelladora tiene una distribucin normal con =1. Supngase que sedesea obtener una muestra aleatoria de 10 botellas y medir el contenido en cada botella.Si se utilizan estas 10 observaciones para calcularS2, podra ser til especificar unintervalo de valores que incluyeran a S2 con una alta probabilidad. Encuentre losnmeros b1 y b2 tales que

    P( b1 S2 b2) = 0.90

    Solucin

    Ya que = 1, en consecuencia (n 1)S2 / = (n 1) S2 tiene una distribucincon (n 1) grados de libertad. Por tanto, utilizando los valores tabulados de esta funcin

    podemos encontrar dos nmeros , a1 y a2, tales que

    P( a1 (n 1)S2 a2) = 0.90

    Un mtodo para hacerlo es encontrar el valor a2 que limita un rea de 0.05 de la cola

    derecha y un valor a1 que limita un rea de 0.05 de la cola izquierda (0.95 de rea a laderecha). Ya que hay 9 grados de libertad, la tabla nos da a 2 = 16.919 y a1 = 3.325.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    13/111

    As debemos tener

    a1 = (n 1)b1 / = (n 1)b1 = 9 b1a2 = (n 1)b2 / = (n 1)b2 = 9 b2

    o sea

    b1 = 3.325 / 9= 0.369 y b2 = 16.919 / 9 = 1.880

    de donde se deduce que si se desea tener un intervalo que incluya a S2 con unaprobabilidad de 0.90, uno de tales intervalos es ( 0.369, 1.880). Obsrvese que esteintervalo es bastante grande.

    Distribucin t de Student

    La distribucin -Student se construye como un cociente entre una normal y la raz de

    una independientes. De modo preciso, llamamos distribucin t-Student con n grados

    de libertad, a la de una v.a. T,

    donde , . Este tipo de distribuciones aparece cuando tenemos n+1v.a. independientes

    y nos interesa la distribucin de

    La funcin de densidad de es

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    14/111

    Figura: Funcin de densidad de una de Student

    La distribucin de Student tiene propiedades parecidas a :

    Es de media cero, y simtrica con respecto a la misma;Es algo ms dispersa que la normal, pero la varianza decrece hasta 1 cuando el nmerode grados de libertad aumenta;

    Figura: Comparacin entre las funciones de densidad de y .

    Para un nmero alto de grados de libertad se puede aproximar la distribucin de Studentpor la normal, es decir,

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    15/111

    Figura: Cuando aumentan los grados de libertad, la distribucin deStudent se aproxima a la distribucin normal estandarizada.

    Para calcular

    en lugar de considerar una primitiva de esa funcin y determinar la integral definida,

    buscaremos el resultado aproximado en una tabla de la distribucin . Vase la tabla4, al final del libro.

    La distribucin F de Snedecor

    Otra de la distribuciones importantes asociadas a la normal es la que se define como

    cociente de distribuciones independientes. Sean e v.a.independientes. Decimos entonces que la variable

    sigue una distribucin de probabilidad de Snedecor, con (n,m) grados de libertad.

    Obsrvese que .La forma ms habitual en que nos encontraremos esta distribucin ser en el caso enque tengamos n+m v.a. independientes

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    16/111

    y as

    De esta ley de probabilidad lo que ms nos interesa es su funcin de distribucin:

    y para ello, como en todas las distribuciones asociadas a la normal, disponemos de unatabla (la nmero 6) donde encontrar aproximaciones a esas cantidades

    Figura: Funcin de densidad de .

    Es claro que la distribucin de Snedecor no es simtrica, pues slo tienen densidad deprobabilidad distinta de cero, los punto de . Otra propiedad interesante de ladistribucin de Snedecor es:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    17/111

    5.6 Generacin de Nmeros Seudo Aleatorios

    Existen varios mtodos para la generacin de nmeros seudo aleatorios, el ms utilizadoes el Mtodo de Montecarlo, tambin llamado Mtodo de la Transformada Inversa, elcual lo analizaremos a continuacin.

    Mtodo de Montecarlo

    El mtodo de Montecarlo es una tcnica para obtener muestras aleatorias simples deuna v.a. X, de la que conocemos su ley de probabilidad (a partir de su funcin dedistribucin F). Con este mtodo, el modo de elegir aleatoriamente un valor de X

    siguiendo usando su ley de probabilidad es:1. Usando una tabla de nmeros aleatorios se toma un valor u de una v.a.

    .2. Si Xes continua tomar como observacin de X, la cantidad x=F-1(u). En elcaso en queXsea discreta se tomax como el percentil deX, es decir el

    valor ms pequeo que verifica que .

    Este proceso se debe repetirn veces para obtener una muestra de tamao n.

    Ejemplo

    Si queremos extraern =10 muestras de una distribucin podemos recurrir a unatabla de nmeros aleatorios de k=5 cifras, en las que observamos las cantidades (porejemplo)

    A partir de ellas podemos obtener una muestra de usando una tabla de la

    distribucin normal:

    Nmeros aleatorios Muestra Muestra

    ti xi =F-1(ui)

    76.293 0.76 0.71

    31.776 0.32(=1-0.68) -0.47

    50.803 0.51 0.03

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    18/111

    71.153 0.71 0.55

    20.271 0.20(=1-0.80) -0.84

    33.717 0.34(=1-0.66) -0.41

    17.979 0.18(=1-0.82) -0.9252.125 0.52 0.05

    41.330 0.41(=1-0.59) -0.23

    95.141 0.95 1.65

    Obsrvese que como era de esperar, las observaciones xi tienden a agruparse alrededor

    de la esperanza matemtica de . Por otra parte, esto no implicaque el valor medio de la muestra sea necesariamente . Sin embargo sabemos que

    su dispersin con respecto al valor central es pequea, lo que implica queprobablemente el valor medio estar muy prximo a 0, como se puede calcular:

    Obsrvese que si el problema fuese el inverso, donde nicamente conocisemos lasobservaciones xi y que el mecanismo que gener esos datos hubiese sido unadistribucin normal de parmetros desconocidos, con obtenida hubisemos tenido una

    buena aproximacin del ``parmetro desconocido'' .

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    19/111

    Unidad 6

    ESTIMACIN PUNTUAL Y DE INTERVALOS

    6.1 Estimaciones puntuales ms eficientes, insesgados y demxima verosimilitud

    SeaXuna v.a. cuya funcin de probabilidad (o densidad de probabilidad si es continua)

    depende de unos parmetros desconocidos.

    Representamos mediante una muestra aleatoria simple de la variable.Denotamos mediante fc a la funcin de densidad conjunta de la muestra, que por estarformada por observaciones independientes, puede factorizarse del siguiente modo:

    Se denomina estimador de un parmetro , a cualquier v.a. que se exprese en

    funcin de la muestra aleatoria y que tenga por objetivo aproximar el valor de ,

    Obsrvese que el estimadorno es un valor concreto sino una variable aleatoria, ya queaunque depende unvocamente de los valores de la muestra observados (Xi=xi), laeleccin de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida,se denomina estimacin el valor numrico que toma el estimador sobre esa muestra.

    Ejemplo

    Consideremos una v.a. de la que slo conocemos que su ley de distribucin es normal,

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    20/111

    Para muestras aleatorias de tamao n=3,

    un posible estimador del parmetro es

    Si al realizar un muestreo aleatorio simple obtenemos

    Intuitivamente, las caractersticas que seran deseables para esta nueva variable aleatoria(que usaremos para estimar el parmetro desconocido) deben ser:

    ConsistenciaCuando el tamao de la muestra crece arbitrariamente, el valor estimado se aproxima al

    parmetro desconocido.

    El estimador n es un estimador consistente de si para cualquier nmero positivo ,LmnP( | n - | ) = 1

    su forma equivalente

    LmnP( | n - | > ) = 0

    La notacin n se utiliza por el hecho de expresar que el estimador de se calculamediante una muestra de tamao n. Por ejemplo, 2 es el promedio de dosobservaciones, mientras que 100 es el promedio de las 100 observaciones contenidasen una muestra de tamao n = 100.

    Insesgado (Carencia de sesgo)El valor medio que se obtiene de la estimacin para diferentes muestras debe ser elvalor del parmetro.

    Se dice que un estimador de un parmetro es insesgado si:

    Eficiencia

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    21/111

    Al estimador, al ser v.a., no puede exigrsele que para una muestra cualquiera seobtenga como estimacin el valor exacto del parmetro. Sin embargo podemos pedirleque su dispersin con respecto al valor central (varianza) sea tan pequea como sea

    posible.

    Sea es el estimador del parmetro de la poblacin X, la cual tiene funcin dedensidad de probabilidadf(x),

    Si V( ) = I ( ), al estimador se le denomina eficiente, donde

    I( ) = (1 / n) E [ - (2 lnf(x)) / ( 2)]

    SuficienciaEl estimador debera aprovechar toda la informacin existente en la muestra.

    A continuacin vamos a enunciar de modo ms preciso y estudiar cada una de esascaractersticas.

    Estimadores de Mxima Verosimilitud

    SeaXuna v.a. con funcin de probabilidad

    Las muestras aleatorias simples de tamao n, tienen por distribucin deprobabilidad conjunta

    Esta funcin que depende de n +1 cantidades podemos considerarla de dos maneras:

    Fijando , es una funcin de las n cantidades xi. Esto es la funcin de probabilidad odensidad.Fijados los xi como consecuencia de los resultados de elegir una muestra mediante unexperimento aleatorio, es nicamente funcin de . A esta funcin de ladenominamos funcin de verosimilitud.

    En este punto podemos plantearnos el que dado una muestra sobre la que se ha

    observado los valoresxi, una posible estimacin del parmetro es aquella que maximizala funcin de verosimilitud.

    Figura: La funcin de verosimilitud se obtiene a partir de la funcin de densidad,intercambiando los papeles entre parmetro y estimador. En una funcin deverosimilitud consideramos que las observaciones x1, ..., xn, estn fijadas, y serepresenta la grfica con el valor de los valores que tomara la funcin de densidad

    para todos los posibles valores del parmetro . El estimador mximo verosmil del

    parmetro buscado, , es aquel que maximiza su funcin de verosimilitud,

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    22/111

    .

    Como es lo mismo maximizar una funcin que su logaritmo (al ser este una funcinestrictamente creciente), este mximo puede calcularse derivando con respecto a lafuncin de verosimilitud ( bien su logaritmo) y tomando como estimador mximoverosmil al que haga la derivada nula:

    De modo ms preciso, se define el estimador mximo verosmil como la v.a.

    Los estimadores de mxima verosimilitud tienen ciertas propiedades en general que acontinuacin enunciamos:

    1. Son consistentes;

    2. Son invariantes frente a transformaciones biunvocas, es decir, si es el estimador

    mximo verosmil de y es una funcin biunvoca de , entonces es el

    estimador mximo verosmil de .

    3. Si es un estimador suficiente de , su estimador mximo verosmil, es funcinde la muestra a travs de ;

    4. Son asintticamente normales;

    5. Son asintticamente eficientes, es decir, entre todos los estimadores consistentes deun parmetro , los de mxima verosimilitud son los de varianza mnima.

    6. No siempre son insesgados.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    23/111

    Es decir, la tcnica llamada mtodo de mxima posibilidad verosimilitudseleccionacomo estimaciones aquellos valores de los parmetros que maximizan la verosimilitud(funcin de probabilidad conjunta o la funcin de densidad conjunta) de la muestraobservada.

    Ejemplo

    Sea x1,x2, ... ,xn una muestra aleatoria de observaciones de una distribucin uniformecon funcin de densidad de probabilidad f(x) = 1/ , 0 x , i = 1, 2, ... , n.Determine el estimador de mxima verosimilitud de .

    En este caso la verosimilitud est dado por

    L = f(x1,x2, ... ,xn) = f(x1) f(x2) ... f(xn)= (1 / )(1 / ) ... (1 / )= (1 / n)

    Ntese que L es una funcin montona decreciente de y por lo tanto dL/ d no sehar igual a cero para ningn valor del intervalo 0 < < . Sin embargo, L crececuando decrece y que debe ser igual o mayor que el mximo valor observado en elconjunto . Por lo tanto el valor de que maximiza L es la mayor observacin en lamuestra. Es decir que

    = X(n) = mx (X1, ... , Xn).

    Algunos estimadores fundamentales

    Vamos a estudiar las propiedades de ciertos estimadores que por su importancia en lasaplicaciones resultan fundamentales: estimadores de la esperanza matemtica y varianzade una distribucin de probabilidad.

    Estimador de la esperanza matemtica

    Consideremos las muestras de tamao n, , de un carcter sobre unapoblacin que viene expresado a travs de una v.a. Xque posee momentos de primer y

    segundo orden, es decir, existen y :

    El estimadormedia muestralque denotaremos normalmente como (en lugar de es

    verifica:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    24/111

    Por tanto es un estimador insesgado. Si adems sabemos que Xse distribuye como unav.a. Normal, es sencillo comprobar que coincide con el estimador de mximaverosimilitud (figura superior):

    Proposicin :

    Demostracin: La funcin de densidad de una observacin cualquiera de la muestra es:

    Por tanto la distribucin conjunta de la muestra es

    Para unos valores fijados, la funcin de verosimilitud es

    (en principio escribimos tambin el otro parmetro desconocido, , aunque no nosinteresamos en su estimacin por el momento). La expresin de la funcin deverosimilitud es algo engorrosa. Por ello es preferible trabajar con su logaritmo:

    El mximo de la funcin de verosimilitud se alcanza donde lo hace su logaritmo

    (monotona), por tanto derivando con respecto a e igualando a cero se llega a:

    Es decir, el estimador mximo verosmil de la media poblacional, , coincide con la

    media muestral

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    25/111

    como queramos demostrar:

    Figura: El estimador de mxima verosimilitud de parauna variable aleatoria Normal es la media muestral.

    Figura: La distribucin del estimador muestral del

    parmetro poblacional , tiene por valor esperado al

    mismo (insesgado), y su dispersin disminuye amedida que aumenta el nmero de observaciones

    Estimador de la varianza

    A la hora de elegir un estimador de , podemos comenzar con elestimador ms natural:

    Podemos comprobar que cuando el carcter que se estudia sobre la poblacin esNormal, en realidad este es el estimador mximo verosmil para la varianza. Sin

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    26/111

    embargo se comprueba tambin su falta de sesgo, lo que hace mas adecuado que seutilice como estimador de la varianza al siguiente concepto: cuasi varianza muestral

    Proposicin:

    Demostracin: Recuperamos el logaritmo de la funcin de verosimilitud escrita en larelacin anterior, donde en esta ocasin el primer parmetro ya fue obtenido por elmtodo de mxima verosimilitud (y vimos que era la media muestral) y tratamos demaximizarla con respecto al segundo parmetro:

    Derivando con respecto a e igualando a 0se obtiene el estimador mximo verosmil:

    Despejando de esta ecuacin se obtiene que el estimador mximo verosmil coincidecon la varianza muestral,

    Proposicin: El valor esperado del estimador

    no es , y por tanto el estimador mximo verosmil para la varianza no es insesgado.

    Ms an,

    Demostracin

    Comenzamos escribiendo

    Por otro lado

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    27/111

    Luego

    Cuasivarianza muestral

    Para tener un estimador insesgado de la varianza introducimos la cuasivarianzamuestral que se define como

    Es inmediato comprobar que realmente este estimador es insesgado

    Esa esperanza puede ser calculada de un modo ms directo, ya que la distribucin delestimador es conocida:

    luego

    Es consecuencia de las relaciones anteriores que la distribucin de la cuasivarianzamuestral es tal que

    Figura: Funcin de densidad del estadstico que relaciona ,

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    28/111

    y los grados de libertad de la muestra (n-1). La falta desimetra del mismo hace que su valor esperado (n-1) se desplace ala derecha de la moda (asimetra positiva).

    6.2 Intervalos de Confianza para proporciones, medias, varianzas

    y cocientes de varianzas.

    Intervalo para una proporcin

    Sean . Si queremos estimar el parmetro p, la manera msnatural de hacerlo consiste en definir la suma de estas, lo que nos proporciona unadistribucin Binomial:

    y tomar como estimador suyo a la v.a.

    Es decir, tomamos como estimacin de p la proporcin de xitos obtenidos en las n

    pruebas, .

    La distribucin del nmero de xitos es binomial, y puede ser aproximada a la normalcuando el tamao de la muestra n es grande, yp no es una cantidad muy cercana a cero

    o uno:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    29/111

    El estimador no es ms que un cambio de escala deX, por tanto

    Esta expresin presenta dificultades para el clculo, siendo ms cmodo sustituirla porla siguiente aproximacin:

    Para encontrar el intervalo de confianza al nivel de significacin parap se considera

    el intervalo que hace que la distribucin de deje la probabilidad fuera

    del mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles y

    . As se puede afirmar con una confianza de que:

    Esto se resume en la siguiente expresin:

    con una confianza de

    Figura: Intervalo de confianza para una proporcin.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    30/111

    Ejemplo

    Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello serealiza un muestreo aleatorio simple con n=100 personas y se obtienen 35% que votarna favor y 65% que votarn en contra (suponemos que no hay indecisos para simplificarel problema). Con un nivel de significacin del 5%, calcule un intervalo de confianza

    para el verdadero resultado de las elecciones.

    Solucin:

    Dada una persona cualquiera (i) de la poblacin, el resultado de su voto es una variableBernulli:

    El parmetro a estimar en un intervalo de confianza con es p, y tenemossobre una muestra de tamao n =100, la siguiente estimacin puntual dep:

    Sabemos que

    En la prctica el error que se comete no es muy grande si tomamos algo ms simplecomo

    As el intervalo de confianza buscado lo calculamos como se indica:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    31/111

    Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel deconfianza del 95%.

    En la siguiente Figura podemos observar grficamente la interpretacin del clculorealizado.

    Figura: Regin a partir de la cual se realiza una estimacinconfidencial para una proporcin, con una confianza del 95%.

    Intervalo para la media si se conoce la varianza

    Este caso que planteamos es ms a nivel terico que prctico: difcilmente vamos a

    poder conocer con exactitud mientras que es desconocido. Sin embargo nosaproxima del modo ms simple a la estimacin confidencial de medias.

    Para estimar , el estadstico que mejor nos va a ayudar es , del que conocemos suley de distribucin:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    32/111

    Esa ley de distribucin depende de (desconocida). Lo ms conveniente es hacer que laley de distribucin no dependa de ningn parmetro desconocido, para elloestandarizamos:

    Este es el modo en que se har siempre la estimacin puntual:

    se buscar una relacin en la que intervengan el parmetro desconocido junto con suestimador y de modo que estos se distribuyan segn una ley de probabilidad que esbien conocida y a ser posible tabulada.

    De este modo, fijado , consideramos la v.a. y tomamos un

    intervalo que contenga una masa de probabilidad de . Este intervalo lo queremostan pequeo como sea posible. Por ello lo mejor es tomarlo simtrico con respecto a lamedia (0), ya que all es donde se acumula ms masa.

    Figura: La distribucin y el intervalo ms pequeo posible cuya

    probabilidad es . Por simetra, los cuantiles y slodifieren en el signo.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    33/111

    As las dos colas de la distribucin (zonas ms alejadas de la media) se repartirn apartes iguales el resto de la masa de probabilidad, .

    Vamos a precisar cmo calcular el intervalo de confianza: Regin de aceptacin

    Sea el percentil deZ, es decir, aquel valor de que deja por debajo de s

    la cantidad de la masa de probabilidad deZ, es decir:

    Sea el percentil , es decir,

    Es til considerar en este punto la simetra de la distribucin normal, y observar que lospercentiles anteriores son los mismos aunque con el signo cambiado:

    El intervalo alrededor del origen que contiene la mayor parte de la masa ( ) es el

    intervalo siguiente:

    lo que habitualmente escribiremos como:

    De este modo podemos afirmar que existe una probabilidad de de que al extraer

    una muestra aleatoria de la variable en estudio, ocurra:

    De este modo un intervalo de confianza al nivel para la esperanza de una normalde varianza conocida es el comprendido entre los valores

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    34/111

    La forma habitual de escribir este intervalo est inspirada en la Figura de abajo:

    Como se dijo anteriormente: , lo que nos permite utilizar esta otraforma de expresar el intervalo

    Figura: Intervalo de confianza para la media.

    Intervalo para la media cuando se desconoce la varianza de la poblacin

    Como hemos mencionado, los casos anteriores se presentarn poco en la prctica, yaque lo usual es que sobre una poblacin quizs podamos conocer si se distribuye

    normalmente, pero el valor exacto de los parmetros y no son conocidos. De ahnuestro inters en buscar intervalos de confianza para ellos.

    El problema que tenemos en este caso es ms complicado que el anterior, pues no es tan

    sencillo eliminar los dos parmetros a la vez. Para ello nos vamos a ayudar de losiguiente:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    35/111

    Como se analiz en la Unidad 5. El Teorema del Lmite Central, en el tema 5.5Distribuciones muestrales basados en la normalidad, se tiene una variable tcon v gradosde libertad.

    La nica diferencia entre el intervalo de confianza para la media cuando no se conoce la

    varianza es que se debe estimar este parmetro por medio de su estimadors.

    Ejemplo

    Se quiere estimar un intervalo de confianza al nivel de significacin para la

    altura media de los individuos de una ciudad. En principio slo sabemos que ladistribucin de las alturas es una v.a. Xde distribucin normal. Para ello se toma unamuestra de n=25 personas y se obtiene

    Solucin:

    En primer lugar, en estadstica inferencial, los estadsticos para medir la dispersin msconvenientes son los insesgados. Por ello vamos a dejar de lado la desviacin tpicamuestral, para utilizar la cuasidesviacin tpica:

    Si queremos estimar un intervalo de confianza para , es conveniente utilizar elestadstico

    y tomar como intervalo de confianza aquella regin en la que

    es decir,

    o dicho de forma ms precisa: Con un nivel de confianza del podemos decir que lamedia poblacional est en el intervalo siguiente:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    36/111

    Figura: Clculo del intervalo de confianza para la media usando para ello la distribucint de Student y la funcin de verosimilitud asociada, est tiene su mximo en , ya que

    esta estimacin puntual de es la mximo verosmil.

    Intervalo de confianza para la varianza

    Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente

    propiedad de la distribucin :

    Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidaden la zona central de la distribucin:

    Figura: Cuantiles de la distribucin .

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    37/111

    Entonces un intervalo de confianza al nivel para la varianza de una distribucinnormal (cuyos parmetros desconocemos) lo obtenemos teniendo en cuenta que existe

    una probabilidad de que:

    Por tanto el intervalo que buscamos es

    Ejemplo

    En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad,obtenindose en una muestra de tamao 25 los siguientes valores:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    38/111

    Calcular un intervalo de confianza con para la varianza de la altura de losindividuos de la ciudad.

    Solucin:

    Para estimar un intervalo de confianza para (varianza poblacional) el estadstico quenos resulta til es:

    Entonces el intervalo de confianza que buscamos lo obtenemos mediante

    Figura: Percentiles del 2,5% y del 97,5% para la distribucin .

    Por tanto, para el valor poblacional de la desviacin tpica tenemos que

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    39/111

    con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales

    y calculados sobre la muestra.

    6.3 Intervalos de Prediccin

    A diferencia de lo que ocurre con un intervalo de confianza, el cual tiene que ver con laestimacin de un valor de la poblacin, un intervalo de prediccin sirve para estimar unvalor individual, y es por lo tanto un intervalo de probabilidad.

    Dara la impresin que es posible elaborar un intervalo de prediccin mediante el usodel error estndar del estimador. No obstante, tal intervalo estara incompleto, porque elerror estndar del estimador no incluye la incertidumbre asociada con el hecho de quela posicin de que la lnea de regresin basada en datos muestrales incluye errores demuestreo y por lo general no es idntica a la lnea de regresin de la poblacin.

    El error estndar completo para un intervalo de prediccin se llama error estndar depronstico, e incluye la incertidumbre asociada con la dispersin vertical alrededor dela lnea de regresin ms la incertidumbre asociada con la posicin del mismo valor dela lnea de regresin.

    La frmula bsica para el error estndar del pronstico es

    S2X1(siguiente) = S2X1.X2 + S2 1.X2

    La versin de clculo de la frmula del error estndar del pronstico es

    Finalmente, el intervalo de prediccin para un valor individual de la variablesdependiente, con n-2 grados de libertad, es

    t SX(siguiente)

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    40/111

    Unidad 7

    PRUEBA DE HIPTESIS

    7.1 Hiptesis estadsticas simples y compuestas

    Pueden presentarse en la prctica, situaciones en las que exista una teora preconcebidarelativa a la caracterstica de la poblacin sometida a estudio. Tal sera el caso, porejemplo si pensamos que un tratamiento nuevo puede tener un porcentaje de mejoramayor que otro estndar, o cuando nos planteamos si los nios de las distintascomunidades espaolas tienen la misma altura.

    Este tipo de circunstancias son las que nos llevan al estudio de la parcela de laEstadstica Inferencial que se recoge bajo el ttulo genrico de Contraste de Hiptesis.Implica, en cualquier investigacin, la existencia de dos teoras o hiptesis implcitas,que denominaremos hiptesis nula e hiptesis alternativa, que de alguna manerareflejarn esa idea a priori que tenemos y que pretendemos contrastar con la ``realidad''.

    De la misma manera aparecen, implcitamente, diferentes tipos de errores que podemoscometer durante el procedimiento. No podemos olvidar que, habitualmente, el estudio ylas conclusiones que obtengamos para una poblacin cualquiera, se habrn apoyadoexclusivamente en el anlisis de slo una parte de sta. De la probabilidad con la queestemos dispuestos a asumir estos errores, depender, por ejemplo, el tamao de la

    muestra requerida.Desarrollamos en este captulo los contrastes de hiptesis para los parmetros msusuales que venimos estudiando en los captulos anteriores: medias, varianzas y

    proporciones, para una o dos poblaciones.Los contrastes desarrollados en este captulose apoyan en que los datos de partida siguen una distribucin normal.

    Los contrastes de hiptesis se realizan: Suponiendo a priori que la ley de distribucin de la poblacin es conocida. Se extrae una muestra aleatoria de dicha poblacin.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    41/111

    Si la distribucin de la muestra es diferente de la distribucin de probabilidadque hemos asignado a priori a la poblacin, concluimos que probablemente seaerrnea la suposicin inicial.

    Ejemplo

    Supongamos que debemos realizar un estudio sobre la altura media de los habitantes decierto pueblo de Ecuador. Antes de tomar una muestra, lo lgico es hacer la siguientesuposicin a priori, (hiptesis que se desea contrastar y que denotamos H0 ):

    Al obtener una muestra de tamao n =8, podramos encontrarnos ante uno de lossiguientes casos:

    a. Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63}

    b. Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78}Intuitivamente, en el caso a sera lgico suponer que excepto que la muestra obtenidasobre los habitantes del pueblo sea muy poco representativa, la hiptesis H0 debe serrechazada. En el caso b tal vez no podamos afirmar con rotundidad que la hiptesis H0sea cierta, sin embargo no podramos descartarla y la admitimos por una cuestin desimplicidad.

    Este ejemplo sirve como introduccin de los siguientes conceptos: En un contraste dehiptesis (tambin denominado prueba de hiptesis o Contraste de significacin) sedecide si cierta hiptesisH0 que denominamos hiptesis nula puede ser rechazada o no

    a la vista de los datos suministrados por una muestra de la poblacin. Para realizar elcontraste es necesario establecer previamente una hiptesis alternativa (H1 Ha) queser admitida cuando H0 sea rechazada. Normalmente H1es la negacin de H0, aunqueesto no es necesariamente as.

    La decisin de rechazar o no la hiptesis nula est al fin y al cabo basado en la eleccinde una muestra tomada al azar, y por tanto es posible cometer decisiones errneas. Loserrores que se pueden cometer se clasifican como sigue:

    Error de tipoI:

    Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometereste error es lo que se denomina nivel de significacin. Se denota con la letra

    Error de tipoII:

    Es el error que consiste en no rechazar H0 cuando es falsa. La probabilidad de

    cometer este error la denotamos con la letra

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    42/111

    Elementos de una prueba estadstica:

    Hiptesis nula, H0 Hiptesis alterna H1 Estadstico de la prueba Regin de rechazo

    En este tema hemos estudiado dos de los cuatro elementos, para el siguiente tema seestudiarn los dos restantes.

    7.2 Regiones de aceptacin y rechazo de una prueba de hiptesisLas parte funcionales de una prueba estadstica son el estadstico de prueba y la reginde rechazo asociada. El estadstico de la prueba (como estimador) es una funcin de lasmediciones muestrales en el cual se fundamenta la decisin estadstica.

    La regin de rechazo (RR) especifica los valores del estadstico de la prueba para loscuales se rechaza la hiptesis nula. Si en una muestra particular el valor calculado delestadstico de la prueba se lo localiza en la regin de rechazo, se rechaza la hiptesisnula H0 y se acepta la hiptesis alterna H1. Si el valor del estadstico de la prueba no caeen la regin de rechazo RR, aceptamos H0.

    El procedimiento general consiste en definir un estadstico T relacionado con lahiptesis que deseamos contrastar. A ste lo denominamos estadstico de la prueba. Acontinuacin suponiendo que H0 es verdadera se calcula un intervalo de denominado

    intervalo de aceptacin de la hiptesis nula, de manera que al calcular sobre lamuestra T=Texp el criterio a seguir sea:

    El intervalo de aceptacin o ms precisamente, de no rechazo de la hiptesis nula, seestablece fijando una cantidad suficientemente pequea denominada nivel designificacin, de modo que la probabilidad de que el estadstico del contraste tome unvalor fuera del mismo -- regin crtica--

    cuando la hiptesis nula es cierta sea inferior o al ; Esto se ha de entender

    como sigue:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    43/111

    Si H0 es correcta el criterio de rechazo slo se equivoca con probabilidad , que es la

    probabilidad de que una muestra d un valor del estadstico del contraste extrao

    (fuera del intervalo de aceptacin).

    Ejemplo

    En una encuesta poltica del candidato A se seleccionan n=15 votantes. Se desea probarH0: p = 0.5 frente a la hiptesis alternativa H1: p < 0.5. el estadstico de prueba es T, elnmero de votantes en la muestra a favor del candidato A. Calcular si establecemosRR= {t 2} como la regin de rechazo.

    Solucin

    = P(error tipo I) = P( rechazar H0 cuando es verdadera H0)= P(de que el estadstico de la prueba se localice en RRcuando es verdadera H0)= P(T 2 cuando p = 0.5)

    Considerando que T es una variable Binomial con n=15 y p=0.5, se tiene= 0.004 (utilizando la tabla de probabilidades para la v.a. binomial)

    Por tanto vemos que si se decide utilizar la regin de rechazo RR= {t 2}, se asumenun riesgo muy pequeo de concluir que el candidato A perder las elecciones si, enrealidad, es ganador.Observaciones:

    1. Ntese que la hiptesis nula H0 contiene el valor investigado por probardelparmetro en cuestin.

    2. La hiptesis alterna trata de probar que el porcentaje no es como el candidatopiensa sino que es inferior. Esta hiptesis pudo haber sido diferente si quisieranprobar que porcentaje es mayor, esta se transformara en p>0.5. Si solamente sehubiera querido demostrar que no es cierto este porcentaje la hiptesis alternaquedara p 0.5.

    3. El valor del estadstico siempre es calculado por medio de los valores obtenidosde la muestra.

    4. La regin de rechazo RR se la establece de acuerdo a ciertas condicionespreestablecidas cono son el nivel de significancia, y del valor obtenido de lastablas de probabilidades.

    7.3 Potencia de una prueba y curvas OC

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    44/111

    Potencia de la prueba

    Recuerde que la bondad de una prueba se mide por y , las probabilidades de loserrores de tipo I y II, en donde se fija de antemano para determinar la regin derechazo. Un concepto relacionado pero ms til para evaluar el funcionamiento de una

    prueba se denomina poder ( potencia) de la prueba. Bsicamente el poder de unaprueba es la probabilidad de que la prueba rechace la hiptesis nula.

    Supongamos que T es un estadstico de la prueba y RR la regin de rechazo para laprueba de una hiptesis referente al valor de una parmetro . Entonces, el poderdenotado por k(), es la probabilidad de que la prueba rechace H0 cuando el valor realdel parmetro es . Es decir,

    k() = P(de que T est en RR cuando el valor del parmetro es )

    Supngase que se desea probar la hiptesis nula H0:

    =

    0 y que

    1 es un valorparticular de es cogido para H1. El poder de la prueba para = 0, k(0), es igual a laprobabilidad de rechazar H0 cuando es verdadera H0. Es decir,

    k(0) = , la probabilidad de un error tipo I.

    Para cualquier valor de para H1, el poder de una prueba se mide su capacidad paradetectar que la hiptesis nula es falsa. Es decir, para = 1

    k(1) = P(rechazar H0 cuando = 1)

    Dado que

    = P(aceptar H0 cuando = 1)

    tenemos que el poder de la prueba para 1 y la probabilidad de un error tipo II serelaciona como sigue:

    k(1) = 1 -

    A continuacin ilustraremos dos ejemplos de curvas de poder o potencia

    Figura: tpica curva de poder o potencia

    para la pruebaH0: = 0 frente a la alternativa H1: 0

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    45/111

    Figura: curva de poder ideal para la pruebaH0: = 0 frente a la alternativa H1: 0

    Curvas OC

    Cuando el nivel de significancia y el tamao de muestra se mantienen constantes, laprobabilidad de error tipo II disminuye a medida que el valor alternativo especfico de lamedia se aleja del valor de la hiptesis nula y aumenta a medida que

    Una curva caracterstica OC, describe grficamente la probabilidad de aceptar lahiptesis nula dados diversos valores alternativos de la media de la poblacin.

    La siguiente curva OC es aplicable a cualquier prueba de cola inferior de una mediahipottica al nivel de significancia de 5% basada en el uso de la distribucin normal de

    probabilidad.

    Figura: curva de poder ideal para la pruebaH0: = 0 frente a la alternativa H1: 0

    Ntese que es aplicable a cualquier prueba de este tipo, porque los valores del ejehorizontal han sido enunciados en unidades del error estndar de la media. Paracualesquiera valores a la izquierda de 0, la probabilidad de aceptacin indica la

    probabilidad del error tipo II. A la derecha de 0, las probabilidades indican laaceptacin correcta de la hiptesis nula. Tal como lo indican las lneas punteadas,cuando =0, la probabilidad de aceptar la hiptesis nula es 1 - o, en este caso, 1 0.05 = 0.95.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    46/111

    En los siguientes temas desarrollaremos algunos ejemplos de cmo aplicar las curvasOC y la potencia de la prueba.

    7.4 Pruebas de hiptesis relativas a medias, varianzas,proporciones y cocientes de dos varianzas

    en este tema se desarrollar un procedimiento para la prueba basada en el estimador ,que tiene aproximadamente una distribucin normal con media y varianza 2.

    Los estimadores referidos en la unidad anterior como , con muestras grandesutilizados para estimar una media poblacional y proporcin poblacional p,respectivamente, satisfacen estos requerimientos.

    Junto con ellos, tambin lo hacen los estimadores para la comparacin de dos medias(1 2) y la comparacin de parmetros binomiales (p1 p2).

    Dentro del desarrollo de este tema se puede encontrar un resumen detallado de laspruebas de hiptesis para la media, la varianza y las proporciones.

    Contrastes para la media

    Test de dos colas con varianza conocida

    Suponemos que donde es conocido y queremos contrastar si es

    posible que (desconocida) sea en realidad cierto valor fijado. Esto es un supuestoterico que nunca se dar en la realidad pero servir para introducir la teora sobrecontrastes.

    El test se escribe entonces como:

    Como hemos mencionado anteriormente, la tcnica para hacer el contraste consiste ensuponer que H0 es cierta, y averiguar con esta hiptesis quien es la distribucin delestadstico del contraste que este caso es lgico que deba estar muy relacionado con .

    Si al obtener una muestra concreta se tiene que es un valor muy alejado de ,se debe rechazarH0. Veamos esto con ms detalle:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    47/111

    Para poder acceder a las probabilidades de la normal, hemos normalizado (ya que losvalores para hacer la normalizacin son conocidos). SiH0 es cierta, entonces esperamosque el valorzexpobtenido sobre la muestra

    est cercano a cero con una gran probabilidad. Esto se expresa fijando un nivel designificacin , y tomando como regin crtica , a los valores que son muyextremados y con probabilidad en total, o sea,

    Entonces la regin crtica consiste en

    Luego rechazaremos la hiptesis nula si

    aceptando en consecuencia la hiptesis alternativa

    Figura: La regin de rechazo de la hiptesis nula es la sombreada. Se rechaza H0cuando el estadsticozexp toma un valor comprendido en la zona sombreada de la grfica

    pequea, , o equivalentemente, cuando el estadstico toma un valor en la

    zona roja de la grfica grande, .

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    48/111

    Test de una cola con varianza conocidaConsideremos un contraste de hiptesis donde ahora la hiptesis alternativa escompuesta:

    Bajo la hiptesis nula la distribucin de la media muestral es

    y como regin crtica consideraremos aquella formada por los valores extremadamentebajos deZexp, con probabilidad , es decir

    Entonces la regin de aceptacin, o de modo ms correcto, de no rechazo de la hiptesis

    nula esFigura: Se rechaza la hiptesis nula, cuando uno de los estadstico Zo toma unvalor en la zona roja de sus grficas respectivas.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    49/111

    Es evidente que si en el contraste de significacin (primer grfico), hubisemos tomadocomo hiptesis alternativa su contraria, es decir

    por simetra con respecto al caso anterior, la regin donde no se rechaza la hiptesisnula es (vase la figura de abajo y contrstese con la anterior):

    Figura: Regiones de aceptacin y rechazo para el test unilateral contrario.

    Test de dos colas con varianza desconocida

    Sea donde ni ni son conocidos y queremos realizar el contraste

    Al no conocer va a ser necesario estimarlo a partir de su estimador insesgado: lacuasivarianza muestral, . Por ello la distribucin del estimador del contraste ser una

    de Student, que ha perdido un grado de libertad, segn el teorema de Cochran (no

    evaluado en el curso presente), y la definicin de la distribucin de Student:

    Consideramos como regin crtica , a las observaciones de Texp extremas

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    50/111

    o sea

    Observacin

    Para dar una forma homognea a todos los contrastes de hiptesis es costumbredenominar al valor del estadstico del contraste calculado sobre la muestra como valorexperimental y a los extremos de la regin crtica, como valores tericos. Definiendoentonces

    el resultado del contraste es el siguiente:

    Figura: Regin crtica para el contraste bilateral de una media.

    tn-1 t t T

    Tests de una cola con varianza desconocido

    Si realizamos el contraste

    por analoga con el contraste bilateral, definiremos

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    51/111

    y el criterio para contrastar al nivel de significacin es:

    Figura: Regin crtica para uno de los contrastes unilaterales de una media.

    Para el contraste contrario,

    definimos Texp y Tteo como anteriormente y el criterio a aplicar es:

    Figura: Regin crtica para el contrastes unilateral de una media contrario alanterior.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    52/111

    Ejemplo

    Conocemos que las alturas Xde los individuos de una ciudad, se distribuyen de modonormal. Deseamos contrastar con un nivel de significacin de = 0.05 si la alturamedia es diferente de 174 cm. Para ello nos basamos en un estudio en el que con unamuestra de n=25 personas se obtuvo:

    Solucin:

    El contraste que se plantea es:

    La tcnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma elestadstico

    es ``razonable" o no bajo esta hiptesis, para el nivel de significacin dado.Aceptaremos la hiptesis alternativa (y en consecuencia se rechazar la hiptesis nula)si no lo es, es decir, si

    Para ello procedemos al clculo de Texp:

    Luego, aunque podamos pensar que ciertamente el verdadero valor de no es 174, no

    hay una evidencia suficiente para rechazar esta hiptesis al nivel de confianza del .Es decir, no se rechazaH0.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    53/111

    Figura: El valor de Texp no est en la regin crtica(aunque ha quedado muy cerca), por tanto al no ser laevidencia en contra de H0 suficientemente

    significativa, sta hiptesis no se rechaza.

    Ejemplo

    Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la

    altura media de la poblacin sea igual a 174 cm, deseamos realizar el contraste sobre sila altura media es menor de 174 cm.

    Solucin:Ahora el contraste es

    Para realizar este contraste, consideramos el caso lmite y observamos si la hiptesisnula debe ser rechazada o no. Este es:

    De nuevo la tcnica a utilizar consiste en suponer que H0' es cierta y ver si el valor quetoma el estadstico

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    54/111

    es aceptable bajo esta hiptesis, con un nivel de confianza del . Se aceptar lahiptesis alternativa (y en consecuencia se rechazar la hiptesis nula) si

    Recordamos que el valor de Texp obtenido fue de

    Texp=-1'959< t24,0'05= -t24,0'95 = -1'71

    Por ello hemos de aceptar la hiptesis alternativa

    Figura: El valor te Texp est en la regin crtica, portanto existe una evidencia significativa en contra de

    H0, y a favor deH1.

    Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no

    exista una evidencia significativa para decir que cm, el ``simple hecho" deplantearnos un contraste que parece el mismo pero en versin unilateral nos conduce a

    rechazar de modo significativo que y aceptamos que cm. Es por elloque podemos decir que no slo H0' es rechazada, sino tambin H0. Es en este sentido enel que los tests conH0 yH0' los consideramos equivalentes:

    Contrastes de una proporcin

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    55/111

    Supongamos que poseemos una sucesin de observaciones independientes, de modoque cada una de ellas se comporta como una distribucin de Bernoulli de parmetro p:

    La v.a.X, definida como el nmero de xitos obtenidos en una muestra de tamao n espor definicin una v.a. de distribucin binomial:

    La proporcin muestral (estimador del verdadero parmetrop a partir de la muestra) es

    Nos interesamos en el contraste de significacin de

    frente a otras hiptesis alternativas. Para ello nos basamos en un estadstico (decontraste) que ya fue considerado anteriormente en la construccin de intervalos deconfianza para proporciones y que sigue una distribucin aproximadamente normal paratamaos muestrales suficientemente grandes:

    Si la hiptesisH0 es cierta se tiene

    Contraste bilateral o de dos colas

    Para el contraste

    extraemos una muestra y observamos el valor . Entonces se define

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    56/111

    siendo el criterio de 56nilateral o rechazo de la 56nilatera nula el que refleja la siguientefigura:

    Figura: Contraste bilateral de una 56nilateral.

    Contrastes Unilaterales o de una cola

    Consideremos un contraste del tipo

    La figura siguiente expresa el criterio de aceptacin o rechazo a seguir:

    Figura: Contraste unilateral cuando

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    57/111

    Para el test unilateral contrario, se tiene la expresin simtrica:

    Luego

    Figura: Contraste unilateral cuando se tiene

    Contrastes sobre la diferencia de proporciones

    Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones,en la que estudiamos una variable de tipo dicotmico (Bernoulli):

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    58/111

    SiX1 y X2 contabilizan en cada caso el nmero de xitos en cada muestra se tiene quecada una de ellas se distribuye como una variable aleatoria binomial:

    de modo que los estimadores de las proporciones en cada poblacin tienendistribuciones que de un modo aproximado son normales (cuando n1 y n2 son bastantegrandes)

    El contraste que nos interesa realizar es el de si la diferencia entre las proporciones encada poblacin es una cantidad conocida

    SiH0 fuese cierta se tendra que

    Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos susestimadores, lo que da lugar a un error que es pequeo cuando los tamaos muestralesson importantes:

    Contraste bilateral

    El contraste bilateral sobre la diferencia de proporciones es

    Entonces se define

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    59/111

    y se rechaza la hiptesis nula si o si

    Contrastes unilaterales

    En el contraste

    se rechazarH0 si . Para el test contrario

    se rechazaH0 si .

    Contrastes para la varianzaConsideremos que el carcter que estudiamos sobre la poblacin sea una v.a. normalcuya media y varianza son desconocidas. Vamos a contrastar la hiptesis

    frente a otras hiptesis alternativas que podrn dar lugar a contrastes bilaterales ounilaterales. La tcnica consiste en observar que el siguiente estadstico experimental

    que utiliza el estimador insesgado de la varianza, posee una distribucin , con n-1grados de libertad:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    60/111

    Entonces construimos las regiones crticas que correspondan a las hiptesis alternativas

    que se formulen en cada caso atendiendo a la ley de distribucin .

    Contraste bilateral

    Cuando el contraste a realizar es

    definimos

    y el criterio que suministra el contraste es el expresado en la siguiente figura:

    Figura: Contraste bilateral de una varianza.

    Contrastes unilaterales

    Para un contraste de significacin al nivel del tipo

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    61/111

    se tiene que el resultado del mismo es el que refleja la siguiente figura:

    Figura: Contraste unilateral del tipo

    .

    Para el contraste contrario tenemos la formulacin anloga:

    calculamos el extremo inferior de la regin crtica en una tabla de la distribucin

    El grfico queda de la siguiente manera:

    Figura: Contraste unilateral del tipo .

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    62/111

    Tabla: Estadsticos asociados a una muestra aleatoria simple,procedente de una poblacin normal.

    X1,X2, ...,

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    63/111

    Contrastes de la razn de varianzas

    Consideramos dos muestras independientes de dos poblaciones que se distribuyennormalmente (cuyas medias y varianzas son desconocidas). Vamos a abordar cuestionesrelacionadas con saber si las varianzas de ambas poblaciones son las mismas, o si larazn (cociente) entre ambas es una cantidad conocida, R. La igualdad entre las dos

    varianzas puede escribirse o bien, la existencia de una diferencia entre

    ambas ( ), del modo . Este modo de escribir la diferencia entre varianzas(que era el adecuado para las medias) no es sin embargo fcil de utilizar para lasvarianzas, de modo que nos ser ms fcil sacarle partido a las expresiones de lasrelaciones entre varianzas como

    Por ejemplo, siR =1 tenemos que ambas varianzas son iguales.

    Consideramos entonces la hiptesis nula

    la cual vamos a contrastar teniendo en cuenta que:

    Por tanto el estadstico del contraste que nos conviene tiene una distribucin conocidacuandoH0 es cierta --vase la definicin de la distribucin de Snedecor:

    Contraste bilateral

    El contraste bilateral para el cociente de varianzas se escribe como:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    64/111

    Habida cuenta que la distribucin de Snedecor no es simtrica sino que slo tomavalores positivos, se rechazar la hiptesis nula cuando el el valor que tome elestadstico del contraste al aplicarlo sobre una muestra sea muy cercano a cero, o bien,muy grande. Es decir, se define el estadstico experimental y los lmites de la regincrtica como:

    y el criterio de aceptacin o rechazo es:

    Una cuestin que conviene observar es que

    dada la no simetra de F. A la hora de usar una tabla de la distribucinpodemos tal vez encontrar que no est tabulada para los valores pequeos, pero si

    para . Una regla que es de bastante utilidad para estos casos es la siguiente

    Contrastes unilaterales

    El primer contraste unilateral que consideramos es:

    para el cual se tiene

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    65/111

    El tests unilateral opuesto es:

    y entonces

    Ejemplo

    Se desea comparar la actividad motora espontnea de un grupo de 25 ratas control yotro de 36 ratas desnutridas. Se midi el nmero de veces que pasaban delante de unaclula fotoelctrica durante 24 horas. Los datos obtenidos fueron los siguientes:

    Ratas de control n1=25

    Ratas desnutridas n2=36

    Se observan diferencias significativas entre el grupo control y el grupo desnutrido?

    Solucin:

    En primer lugar, por tratarse de un problema de inferencia estadstica, nos sern mstiles las cuasivarianzas que las varianzas. Por ello calculamos:

    El contraste que debemos realizar est basado en el de la de Student para la diferenciade medias de dos poblaciones. Para ello conocemos dos estadsticos posibles, segn quelas varianzas poblacionales de ambos grupos de ratas puedan ser supuestas iguales(homocedasticidad) o distintas (heterocedasticidad). Para ello realizamos previamente el

    contraste:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    66/111

    SuponiendoH0 cierta, tenemos que el estadstico del contraste conveniente es

    ya que as no es necesario calcular el extremo inferior para la regin donde no serechazaH0. En este caso:

    Como , no podemos concluir (al menos al nivel de significacin )

    queH0 deba ser rechazada.

    Figura: No hay evidencia significativa para rechazarla homocedasticidad. El estadstico del contraste hasido elegido de modo que el numerador de Fexp seamayor que el denominador, es decir,Fexp>1.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    67/111

    Por lo tanto no rechazamos la hiptesis de homocedasticidad (que las dos son iguales)de ambas poblaciones, y pasamos a contrastar la igualdad de las medias

    utilizando el estadstico ms sencillo (el que no necesita aproximar los grados delibertad mediante la frmula de Welch). Para ello calculamos en primer lugar lacuasivarianza muestral ponderada:

    y posteriormente

    Como concluimos que se ha de rechazar la hiptesis de igualdad de lasmedias, y por tanto aceptamos que las medias son diferentes. Adems, como se aprecia

    en la figura siguiente, la evidencia a favor de la hiptesis alternativa es muy alta, y sepuede afirmar que con gran probabilidad la media poblacional de las ratas de control esmayor que la de las ratas desnutridas.

    Figura: Hay una gran evidencia en contra de la hiptesis de que ambasmedias poblacionales coincidan, y a favor de que la de la primera

    poblacin es mayor que la de la segunda.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    68/111

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    69/111

    Consideramos el contraste de tipo

    Entonces se define

    y se rechaza la hiptesis nula cuando .

    Contrastes unilaterales

    Si el contraste es

    entonces se rechazaH0 si . Para el test contrario

    se rechazaH0 si .

    Observacin

    No supone ninguna dificultad el haber realizado el contraste con conocida, ya queentonces el estadstico del contraste es

    y el tratamiento sera anlogo.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    70/111

    Prueba de signo para un experimento aparejado

    Prueba del signo para comparar dos poblaciones en un experimento aparejado (ode Wilcoxon de rangos con signo)

    Hiptesis:H0: Las distribuciones poblacionales para las X y las Y son idnticasH1: Las dos distribuciones difieren en ubicacin (dos colas) o bien, H 1: ladistribucin de frecuencias relativas de la poblacin para las X est desfasadahacia la derecha de la distribucin de las Y (una cola)

    Estadstico de la prueba:1) Para una prueba de dos colas, utilice T = mn(T , T--) en donde T = suma de los

    trangos de las diferencias positivas y T -- = suma de los rangos de las diferenciasnegativas.

    2) Para la prueba de una cola (para detectar la alternativa de una cola dadaanteriormente) utilice la suma de los rangos T-- de las diferencias negativas.

    Regin de rechazo:1) Para la prueba de dos colas, rechace H0 si T T0 en donde T0 es el valor crtico

    dado en la tabla de valores crticos de T en la prueba de Wilcoxon.2) Para la prueba de una cola, rechace H0 si T - T0

    Observacin:

    Para detectar un desplazamiento de la distribucin de las Y hacia la derecha de la

    distribucin de las X, utilice la suma de los rangos T+, la suma de los rangos de lasdiferencias positivas y rechace H0 si T+ T0.Ejemplo

    Pruebe la hiptesis nula de que no hay diferencias entre las distribuciones poblacionalesde la densidad de los pasteles para un experimento de diferencias aparejadas. Se utilizan6 pares de pasteles, uno preparado con la mezcla A y el otro con la mezcla B. Qu se

    puede decir del nivel de significancia alcanzado?

    Solucin

    Los datos originales y las diferencias (en onzas por pulgada cbica) para los seis paresde pasteles se muestran en la tabla siguiente:

    A B Diferencia: A B Rango0.135 0.129 0.006 30.102 0.120 -0.018 50.108 0.112 -0.004 1.50.141 0.152 -0.011 40.131 0.135 -0.004 1.50.144 0.163 -0.019 6

    Como en el caso de otras pruebas no para mtricas, la hiptesis nula que debe probarsees que las distribuciones de frecuencias de las dos poblaciones de densidades de los

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    71/111

    pasteles son idnticas. La hiptesis alternativa, que implica una prueba de dos colas, esque las distribuciones difieren en ubicacin.

    Realizaremos nuestra prueba utilizando = 0.10, porque la cantidad de datos espequea. De la tabla de valores crticos de T en la prueba de Wilcoxon, vemos que el

    valor crtico de T para una prueba de dos colas y = 0.10, es T0 = 2. por tantorechazaremos H0 si T 2.

    Dado que hay solamente una diferencia positiva que tiene el rango 3, T + = 3y T-- = 18, ypor lo tanto no hay evidencia suficiente para indicar una diferencia ente lasdistribuciones de frecuencias de las dos poblaciones de las densidades de las

    poblaciones de los pasteles. Ya que no es posible rechazar H0 para = 0.10, solamentepodemos afirmar que el valor p > 0.10.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    72/111

    7.6 Tablas de Contingencia

    Un problema comn en el anlisis de datos enumerativo se refiere a la independencia dedos mtodos de clasificacin de eventos observados. Por ejemplo, podramos clasificaruna muestra de individuos segn el sexo y segn su opinin con respecto a una cuestin

    poltica para probar la hiptesis de que las opiniones con respecto a esta cuestin sonindependientes del sexo, o podramos clasificar a los pacientes que padecen ciertaenfermedad segn el tipo de medicamento y segn el porcentaje de recuperacin paraver si el porcentaje de recuperacin depende del tipo de medicamento. El cada uno deestos ejemplos queremos investigar la dependencia (o contingencia) entre dos criteriosde clasificacin.

    Supngase que queremos clasificar los defectos encontrados en los muebles producidosen cierta planta manufacturera, segn (1) el tipo de defecto y (2) el turno de produccin.

    Se registr un nmero total de n = 309 muebles defectuosos y se clasificaron losdefectos como uno de cuatro tipos, A, B, C, o D. Al mismo tiempo se identific cadamueble segn el turno de produccin en el que se les fabric. Se presentan estos datosen la siguiente tabla conocida como Tabla de Contingencia:

    Turno deProduccin

    Tipo de defecto TotalA B C D

    1 15(22.51)

    21(20.99)

    45(38.94)

    13(11.56)

    94

    2 26(22.99)

    31(21.44)

    34(39.77)

    5(11.81) 96

    3 33(28.50) 17(26.57) 49(49.29) 20(14.63) 119

    Total 74 69 128 38 309

    Los nmeros ente parntesis son las estimaciones de las frecuencias esperadas de lasceldas. El objetivo es probar la hiptesis nula de que el tipo de defecto es independientedel turno de produccin, frente a la alternativa de que las dos categoras sondependientes. Es decir, queremos probar H0: la clasificacin por columnas esindependiente de la clasificacin por renglones.

    SeapA igual a la probabilidad incondicional de que un efecto sea del tipo A. Asimismo,

    se definen pB, pC, y pD como las probabilidades de observar los otros tres tipos dedefectos. Entonces estas probabilidades, que llamaremos probabilidades de columna dela tabla anterior, satisfacen la condicin: pA + pB + pC + pD = 1

    De igual manera sea pi (i = 1,2 o 3) igual a la probabilidad de rengln de que un defectoprovenga del turno i, en dondep1 + p2 + p3 = 1

    La hiptesis nula especifica solamente que la probabilidad cada celda ser igual alproducto de sus respectivas probabilidades de rengln y de columna, lo que implica laindependencia de las dos clasificaciones.

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    73/111

    Tenemos que estimarlas probabilidades de columna y de rengln para poder estimar lasfrecuencias esperadas de las celdas.

    Como hemos observado, se pueden utilizar las estimaciones de las frecuenciasesperadas de las celdas en lugar de los E(n i) en la expresin de X2, y X2 todava tendr

    una distribucin que se puede aproximar por una distribucin de probabilidad 2 en unmuestreo repetitivo.

    Sea nij la frecuencia observada en el rengln i y la columna j de la tabla de contingencia,y sea pij la probabilidad de que una observacin caiga en esta celda.

    pij es simplemente la frecuencia relativa observada para esta celda, es decir

    ij = nij / n, i =1,...,r; j = 1,...,c

    Asimismo, al considerar el rengln i como una sola celda, la probabilidad para elrengln i est dada por pi y por lo tanto

    ij = ri / n

    donde r denota el nmero de observaciones en el rengln i) es el estimador de mximaverosimilitud de pi.

    Anlogamente la probabilidad para la columna es cj/n, en donde cj denota el nmero deobservaciones en la columna j.

    El valor esperado de la frecuencia de celda observada n ij para una tabla de contingencia,es igual al producto de sus respectivos totales de rengln y de columna, dividido entre lafrecuencia total. Es decir,

    ( nij ) = rij / n

    Finalmente se construye el estadstico de la prueba por medio de las frecuenciasesperadas y observadas

    X2 = [nij - (nij)]2 / (nij)

    El nico obstculo restante es la determinacin del nmero apropiado de grados delibertad asociados con el estadstico de la prueba. Para ello se establece una regla quetrataremos de justificar. Los grados de libertad asociados con una tabla decontingencia que tiene r renglones y c columnas siempre son iguales a (r 1) (c 1).Para el ejemplo planteado compararemosX2 con el valor crtico de una 2 con (r-1)(c-1)= (3-1)(4-1) = 6grados de libertad.

    X2 = [nij - (nij)]2 / (nij) = (15 22.51)2/ 22.51 + (26 22.99)2/22.99 + ...+ (20 - 14.63)2/14.63 = 19.17

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    74/111

    Por lo tanto si utilizamos = 0.05, rechazaremos la hiptesis nula de que las dosclasificaciones son independientes si X2 > 12. 592. Dado que el valor del estadstico dela prueba, X2 = 19.17, es mayor que el valor crtico de 2, rechazamos la hiptesis nulaa nivel de significancia de = 0.05.El valor p asociado se da por valor p = P(2 >19.17).

    Una tabla de contingencia es un arreglo rectangular en el que se expresan los efectos deun factor horizontal A y un factor vertical B, sobre los elementos de una misma

    poblacin.

    A tiene c niveles, B tiene r niveles

    Factor AFactor B Nivel 1 2 ... c

    1 X11

    X12 ... X1c

    X1.2 X21 X22 ... X2c X2.... ... ... ... ... ...r Xr1 Xr2 ... Xrc Xr.

    X.1 X.2 X.c n

    Xij es el nmero de elementos bajo el nivel i de A y la columna j de B

    La idea es verificar si el factor A y el B son independientes por medio de un contrastede hiptesis como se muestra en el ejemplo anterior.

    7.7 Ajuste de curva: la prueba no paramtrica KS y la pruebaJi-cuadrado

    El estadstico y su distribucin

    Sea X una v.a. cuyo rango son los valores , de modo que pi es laprobabilidad de cada valor;

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    75/111

    Este tipo de v.a. puede corresponder a variables ya estudiadas como es el caso de ladistribucin Binomial

    pero nosotros vamos a usarla para v.a. ms generales. Supongamos que el resultado de

    un experimento aleatorio es una clase c1, c2, ..., ck(ci, ), que puederepresentar valores cualitativos, discretos o bien intervalos para variables continuas. Sea

    pi la probabilidad de que el resultado del experimento sea la clase ci. Vamos aconsiderar contrastes cuyo objetivo es comprobar si ciertos valores pi0, propuestos paralas cantidadespi son correctas o no, en funcin de los resultados experimentales

    Mediante muestreo aleatorio simple, se toma una muestra de tamao n y se obtienen apartir de ella unas frecuencias observadas de cada clase que representamos mediante

    , , ...,

    Clase Frec. Abs.

    ci

    c1

    c2

    ... ...

    ck

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    76/111

    Supongamos que la hiptesis nula es cierta. Al serpi =pi0 la proporcin de elementos dela clase ci en la poblacin, el nmero de individuos de que presentan esta modalidad al

    tomar una muestra de tamao n, es una v.a. de distribucin binomial, . Portanto lafrecuencia esperada de individuos de esa clase es

    Obsrvese que a diferencia de las cantidades , que son las frecuencias que realmente

    se obtienen en una muestra, las frecuencias esperadas no tienen por que ser nmerosenteros. De cualquier modo, bajo la suposicin de que H0 es cierta cabe esperar que las

    diferencias entre las cantidades y sea pequea.

    Pearson propuso el estadstico

    el cual, siguiendo la lnea de razonamiento anterior debe tomar valores pequeos si H0es cierta. Si al tomar una muestra, su valor es grande eso pone en evidencia que la

    hiptesis inicial es probablemente falsa. Para decidir cuando los valores de songrandes es necesario conocer su ley de probabilidad. Se tiene entonces el siguienteresultado

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    77/111

    Como slo son los valores grandes de los que nos llevan a rechazarH0, la regin

    crtica es , tal como se muestra en la siguiente figura:

    Figura: Regin crtica (sombreada) para un contraste con el estadstico

    .

    es decir,

    Observacin

    A pesar de que el contraste parece ser bilateral la forma de , nos indica que elcontraste es unilateral: Slo podemos saber si existe desajuste entre los esperado y loobservado, pero no podemos contrastar hiptesis alternativas del tipo ` pi mayor quecierto valor''.

    Observacin

    Obsrvese que en realidad no es una variable aleatoria continua: Los posibles

    resultados de la muestra se resumen en las cantidades , , ..., , que nicamentetoman valores discretos. Luego las cantidades

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    78/111

    slo puede tomar un nmero finito de valores distintos (aunque sean cantidades condecimales). Por tanto su distribucin no es continua. Luego al realizar la aproximacin

    mencionada hay que precisar enqu condiciones el error cometido es pequeo

    . Demodo aproximado podemos enunciar el siguiente criterio que recuerda al de laaproximacin binomial por la distribucin normal:

    1. n>30;

    2. para todo .

    Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la prctica. Seutiliza entonces una regla ms flexible y que no sacrifica demasiada precisin conrespecto a la anterior:

    1. Para ninguna clase ocurre que

    2. para casi todos los , salvo a lo sumo un deellos.

    Si a pesar de todo, estas condiciones no son verificadas, es necesario agrupar las clasesque tengan menos elementos con sus adyacentes.

    Observacin

    El lector puede considerar los contrastes con el estadstico como una generalizacindel contraste de proporciones. Para ello le invitamos a estudiar el siguiente ejemplo.

    Ejemplo

    Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a lasmujeres. Para ello se considera una muestra de n=618 individuos que padecen laenfermedad, y se observa que 341 son hombres y el resto son mujeres. Quconclusiones se obtiene de ello?

    Solucin:

    El contraste a realizar se puede plantear de dos formas que despus veremos que sonequivalentes:

    Contraste de una proporcin: Si p es el porcentaje de hombres en la poblacin deenfermos, podemos considerar el contraste:

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    79/111

    De la muestra obtenemos la siguiente estimacin puntual del porcentaje de enfermos desexo masculino:

    Para ver si esto es un valor ``coherente'' con la hiptesis nula, calculemos lasignificatividad del contraste:

    Por otro lado,

    Como el contraste es de tipo bilateral, la significatividad del contraste es (buscando enla tabla de la distribucin normal):

    Lo que nos indica que se ha de rechazar la hiptesis nula y aceptar la hiptesisalternativa, es decir, afirmamos que existe una evidencia significativa a favor de lahiptesis de que la enfermedad no afecta por igual a hombres y mujeres.

    Contraste con el estadstico : En este caso planteamos el contraste:

    Para resolverlo escribimos en una tabla los frecuencias muestrales observadas dehombres y mujeres, junto a los valores esperados en el caso de que la hiptesis nulafuese cierta:

    frecuencias frecuencias

    observadas esperadas diferencia

    Hombres 341 9 322/309

    Mujeres 277 -9 (-32)2/309

    618 618 0 6,63

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    80/111

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    81/111

    Distribuciones con parmetros desconocidos

    Supongamos que la distribucin de X que queremos contrastar no especifica ciertosvalores de rparmetros

    Estimmoslos a partir de la muestra, y consideremos las cantidades

    Entonces el contraste consiste en

    Contraste de una distribucin binomial

    Queremos contrastar

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    82/111

    Las cantidades pi son desconocidas, aunque tienen una forma en la que slo dependendel nico parmetro que debe ser estimado a partir de la muestra (r=1): Realizando estaestimacin

    tenemos todas las cantidadespi,

    y la distribucin del estadstico es aproximadamente .

    Contraste de una distribucin normal

    Si queremos contrastar si una v.a.Xse distribuye normalmente

    podemos realizar el contraste correspondiente mediante la tcnica del estadsticotomando una muestra, estimando los parmetros mediante y , y agrupando lasobservaciones (continuas) en un nmero finito, k, de intervalos. No rechazaremosentonces la normalidad de X si las probabilidades esperadas de los intervalos no sonmuy diferentes de las obtenidas sobre la muestra, es decir,

    Intervalo

    - e1

    e1 - e2

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    83/111

    e2 - e3

    ... ... ... ... ...

    Distribuciones de parmetros conocidos

    Deseamos contrastar si la v.a.Xsigue una ley de distribucin

    donde todos los pi estn fijados (hiptesis H0). Entonces por lo mencionadoanteriormente, el contraste consiste en:

    En este contraste se comete cierto error de aproximacin y por tanto ser tanto mejorcuanto mayor sea n.

    Ejemplo

    Dadas dos parejas de genes Aa y Bb, la descendencia del cruce efectuado segn lasleyes de Mendel, debe estar compuesto del siguiente modo:

    Leyes de Mendel

    Frecuencias

    Fenotipo relativas

    AB 9/16

    Ab 3/16

    aB 3/16ab 1/16

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    84/111

    Elegidos 300 individuos al azar de cierta poblacin se observa la siguiente distribucinde frecuencias:

    Frecuencias

    Fenotipo observadas

    AB 165

    Ab 47

    aB 67

    ab 21

    Total 300

    Se puede aceptar que se cumplen las leyes de Mendel sobre los individuos de dichapoblacin?

    Solucin:

    El contraste a realizar es:

    Para ello vamos a representar en una sola tabla las frecuencias observadas, junto con lasque seran de esperar en el caso de que H0 fuese cierta:

    Fenotipo

    AB 165 161,33

    Ab 47 42,27

    aB 67 85,91

    ab 21 23,52

    Total 300 300 313,03

  • 7/27/2019 7.3 Apndice 5 El curso de Estadstica

    85/111

    Bajo la hiptesis de queH0 sea cierta, se tiene que:

    ya que 4 son los posibles fenotipos, no se ha estimado ningn parmetro (la distribucinsegn las leyes de Mendel es conocida), y sobre las cantidadesEi existe solamente una

    restriccin, que es: .Por otro lado,

    que segn la tabla de la distribucin es aproximadamente el percentil 99,5 de la

    distribucin . Por tanto la significatividad del contraste es