Introduccion a La Inferencia Estadistica

  • Upload
    cacatu

  • View
    9

  • Download
    0

Embed Size (px)

DESCRIPTION

estadistica

Citation preview

  • 13/05/12

    1

    Introduccin a la Inferencia Estadstica

    Francisco Javier Arteaga Moreno

    El objetivo de la Inferencia Estadstica es deducir conclusiones vlidas respecto a una poblacin, a partir del anlisis de una muestra aleatoria de dicha poblacin.

    conclusiones vlidas

    con un margen de error reducido y conocido.

    poblacin

    conjunto e individuos que poseen una caracterstica de inters objeto de estudio.

    muestra aleatoria

    cada individuo en la poblacin tiene igual probabilidad de ser incluido en la muestra y los individuos se seleccionan de forma independiente.

    Inferencia Estadstica

  • 13/05/12

    2

    Variable aleatoria (v.a.): caracterstica objeto de estudio que puede tener un valor diferente para diferentes individuos.

    Tipos de variables aleatorias: cualitativas o de atributo, cuasi-cuantitativas u ordinales, cuantitativas discretas, cuantitativas continuas.

    Distribucin de probabilidad: ley, conocida o desconocida, que define la frecuencia con que aparecen los diferentes valores de la variable aleatoria.

    Funcin de probabilidad: para v.a. no continuas, funcin que a cada posible valor de la v.a. le asocia la probabilidad con la que aparece.

    Funcin densidad de probabilidad: para v.a. continuas, funcin que a cada valor de la v.a. le asocia una medida relativa de lo frecuentes que son los valores de su entorno.

    Funcin de distribucin: para v.a. cuantitativas, funcin que a cada nmero le asigna la frecuencia con la que la v.a. ofrece valores iguales o inferiores a dicho nmero.

    Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de una poblacin.

    Estadstico: funcin definida sobre los valores numricos de caractersticas medibles de una muestra.

    Definiciones Bsicas

    Hemos dicho que un estadstico es una funcin definida sobre los valores numricos de caractersticas medibles de una muestra, por lo que para diferentes muestras tendremos diferentes valores del estadstico.

    Pensemos, por ejemplo, en la media muestral, es decir, la media aritmtica de los n valores de una muestra aleatoria X1, X2, , Xn. Es claro que diferentes muestras darn lugar a diferentes valores de la media muestral.

    Segn lo anterior, un estadstico es una variable aleatoria y, como tal, tendr una distribucin de probabilidad, que nos informa acerca de la frecuencia con la que aparecen los diferentes valores del estadstico. La distribucin de probabilidad de un estadstico se denomina distribucin muestral, y a la desviacin tpica de un estimador se la denomina error estndar.

    Volviendo al ejemplo anterior, el teorema del lmite central nos dice que, para tamaos muestrales lo suficientemente elevados, la media muestral es aproximadamente normal, con la misma media que la variable original y con una varianza igual a la de la variable original, dividida por n.

    Dada X una v.a., con media y varianza 2, la media muestral con n lo suficientemente elevada, verifica, aproximadamente:

    Definiciones Bsicas. Distribucin muestral

    ( ) nXXXX n+++= 21

    nNX

    2

    ;~

  • 13/05/12

    3

    Muestreo de poblaciones normales

    Distribucin de los estadsticos muestrales Dada la v.a. X con media y varianza 2, extraemos una muestra: X1, X2, , XN, la media de la media muestral coincide con la media poblacional y la varianza de la media muestral es igual a la varianza poblacional, dividida por el tamao muestral:

    Definimos ahora la varianza muestral S2 como:

    Se puede demostrar que la media de la varianza muestral, segn la acabamos de definir, coincide con la varianza poblacional:

    Esto justifica definir S2 dividiendo por N1 en lugar de por N. La expresin de la varianza muestral es bastante complicada. El resultado ms importante es que tiende a cero cuando N tiende a infinito.

    S2 =X1 ! X( )

    2+ X2 ! X( )

    2+!+ XN ! X( )

    2

    N !1

    E X( ) = E X( ) = V X( ) =V X( )N

    =! 2

    N

    E S2( ) =! 2

    Muestreo de poblaciones normales

    Distribucin de los estadsticos muestrales Los resultados anteriores son generales, en el sentido de que son vlidos independientemente de la distribucin de la poblacin muestreada. Cuando la poblacin muestreada es normal es posible establecer resultados adicionales de gran importancia dentro de la Inferencia Estadstica. En primer lugar se tiene que la media muestral es Normal, independientemente del tamao muestral, con lo que, si X ~ N(; 2) se verifica: Otro resultado importante es que en poblaciones normales la media muestral y la varianza muestral son independientes.

    X ~ N ; !2

    N!

    "#

    $

    %&

    X!! N

    ~ N 0;1( )

  • 13/05/12

    4

    Muestreo de poblaciones normales

    Uso de la distribucin normal estndar en inferencia Por comodidad se define z como el valor para el cual la distribucin normal estndar deja una probabilidad a la derecha igual a .

    z

    Es fcil comprobar que z coincide con el percentil 100(1). Por ejemplo, z0,05 = P95 = Adems se comprueba que, por simetra, z1 = z.

    1,644854

    Los valores ms utilizados son: z0,05 = P95 = z0,025 = P97,5 = z0,005 = P99,5 =

    1,644854 1,959964 2,575829

    Muestreo de poblaciones normales

    La distribucin t

    Si sustituimos el valor de la desviacin tpica en la frmula anterior, por su aproximacin S, la expresin resultante ser aproximadamente normal estndar, y su parecido ser tanto mayor cuanto mayor sea N.

    A esta nueva distribucin, parecida a la normal estndar, le llamamos distribucin t de student con N 1 grados de libertad:

    Si extraemos una muestra de tamao N de una variable X~N(; ), sabemos que la media muestral verifica:

    ==

    NNX XX

    ;~

    De lo anterior se deduce que: ( )1;0~ NN

    X

    1~

    NtNSX

  • 13/05/12

    5

    Muestreo de poblaciones normales

    La distribucin t

    0

    En la siguiente grfica se aprecia el parecido entre la distribucin t y la normal estndar y que dicho parecido crece con los grados de libertad.

    t=1 t=5 N(0;1)

    ( ) 0=NtE ( ) 2=NNtV N

    La media de la distribucin tN es igual a 0 y su varianza tiende a 1 si N

    12

    ;Nt;Nt

    Se define tN; como el valor que verifica: Por simetra:

    P tN > tN ;!( ) =!

    ;1; NN tt =

    Muestreo de poblaciones normales

    Uso de la tabla de la distribucin t En la siguiente figura se muestra un fragmento de la tabla de la distribucin t:

    90 0.25410 0.67723 1.29103 1.66196 1.98667100 0.25402 0.67695 1.29007 1.66023 1.98397110 0.25396 0.67673 1.28930 1.65882 1.98177120 0.25391 0.67654 1.28865 1.65765 1.97993 0.25335 0.67449 1.28155 1.64485 1.95996

    g.l. 0.4 0.25 0.1 0.05 0.0251 0.32492 1.00000 3.07768 6.31375 12.706202 0.28868 0.81650 1.88562 2.91999 4.302653 0.27667 0.76489 1.63774 2.35336 3.182454 0.27072 0.74070 1.53321 2.13185 2.776455 0.26718 0.72669 1.47588 2.01505 2.57058

    =4,0;2t

    =1,0;3t

    ( )=> 015,25tP

    289,0=

    638,1=

    05,0=

    =DISTR.T.INV(0,40*2;2)

    =DISTR.T.INV(0,10*2;3)

    =DISTR.T(2,015;5;1)

    Distribucin normal estndar

    En esta tabla se muestra, para diferentes grados de libertad (g.l. en la columna de la izquierda), el valor que deja a la derecha una probabilidad determinada (la que aparece en la fila superior de la tabla).

    Dada una probabilidad , tN; coincide con el percentil P100(1) de la distribucin tN.

    0

    t3

    0,1

    t3;0,1 = P90

  • 13/05/12

    6

    Distribucin Muestral

    Poblacin Variable X

    Muestra 1 Muestra 2

    1X 2X

    Muestra k

    kX

    Distribucin de la media muestral

    Dado un parmetro , correspondiente a la distribucin de una variable aleatoria, de la que tomamos una muestra, un estimador * es un estadstico que se supone una buena aproximacin al parmetro .

    Por ejemplo, dada una variable normal con media desconocida, la media muestral es un estimador de .

    Los parmetros que con mayor frecuencia se desea estimar son:

    La media de una poblacin

    La varianza 2 (o la desviacin tpica ) de una poblacin.

    La proporcin p de individuos en una poblacin que verifican alguna propiedad.

    La diferencia entre las medias de dos poblaciones 12.

    La diferencia entre proporciones de dos poblaciones p1p2.

    Un mismo parmetro puede estimarse con diferentes estadsticos, por ejemplo, para estimar la media de una poblacin, adems de la media muestral se puede emplear la mediana muestral o el promedio de las observaciones mayor y menor de la muestra.

    Estimacin Puntual. Estimador

  • 13/05/12

    7

    Un estimador es un estadstico y, por lo tanto, una variable aleatoria con su distribucin de probabilidad propia, que depender de la distribucin de la poblacin de origen, del tamao de la muestra y de la expresin matemtica a partir de la que se calcula.

    Del estimador se espera que est prximo, en algn sentido, al verdadero valor desconocido del parmetro que se desea estimar.

    Al poder emplear diferentes estimadores para un mismo parmetro, tiene sentido preguntarnos:

    Cul es el mejor estimador entre varios?

    Qu propiedades definen la calidad de un estimador? Nos centraremos en tres propiedades fundamentales:

    El sesgo, la varianza y el error cuadrtico medio.

    Estimacin Puntual. Estimador

    Sesgo (error sistemtico, falta de validez)

    Una propiedad de un estimador, en relacin al parmetro que se desea estimar, es el sesgo, que se define como: , donde es la media o valor esperado de la distribucin del estadstico .

    Un estimador es insesgado cuando su sesgo es nulo: .

    Un estimador se dice asintticamente insesgado si su sesgo tiende a cero cuando el tamao de la muestra tiende a infinito.

    La media muestral y la varianza muestral (dividiendo por n-1) son estimadores insesgados de la media y la varianza poblacionales.

    Estimacin Puntual. Propiedades de los estimadores

    ( ) ( ) = ** ESesgo ( )*E

    ( ) =*E

    Estimador Insesgado Estimadores Sesgados

  • 13/05/12

    8

    Varianza (error aleatorio, falta de precisin)

    El que un estimador sea insesgado no es concluyente, ya que puede haber un estimador sesgado que resulte preferible al primero, cuando su varianza sea lo suficientemente menor para, en promedio, ofrecer valores ms prximos al valor del parmetro estimado.

    Si para un parmetro disponemos de varios estimadores, un principio lgico de estimacin es seleccionar el estimador de mnima varianza. Si se consideran todos los estimadores insesgados de , el que tiene la menor varianza recibe el nombre de estimador insesgado de varianza mnima (EIVM).

    En el siguiente ejemplo se muestran cuatro estimadores insesgados, con varianza creciente:

    Estimacin Puntual. Propiedades de los estimadores

    V(*) = 1 V(*) = 3 V(*) = 6 V(*) = 9

    Combinando el Sesgo y la Varianza: el Error Cuadrtico Medio (ECM)

    El error de estimacin, e = * - , es una variable aleatoria, por depender del estadstico *, cuyo valor no podemos conocer con precisin, debido a que el valor del parmetro es desconocido.

    Una medida razonable de la calidad de un estimador es la media del cuadrado del error de estimacin o Error Cuadrtico Medio, es decir: ECM(*) = E[(*- )2].

    Estimacin Puntual. Propiedades de los estimadores

    ( ) ( )[ ]2** = EECM ( ) ( )( )[ ]2*** += EEE

    ( ) ( )( ) ( )( ) ( ) ( )( ) ( )[ ]*2**2*2** 2 EEEESesgoVar +++=

    ( )( ) ( )( ) ( )( ) ( )( )[ ] ++= ***2*2** 2 EEEEE( )( )[ ] ( )( )[ ] ( ) ( )( ) ( )[ ]*2****2*2** 2 EEEEEEEE +++=

    ( ) ( ) ( )( )2*** SesgoVarECM +=

    El Error Cuadrtico Medio de un estimador es igual a la suma de su varianza y el cuadrado de su sesgo.

  • 13/05/12

    9

    Combinando el Sesgo y la Varianza: el Error Cuadrtico Medio (ECM)

    El Error Cuadrtico Medio combina las dos componentes del error de estimacin:

    Estimacin Puntual. Error Cuadrtico Medio

    ( ) ( ) ( )( )2*** SesgoVarECM +=

    Componente Sistemtica Componente Aleatoria

    V(*) = 1, Sesgo (*) = 1

    ECM (*) = 2

    V(*) = 2, Sesgo (*) = 0

    ECM (*) = 2

    V(*) = 4, Sesgo (*) = 0

    ECM (*) = 4

    V(*) = 4, Sesgo (*) = 2

    ECM (*) = 8

    En la siguiente figura se comparan dos estimadores insesgados con diferente varianza.

    En este caso es preferible *1 por tener menor varianza.

    !

    Distribucin de !"1

    Distribucin de !"2

    En la siguiente figura se compara un estimador insesgado con otro sesgado, pero con menor varianza.

    En este caso es preferible *2, pese a ser sesgado, ya que su varianza es mucho menor y, en promedio, nos va a proporcionar estimaciones ms prximas al valor del parmetro.

    !

    !"1

    !"2

    Estimacin Puntual. Error Cuadrtico Medio

    Un estimador se dice Consistente cuando su Error Cuadrtico Medio tiende a cero, cuando el tamao de la muestra tiende a infinito.

  • 13/05/12

    10

    La base de la Inferencia Estadstica es el conocimiento de las relaciones que ligan la distribucin de diferentes estadsticos muestrales con la distribucin de la poblacin y, en particular, con los parmetros de dicha distribucin (como la media , la desviacin tpica , la proporcin poblacional, ).

    Relacionando la media muestral con la media poblacional

    Si tipificamos:

    La expresin anterior tiene el handicap de que en general no conocemos el valor de , aunque la podemos sustituir por la desviacin tpica muestral, S, que es un estimador insesgado de , obteniendo:

    ( )1;0~ Nn

    X

    ( )1

    1

    2

    ==

    n

    XXS

    n

    ii

    Desviacin tpica muestral

    nSXT =

    T es un estadstico, y su distribucin de probabilidad se parecer a la normal estndar, siendo mayor el parecido cuanto mayor sea el tamao muestral n. A la distribucin de T, obtenida a partir de una muestra de n elementos, le llamamos t con n-1 grados de libertad.

    Por ejemplo, si consideramos la variable X~N(; ), de la que extraemos una muestra, X1, X2, , Xn, la media muestral verifica lo siguiente:

    Media muestral

    nXXXX n+++= 21

    1~

    = ntnSXT

    Distribucin t de Student

    ( )nNX ;~

    1~

    = ntnSXT ( );~ NX

    =

    12;12;1 nn tnSXtP

    ( ) =+ 12;12;1 nStXnStXP nn( ) nStXIC n 2;1 =

    Intervalos de Confianza y Contraste de hiptesis Hemos visto que la distribucin t es til para relacionar la media muestral con la media poblacional, en poblaciones normales:

    nXXX ,,, 21 X

    S

    1nt

    2;1nt2;1 nt 0

    22 1

    Intervalo de Confianza Contraste de Hiptesis

    H0: = 0 H1: 0 nS

    XT 0= 10 ~ Si ntTH

    p-value es la probabilidad de obtener un valor de T tan alejado de 0 ms que el que hemos obtenido, si H0 fuera cierta.

  • 13/05/12

    11

    El concepto de p-value en Contraste de Hiptesis En la diapositiva anterior planteamos el contraste de hiptesis:

    concluimos que, si H0 cierta, el estadstico: verificara una distribucin tn-1.

    El valor obtenido para T, a partir de la muestra, siempre es una evidencia en contra de la hiptesis nula, ya que al ser la media muestral diferente de 0, T ser diferente de 0.

    La cuestin de inters es si el valor de T est relativamente cerca de 0, o si est tan lejos de 0 como para hacernos dudar de H0, y esto lo medimos viendo cmo de improbable es obtener un resultado tanto o ms extremo que nuestro T, si la H0 fuera cierta.

    El p-value es la probabilidad de obtener un valor para T tanto o ms extremo que el que hemos obtenido, si la hiptesis nula fuera cierta.

    El p-value se interpreta como una medida de la compatibilidad entre la muestra y H0.

    Hay que decidir entre aceptar o rechazar H0, y lo hacemos estableciendo un valor mnimo para el p-value, al que llamamos significatividad y denotamos . Usualmente = 0,05.

    Si p-value < rechazamos H0, en otro caso aceptamos H0.

    La seleccin de implica un valor crtico para T.

    EXCEL: p-value = 2*DISTR.T.CD(T;n-1)

    H0: = 0 H1: 0

    nSXT 0=

    2;1nt

    p-value

    T

    El concepto de p-value en Intervalos de Confianza

    ( );~ NX nXXX ,,, 21 X

    S( ) nStXIC n 2;1 =

    XnStX n 2;1 n

    StX n 2;1+

    Nos planteamos la hiptesis nula H0: = 0, que slo rechazaremos cuando la distancia entre la media muestral y 0 sea demasiado grande (significativa).

    La distancia se considera demasiado grande cuando 0 est fuera del intervalo de confianza, cuya anchura regulamos mediante la significacin .

    mide lo exigentes que somos a la hora de aceptar H0. Con = 0,05 es ms fcil rechazar H0 que con = 0,01, ya que mayores valores de corresponden intervalos ms estrechos.

    El p-value es el valor que debera tener para que el intervalo capture a 0 justo en uno de sus extremos.

    Si 0 est fuera, p-value < , hay que ensanchar el intervalo para capturar 0 en el borde.

    Si 0 est dentro, p-value > , hay que estrechar el intervalo para capturar 0 en el borde.

    nSte n 2;1=

  • 13/05/12

    12

    Errores en el Contraste de Hiptesis Al hacer un contraste de hiptesis tenemos que elegir entre aceptar o rechazar H0, la cual puede ser cierta o falsa:

    H0 cierta H0 Falsa Aceptar H0 Correcto Error tipo II Rechazar H0 Error tipo I Correcto

    ( )cierta |Rechazar 00 HHP=Error tipo I ( )falsa |Aceptar 00 HHP=Error tipo II

    =

    =

    Riesgo 1 especie

    Riesgo 2 especie

    No podemos fijar y simultneamente, ya que al disminuir uno el otro aumenta. Lo usual es fijar (generalmente = 5%) y controlar mediante el tamao muestral.

    Al complementario de (es decir, a 1-) le llamamos potencia del test.

    H0 es una hiptesis definida, un valor especfico de un parmetro, mientras que H1 es una hiptesis indefinida, un intervalo de valores para un parmetro, por lo que 1- tomar un valor diferente para cada posible valor del parmetro: funcin de potencia.

    La potencia de un test nos mide lo capaz que es el mismo de detectar desviaciones en el valor del parmetro.

    Dada una v.a. para la que tenemos definido un parmetro estadstico cuyo valor desconocemos, extraemos una muestra de la v.a. a partir de la cual podemos calcular un intervalo [a,b] que llamaremos intervalo de confianza de significacin (equivalentemente de nivel de confianza 1), siempre que se verifique:

    P( [a,b]) 1 Cuando, a partir de una muestra aleatoria, hemos construido el intervalo de confianza IC = [a,b], no tiene sentido decir que IC con probabilidad 1, ya que, dada una muestra, slo puede ocurrir que el verdadero valor del parmetro est o no est dentro del intervalo. Sin embargo por comodidad a veces se utiliza esa expresin, donde lo que queremos con esa frase es expresar la idea de que de haber tomado un gran nmero de muestras del mismo tamao, en un 100(1)% de las ocasiones el intervalo de confianza correspondiente contendr el verdadero valor del parmetro.

    Estimacin por intervalos

  • 13/05/12

    13

    X ~ N(; 2) X1, X2, , XN m.a. Intervalo para , con conocida

    Intervalos de confianza para la distribucin normal

    =

    1X 22 z

    NzP

    ( )1;0~X NN

    NN

    2

    ;~X

    X

    ( )NzX

    NzX

    NzXIC 222 , =

    +=

    NzX

    NzXP =

    + 122

    NzX

    NzXP =

    + 122

    X ~ N(; 2) X1, X2, , XN m.a. Intervalo para , con desconocida

    Intervalos de confianza para la distribucin normal S,X

    1~

    NtNSX

    =

    1X

    2,12,1 NN tN

    StP

    NStX

    NStXP NN =

    + 12,12,1

    NStX

    NStXP NN =

    + 12,12,1

    ( )NStX

    NStX

    NStXIC NNN 2,12,12,1 , =

    +=

  • 13/05/12

    14

    Ejemplo Para una cierta poblacin se asume que el peso de los recin nacidos verifica un modelo normal con media desconocida y desviacin tpica = 0,75 Kg. Se ha tomado una muestra de 100 recin nacidos y se ha encontrado una media muestral de 3 Kg y una desviacin tpica muestral de 0,5 Kg.

    Intervalos de confianza para la distribucin normal

    ( ) [ ]147,3;853,2075,096,1310075,03 025,005,0 === zIC

    Ejemplo Para una cierta poblacin se asume que el peso de los recin nacidos verifica un modelo normal con media desconocida y desviacin tpica desconocida. Se ha tomado una muestra de 100 recin nacidos y se ha encontrado una media muestral de 3 Kg y una desviacin tpica muestral de 0,5 Kg.

    ( ) [ ]099,3;901,205,098,131005,03 025,0;9905,0 === tIC

    Ejemplo La variable IL se presenta en los nios recin nacidos con una distribucin normal de media 2,5. En un grupo de 31 nios con sepsis neonatal se encuentra que la media muestral de IL es de 1,8 y la desviacin tpica muestral resulta igual a 0,2. Comente si la presencia de sepsis neonatal afecta el valor de IL. Calculamos el intervalo de confianza al 95% para la media de IL correspondiente a los nios con sepsis neonatal, resultando: Que no contiene el valor 2,5, por lo que concluimos, con una confianza del 95%, que la sepsis neonatal afecta al valor de la IL de los recin nacidos.

    Intervalos de confianza para la distribucin normal

    ( ) [ ]87,1;73,10359,004,28,1312,08,1 025,0;3005,0 === tIC

  • 13/05/12

    15

    Dada una poblacin normal hemos obtenido una muestra de tamao N, a partir de la cual construimos un intervalo de confianza para la media, con significacin .

    Tamao muestral para IC()

    ( )NStXIC N 2,1=

    A la cantidad que se suma y resta a la media muestral le llamamos precisin del intervalo y la denotaremos d: Si N es lo suficientemente grande la distribucin t puede aproximarse como una distribucin normal estndar: De lo anterior se deduce que la precisin se puede escribir, aproximadamente: En esta expresin podemos despejar N, como el tamao muestral mnimo necesario para obtener una precisin d con una confianza 1.

    22,1 N zt

    NStd N 2,1=

    NSzd 2=

    ( )22 dSzN =

    Ejemplo Para cierto estudio se tom una muestra de tamao N = 25 de una poblacin normal, obteniendo una media muestral de 170 cm y una desviacin tpica muestral de 10 cm. Calcula el tamao muestral que debamos haber exigido para conseguir un intervalo de confianza para la media de la poblacin con un nivel de significacin = 0,01 (99% de confianza) y con una precisin d = 1cm. Por lo tanto, si queremos que el error de estimacin sea menor o igual a 1 cm, con una confianza del 99%, debemos tomar una muestra de al menos 664 individuos.

    ( )22 dSzN = ( )2005,0 110= zN ( )211058,2 = 664

    Tamao muestral para IC()

  • 13/05/12

    16

    Supongamos que tomamos una muestra aleatoria de tamao n de una poblacin grande (posiblemente infinita) y que X de las n observaciones cumplen cierta propiedad de inters. Entonces es un estimador puntual de la verdadera proporcin de individuos de la poblacin que verifican la propiedad estudiada. Observamos que X es una variable binomial con parmetros n y p, con lo que, si np 5 y n(1p) 5, entonces X es, aproximadamente,

    Intervalos de confianza para una proporcin IC(p)

    nXp =

    ( )( )pnpnpNX == 1;~ 2

    ( )( )1;0~

    1 2 ==

    N

    npppp

    ( ) ( ) ( )nppzp

    nppzp

    nppzppIC

    11;1)( 222

    =

    +

    ( ) =

    1

    1

    22 z

    nppppzP

    ( )

    ===npppN

    nXp 1;~ 2

    Ejemplo Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello se realiza un muestreo aleatorio simple con n = 100 personas y se obtienen 35% que votarn a favor y 65% que votarn en contra (suponemos que no hay indecisos para simplificar el problema a una variable dicotmica). Con un nivel de significacin del 5 %, calcule un intervalo de confianza para el verdadero resultado de las elecciones.

    Intervalos de confianza para una proporcin IC(p)

    ( )nppzppIC1)( 2

    =

    10065,035,035,0)( 025,0%5

    = zpIC 0477,096,135,0 = 0935,035,0 =

    [ ]%38,44%;65,25)(%5 =pIC

  • 13/05/12

    17

    En la expresin para el intervalo de confianza para una proporcin, dada una significacin y un tamao muestral n.

    Tamao muestral para IC(p)

    A la cantidad que se suma y resta a la proporcin estimada le llamamos precisin del intervalo y la denotaremos d:

    En esta expresin podemos despejar n, como el tamao muestral mnimo necesario para obtener una precisin d con una confianza 1.

    ( )2

    21

    =

    dz

    ppn

    ( )nppzppIC1)( 2

    =

    ( )nppzd1

    2

    =

    Al elegir n an no conocemos la estimacin de p, por lo que lo usual es ponernos en el peor de los casos: p = 0,5. 22

    41

    =

    dz

    n

    Ejemplo En el ejemplo anterior se tom una muestra de tamao n = 100 votantes, de los cuales el 35% votarn a favor de una reforma. Con esta muestra calculamos un intervalo de confianza para la proporcin de votantes a favor: IC5%(p) = [25,65; 44,38], es decir, con una precisin d = 9,35%. Calcula el tamao muestral que debamos haber exigido para conseguir un intervalo de confianza para la proporcin de votantes a favor con un nivel de significacin = 0,03 (97% de confianza) y con una precisin d = 1%. Por lo tanto, si queremos que el error de estimacin sea menor o igual al 1%, con una confianza del 97%, debemos tomar una muestra de al menos 11.774 individuos.

    2015,0

    01,025,0

    =z

    n2

    01,017,225,0

    = 774.11

    Tamao muestral para IC(p)

    22

    41

    =

    dz

    n

  • 13/05/12

    18

    A partir de lo visto hasta ahora la notacin empleada aqu es autoexplicativa. Ejemplo Se cree que la osteoporosis est relacionada con el sexo. Para ello se elige una muestra de 100 hombres de ms de 50 aos y una muestra de 200 mujeres en las mismas condiciones. Se obtiene que 10 hombres y 40 mujeres con algn grado de osteoporosis. Qu podemos concluir con una confianza del 95 %?

    IC para una diferencia de proporciones IC(p1p2)

    ( ) ( ) ( ) ( )2

    22

    1

    1122121

    11npp

    nppzppppIC +=

    ( ) ( )20016,0

    10009,096,12,01,021%5 += ppIC

    ==

    ==

    2,020040

    1,010010

    2

    1

    p

    p

    ( ) [ ]02,0;18,008,01,021%5 == ppIC

    Podemos afirmar, con una confianza del 95%, que existe una diferencia significativa en la incidencia de osteoporosis entre hombres y mujeres, siendo mayor dicha incidencia entre las mujeres.

    Comparacin de dos medias con varianzas iguales X1 ~ N(1; 12) X11, X12, , X1N1 m.a. X2 ~ N(2; 22) X21, X22, , X2N2 m.a.

    Intervalo para 12, con 2 = 12 = 22

    Al asumir la identidad de las varianzas calculamos una estimacin de la varianza que combina las estimaciones obtenidas en ambas muestras y la denotamos Sp2.

    21 1S,X222 S,X

    ( )21

    2;2212111

    21 NNStXXIC pNN += +

    ( ) ( )211

    ,,

    21

    222

    2112

    222

    211

    +

    +=

    NNSNSNS

    SNSN

    p

  • 13/05/12

    19

    Comparacin de dos medias con varianzas iguales Ejemplo. Para estudiar la posible influencia del tabaco con el peso de los nios al nacer se consideran dos grupos de mujeres embarazadas (unas que fuman y otras que no) y se obtienen los siguientes datos sobre el peso X, de sus hijos:

    ( )21

    2;2212111

    21 NNStXXIC pNN += +

    ( ) ( )211

    21

    222

    2112

    +

    +=

    NNSNSNSp

    ===

    ===

    KgSKgXNKgSKgXN

    8,02,327Fumadoras5,06,335Fumadoras No

    222

    111

    608,0265,034 22 +

    = 419,0=

    ( ) ( )271

    351647,02,36,3 025,0;6021%5 += tIC 27

    1351647,00,24,0 +=

    ( ) [ ]732,0;068,0332,04,021%5 ==IC

    647,0419,0 == pS

    Asumimos varianzas iguales.

    Concluimos que, con una confianza del 95%, podemos rechazar la igualdad de medias, ya que: [ ]732,0;068,00

    Comparacin de dos medias con datos pareados Sean las poblaciones normales X1~N(1, 2), X2~N(2, 2) con la misma varianza. Tomamos una muestra de tamao n de cada poblacin:

    {x1,1, x1,2, , x1,n} y {x2,1, x2,2, , x2,n} Tales que las observaciones estn relacionadas por pares (ruedas del mismo coche, personas de iguales caractersticas, un mismo proceso realizado de dos formas diferentes), de manera que el par i-simo estar formado por las observaciones x1,i, y x2,i.

    x1,1 x2,1 x1,2 x2,2

    x1,n x2,n

    X1 X2

    x1,i x2,i

    Para contrastar la posible igualdad de las medias 1 y 2 construimos Y = X1X2 y tenemos la muestra {y1, y2, , yn}, cuyos valores son yi = x1,i x2,i, Y es una variable cuya normalidad habra que comprobar y con parmetros:

    con es el coeficiente de correlacin entre X1 y X2. Si las dos medidas que comparamos son anlogas, ser positivo y grande (prximo a 1) y la variabilidad de las desviaciones as calculadas ser menor que con muestras independientes.

    21 =Y ( ) = 12 22Y

  • 13/05/12

    20

    Comparacin de dos medias con datos pareados Al haber construido Y = X1X2, la igualdad de medias equivaldra a Y = 0, lo cual puede ser contrastado mediante un intervalo de confianza IC(Y).

    ( )nStYIC YnY 2,1=

    Ejemplo. Para una m.a. de 8 alumnos de 1 de medicina se ha medido el nmero medio semanal de horas que pasa conectado al servidor durante las semanas del primer cuatrimestre (variable X1) y durante las semanas del segundo cuatrimestre (variable X2). Para ver si pasan el mismo tiempo conectados en ambos cuatrimestres construimos Y = X1X2 y calculamos

    AlumnoPrimer

    cuatrimestreSegundo

    cuatrimestre1 7,6 6,32 5,1 2,63 12,9 7,54 7,0 7,25 6,0 3,86 8,6 5,17 7,9 6,28 7,9 4,8

    Horas semanales promedio

    ( )YIC %5

    ( )86561,13646,24,2%5 =YIC

    Y=X1-X21,32,55,4-0,22,23,51,73,1

    4,2=Y

    6561,1=YS

    3646,2025,0;7 =t

    38,14,2 = [ ]78,3;02,1=

    Concluimos que, con una confianza del 95%, pasan ms tiempo conectados el 1er cuatrimestre

    Muestreo de poblaciones normales: Distribucin Chi-2 Si X1, X2, , XN son variables aleatorias independientes, con Xi~N( = 0; = 1), se dice que la variable resultante de sumar sus cuadrados es Chi cuadrado con N grados de libertad y se escribe

    La media de una variable Chi-2 coincide con los grados de libertad mientras que la varianza es igual al doble de los grados de libertad.

    El principal resultado en relacin a la distribucin Chi-2 es que si S2 es la varianza muestral de una muestra de tamao N obtenida de una poblacin normal cuya varianza poblacional es 2, entonces se verifica la siguiente relacin:

    2222

    21 KK~XXX +++

    ( ) NE N =2 ( ) NV N 22 =

    ( ) 2 122

    ~1 NSN

    La distribucin Chi-2 ser til para realizar inferencias acerca de la varianza de poblaciones normales.

  • 13/05/12

    21

    En la siguiente figura se muestra el aspecto de la f.d.p. Chi-2 para distintos valores N.

    Muestreo de poblaciones normales: Distribucin Chi-2

    0 5 10 15 20 25 30

    k=2 k=5 k=10

    Para cada entre 0 y 1 se define como el valor percentil 100(1) de la distribucin , es decir:

    2;N

    2N

    1

    2;N

    ( ) => 2 ;2 NNP

    Uso de la tabla Chi-2 Disponemos de tablas Chi-2 para diferentes grados de libertad y diferentes valores de . En la tabla podemos encontrar , es decir, el valor de la variable chi-2 con N grados de libertad que deja a la derecha una probabilidad .

    Por la definicin,

    2;N

    Ejemplo: Cul es la probabilidad de obtener una varianza muestral mayor que 2 al extraer una muestra con N = 20 de una poblacin normal de 2 = 5?

    Ejemplo: Calcula los percentiles 5 y 95 de la distribucin chi-2 con 15 grados de libertad. ( ) 252 05,0;1521595 ==P

    ( ) 2 1;2 = NNP

    ( ) 26,72 95,0;152155 ==P

    ( ) ( ) ( ) ( ) 99,06,752192112 219

    21922

    2

    >=

    >=

    >=>

    PPNSNPSP 2

    =DISTR.CHI(7,6;19)=0,99026

    =PRUEBA.CHI.INV(0.05;15)=24,9958 =PRUEBA.CHI.INV(0.95;15)=7,2609

  • 13/05/12

    22

    X ~ N(; 2) X1, X2, , XN m.a.

    Intervalos de confianza para la varianza

    ( ) 2 122

    ~1 NSN

    ( ) ( ) ( )

    =

    2

    21,1

    2

    22,1

    22 1,1

    NN

    SNSNIC

    ( )

    =

    112

    2,12

    22

    21,1 NNSNP

    ( ) ( ) ( )

    =

    2

    21,12

    2,1

    1,1

    NN

    NSNSIC

    S

    ( ) ( )

    =

    111 221,1

    22

    22,1

    2

    NN

    SNSNP

    Ejemplo Se estudia la altura de los individuos de cierta poblacin, obtenindose, para una muestra de 25 individuos, una media muestral de 170 cm y una desviacin tpica muestral de 10 cm. Calculamos el intervalo de confianza con significacin = 0,05 (confianza del 95%) para la varianza poblacional 2.

    Intervalos de confianza para la varianza

    ( ) ( ) ( )

    =

    2

    21,12

    2,1

    1,1

    NN

    NSNSIC

    ( ) =

    = 2

    975,0,242

    025,0,2405,0

    2410,2410IC =

    40,122410,

    36,392410 [ ]91,13;81,7

    ( ) [ ]5,193;0,61205,0 =IC

  • 13/05/12

    23

    Inferencias para tablas de doble entrada generales Sean X1 y X2 dos variables cualitativas con I y J niveles, respectivamente; de manera que hay IJ combinaciones posibles, registradas en una tabla IJ de manera que el valor de cada casilla representa la frecuencia de la combinacin correspondiente. La frecuencia de la combinacin de la casilla (i, j) se representa por nij, siendo su probabilidad ij que, en caso de independencia, ser ij = i++j, siendo i+ y +j, las probabilidades univariantes respectivas.

    nnnnnnnnnnX

    nnnnnX

    nnnnnXnnnnnX

    XXXX

    Jj

    IJIjIIII

    iJijiiii

    Jj

    Jj

    Jj

    ++++

    +

    +

    +

    +

    21

    ,,2,1,,1

    ,,2,1,,1

    2,2,22,21,22,1

    1,1,12,11,11,1

    ,2,22,21,2 2

    nnn

    nn

    nnpp jijijijiij

    ++++++++ ====

    La frecuencia esperada de la casilla (i, j), bajo la hiptesis nula de independencia, es:

    nnn

    ne jiijij++==

    ( )( )muestral Tamao

    Columna TotalFila Total=

    ( )

    =

    ji ij

    ijij

    een

    d,

    2

    ( )( )2

    110 ~ JIdH

    ( )

    =

    ji ij

    ijij

    een

    d,

    25,0

    Correccin de continuidad (Yates):

    Inferencias para tablas de doble entrada generales Ejemplo Tratamos de relacionar el haber prestado servicio en Vietnam con padecer trastornos del sueo, a partir de una encuesta:

    Trastorno

    Si No

    Si No Total

    173 599 772

    160 851

    1011

    333 1450 1783 Total

    Vietnam 18,1441783772333

    1,1 =

    =e

    82,18818,1443332,1 ==e(144,18) (188,82)

    82,62718,1447721,2 ==e(627,82) (822,18) 18,82282,18810111,2 ==e

    ( ) ( ) ( ) ( )18,82218,822851

    82,62782,627599

    82,18882,188160

    18,14418,144173 2222

    +

    +

    +

    =d 49,12=

    2=I2=J

    ( )( ) 111 = JI 84,32 05,0,1 =

    Al ser 12,49 > 3,84, hemos encontrado una evidencia lo suficientemente fuerte para rechazar la independencia, al nivel de significatividad = 0,05.

    EXCEL: p-value = DISTR.CHI(12,49;1) = 0,0004

  • 13/05/12

    24

    Inferencias para tablas de doble entrada generales Ejemplo Encuesta a 300 adultos acerca de preferencia por poltica relacionada con fumar en pblico, relacionada con nivel de estudios.

    Estudios

    Primarios Secundarios

    Sin Restr. Total

    5 15

    35 Total

    Poltica preferida

    Al ser 22,57 > 12,59, hemos encontrado una evidencia lo suficientemente fuerte para rechazar la independencia, al nivel de significatividad = 0,05.

    EXCEL: p-value = DISTR.CHI(22,57;1) = 0,00095

    Slo en reas restr.

    Prohibido total

    Sin opinin

    Superiores 15

    44 100

    184

    40

    23 30

    63

    10

    3 5

    18

    10

    75 150

    300

    75

    (8,75)

    (17,50)

    (8,75)

    (46)

    (92)

    (46)

    (15,75)

    (31,50)

    (15,75)

    (4,5)

    (9,0)

    (4,5)

    ( ) ( ) ( )5,45,410

    464644

    75,875,85 222

    ++

    +

    = d 57,22= 59,122 05,0,6 =