24
etodos Estad´ ısticos II Econ. Gonzalo Villa Cox Apuntes de Clase # 3 Fecha: II T´ ermino-2012 4. Estimaci´ on 4.1. Preliminares Objetivo: Familiarizarse con las t´ ecnicas estad´ ısticas que permiten extraer conclusiones acerca de los par´ ametros de una poblaci´ on a partir de datos experimentales. Definici´ on 4.1.1 La inferencia estad´ ıstica es el conjunto de m´ etodos por los que se realizan generalizaciones acerca de una poblaci´ on. Nota: Existen dos m´ etodos que se utilizan para realizar inferencias estad´ ısticas: El etodocl´asico y el etodo bayesiano, en este curso se profundizar´ a sobre el m´ etodo cl´ asico. Definici´ on 4.1.2 El etodo cl´ asico de estimaci´ on es aquel que basa la inferencia estad´ ıstica estrictamente en la informaci´ on que se obtiene de una muestra. Definici´ on 4.1.3 Se llama estimaci´ on puntual al proceso de utilizar el valor de un estad´ ıstico (definici´ on 3.1.4) para estimar un par´ ametro poblacional. Al estad´ ıstico del cu´ al se obtiene este valor se lo llama estimador puntual, y al valor obtenido punto estimado. Nota: Se habla de puntual para diferenciar de la estimaci´ on por intervalos que se estudiar´ a mas adelante. Ejemplos: Utilizar el valor que toma ¯ X para estimar la media de la poblaci´ on. Considerar a una proporci´ on muestral observada como estimador del par´ ametro θ de una distribuci´ on bernoulli. Nota: A menos que se indique algo diferente, por estimador se entender´ a estimador puntual y por estimado se entender´ a punto estimado. 4.2. Propiedades deseables de un estimador Los estimadores, al ser una funci´ on de una muestra aleatoria (definiciones 4.1.3 y 3.1.4), son variables aleatorias y por tanto no pueden brindar informaci´ on exacta sobre el par´ ametro que tratan de estimar. Para cada par´ ametro existe un n´ umero infinito de estimadores. En esta secci´ on se expondr´ a un conjunto de criterios que permitir´ on calificar los m´ eritos de cada uno de los posibles estimadores de un par´ ametro. 4.2.1. Insesgadez Definici´ on 4.2.1 Un estad´ ıstico b Θ es un estimador insesgado del par´ ametro θ si E( b Θ) = θ A3-1

Apuntes_Estad_II_-_03

Embed Size (px)

DESCRIPTION

estaditica endiferencia

Citation preview

  • Metodos Estadsticos II Econ. Gonzalo Villa Cox

    Apuntes de Clase # 3

    Fecha: II Termino-2012

    4. Estimacion

    4.1. Preliminares

    Objetivo: Familiarizarse con las tecnicas estadsticas que permiten extraer conclusiones acercade los parametros de una poblacion a partir de datos experimentales.

    Definicion 4.1.1 La inferencia estadstica es el conjunto de metodos por los que se realizangeneralizaciones acerca de una poblacion.

    Nota: Existen dos metodos que se utilizan para realizar inferencias estadsticas: El metodo clasicoy el metodo bayesiano, en este curso se profundizara sobre el metodo clasico.

    Definicion 4.1.2 El metodo clasico de estimacion es aquel que basa la inferencia estadsticaestrictamente en la informacion que se obtiene de una muestra.

    Definicion 4.1.3 Se llama estimacion puntual al proceso de utilizar el valor de un estadstico(definicion 3.1.4) para estimar un parametro poblacional. Al estadstico del cual se obtiene este valorse lo llama estimador puntual, y al valor obtenido punto estimado.

    Nota: Se habla de puntual para diferenciar de la estimacion por intervalos que se estudiara masadelante.

    Ejemplos:

    Utilizar el valor que toma X para estimar la media de la poblacion.

    Considerar a una proporcion muestral observada como estimador del parametro de unadistribucion bernoulli.

    Nota: A menos que se indique algo diferente, por estimador se entendera estimador puntual ypor estimado se entendera punto estimado.

    4.2. Propiedades deseables de un estimador

    Los estimadores, al ser una funcion de una muestra aleatoria (definiciones 4.1.3 y 3.1.4), sonvariables aleatorias y por tanto no pueden brindar informacion exacta sobre el parametro quetratan de estimar.

    Para cada parametro existe un numero infinito de estimadores.

    En esta seccion se expondra un conjunto de criterios que permitiron calificar los meritos decada uno de los posibles estimadores de un parametro.

    4.2.1. Insesgadez

    Definicion 4.2.1 Un estadstico es un estimador insesgado del parametro si

    E() =

    A3-1

  • Ejemplo 4.2.1 S2, definido como

    S2 =

    ni=1(Xi X)n 1

    es un estimador insesgado de la varianza poblacional 2

    Demostracion Como parte de la demostracion del segundo postulado del teorema 3.4.7 se puedeestablecer que

    S2 =

    ni=1(Xi X)2

    n 1=

    1

    n 1

    [ni=1

    (Xi )2 n (X )2]

    a partir de este punto

    E(S2) = E

    [ni=1(Xi X)2

    n 1

    ]=

    1

    n 1

    [ni=1

    E(Xi )2 nE(X )2]

    y puesto que

    E(Xi )2 = 2 y E(X )2 =2

    n

    entonces

    E(S2) =1

    n 1

    (n2 n

    2

    n

    )E(S2) = 2 //

    QED

    Definicion 4.2.2 (Sesgo) Sea un estimador de , el sesgo del estimador esta definido como

    b(, ) = E()

    Si b() 6= 0 entonces se dice que es un estimador sesgado de

    Definicion 4.2.3 (Insesgadez asintotica) Sea un estimador sesgado de , se dice que esasintoticamente insesgado si el lmite del sesgo tiende a cero cuando n tiende a infinito

    lmn

    b(, ) = 0

    Nota: Todo estimador insesgado es tambien asintoticamente insesgado.

    Ejemplo 4.2.2 Si X1, X2, . . . , Xn constituyen una muestra aleatoria de la poblacion dada por

    f(x) =

    {e(x) para x > 0 en otro caso

    entonces X es un estimador sesgado de

    Demostracion El teorema 3.3.1 establece que E(X) = E(X). Por otro lado, se tiene que laesperanza de X es igual a

    E(X) =

    xe(x) dx = 1 +

    A3-2

  • para demostrarlo se utilizara el metodo de integracion por partes.u dv = uv

    v du

    Seau = x y por tanto du = dx

    dv = e(x) dx y por tanto v = e(x)

    entonces xe(x) dx = xe(x)

    e(x) dx

    = x

    e(x)

    e(x)

    = [

    x

    e(x)

    x=

    ] [0 1]

    Comox

    e(x)evaluado en x = es una indefinicion de la forma se puede aplicar la regla de LHopital

    obteniendose finalmente que

    xe(x) dx =

    [1

    e(x)

    x=

    ]

    + 1

    = [0 ] + 1 xe(x) dx = 1 + //

    QED

    Por tanto X es un estimador sesgado de , que es lo que se quera demostrar. En particular, el sesgoesta dado por

    b(X, ) = E(X) = (1 + ) = 1 //R

    Nota: Del ejercicio anterior se puede concluir que Y = X 1 es un estimador insesgado de. Por supuesto, en la mayora de los casos no es posible pasar de un estimador sesgado a uno inses-gado por el simple conocimiento del sesgo.

    Ejemplo 4.2.3 Si X1, X2, . . . , Xn constituyen una muestra aleatoria de una poblacion normal, en-tonces

    2 =

    ni=1

    (Xi X

    )2n

    es un estimador sesgado de 2, pero asintoticamente insesgado.

    Demostracion Siguiendo un procedimiento similar al del ejemplo 4.2.1 se tendra que

    E(2) = E

    [ni=1

    (Xi X

    )2n

    ]

    =1

    n

    ni=1

    E(Xi X)2 =1

    n

    (n2 2

    )E(2) =

    (n 1n

    )2

    lo que demuestra que 2 es un estimador sesgado de 2 con sesgo igual a

    b(2, 2

    )= E

    (2) 2 =

    (n 1n

    )2 2

    = 2(n 1n 1)

    = 1n2

    No obstante, este sesgo tiende a cero cuando n tiende a infinito

    lmn

    b(2, 2

    )= lmn

    ( 1n2)

    = 0

    A3-3

  • Por tanto 2 es un estimador asintoticamente insesgado de 2.

    Ejemplo 4.2.4 Dada una muestra aleatoria X1, X2, . . . , Xn. El estimador X = Xi es un estimadorinsesgado de la media poblacional , para cualquier i {1, 2, 3, . . . , n}

    Demostracion La esperanza de un elemento cualquiera de la muestra (el elemento i) es igual a

    E(Xi) =

    En conclusion, X = Xi para cualquier i {1, 2, 3, . . . , n} es un estimador insesgado de .

    4.2.2. Eficiencia relativa

    Definicion 4.2.4 Si 1 y 2 son dos estimadores insesgados del parametro de una poblaciondada y la varianza de 1 es menor que la varianza de 2, entonces 1 es relativamente maseficiente que 2

    Teorema 4.2.1 La varianza de todos los estimadores insesgados cumple la siguiente propiedadconocida como la Desigualdad de Cramer-Rao

    Var(

    ) 1

    n E

    [( ln f(X; )

    )2]

    donde es el conjunto de parametros que definen la poblacion, f(x) es el valor de la funcion dedensidad en x y n es el tamano de la muestra aleatoria.

    Teorema 4.2.2 Si es un estimador insesgado de y

    Var(

    )

    =1

    n E

    [( ln f(X; )

    )2]

    entonces es un estimador insesgado de varianza mnima de

    Nota: La cantidad en el denominador se conoce como la informacion sobre que proporcionala muestra. As, mientras menor sea la varianza mayor es la informacion.

    Definicion 4.2.5 Si es un estimador de que cumple con el teorema 4.2.2 entonces es elestimador insesgado mas eficiente de .

    Nota: Cuando simplemente se dice que un estimador es el mas eficiente usualmente es implcitoque se esta hablando de el estimador insesgado mas eficiente.

    Ejemplo 4.2.5 X es un estimador insesgado de varianza mnima de la media de una poblacionnormal.

    Solucion: La funcion de densidad de la distribucion normal est a dada por

    f(x;, 2) =1

    22 e

    12 (

    x )

    2

    Se requiere calcular

    E

    [( ln f(X; )

    )2]= E

    [( ln f(X;, 2)

    )2]

    A3-4

  • Para tal efecto se requiere hacer los siguientes calculos

    ln f(x;, 2) = ln[

    2] 1

    2

    (x

    )2 ln f(x;, 2)

    =

    1

    (x

    )Reemplazando valores

    E

    [( ln f(X;, 2)

    )2]=

    1

    2E

    [(x

    )2]=

    1

    2

    Finalmente se ha obtenido que un estimador insesgado de tendra como mnimo una varianza de

    1

    n E

    [( ln f(X;, 2)

    )2] = 1n

    1

    2

    =2

    n

    Dado que esta es justamente la varianza del estadstico X, el cual es un estimador insesgado de, se concluye que para poblaciones normales X es un estimador insesgado de varianza mnima de. (Recuerdese que no se puede generalizar que X sea el estimador mas eficiente de la media decualquier poblacion)

    Definicion 4.2.6 (Eficiencia asintotica) Un estimador es asintoticamente eficiente si suvarianza tiende a cero cuando n tiende a infinito

    lmn

    Var() = 0

    Observaciones 4.2.1 Sean 1 y 2 dos estimadores insesgados de

    La eficiencia relativa de 1 respecto a 2 no implica que 1 sea el estimador mas eficientede .

    Si 1 es el estimador mas eficiente entonces 1 tambien sera asintoticamente eficiente.

    Si 1 no es asintoticamente eficiente entonces 1 tampoco puede ser el mas eficiente.

    Los dos puntos anteriores requieren que la informacion que la muestra provee sobre el parame-tro sea diferente de cero.

    Ejemplo 4.2.6 X = Xi para cualquier i {1, 2, 3, . . . , n} es un estimador insesgado de pero noes asintoticamente eficiente.

    Demostracion La varianza de X esta dada por

    Var(X) = Var(Xi) = 2

    Dado que la varianza del estimador no tiende a cero a medida que n tiende a infinito se concluyeque el estimador no es eficiente.

    lmn

    Var(X) = lmn

    2 = 2 6= 0

    Ejemplo 4.2.7 Si X1, X2, . . . , Xn constituyen una muestra aleatoria de una poblacion normal, en-tonces

    S2 =

    ni=1

    (Xi X

    )2n 1

    es un estimador insesgado de 2, su varianza no es mnima (es mayor al lmite inferior de Cramer-Rao), pero es asintoticamente eficiente.

    A3-5

  • Solucion: En el ejemplo 4.2.1 ya se demostro que S2 es un estimador insesgado de 2. Queda pordemostrar que este estimador no es de varianza mnima para una poblacion normal. En particular,se necesitara calcular

    E

    [( ln f(X; )

    )2]= E

    [( ln f(X;, 2)

    2

    )2]Para esto, se tiene que

    ln f(x;, 2) = 12

    ln[22

    ] 1

    2

    (x )2

    2

    ln f(x)

    2= 1

    22+

    1

    24(x )2 = 1

    22

    [(x )2

    2 1

    ]

    por lo que

    E

    [( ln f(X;, 2)

    2

    )2]= E

    { 122

    [(x )2

    2 1

    ]}2=

    1

    44E

    {(x )4

    4 2(x )

    2

    2+ 1

    }

    =1

    44

    E[(x )4

    ]4

    2 E[(x )2

    ]2

    + 1

    =

    1

    44

    (34

    4 2

    2

    2+ 1

    )=

    1

    44 (2)

    =1

    24

    Se concluye que para una poblacion normal, un estimador insesgado de varianza mnima de 2 tendrauna varianza de

    1

    n E

    [( ln f(X;, 2)

    2

    )2] = 1n

    1

    24

    =24

    n

    Se procede ahora a calcular la varianza de S2, y para tal efecto se sabe por el teorema 3.4.7 que

    Var

    [(n 1)S2

    2

    ]= Var

    [2(n1)

    ](n 1)2

    4Var(S2) = 2(n 1)

    por lo tanto

    Var(S2) =24

    n 16= 2

    4

    nfinalmente se calcula el lmite de la varianza del estimador cuando n tiende a infinito.

    lmn

    Var(S2) = lmn

    24

    n 1= 0

    Lo cual demuestra que S2 es un estimador insesgado que no tiene varianza mnima pero que esasintoticamente eficiente. (o S2 solo es eficiente asintoticamente)

    Nota: Si la media poblacional fuera conocida, entonces un estimador insesgado de varianzamnima para una poblacion normal sera

    2 =

    ni=1

    (Xi )2

    n

    A3-6

  • Definicion 4.2.7 El error cuadratico medio de un estimador se define como

    ECM() = E

    [(

    )2]Observaciones 4.2.2

    El ECM es diferente a la varianza de la cual esta definida por

    Var() = E

    [( E()

    )2]

    La diferencia entre ambos es que la Var() mide la dispersion de la distribucion de alrededor

    de su valor esperado, mientras que ECM() mide la dispersion alrededor del verdadero valordel parametro.

    La relacion entre ambos esta dada por

    ECM() = E

    [(

    )2]= E

    {[( E()

    )+(

    E() )]2}

    = E

    [( E()

    )2+ 2

    ( E()

    )(E()

    )+(

    E() )2]

    = E

    [( E()

    )2]+ E

    [2(

    E())(

    E() )]

    + E

    [(E()

    )2]y dado que E() y son constantes

    = E

    [( E()

    )2]+ 2

    (E()

    )E

    [( E()

    )]+(

    E() )2

    de donde se obtiene que

    ECM() = Var() +[b(, )

    ]2Es decir, el error cuadratico medio de es igual a la varianza de mas el sesgo de alcuadrado.

    Definicion 4.2.8 El criterio de mnimo ECM consiste en seleccionar un estimador cuyo ECMsea el menor en un conjunto de estimadores comparables.

    Observaciones 4.2.3

    Si el sesgo es igual a cero el critero de mnimo ECM es equivalente al criterio de mnimavarianza, pues en ese caso

    ECM() = Var()

    En la practica el criterio de mnimo ECM se utiliza cuando los estimadores insesgados sonincapaces de cumplir con el criterio de varianza mnima.

    4.2.3. Consistencia

    Definicion 4.2.9 El estadstico es un estimador consistente del parametro si y solo si paracada c > 0

    lmn

    P( < c) = 1

    Interpretacion: Para cada nmero positivo c, existe un valor de n lo suficientemente grandea partir del cual podemos estar practicamente seguros que la diferencia entre el estimador y elparametro no excedera a c.

    A3-7

  • gn

    c

    c +

    n

    La clase de convergencia expresada por el lmite de la definicion 4.2.9 generalmente se llama con-vergencia en probabilidad.

    Teorema 4.2.3 Si es un estimador insesgado del parametro y Var() desciende hacia cero

    conforme n asciende a infinito, entonces es un estimador consistente de .

    ( )E =

    ( )f n

    ( )Var

    0

    El teorema 4.2.3 tambien es valido si es asintoticamente eficiente.

    4.3. Metodos de estimacion puntual

    Existe un numero infinito de estimadores para un mismo parametro de una poblacion.

    Por las propiedades que cumplen, algunos de los metodos de estimacion mas conocidos son:

    Metodo de momentos. Metodo de maxima verosimilitud. Estimacion bayesiana. Metodo de mnimos cuadrados.

    4.3.1. El metodo de maxima verosimilitud

    Los estimados hallados por este metodo maximizan la probabilidad de obtener la muestraobservada.

    Los estimadores de maxima verosimilitud son asintoticamente insesgados de varianza mnima.

    Propiedad de invarianza: Si es un estimador de maxima verosimilitud del parametro y la funcion dada por g() es continua, entonces g() tambien es un estimador de maximaverosimilitud de g().

    A3-8

  • Definicion 4.3.1 Si x1, x2, . . . , xn son los valores observados en una muestra aleatoria de una po-blacion con parametro , la funcion de verosimilitud de esta muestra esta dada por

    L() = f(x1, x2, . . . , xn; )

    Donde se encuentra dentro de un dominio dado y f(x1, x2, . . . , xn; ) es el valor de la distribucion deprobabilidad conjunta de las variables aleatorias X1, X2, . . . , Xn cuando X1 = x1, X2 = x2, . . . , Xn =xn.

    Ejemplo 4.3.1 La probabilidad de que llueva en un da esta dada por . Hubo lluvia en 5 de los7 das de la semana pasada. Cual es el valor de que maximiza la probabilidad de que suceda loobservado?

    Solucion: La probabilidad de que llueva en 5 de los 7 das de la semana pasada cuando laprobabilidad de lluvia para cada da es puede ser calculada a traves de la funcion de probabilidadbinomial (

    nx

    )x (1 )nx

    donde n es el total de das en analisis y x representa el numero de das en los que efectivamentellovia. Reemplazando valores se tiene que la probabilidad en cuestion es igual a(

    75

    )5 (1 )75 = 21 5 (1 )2

    Esta probabilidad es una funcion de y corresponde a la definicion de funcion de verosimilitud L().

    L() = 21 5 (1 )2

    Interesa encontrar el valor que maximice esta probabilidad (que maximice la funcion de verosimi-litud)

    = arg max

    L() = 21 5(1 )2

    este problema de maximizacion es equivalente a

    = arg max

    lnL() = ln 21 + 5 ln + 2 ln(1 )

    para encontrar el valor de en cuestion se deriva la expresion anterior con respecto a y se igualaa cero, obteniendo as la condicion que debe cumplir .

    5

    2

    1 = 0

    y por tanto

    =5

    7

    Se concluye que la probabilidad de que se hayan observado 5 das con lluvia la semana pasada semaximiza cuando la probabilidad de lluvia para un da es igual a 5/7. Al valor obtenido se lo llamaestimado de maxima verosimilitud.

    Ejemplo 4.3.2 Se puede resolver el ejercicio anterior para un caso general: dado x exitos en nintentos, encontrar el estimador de maxima verosimilitud () del parametro de una poblacionbinomial.

    Solucion: La funcion de verosimilitud para este caso esta dada por

    L() =

    (nx

    )x (1 )nx

    Para encontrar el valor que maximiza esta probabilidad es necesario maximizar la funcion deverosimilitud con respecto a . As

    = arg max

    L() =

    (nx

    )x(1 )nx

    A3-9

  • lo que es equivalente a

    = arg max

    lnL() = ln

    (nx

    )+ x ln() + (n x) ln(1 )

    derivando con respecto a e igualando a cero se obtiene que

    x

    n x

    1 = 0

    =x

    n

    por tanto, el estimador de maxima verosimilitud de es

    =X

    n

    Observaciones 4.3.1

    es el estimado de maxima verosimilitud del parametro , es decir el valor que se halla parauna muestra en particular.

    El estimado de maxima verosimilitud del parametro es aquel valor de que maximiza lafuncion de verosimilitud o, dicho de otro modo, el valor de que hace maxima la probabilidadde observar una muestra en particular.

    es el estimador de maxima veromilitud del parametro , es decir la formula que indicacomo a partir de los datos de una muestra calcular el estimado.

    Ejemplo 4.3.3 Si X1, X2, . . . , Xn constituyen una muestra aleatoria de tamano n de una poblacionnormal con media y varianza 2, encuentre los estimadores conjuntos de maxima verosimilitud deestos dos parametros.

    Solucion: La funcion de densidad para cada Xi esta dada por

    f(xi;, ) =1

    2 e 1

    22(xi )2

    Como los elementos de una muestra aleatoria proveniente de una poblacion infinita son independien-tes, entonces la funcion de densidad conjunta f(x1, x2, . . . , xn;, ) de la muestra es la multiplicacionde las funciones de densidad de cada Xi. Esta funcion de densidad conjunta evaluada en la muestraconstituye la funcion de verosimilitud.

    L(, ) =

    ni=1

    f(xi;, )

    =

    (1

    2

    )n e 1

    22

    ni=1

    (xi )2

    Para hacer mas facil el proceso de maximizacion se puede tomar logaritmos a la funcion de verosi-militud, as

    lnL(, ) = n2

    [ln(2) + ln(2)

    ] 1

    22

    ni=1

    (xi )2

    las derivadas parciales con respecto a y 2 son las siguientes

    lnL(, )

    =

    1

    2

    ni=1

    (xi )

    lnL(, )

    2= n

    22+

    1

    24

    ni=1

    (xi )2

    A3-10

  • al igualar a cero ambas derivadas parciales se encuentran las condiciones que deben cumplir losestimados de maxima verosimilitud x (para ) y s2 (para 2)

    :1

    2

    ni=1

    (xi x) = 0

    ni=1

    xi nx = 0

    x =

    ni=1 xin

    = x

    2 : n2s2

    +1

    2s4

    ni=1

    (xi x)2 = 0

    s2ni=1 (xi x)

    2 =1

    n

    s2 =

    ni=1 (xi x)

    2

    n

    s2 =

    ni=1 (xi x)

    2

    n

    En conclusion, los estimadores de maxima verosimilitud de los parametros y 2 de una poblacionnormal son

    =

    ni=1Xin

    2 =

    ni=1

    (Xi X

    )2n

    Observacion 4.3.2 El estimador de maxima verosimilitud del parametro de una poblacion nor-mal es

    =

    ni=1

    (Xi X

    )2n

    por la propiedad de invarianza del metodo de maxima verosimilitud.

    4.4. Estimacion por intervalo

    Definicion 4.4.1 Una estimador por intervalo de es un intervalo de la forma

    L < < U

    donde L y U son estadsticos elegidos de tal forma que la probabilidad de que el parametro seencuentre en el intervalo es un valor dado 1 .

    Prob(L < < U ) = 1

    Observaciones 4.4.1

    Al igual que los estimadores puntuales, los estimadores por intervalo de un parametro no sonunicos.

    Tanto L como L son variables aleatorias que dependen de la muestra aleatoria y de laprobabilidad 1 .

    A3-11

  • Definicion 4.4.2 Un intervalo de confianza del (1 )100 % para el parametro

    L < < U

    es el valor que toma el estimador por intervalo de

    L < < U

    para una probabilidad 1 dada.

    Definicion 4.4.3 Al valor 1 se lo conoce con el nombre de nivel de confianza. A se lo suelellamar nivel de significancia.

    Definicion 4.4.4 A los lmites inferior L y superior U de un intervalo de confianza se los llamalmites de confianza inferior y superior respectivamente.

    Observaciones 4.4.2

    Mientras mas alto sea 1 , mayor sera la amplitud del intervalo

    Mientras mas grande sea el intervalo mas imprecisa sera la informacion que se proporciona.

    Ejemplo: Que es preferible? Saber con un nivel de confianza del 90 % que un parametro seencuentra entre 2 y 4 o saber con un nivel de confianza del 99,99 % que el mismo parametrose encuentra entre -10000 y 10000?

    Una propiedad deseable de un intervalo de confianza es que la longitud del intervalo, dado unnivel de confianza 1 , sea la menor posible.

    Otra propiedad deseable es que la longitud esperada, E(U L), sea tan corta como seaposible.

    Ejemplo 4.4.1 Para una muestra aleatoria X1, X2, . . . , Xn donde n > 30 se define el siguienteestimador por intervalo para la media poblacional : L < < U , donde L = X 2 X yU = X + 2 X Cual es la probabilidad 1 de que la media poblacional se encuentre dentro deeste intervalo? (probabilidad de que la media poblacional se encuentre dentro de dos desviacionesestandar de la media muestral)

    Solucion: Considerese que efectivamente se encuentra dentro del intervalo

    x 2 X < < x+ 2 X

    Reordenando terminos la expresion anterior tambien indica que x se encuentra a dos desviacionesestandar de

    x 2 X < < x+ 2 X

    x+ 2 X > > x 2 X

    2 X > x > 2 X

    + 2 X > x > 2 X

    2 X < x < 2 X

    Para determinar la probabilidad de que esto ocurra se definira la siguiente variable aleatoria

    Z =X /n

    =X X

    A3-12

  • que se distribuye aproximadamente normal estandar dado que la muestra es mayor a 30. Por tanto

    P (L < < U ) = P ( 2 X < X < 2 X)= P (2 < Z < 2)= 0,955 //

    R

    En conclusion la probabilidad de que el verdadero valor de la media poblacional se encuentre a dosdesviaciones estandar de la media muestral es 0,955.

    Nota: En el ejemplo se ha podido asumir que X se distribuye aproximadamente normal, portanto, la esperanza de la media muestral es la media poblacional y esta se encuentra ubicada enel centro de la curva normal. (ver figura 1)

    Figura 1: Distribucion aproximada de la media muestral

    Para todos los valores de X que se encuentran fuera del rango que va desde 2 X hasta +2 Xla estimacion por intervalo (X 2 X < < X + 2 X) no contendra a la verdadera media de lapoblacion. Esto sucede en el 4,5 % de los casos, es decir, en el area no sombreada de la figura 1.

    Figura 2: Intervalos de confianza para distintos valores de X y un mismo

    A3-13

  • Observacion 4.4.3 Por lo general se trabajara con dos tipos de intervalos de confianza:

    Los de dos colas, en los que Prob( > U ) =

    2y Prob( < L) =

    2; y

    Los de una cola, en los que Prob( > U ) = y L = , o Prob( < L) = y U =.

    Su uso dependera del problema a tratarse.

    Tipos de intervalos de confianza para el parametro

    -

    L

    ^

    U^

    Intervalo de confianza de dos colas

    Rango de posibles valores de

    Prob(L < < U)=1- ^ ^ Prob( > U)= / 2

    ^Prob( < L)= / 2

    ^

    -

    L

    ^

    Intervalos de confianza de una cola

    Rango de posibles valores de

    Prob( > L)=1- ^

    Prob( < L)= ^

    -

    L

    ^

    U^

    Rango de posibles valores de

    Prob( < U)=1- ^ Prob( > U)= ^

    U

    ^

    Definicion 4.4.5 Dado un estimador del parametro , el error de estimacion es un valor d talque la probabilidad de que la diferencia maxima entre y sea a lo mucho d es al menos 1 .Esto puede ser expresado por

    Prob( d) 1

    Observacion 4.4.4 Para estimadores consistentes y un nivel de significancia dado es posibleestablecer un error de estimacion tan pequeno como se desee manipulando el tamano de la muestran. Esto se vera claramente en la siguiente seccion.

    4.5. Estimacion de medias

    4.5.1. Error de estimacion

    Teorema 4.5.1 Si X, la media de una muestra aleatoria de tamano n de una poblacion normal convarianza conocida 2, se va a usar como un estimador de la media poblacional , la probabilidadde que el error de estimacion

    (X ) sea menor a Z/2 /n es 1 , donde Z/2 es tal que laintegral de la funcion de densidad normal estandar desde Z/2 hasta es igual a /2.

    A3-14

  • Demostracion Por la observacion 3.3.1 se sabe que X sigue una distribucion normal con

    X = y 2X =

    2

    n

    para muestras aleatorias de tamano n de una poblacion normal con media y varianza 2.

    Si se define a la variable aleatoria Z por

    Z =X /n

    se puede decir queProb(|Z| < Z/2) = 1

    lo cual puede ser re-escrito como

    Prob

    (X /n < Z/2) = 1

    de donde finalmente se obtiene

    Prob

    (X < n Z/2

    )= 1

    Corolario 4.5.1 Para muestras grandes (n > 30) los resultados del teorema se aplican de maneraaproximada independientemente de la distribucion que siga la poblacion.

    Demostracion La demostracion es directa invocando al teorema 3.3.2, el teorema del lmitecentral.

    Corolario 4.5.2 Si la poblacion no sigue una distribucion normal y el tamano de la muestra espequeno (n < 30), entonces se requiere de mas informacion sobre la poblacion para poder decir algoacerca del error de estimacion.

    Demostracion El teorema del lmite central solo se cumple para muestras grandes.

    Observacion 4.5.1 (el tamano del error de estimacion) Manipulando el tamano de la mues-tra n es posible conseguir un error de estimacion arbitrariamente pequeno para un nivel de confianza1 dado.

    Teorema 4.5.2 Si la media muestral X se va a usar como un estimador de la media de unapoblacion normal, y la varianza poblacional 2 es desconocida, entonces la probabilidad de que elerror de estimacion

    (X ) sea menor a t2 ,n1

    Sn

    es 1 ; donde S es la desviacion estandarmuestral y t

    2 ,n1 es tal que la integral de la funcion de densidad t-student desde t2 ,n1 hasta

    es igual a /2.

    Demostracion Para una poblacion normal, se sabe que

    T =X S/n

    se distribuye como una t con n 1 grados de libertad. Por tanto

    Prob(|T | < t2 ,n1) = 1

    De donde se puede obtener que

    Prob

    (X S/n < t2 ,n1) = 1

    y por tanto que

    Prob

    (X < Sn t

    2 ,n1

    )= 1

    A3-15

  • Corolario 4.5.3 Para muestras grandes (n > 30) el error de estimacion puede ser aproximado porZ/2 Sn ; donde Z/2 es como se definia en el teorema 4.5.1.

    Demostracion La distribucion t-student con n 1 grados de libertad converge a una normalcuando n tiende a infinito. Se suele considerar que a partir de n > 30 la distribucion normal es unabuena aproximacion de la distribucion t-student con n 1 grados de libertad.

    Corolario 4.5.4 Si la poblacion no se distribuye como una normal y la muestra es grande (n > 30),entonces el error de estimacion puede ser aproximado por Z/2 Sn ; donde Z/2 es como se definiaen el teorema 4.5.1.

    Idea de la demostracion Se requiere demostrar que

    T =X S/n

    converge a una distribucion normal estandar cuando n tiende a infinito para cualquier distribucionque haya generado a X y S.

    Re-escribiendo T de la siguiente manera

    T =X /n S

    y haciendo uso de la independencia entre X y S2 (teorema 3.4.7) se puede demostrar que el pri-mer termino de la multiplicacion converge en distribucion a una normal estandar y que el segundotermino converge en probabilidad a 1.

    Claramente estan involucradas definiciones que no se han estudiado en el presente curso y por estono se desarrolla la demostracion.

    4.5.2. Intervalos de confianza

    Los errores de estimacion y los intervalos de confianza suelen hallarse ntimamente relacionados.La causa es que se pueden construir intervalos de confianza a partir del conocimiento del error deestimacion.

    Teorema 4.5.3 Si x es el valor de la media de una muestra aleatoria de tamano n de una poblacionnormal con varianza conocida 2, entonces

    x Z/2 n< < x+ Z/2

    n

    es un intervalo de confianza al (1 )100 % de la media poblacional.

    Demotracion Se sabe que

    Prob

    (X < n Z/2

    )= 1

    Prob

    (

    n Z/2 < X X >

    n Z/2

    )= 1

    Prob

    (

    n Z/2 < X 30 al (1 )100 % de x Z/2 n < < x+ Z/2

    n

    x Z/2 sn < < x+ Z/2 sn

    x t2,n1 sn < < x+ t2 ,n1

    sn

    que se puede aproximar por

    x Z/2 sn < < x+ Z/2 sn

    x t2,n1 sn < < x+ t2 ,n1

    sn

    Se requiere conocer la distribucion exacta de la poblacion

    Las demostraciones son iguales a las de los dos teoremas anteriores mas la argumentacion de siel tamano de la muestra es lo suficientemente grande como para aproximar la distribucion de X auna normal.

    4.6. Estimacion de diferencias de medias

    Establecida la relacion entre el error de estimacion y los intervalos de confianza que se estanpresentando, a partir de esta parte solo se trabajara con los intervalos de confianza.

    Teorema 4.6.1 Si x1 y x2 son los valores de las medias de muestras aleatorias independientes detamano n1 y n2 de poblaciones normales con varianzas conocidas

    21 y

    22 , entonces

    (x1 x2) Z2

    21n1

    +22n2

    < 1 2 < (x1 x2) + Z2

    21n1

    +22n2

    es un intervalo de confianza al (1 )100 % de la diferencia entre las dos medias poblacionales.

    A3-17

  • Demostracion Por la observacion 3.3.1 y el corolario 3.3.2 se sabe que X1 y X2 se distribuyennormalmente y que su combinacion lineal tambien sera normal, por tanto

    Z =(X1 X2) (1 2)

    21n1

    +22n2

    sigue una distribucion normal estandar. Si en

    Prob(Z/2 < Z < Z/2)

    se reemplaza Z se obtendra

    Prob

    (Z/2 < (X1X2)(12)

    21n1

    +22n2

    < Z/2

    )= 1

    Prob

    (Z/2

    21n1

    +22n2< (1 2)

    (X1 X2) < Z/2

    21n1

    +22n2

    )= 1

    Prob

    ((X1 X2) Z/2

    21n1

    +22n2< (1 2)

    < (X1 X2) + Z/2

    21n1

    +22n2

    )= 1

    Obteniendo a partir de aqu el intervalo de confianza que propone el teorema.

    Corolario 4.6.1 Para muestras grandes (n1 y n2 mayores a 30), si las poblaciones de donde pro-vienen X1 y X2 no son normales, los resultados del teorema siguen siendo aplicables de maneraaproximada.

    Demostracion Haciendo uso del teorema 3.3.2 (teorema del lmite central) se sabe que paracualquier distribucion que sigan X1 y X2

    Z =(X1 X2) (1 2)

    21n1

    +22n2

    se distribuye aproximadamente como una normal estandar. A partir de aqu el resto de la prueba esigual que la del teorema.

    Corolario 4.6.2 Para muestras grandes (n1 y n2 mayores a 30), si las poblaciones son normalesy las varianzas poblacionales 21 y

    22 no son conocidas pero se puede disponer de las varianzas

    muestrales (s21 y s22 respectivamente), entonces

    (x1 x2) Z2

    s21n1

    +s22n2

    < 1 2 < (x1 x2) + Z2

    s21n1

    +s22n2

    es aproximadamente un intervalo de confianza al (1 )100 % de la diferencia entre las dos mediaspoblacionales.

    Idea de la demostracion: Se aplica igual criterio que en el corolario 4.5.4.

    A3-18

  • Teorema 4.6.2 Si x1, x2, s1 y s2 son los valores de las medias y las desviaciones estandar de va-riables aleatorias independientes de tamano n1 y n2 de poblaciones normales con varianzas iguales(21 =

    22 =

    2), entonces

    (x1 x2) t2 ,n1+n22 sp

    1

    n1+

    1

    n2< 1 2

    < (x1 x2) + t2 ,n1+n22 sp

    1

    n1+

    1

    n2

    donde

    sp =

    (n1 1)s21 + (n2 1)s22

    n1 + n2 2es un intervalo de confianza al (1 )100 % de la diferencia entre las dos medias poblacionales

    Demostracion Se sabe que para poblaciones normales

    Z =(X1 X2) (1 2)

    21n1

    +22n2

    sigue una distribucion normal estandar, y por tanto si las varianzas poblaciones son iguales la mismadistribucion normal aplica para

    Z =(X1 X2) (1 2)

    1n1

    + 1n2

    donde es un parametro desconocido que sera estimado por Sp. Aparte se sabe que

    (n1 1)S212

    y(n2 1)S22

    2

    siguen distribuciones chi-cuadrado con n1 1 y n2 1 grados de libertad, y por tanto su suma

    Y =(n1 1)S21

    2+

    (n2 1)S222

    =(n1 + n2 2)S2p

    2

    sigue una distribucion chi-cuadrado con n1 + n2 2 grados de libertad. Z y Y son independientes(lo cual no se demostrara) por lo que aplicando el teorema 3.5.1 tenemos que

    T =ZY

    n1+n22

    T =(X1 X2) (1 2)

    Sp

    1n1

    + 1n2

    sigue una distribucion t con n1 + n2 2 grados de libertad. Reemplazando este valor en

    Prob(t2 ,n1+n22 < T < t

    2 ,n1+n22) = 1

    se obtiene

    Prob

    (t

    2 ,n1+n22 30 los resultados del teorema 4.6.2 pueden aproximarsecon un intervalo de confianza construido en base a la distribucion normal.

    Si alguna de las poblaciones no es normal, entonces se aplicaran los resultados para muestrasgrandes y varianzas desconocidas solo si n1 > 30 y n2 > 30.

    A3-19

  • 4.7. Estimacion de proporciones

    Una proporcion puede ser entendida como el parametro de una poblacion Bernoulli con funcionde probabilidad

    f(y) = y(1 )1y y {0, 1}

    representa en esta poblacion la probabilidad de exito, es decir, la probabilidad de que X = 1.

    Si Y1, Y2, Y3, . . . , Yn es una muestra aleatoria de esta poblacion, entonces el total de exitos dentro dela muestra

    X =

    ni=1

    Yi

    constituye una variable aleatoria binomial cuya funcion de probabilidad es la siguiente

    f(x) =

    (nx

    )x(1 )nx x {0, 1, 2, . . . , n}

    Teorema 4.7.1 Si X es una variable aleatoria que tiene una distribucion binomial con los parame-tros n y , entonces la distribucion de

    Z =X nn(1 )

    se aproxima a la distribucion normal estandar cuando n

    Bosquejo de la demostracion Para demostrar el teorema se requiere probar que la funciongeneratriz de momentos de la distribucion binomial tiende a la funcion generatriz de momentos dela distribucion normal estandar cuando n . No se realizara la prueba dado que las funcionesgeneratrices de momentos no han sido estudiadas en este curso.

    Observacion 4.7.1 Los resultados del teorema solo son validos cuando n , sin embargo amenudo se usa la distribucion normal para aproximar probabilidades binomiales. Una buena reglaemprica es usar esta aproximacion solo cuando n y n(1 ) son ambos mayores a 5.

    Teorema 4.7.2 Si X es una variable aleatoria binomial con parametros n y , n es grande y = x/n,donde x es el valor que toma la variable aleatoria X, entonces podemos afirmar con un (1 )100 %de confianza que el error de estimacion es menor a

    Z2

    (1 )

    n

    Demostracion Se sabe por el teorema 4.7.1 que para muestras grandes

    Z =X nn(1 )

    se distribuye aproximadamente como una normal estandar. Z puede ser re-escrito de la siguientemanera

    Z =X nn(1 )

    =X nn2 (1)

    n

    =X n

    n

    (1)n

    =Xn (1)n

    Z = (1)n

    A3-20

  • Es facil ver que (1)/n es la varianza de = X/n lo cual implica que tambien se distribuyeaproximadamente normal en muestras grandes. Se observa que el error de estimacion que planteael teorema utiliza la version muestral de la desviacion estandar de , esto es (1)/n. Si utilizamosesta version tendremos una nueva variable aleatoria Z definida por

    Z = (1)

    n

    La pregunta es si Z sigue alguna distribucion conocida. Para responder a esta pregunta se puedeutilizar la misma argumentacion empleada en el corolario 4.5.4 y por tanto se puede decir que Z sedistribuye aproximadamente como una normal estandar para muestras grandes.

    A partir de lo expuesto anteriormente se tiene que

    Prob(|Z | < Z

    2

    )= 1

    Reemplazando Z se encuentra que

    Prob

    (1)n

    < Z2 = 1

    Prob

    1(1)

    n

    < Z2

    = 1 Prob

    < Z2

    (1 )

    n

    = 1 De donde se puede ver que | | < Z/2

    (1)n con un (1 )100 % de confianza

    Teorema 4.7.3 Si X es una variable aleatoria binomial con parametros n y , n es grande y elestimado de la proporcio n es = x/n, donde x es el valor que toma la variable aleatoria X,entonces

    Z2

    (1 )

    n< < + Z

    2

    (1 )

    n

    es un intervalo de confianza aproximado al (1 )100 % para .

    Demostracion En la prueba del teorema 4.7.2 ya se argumento las condiciones bajo las cuales

    Z = (1)

    n

    sigue aproximadamente una distribucion normal estandar, y a partir de este hecho se establecia que

    Prob

    < Z2

    (1 )

    n

    = 1 Ahora se manipulara la expresion anterior para que la desigualdad haga referencia solo a .

    Prob

    < Z2

    (1 )

    n

    = 1 Prob

    Z2

    (1 )

    n< < Z

    2

    (1 )

    n

    = 1 Prob

    Z2

    (1 )

    n< < + Z

    2

    (1 )

    n

    = 1 Este resultado demuestra el teorema.

    A3-21

  • 4.8. Estimacion de diferencias entre proporciones

    Para establecer intervalos de confianza para la diferencia de proporciones entre poblaciones Ber-noulli independientes con parametros 1 y 2 es necesario primero determinar cual es la distribuciondel estimador a usarse. En esta seccion se trabajara con el estimador 1 2 que esta definido por

    1 =X1n1

    y 2 =X2n2

    donde n1 y n2 son los tamanos de las muestras aleatorias de cada poblacion y, X1 y X2 representanel total de exitos encontrados en cada una de las dos muestras en cuestion.De 1 2 se puede demostrar que

    E(

    1 2)

    = 1 2

    Var(

    1 2)

    =1(1 1)

    n1+2(1 2)

    n2

    y puesto que tanto 1 como 2 se distribuyen aproximadamente normal para muestras grandes (verla primera parte de la demostracion del teorema 4.7.2) entonces tambien su diferencia lo hara, estoimplica que

    Z =(1 2) (1 2)

    1(11)n1

    + 2(12)n2

    es aproximadamente una variable aleatoria normal estandar.

    Teorema 4.8.1 Si X1 es una variable aleatoria binomial con parametros n1 y 1, X2 es una variablealeatoria binomial con parametros n2 y 2, n1 y n2 son grandes, y 1 = x1/n1 y 2 = x2/n2, donde x1y x2 son los valores que toman las variables aleatorias X1 y X2 respectivamente, entonces

    (1 2) Z2

    1(1 1)

    n1+2(1 2)

    n2