Upload
buicong
View
248
Download
0
Embed Size (px)
Citation preview
Informática. Universidad Carlos III de Madrid2
Tema 6: Inferencia con muestras grandes
1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud
Informática. Universidad Carlos III de Madrid3
1. Intervalos de confianza para μ con muestras grandes
Sea X una v. aleatoria de interés con distribución cualquiera y con
En el tema anterior vimos que si n es grande (n>30)
1
0
Z
Informática. Universidad Carlos III de Madrid4
-4 -3 -2 -1 0 1 2 3 40
1- α1- α
α /2 α /2
Z ∼ N(0,1)
-zα/2 zα/2
Informática. Universidad Carlos III de Madrid5
-4 -3 -2 -1 0 1 2 3 40
1- α1- α
α /2 α /2
Z ∼ N(0,1)
-zα/2 zα/2
Si tomásemos infinitas muestras, y con cada una calculásemos el intervalo
/ 2x znασ±
Entonces, el 100(1-α)% de esos intervalos tendría el valor de μ
Informática. Universidad Carlos III de Madrid6
-4 -3 -2 -1 0 1 2 3 40
1- α1- α
α /2 α /2
Z ∼ N(0,1)
-zα/2 zα/2
En la práctica:
Sólo una muestra
Sólo un intervalo
El intervalo sí o no contendrá a μ
A la incertidumbre de si lo contendrá le llamaremos confianzaconfianza
Informática. Universidad Carlos III de Madrid7
intervalo de confianza de nivel de confianza 100×(1-α)% para μ
Ejemplo Una muestra aleatoria extraída de una población con σ²=100 de n=144observaciones tiene una media muestral =160. se pide:
(a) Calcular un intervalo de confianza del 95% para μ.
(b) Calcular un intervalo de confianza del 90% para μ.
(b)
(a)
Mayor confianza=más anchos90%
95%X
/ 2(1 ) :IC x znασα μ
⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭
Informática. Universidad Carlos III de Madrid8
Cuestiones
¿Verdadero, falso o incierto?
• El intervalo de confianza nos dice entre qué valores variará μ de unas muestras a otras
• Es imposible que μ esté fuera del intervalo de confianza
• El intervalo de confianza que hemos visto sólo es válido si X es normal
• El intervalo de confianza que hemos visto sólo es válido si es normalX
• Lo mejor será construir intervalos de confianza del 100%, así notendremos incertidumbre
• El intervalo de confianza me dice entre qué valores estará la media poblacional con una confianza determinada
• Si tengo pocos datos, el intervalo de confianza puede no ser válido
/ 2(1 ) :IC x znασα μ
⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭
Informática. Universidad Carlos III de Madrid9
/ 2(1 ) :IC x znασα μ
⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭Es también un parámetro, y será
desconocido
Lo sustituimos por un estimador
/ 2ˆ(1 ) :IC x znασα μ
⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭
¿Qué estimador usamos para σ²?
Informática. Universidad Carlos III de Madrid10
¿Qué estimador usamos para σ² ?
Método de los momentos: varianza muestral
Se puede demostrar que es SESGADO
subestima la verdadera varianza
Informática. Universidad Carlos III de Madrid11
¿Qué estimador usamos para σ² ?
es SESGADO
Corregimos el sesgo
Nuestro estimador ‘oficial’ será el estimador insesgado
• Cuasivarianza
• Pseudo varianza
• Varianza corregida
• Varianza corregida por grados de libertad
Informática. Universidad Carlos III de Madrid12
intervalo de confianza de nivel de confianza 100×(1-α)% para μ
Ejemplo Se mide la duración de 200 componentes electrónicos hasta su avería. De esos 200 datos se tiene que la media muestral es 1300 horas y la cuasivarianza es 10.000 (horas al cuadrado). Calcula un intervalo de confianza de μ de nivel de confianza 95%
2
0.025
1300ˆ 10.000
2000.05
1.96
X
Sn
zα
=
====
100001300 1.96200
μ⎧ ⎫⎪ ⎪⎪ ⎪∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭
[1286;1314]μ ∈
/ 2
ˆ(1 ) : sIC x z
nαα μ⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭
Informática. Universidad Carlos III de Madrid13
Tema 6: Inferencia con muestras grandes
1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud
Informática. Universidad Carlos III de Madrid14
2. Determinación del tamaño muestral
intervalo de confianza de nivel de confianza 100×(1-α)% para μ
Acabamos de ver que...
¿Cuál debe ser n para conseguir un L determinado?
Lo estimo con alguna muestra piloto
/ 2(1 ) :IC x znασα μ
⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭
{ }x Lμ ∈ ±
Informática. Universidad Carlos III de Madrid15
Ejemplo Sea X el contenido de impurezas en un material obtenido en cierto proceso productivo (miligramos de impureza por kilogramo de producto obtenido). Se toma una muestra aleatoria de 200 observaciones obteniéndose una media muestral del consumo de 120 mg/Kg y una desviación típica muestral 20 mg/Kg.
0
120ˆ 20
200
X
Sn
=
==
Estimar mediante un intervalo de un 95% de confianza el contenido medio de impurezas.
¿Qué tamaño muestral sería necesario tomar para que L=1 mg?
Informática. Universidad Carlos III de Madrid16
Tema 6: Inferencia con muestras grandes
1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud
Informática. Universidad Carlos III de Madrid17
3. Introducción al contraste de hipótesis
Veamos la idea de contraste de hipótesis con un ejemplo
Ejemplo Un fabricante de transistores del tipo BC547B sabe que cuando suproducción se mantiene en los niveles de calidad deseables, el valor de la llamada ganancia en corriente de los transistores (conocida por β, adimensional) sigue una distribución normal de media 290 y varianza 760.
Son en realidad estimaciones con muchísimos datos históricos. A efectos prácticos, los consideramos como si fuesen los poblacionales
β
2
290760
μσ==
290μ=
760σ =
¿Cómo puedo saber si se mantiene el proceso en los mismos parámetros?
¿Se mantiene la media? ¿Ha aumentado la variabilidad?
Informática. Universidad Carlos III de Madrid18
Ejemplo
β
2
290760
μσ==
290μ=
760σ =
¿Cómo puedo saber si se mantiene el proceso en los mismos parámetros?
¿Se mantiene la media?
¿Ha aumentado la variabilidad?
Son hipótesis que quiero comprobar¿Cómo lo puedo hacer?
• Tomo una muestra de observaciones
• A la vista de los datos decido si mantengo o no la hipótesis (el objetivo no es estimar sino validar)
Si 290x >> parece muy probable que la media SI haya cambiado
Si 290x parece muy probable que la media NO haya cambiado
A la vista de los datos, tomo la decisión que sea más plausible (nunca estaré seguro al 100%)
¿Cómo me puede ayudar la estadística?
Informática. Universidad Carlos III de Madrid19
Ejemplo
β 2
290760
μσ==
290μ=
760σ =
X3 ... XnX1 X2
2ˆ,X S
Objetivo: Validar una hipótesis con los datos
Contraste de hipótesis
Las hipótesis serán restricciones sobre los parámetros
¿Se mantiene la media?
290μ= ó 290μ≠
¿Ha aumentado la variabilidad?
2 760σ ≤ 2 760σ >ó
Hipótesis nula
H0
Hipótesis alternativa
H1
• Entre H0 y H1 está todo el rango de valores posibles
• H0 debe tener siempre el signo =
• Se aceptará H0 salvo que haya mucha evidencia en contra
alternativa bilateral
alternativa unilateral
Veamos el método estadístico:
Informática. Universidad Carlos III de Madrid20
Ejemplo
β 2
290760
μσ==
290μ=
760σ =
X3 ... XnX1 X2 2ˆ,X S
290μ= 290μ≠
2 760σ ≤ 2 760σ >
H0 H1
Rechazamos H0 sólo si hay mucha evidencia en contra. Es decir, si los
datos hacen lo que dice H1 de forma muy evidente
En la sección siguiente veremos cómo obtener los límites de las
regiones de aceptación y rechazo
Informática. Universidad Carlos III de Madrid21
Tema 6: Inferencia con muestras grandes
1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud
Informática. Universidad Carlos III de Madrid22
4. Contraste de hipótesis de la media μ con muestras grandes
Para contrastar una hipótesis sobre la media μ seguimos los siguientes pasos:
Especificamos la hipótesis nula y la alternativa. Queremos contrastar alguna de estas hipótesis, donde μ0 es un valor concreto
0 0
1 0
::
HH
μ μμ μ=≠
0 0
1 0
::
HH
μ μμ μ≤>
0 0
1 0
::
HH
μ μμ μ≥<
PASO 1:
En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290
290μ= 290μ≠
H0 H1
Ejemplo
Informática. Universidad Carlos III de Madrid23
PASO 2: Hallamos una medida de la discrepancia entre los datos y H0
Si la discrepancia es grande: se rechaza H0
Esa medida se denomina estadístico de contraste
Sabemos que, para muestras grandes
Estadístico de contraste
¿Cómo se busca el estadístico de contraste, que resuma la información relevante para un
contraste?
Usando las propiedades de los estimadores, e introduciendo la
información de H0
Informática. Universidad Carlos III de Madrid24
Para valorar el estadístico de contraste, buscamos una distribución de referencia que nos diga si es un valor grande o pequeño
PASO 3:
La distribución de referencia es la del estadístico de contraste cuando μ=μ0
N(0,1)
En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290
290μ= 290μ≠
H0 H1
Con 100 observaciones:
Resume en un número la información
para decidir entre H0 y H1
Ejemplo
Informática. Universidad Carlos III de Madrid25
0
Rechazamos H0 si los datos hacen lo que dice H1 de forma muy evidente.
PASO 4: Localizamos en qué zonas de la distribución de referencia rechazaremos H0.
Caso (a)
0 1: 290; : 290H Hμ μ= ≠
PASO 1:
0290
ˆ /XTS n−=
PASO 2:
T0~N(0,1)
PASO 3:
Rechazamos H0 si
N(0,1)
0290 0
ˆ /xts n−= <<
0290 0
ˆ /xts n−= >>
Si H0 es falsa tenderemos a estar
por esta zona
Si H0 es falsa tenderemos a estar
por esta zona
290x << 290x >>
Informática. Universidad Carlos III de Madrid26
T0~N(0,1)
0
0 1: 290; : 290H Hμ μ≤ > 0290
ˆ /XTS n−=
Rechazamos H0 si los datos hacen lo que dice H1 de forma muy evidente.
PASO 4: Localizamos en qué zonas de la distribución de referencia rechazaremos H0
Caso (b) PASO 1: PASO 2: PASO 3:
Rechazamos H0 si
N(0,1) Si H0 es falsa tenderemos a estar
por esta zona
0290 0
ˆ /xts n−= >>
290x >>
Informática. Universidad Carlos III de Madrid27
0
Rechazamos H0 si los datos hacen lo que dice H1 de forma muy evidente.
PASO 4: Localizamos en qué zonas de la distribución de referencia rechazaremos H0
T0~N(0,1)0 1: 290; : 290H Hμ μ≥ < 0290
ˆ /XTS n−=
Caso (c) PASO 1: PASO 2: PASO 3:
Rechazamos H0 si
N(0,1)Si H0 es falsa tenderemos a estar
por esta zona
290x <<
0290 0
ˆ /xts n−= <<
Informática. Universidad Carlos III de Madrid28
0 0 1 0: ; :H Hμ μ μ μ≥ <
0 0 1 0: ; :H Hμ μ μ μ≤ >
0 0 1 0: ; :H Hμ μ μ μ= ≠
PASO 1: PASO 2:
PASO 3:
N(0,1)
(a)
Rechazo H0 Rechazo H0
Acepto H0
(a)
(b)
Rechazo H0Acepto H0
(b)
(c)
Rechazo H0 Acepto H0
(c)
PASO 4:
La región de rechazo está donde señala H1
Informática. Universidad Carlos III de Madrid29
Metodología general para hacer un contraste de hipótesis
Especificamos la hipótesis nula y la alternativa. PASO 1:
Estadístico de contrastePASO 2:
PASO 3: Distribución de referencia
PASO 4: Localizamos las zonas donde estará la región de rechazo
Rechazo H0 Acepto H0
¿Qué área ocupa la región de rechazo?
?• La región de rechazo ocupa un área pequeña
• Ese área se llama α=nivel de significación
• Su valor lo decide el analista
• Suele ser α=0.05, 0.10, 0.01Valor crítico
Informática. Universidad Carlos III de Madrid30
Rechazo H0 Rechazo H0
Acepto H0
0
1
1 2 3-1-2-3
Nivel de significación, α=0.05
α/2=0.025 α/2=0.025
-2.78Rechazamos H0
1.96-1.96
Valores críticos
En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290
290μ= 290μ≠
H0 H1
Con 100 observaciones:
T0~N(0,1)
Ejemplo
Informática. Universidad Carlos III de Madrid31
En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290
290μ= 290μ≠
H0 H1
Con 100 observaciones:
T0~N(0,1)Nivel de significación, α=0.05
La diferencia entre la media de la muestra (282.3) y la de la hipótesis
(290) es significativa (al 5%)
Concluimos, con un nivel de significación del 5%, que la media
poblacional ha cambiado
Ejemplo
Informática. Universidad Carlos III de Madrid32
Cuestiones
¿Verdadero, falso o incierto?
• Mediante un contraste de hipótesis buscamos el respaldo de los datos a alguna suposición sobre la población
• Si rechazo la hipótesis de que μ=100 con α=0.05, la conclusión es que es imposible que μ=100
• Quiero contrastar la hipótesis de que μ=100 con α=0.05. Con unos datos obtengo y el contraste me lleva a Aceptar H0. Entonces quiere decir que con un nivel de significación de 0.05 μ=104.3
104.3x =
• Quiero contrastar la hipótesis de que μ=100 con α=0.05. Con unos datos obtengo y el contraste me lleva a Aceptar H0. Entonces quiere decir que con un nivel de significación de 0.05
104.3x =100x =
• Si tomamos pocos datos, el contraste puede ser erróneo
• Un analista puede aceptar una hipótesis nula con α=0.05, pero rechazarla con α=0.01
Informática. Universidad Carlos III de Madrid33
Dos opciones
Estatura media inferior
Estatura media no inferior
177μ <
177μ ≥
Especificamos la hipótesis nula y la alternativa. PASO 1:
0
1
: 177: 177
HH
μμ≥<
Según los estudios antropométricos, los jóvenes españoles entre 18 y 25 años tienen una estatura media de μ0 =177 cm.
Se toman las alturas de 50 jóvenes madrileños en ese rango de edad y resulta
175.9x cm= ˆ 5.93s cm=
¿Hay evidencia suficiente para decir que los jóvenes madrileños tiene una estatura media inferior a la nacional?
Ejemplo
Informática. Universidad Carlos III de Madrid34
Estadístico de contrastePASO 2:
PASO 3: Distribución de referencia N(0,1)
La diferencia entre la media muestral (175.9) y la hipótesis nula
no es significativa (al 5%)
La diferencia observada se atribuye, con un nivel de significatividad del 5%, a la
variabilidad de la muestra y no a diferencias reales
Según los estudios antropométricos, los jóvenes españoles entre 18 y 25 años tienen una estatura media de μ0 =177 cm.
Se toman las alturas de 50 jóvenes madrileños en ese rango de edad y resulta
¿Hay evidencia suficiente para decir que los jóvenes madrileños tiene una estatura media inferior a la nacional?
0
1
: 177: 177
HH
μμ≥<
Ejemplo
PASO 4: Localizamos las zonas donde estará la región de rechazo
Rechazo H0
Acepto H0
α=0.05
0 1 2 3-1-2-3Valor crítico=-1.65
-1.31
175.9x cm= ˆ 5.93s cm=
Informática. Universidad Carlos III de Madrid35
Acepto H0
Rechazo H0
(Rechazo H1)
(Acepto H1)
(H1 cierta)H0 cierta H0 falsa
(H1 falsa)
La verdad(que nunca sabré con sólo n datos)El resultado del
contraste(sólo n datos)
ACIERTO!!ACIERTO!!
ACIERTO!!ACIERTO!!ERROR TIPO I
ERROR TIPO II
Lo cometo con probabilidad
α
Lo cometo con probabilidad que depende de cada
caso
Cuando demos la conclusión de un contraste debemos dar siempre el nivel de significación,
para dar una medida de su precisión
Informática. Universidad Carlos III de Madrid36
Metodología general para hacer un contraste de hipótesis
1. Determinar H0 y H1 teniendo en cuenta que H0 debe tener el signo = y que el método favorecerá dicha hipótesis.
2. Buscar el estadístico de contraste que será la medida de discrepancia entre la muestra y H0.
3. A partir de las propiedades del estadístico de contraste, y el nivel de significación, delimitamos con los valores críticos las regiones de aceptación y rechazo.
4. Localizamos si el valor que toma el estadístico de contraste cae en la región de aceptación o en la de rechazo.
Informática. Universidad Carlos III de Madrid37
Tema 6: Inferencia con muestras grandes
1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud
Informática. Universidad Carlos III de Madrid38
5. Interpretación de un contraste usando el p-valor
El resultado de un contraste tiene dos elementos:
1. Aceptamos o rechazamos H0
2. El nivel de significación
Conclusión del contraste
Medida de su incertidumbreαEl nivel de significación es una medida de incertidumbre poco precisa
Ejemplo0 0 1 0: ; :H Hμ μ μ μ≥ < 0.05α=Hacemos el contraste con
En ambos casos la conclusión sería la misma: Rechazamos con α=0.05
Sin embargo en el caso 2 estamos más seguros ¿Cómo expresarlo?
Caso 1
Rechazo H0 Acepto H0
0.05α=
-1.65t0=-1.7
Rechazamos H0
Rechazo H0 Acepto H0
0.05α=
-1.65t0=-3
Rechazamos H0
Caso 2
Informática. Universidad Carlos III de Madrid39
Vamos a ver otra forma mejor de medir la incertidumbre del resultado del contraste
Caso 1
0.05α=
Rechazo H0Acepto H0
t0=-1.7Rechazamos H0
El p-valor es el nivel de significación que deberíamos usar para dejar al valor del estadístico de contraste justo en la frontera de la región de rechazo
p-valor= 0.045
Rechazamos H0Como p-valor<α El p-valor es más informativo que el nivel de significación
Informática. Universidad Carlos III de Madrid40
Caso 2
Rechazo H0Acepto H0
0.05α=
El p-valor es el nivel de significación que deberíamos usar para dejar al valor del estadístico de contraste justo en la frontera de la región de rechazo
p-valor= 0.0013
En este Caso 2 el p-valor es realmente pequeño. Estamos mucho más seguros de nuestra conclusión
Rechazamos H0Como p-valor<<α
t0=-3Rechazamos H0
Informática. Universidad Carlos III de Madrid41
0 0 1 0: ; :H Hϑ ϑ ϑ ϑ≤ >
t0
αp-valor>α
Aceptamos H0
Rechazamos H0
p-valor<α
t0
Informática. Universidad Carlos III de Madrid42
0 0 1 0: ; :H Hϑ ϑ ϑ ϑ≥ <
p-valor>α
t0
Aceptamos H0
Rechazamos H0
α
p-valor<α
t0
Informática. Universidad Carlos III de Madrid43
0 0 1 0: ; :H Hϑ ϑ ϑ ϑ= ≠
/ 2αp-valor>α
/ 2α
-|t0| |t0|p-valor: es la suma de las dos áreas
p-valor>α
-|t0| |t0|
Informática. Universidad Carlos III de Madrid44
Tema 6: Inferencia con muestras grandes
1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud
Informática. Universidad Carlos III de Madrid45
6. Relación entre contrastes de hipótesis e intervalos de confianza
Intervalos de confianza para la media y contrastes usan la misma información
ˆ /XTS n
μ−=
Rechazo H0
00 ~ (0,1)ˆ /
XT NS n
μ−=
Rechazo H0
Acepto H0
t0
0 0 1 0: ; :H Hμ μ μ μ= ≠
/ 2α / 2α
N(0,1)
Se puede demostrar que la realización de un contraste de hipótesis bilateral
con nivel de significación α es equivalente a realizar un intervalo de confianza de nivel (1-a) y comprobar si μ0 está dentro o fuera
de dicho intervalo.
0 0 1 0: ; :H Hμ μ μ μ= ≠
Informática. Universidad Carlos III de Madrid46
Rechazo H0Rechazo H0
Acepto H0
0 1 2 3-1-2-3
α/2=0.025
1.96-1.96-2.78
Contraste de hipótesis
Rechazamos H0:μ=290
α/2=0.025
Intervalo de confianza de nivel (1-a)
No contiene al 290
En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290
290μ=290μ≠
H0
H1
Con 100 observaciones:
Ejemplo
Informática. Universidad Carlos III de Madrid47
Tema 6: Inferencia con muestras grandes
1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud
Informática. Universidad Carlos III de Madrid48
7. Inferencia sobre una proporción con muestras grandes
Estimación
Queremos estimar la proporción de individuos p en una población que tendrá cierto atributo
En una muestra de n individuos: el estimador es la proporción muestral
Sea Xi una variable de Bernoulli para el elemento i-ésimo de la muestra
Xi =1 si el elemento sí tiene el atributoXi =0 si el elemento no tiene el atributo
( )( ) (1 )
i
i
E X pVar X p p
== −
Por el Teorema Central del Límite, si n es grande
Informática. Universidad Carlos III de Madrid49
Intervalo de confianza
Al ser una media muestral asintóticamente normal, se pueden usar los mismos resultados ya vistos
para la media muestral
( )E X μ=2( ) /Var X nσ=
( ) (0,1)( )
X E X NVar X− ∼
{ }/ 2 ( )X z Var Xαμ ∈ ±
Informática. Universidad Carlos III de Madrid50
Intervalo de confianza
Al ser una media muestral asintóticamente normal, se pueden usar los mismos resultados ya vistos
para la media muestral
Ejemplo Con el objeto de determinar la proporción de personas que poseen coche en una provincia determinada se realizó un muestreo aleatorio simple, de tal forma que de los 100 encuestados, 30 de ellos tienen coche.
Calcula un intervalo de confianza del 95% para la proporción de personas con coche en la provincia
Informática. Universidad Carlos III de Madrid51
Tamaño muestral
¿Cuanto debe vale n para tener un L determinado?
Estimación previa con una muestra piloto
Ejemplo Con el objeto de determinar la proporción de personas que poseen coche en una provincia determinada se realizó un muestreo aleatorio simple, de tal forma que de los 100 encuestados, 30 de ellos tienen coche.
Calcula n para que en un intervalo del 95%, se tenga L=0.02
Informática. Universidad Carlos III de Madrid52
Tamaño muestral
Otra opción para calcular n es usar el valor de p(1-p) más desfavorable. Tendremos un
valor de n sobredimensionado, pero que garantiza un intervalo de (1-a)
p
p(1-p)
0.5
0.25
En el ejemplo anterior con L=0.02
Informática. Universidad Carlos III de Madrid53
Contraste de hipótesis
0 0 1 0: ; :H p p H p p≥ <
0 0 1 0: ; :H p p H p p≤ >
0 0 1 0: ; :H p p H p p= ≠
PASO 1: PASO 2:
PASO 3:
N(0,1)
(a)
Rechazo H0 Rechazo H0
Acepto H0
(a)
(b)
Rechazo H0
Acepto H0
(b)
(c)
Rechazo H0 Acepto H0
(c)
PASO 4:
La región de rechazo está donde señala H1
00
0 0
ˆ/
p pZ
p q n−
=
Informática. Universidad Carlos III de Madrid54
Ejemplo Un proceso productivo que fabrica semiconductores produce un 2% de artículos defectuosos cuando funciona adecuadamente. Se adquiere una nueva máquina basada en una tecnología más avanzada. Después de producir 200 artículos se encuentra que 2 son defectuosos. ¿Se puede afirmar que la nueva máquina ha mejorado la calidad de la producción?
Dos opciones
La nueva máquina SI mejora el proceso
La nueva máquina NO mejora el proceso
p<0.02
p≥0.02
Rechazo H0 Acepto H0
-1.96
-1.01
No podemos rechazar, con un nivel de significación del 5%, que el proceso siga igual
Informática. Universidad Carlos III de Madrid55
Tema 6: Inferencia con muestras grandes
1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud
Informática. Universidad Carlos III de Madrid56
8. Inferencia con estimadores de máxima verosimilitud
Sea el estimador de máxima verosimilitud del parámetro qˆMVθ
Los estimadores de máxima verosimilitud cumplen, para muestras grandes
L(q) es la función soporte
Intervalo de confianza
Al ser asintóticamente normal, se pueden usar los mismos resultados
que ya vimos anteriormente
es la misma expresión que pero sustituyendo q por ˆMVθ
Informática. Universidad Carlos III de Madrid57
Ejemplo La velocidad de una molécula, según el modelo de Maxwell, es una variable aleatoria con función de densidad,
En el tema anterior vimos que
Informática. Universidad Carlos III de Madrid58
Contraste de hipótesis
0 0 1 0: ; :H Hθ θ θ θ≥ <
0 0 1 0: ; :H Hθ θ θ θ≤ >
0 0 1 0: ; :H Hθ θ θ θ= ≠
PASO 1: PASO 2:
PASO 3:
N(0,1)
(a)
Rechazo H0 Rechazo H0
Acepto H0
(a)
(b)
Rechazo H0
Acepto H0
(b)
(c)
Rechazo H0 Acepto H0
(c)
PASO 4:
La región de rechazo está donde señala H1
00
ˆ
ˆVar( )MV
MV
Zθ θ
θ
−=