Roberto Castro Z
1
Estadística Inferencial
• Distribución de Probabilidad Normal• Distribución Normal• Distribución Normal Estándar• Cálculo de Probabilidades con la Distribución Normal Estándar
• Estimación Puntual• Teorema del Límite Central• Distribuciones t• Estimación por Intervalos (Intervalos de Confianza)• Prueba de Hipótesis
• Hipótesis para un promedio• Hipótesis para una proporción• Hipótesis para dos promedios• Hipótesis para dos proporciones• Hipótesis para dos promedios muestras pareadas
• Prueba Chi-Cuadrado• Análisis de Variancia
Roberto Castro Z
2
2
3
6
9
10
9
6
3
2
17-20 21-24 25-28 29-32 33-36 37-40 41-44 45-48 49-52
Estadístico EdadPromedio: 34,52Desv.Est.: 8,20
3 4 5 2.
Ejemplo: Distribución de Frecuencias de las Edades de 50 personas
Distribución de Probabilidad Normal
Roberto Castro Z
3
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución. Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana.
Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie: tallas, pesos, envergaduras, diámetros, perímetros,... Caracteres fisiológicos: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono. Caracteres sociológicos: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen. Caracteres psicológicos: cociente intelectual, grado de adaptación a un medio,... Errores cometidos al medir ciertas magnitudes. Valores estadísticos muestrales: la media. Otras distribuciones como la binomial o la de Poisson son aproximaciones normales,
f x e
x
( )
1
2
2
22
media
desv est
p i
e base na t
. .
. . . .
lo g .
3 1 4 1 5
2 7 1 8 2
Función de Densidad de la Distribución
Normal
Distribución de Probabilidad Normal
Roberto Castro Z
4
,1
2
Punto
Máximo
Puntos de Inflexión
Eje de Simetría
Características de la Distribución Normal
Distribución de Probabilidad Normal
Roberto Castro Z
5
Distribución Normal Estándar
Cualquier variable, si se transforma a otra variable restando a todas sus observaciones la media aritmética y dividiendo por la desviación estándar, produce una nueva variable cuyo promedio es 0 y su desviación estándar es 1 ( )2 4
21
x z2 -1,04 0,06 1,0
Promedio: 4,00 0,00Desv. Est.: 2,00 1,00
( )6 4
21
zx
( )
Roberto Castro Z
6
2
3
6
9
10
9
6
3
2
-2,25--1,75 -1,75--1,25 -1,25--0,75 -0,75--0,25 -0,25-0,25 0,25-0,75 0,75-1,25 1,25-1,75 1,75-2,25
2
3
6
9
10
9
6
3
2
17-20 21-24 25-28 29-32 33-36 37-40 41-44 45-48 49-52
Distribución Normal Estándar
0
Ejemplo: Distribución de Frecuencias de las Edades de 50 personas
Roberto Castro Z
7
f z ez
( ) 1
2
2
2
zx
Función de Densidad de la Distribución Normal Estándar
01
20 0 3 9 9, , . . . .
Punto Máximo
Puntos de Inflexión
1 1 0
Eje de Simetría = Eje Y
z
z
0
1
Distribución Normal Estándar
Roberto Castro Z
8
3 4 3
7 7
2 2 7 7 1 5 5
2 3 4 3 1 5 5 1 8 8
2 3 4 3 1 5 5 4 9 8
.
.
( )( . ) .
. .
. .
Probabilidades con la Distribución Normal Estándar
Cerca de 2 personas: aproximadamente el 5% de las personas es menor a 18.8 años o mayor a 49.8 años, y cerca del 95% de las personas tiene edades entre 18.8 y 49.8 años.
2
3
6
9
10
9
6
3
2
17-20 21-24 25-28 29-32 33-36 37-40 41-44 45-48 49-52
1 8 8. 4 9 8.
Apróx. 1 Persona Apróx. 1 Persona
9 5 %
2 5 %.2 5 %.
Ejemplo: En la Distribución de Frecuencias de las Edades de 50 personas, al promedio le restamos 2 desviaciones estándar y también le sumamos dos desviaciones estándar:
Roberto Castro Z
9
2 2 1 9 6 .
Cálculo de Probabilidades con la Distribución Normal Estándar
2 2 1 9 6 .
9 5 %2 5 %.2 5 %.
2 3 3. 2 3 3.
9 9 %0 5 %.0 5 %.
Roberto Castro Z
10
Cálculo de Probabilidades con la Distribución Normal Estándar
1 9 6.
9 7 5 %. 2 5 %.
2 3 3.
1 % 9 9 %
=DISTR.NORM.ESTAND.INV(0,975)
Cálculo en Excel
Roberto Castro Z
11
Cálculo de Probabilidades con la Distribución Normal Estándar
Cálculo en Minitab
Inverse Cumulative Distribution Function
Normal with mean = 0 and standard deviation = 1,0
P( X <= x ) x 0,9750 1,9600
9 7 5 %, 2 5 %.
Roberto Castro Z
12
Lecturas:
Mason & Lind: pág 304 a 321
Ejercicios:
Mason & Lind:
Página Ejercicios
321 12
Distribución de Probabilidad Normal
Roberto Castro Z
13
Estimación Puntual
1 2 3 4
2,50
1,12
Elementos de la Población
Promedio de la Población:
Desviación Estándar de la
Número de la Muestra
Promedio de cada Muestra
1 1 2 1,52 2 1 1,53 1 3 2,04 3 1 2,05 1 4 2,56 4 1 2,57 2 3 2,58 3 2 2,59 2 4 3,0
10 4 2 3,011 4 3 3,512 3 4 3,5
Elementos en cada Muestra
X 1 X 2
X 1 2
2,50
0,645
Promedio de las 12 Muestras:
Desviación Estándar de las 12 Muestras:
X
X
Una Población está compuesta de 4 valores: 1,2,3,4. El Promedio
de esta Población es 2,5 y la Desviación Estándar es 1,12
Si extraemos las 12 posibles muestras (todas las posibles muestras),
podemos calcular el promedio de cada muestra:
Como se obtienen 12 muestras, podemos calcular 12 promedios y también podemos calcular el promedio de esos 12 promedios, y la desviación estándar de esas 12 muestras:
Roberto Castro Z
14
X n
N n
N
2
2
1
X
2
3
1,414
0,791
0,667
0,816
0,645
N n
N
1
N n
N 1
N n
N
1
2
n2
n2
n
N n
N22
1
1,12Desviación Estándar de la
0,645Desviación Estándar de las 12
Muestras:
X
Estimación Puntual
Observemos que el Promedio de los Promedios de las 12 muestras es igual al Promedio de la Población: 2,5.
Sin embargo la Desviación Estándar de las 12 muestras no es igual a la Desviación Estándar de la Población ( 0,645 y 1,12).
Observemos que si utilizamos la Desviación Dstándar de la Población, mediante una fórmula que involucra el tamaño de Población y el tamaño de las muestras (2 de 4), si obtenemos la Desviación Estándar de las 12 muestras:
Roberto Castro Z
15
Insesgado: si el promedio del estimador es igual al parámetro que se va a estimar.
Eficiente: si hay dos o más estimadores para el mismo parámetro, el más eficiente es el que tiene menor variancia.
Consistente: si se calcula el estimador para dos o más muestras, conforme el tamaño de la muestra se incrementa, la aproximación es mejor.
Suficiente: si hay más de un estimador, suficiente es el que utiliza la mayor cantidad de datos de la muestra.
Características de un buen estimador
Estimación Puntual
Roberto Castro Z
16
Un estimador puntual es un número que se utiliza para aproximar el valor de la población. Los Estimadores Puntuales para variables cuantitativas son:
Estos son estimadores insesgados, eficientes, consistentes y suficientes
xx
n
sx x
n
ii
n
ii
n
1
2
1
1
( )
Estimación Puntual
Roberto Castro Z
17
P px
n
Los Estimadores Puntuales para Proporciones (en variables cualitativas) son:
En dónde x son los elementos de la muestra de tamaño n que cumplen con la característica de estudio. Por ejemplo, x=20 mujeres de n=50 personas en una muestra p=0.4 ( o 40% )
s pq
q pn x
n
1Aquí:
En la Población la Proporción y su Desviación Estándar se calculan:
PX
n
PQ
Q PN X
N
1
Estimación Puntual
Roberto Castro Z
18
Estimación por Intervalo: Nivel de Confianza
Nivel de Confianza (1-)
12
2
95.01 025.02
025.02
05.0
Nivel de Confianza (95%)
Roberto Castro Z
19
Nivel de Confianza (1-)
96.1975.0 z
975.021
96.1025.0 z
025.02
Estimación por Intervalo: Nivel de Confianza
Roberto Castro Z
20
Distribución t (t-student)
La distribución t-student tiene promedio 0 y su desviación estándar depende del tamaño de la muestra pero conforme aumenta n la desviación estándar se acerca a 1. De igual forma al aumentar n, la distribución t-student tiende a ser similar a la distribución normal estándar.
Para cada valor de n (tamaño de muestra), existe una distribución t-student conocida como distribución t con n-1 grados de libertad.
La Distribución t-student (o simplemente t) es muy utilizada en estadística inferencial.
Intervalos de Confianza
Roberto Castro Z
21
Distribución t
1 9 8.
9 5 % 2 5 %.2 5 %.
1 9 8.
=DISTR.T.INV( 0,05 ; 100 )
Probabilidad (2 colas) Grados de Libertad
Cálculo en Excel
Roberto Castro Z
22
Distribución t
Cálculo en Minitab
9 7 5 %, 2 5 %.
Inverse Cumulative Distribution Function
Student's t distribution with 100 DF
P( X <= x ) x 0,9750 1,9840
Roberto Castro Z
23
Si es la media de una muestra aleatoria de tamaño n extraída de una población que tiene media y variancia 2 , entonces:
Teorema del Límite Central
1
_
N
nN
n
xz
es el valor de una variable aleatoria cuya distribución de probabilidad se aproxima a la distribución normal estándar cuando n tiende a infinito:
Este teorema nos permite utilizar la distribución normal estándar en cualquier caso siempre y cuando el tamaño de muestra sea “suficientemente grande”. En muchos
textos se considera que si el tamaño de muestra es superior a 30, se puede aplicar la distribución normal estándar.
Roberto Castro Z
24
Si x es la media de una muestra aleatoria de tamaño n extraída de una población normal que tiene media y variancia 2 , entonces:
1
_
)1(
NnN
n
s
xt n
es el valor de una variable aleatoria cuya distribución de probabilidad es la distribución t-student con parámetro n-1 (grados de libertad)
Teorema Distribución t
Este resultado nos permite utilizar la distribución t cuando no se conoce el valor (variancia de la población), y se utiliza s como su estimación puntual. Es válido siempre
y cuando la distribución de la variable original sea aproximadamente normal.
Para muestras grandes (n≥30) debido a que la distribución t y la distribución normal son muy cercanas, el requisito de normalidad no es necesario para utilizar la
distribución t.
Roberto Castro Z
25
Intervalo de confianza para al (1-)100%
11 212
N
nN
n
pqzpP
N
nN
n
pqzp
121
N
nN
n
pqzp
Intervalo de confianza para P al (1-)100%
Intervalos de Confianza
11 21;1
_
21;1
_
N
nN
n
stx
N
nN
n
stx nn
121;1
_
N
nN
n
stx n
Roberto Castro Z
26
Intervalo de confianza para al (1-)100%
ss
nt
s
n
N n
N
1
21
] [
111
21
2
t ts
n
N n
N
] [
ns
nt
s
n
N n
N
1
21 ]
[
m
Si la Desviación Estándar “aumenta” el intervalo se hace
más “ancho”
Si la confianza “aumenta” el intervalo se hace más “ancho”
Si el tamaño de muestra “aumenta” el intervalo se hace
más “angosto”
Como se afecta el Intervalo al variar la Desviación Estándar, la Confianza y el Tamaños de Muestra
Intervalos de Confianza
Roberto Castro Z
27
8,000 950
12,000 ± 1,677 * ———— * ————
50 999
8,000
12,000 ± 1,677 * ———— * 0,951
7,071068
12,000 ± 1,677 * 1,131 * 0,975
12,000 ± 1,850
Tamaño n = 50
Promedio = 12
Desviación Estándar s = 8
Confianza 1- = 0,900
Tamaño N = 1000
Población
Muestra
_
x
4,000 950
12,000 ± 1,677 * ———— * ————
50 999
4,000
12,000 ± 1,677 * ———— * 0,951
7,071068
12,000 ± 1,677 * 0,566 * 0,975
12,000 ± 0,925
Intervalo de confianza para al (1-)100%
Si la Desviación Estándar “aumenta” el intervalo se hace más “ancho”
Como se afecta el Intervalo al variar la Desviación Estándar
9,9 10,0 10,1 10,2 10,3 10,4 10,5 10,6 10,7 10,8 10,9 11,0 11,1 11,2 11,3 11,4 11,5 11,6 11,7 11,8 11,9 12,0 12,1 12,2 12,3 12,4 12,5 12,6 12,7 12,8 12,9 13,0 13,1 13,2 13,3 13,4 13,5 13,6 13,7 13,8 13,9 14,0
Intervalos de Confianza
Tamaño n = 50
Promedio = 12
Desviación Estándar s = 4
Confianza 1- = 0,900
Tamaño N = 1000
Población
Muestra
_
x
11,08 12,9210,15 13,85
121;1
_
N
nN
n
stx n
Roberto Castro Z
28
Tamaño n = 50
Promedio = 12
Desviación Estándar s = 4
Confianza 1- = 0,900
Tamaño N = 1000
Población
Muestra
_
x
Intervalo de confianza para al (1-)100%
Si la Confianza “aumenta” el intervalo se hace más “ancho”
Como se afecta el Intervalo al variar la Confianza
10,5 10,6 10,7 10,8 10,9 11,0 11,1 11,2 11,3 11,4 11,5 11,6 11,7 11,8 11,9 12,0 12,1 12,2 12,3 12,4 12,5 12,6 12,7 12,8 12,9 13,0 13,1 13,2 13,3 13,4 13,5
Intervalos de Confianza
11,08 12,92
4,000 950
12,000 ± 1,677 * ———— * ————
50 999
4,000
12,000 ± 1,677 * ———— * 0,951
7,071068
12,000 ± 1,677 * 0,566 * 0,975
12,000 ± 0,925
Tamaño n = 50
Promedio = 12
Desviación Estándar s = 4
Confianza 1- = 0,990
Tamaño N = 1000
Población
Muestra
_
x
4,000 950
12,000 ± 2,680 * ———— * ————
50 999
4,000
12,000 ± 2,680 * ———— * 0,951
7,071068
12,000 ± 2,680 * 0,566 * 0,975
12,000 ± 1,478
10,52 13,48
121;1
_
N
nN
n
stx n
Roberto Castro Z
29
Tamaño n = 50
Promedio = 12
Desviación Estándar s = 4
Confianza 1- = 0,900
Tamaño N = 1000
Población
Muestra
_
x
Intervalo de confianza para al (1-)100%
Si el Tamaño de Muestra “aumenta” el intervalo se hace más “angosto”
Como se afecta el Intervalo al variar el Tamaño de Muestra
11,0 11,1 11,2 11,3 11,4 11,5 11,6 11,7 11,8 11,9 12,0 12,1 12,2 12,3 12,4 12,5 12,6 12,7 12,8 12,9 13,0
Intervalos de Confianza
Tamaño n = 200
Promedio = 12
Desviación Estándar s = 4
Confianza 1- = 0,990
Tamaño N = 1000
Población
Muestra
_
x
11,08 12,92
4,000 950
12,000 ± 1,677 * ———— * ————
50 999
4,000
12,000 ± 1,677 * ———— * 0,951
7,071068
12,000 ± 1,677 * 0,566 * 0,975
12,000 ± 0,925
4,000 800
12,000 ± 2,576 * ———— * ————
200 999
4,000
12,000 ± 2,576 * ———— * 0,801
14,14214
12,000 ± 2,576 * 0,283 * 0,895
12,000 ± 0,652
11,35 12,65
121;1
_
N
nN
n
stx n
Roberto Castro Z
30
Distribución tPromedio 316
Desviación Estándar 243,91Muestra 40
Nivel de Confianza 95%Alfa 5%
Grados Libertad 39t 2,023
E 78,0Límite Inferior 237,99
Límite Superior 394,01
Intervalos de Confianza
Cálculo en Excel
404 87 703 96874 234 125 712
234 68 350 503149 489 440 498279 57 37 327215 185 252 608123 141 27 35855 758 521 42543 72 302 303
321 863 127 203
Distribución NormalPromedio 316
Desviación Estándar 243,91Muestra 40
Nivel de Confianza 95%Alfa 5%
E 75,59Límite Inferior 240,41
Límite Superior 391,59
=+PROMEDIO(B$4:B$43)=+DESVEST(B$4:B$43)=+CONTAR(B$4:B$43)0,95=(1-H7)=+H6-1=DISTR.T.INV(H8;H9)=+(H5/RAIZ(H6))*H10=+H4-H11=+H4+H12
=+PROMEDIO(B$4:B$43)=+DESVEST(B$4:B$43)=+CONTAR(B$4:B$43)0,95=(1-E7)=INTERVALO.CONFIANZA(E8;E5;E6)=+E4-E9=+E4+E9
Ejemplo
Roberto Castro Z
31
Intervalos de Confianza
One-Sample T: Saldos
Variable N Mean StDev SE Mean 95,0% CI Saldos 40 316,0 243,9 38,6 ( 238,0. 394,0)
Cálculo en Minitab
Stat / Basic Statistics / 1-Sample t
Ejemplo
Roberto Castro Z
32
El error de estimación es la diferencia entre el promedio de la muestra y el verdadero promedio de la población:
1)1,21(
N
nN
n
stE
n
proporciónunaparaPp
promediounparax
Error de Estimación
El error de estimación no se puede conocer porque precisamente se está tratando de estimar μ o P. Sin embargo es posible limitar su valor por medio de las probabilidades.
Para calcular el límite máximo del error de estimación para un promedio μ o una proporción P, con un nivel de confianza 1- α establecido, utilizamos:
En dónde s es la desviación estándar de la muestra, p la proporción de la muestra (q=1-p), n el tamaño de la muestra, N el tamaño de la población, 1- α el nivel de confianza.
E se conoce como el Error Máximo de Estimación con una confianza de 1- α
121
N
nN
n
pqzE
Para un Promedio μ :
Para una Proporción P :
Roberto Castro Z
33
Tamaño de Muestra
2
21
E
zPQn
Donde:
E es el límite máximo para el error permitido. 1-α es la probabilidad de que el error no supere E. P es una aproximación la proporción de la población.
Si se desea estimar el tamaño de muestra para estimar una proporción P, se utiliza:
2
21)5.0)(5.0(
E
zn
Si no se tiene idea del valor de P, se puede utilizar P=0.5, este valor genera el tamaño de muestra más grande:
Para una proporción
Roberto Castro Z
34
Para un promedio
2
2
21
E
zn
Donde:
E es el límite máximo para el error permitido.
1-a es la probabilidad de que el error no supere E.
s es una aproximación la variancia de la población.
Tamaño de Muestra
Roberto Castro Z
35
Lecturas:
Mason & Lind: pág 374 a 394
Ejercicios:
Mason & Lind:
Página Ejercicios
396 32, 34
403 65, 66
Medidas de Variabilidad
Roberto Castro Z
36
Prueba de Hipótesis
• Hipótesis estadística y tipos de hipótesis• Nivel de significancia• Tipos de errores• Estadísticos para las pruebas • Reglas de decisión• Planteo de la hipótesis• Pasos para realizar la prueba de hipótesis
Roberto Castro Z
37
Prueba de Hipótesis
Un Parámetro es un valor que se calcula utilizando todos los valores de la Población
Por lo general se denotan con letras griegas o mayúsculas
Los Parámetros en muchas ocasiones son valores desconocidos ya que no tenemos todos los componentes de la población
Roberto Castro Z
38
Como los parámetros son valores desconocidos, podemos plantear hipótesis sobre su valor real, y mediante un mecanismo científico, realizar una comprobación de esta hipótesis (demostrar si es verdadera o falsa)
Ejemplos de hipótesis:
- La proporción de personas contagiadas de alguna enfermedad es 8%.
El ingreso mensual promedio de las familias de un barrio marginal es 55000 colones.
El tiempo promedio de capacitación de un software es de 18 horas.
Prueba de Hipótesis
Roberto Castro Z
39
Dado que los valores completos de la población son desconocidos (y el valor del parámetro también es desconocido), la forma de realizar una prueba y verificar la validez o no de una hipótesis, es tomando una muestra y calculando el estadístico correspondiente (estadístico: medición que se calcula con los valores de la muestra).
Si el valor de la muestra es suficientemente cercano al valor hipotético en la población decimos que la hipótesis es cierta.
De lo contrario, si el valor de la muestra es suficientemente lejano al valor supuesto en la población decimos que la hipótesis es falsa.
Prueba de Hipótesis
Roberto Castro Z
40
Prueba de Hipótesis
Hipótesis simple
Es una hipótesis en la que el parámetro queda especificado por completo, o sea solo puede tomar un único valor.
• El promedio de edad de un grupo de estudiantes universitarios es 25 años: μ= 25.
• La proporción de trabajadores de una empresa que sufren de estrés es 35%: P = 0.35
Hipótesis compuesta
Es una hipótesis en la que el parámetro puede tomar más de un valor.
• El promedio de gastos mensuales en medicamentos por familia en San José es
superior a 5000 colones: μ > 5000.
• La proporción de adultos que votaran en las próximas elecciones es superior al 70%:
P > 0.7
• La proporción de personas que llaman a la sección de servicio al cliente de una empresa vendedora de computadoras es inferior al 6%: P < 0.06
Roberto Castro Z
41
Hipótesis Nula
Es una hipótesis que se plantea para ser rechazada o no. A la hipótesis nula se le considera cierta hasta tanto no encontremos evidencia para rechazarla.
La hipótesis nula siempre es una hipótesis simple.
7.0:
30:
0
0
PH
H
Ejemplo
El fabricante de un software asegura que con un nuevo manual no más del 10% de los compradores llamará haciendo solicitudes de servicio (El valor límite para la proporción es 10%).
P es la proporción de todos los compradores que llaman a solicitar servicio (La afirmación se aplica a todos los compradores: la población completa)
1.0:0 PH
Prueba de Hipótesis
Roberto Castro Z
42
Hipótesis alternativa
Siempre se formula un hipótesis nula y una hipótesis alternativa apropiada; ésta última es la que aceptamos como cierta cuando la hipótesis nula es rechazada.
La hipótesis alternativa siempre es una hipótesis compuesta (unilateral o bilateral).
7.0:30: 11 PHH
Ejemplo
El fabricante de un software asegura que con un nuevo manual no más del 10% de los compradores llamará haciendo solicitudes de servicio (El valor límite para la proporción es 10%).
1.0:1 PH
Prueba de Hipótesis
Roberto Castro Z
43
Cuando la hipótesis alternativa es una hipótesis unilateral se dice que es de una cola.
Si es bilateral se dice que es de dos colas.
Prueba de Hipótesis
Prueba de Hipótesis de DOS COLAS
Prueba de Hipótesis de UNA COLA
Roberto Castro Z
44
Prueba de Hipótesis
Decisión Correcta
Error Tipo I
Error Tipo II
Decisión Correcta
Se Acepta
Se Rechaza
H0
Verdadera
Falsa
H0
Posibles errores al tomar la decisión
Si el procedimiento de prueba lleva al Rechazo de H0 pero en la Realidad la hipótesis es verdadera, se comete un error, este error se llama Error Tipo I
Procedimiento de Prueba
Realidad
Si mediante el procedimiento de prueba se Acepta H0 pero en la Realidad la hipótesis es falsa, se comete un error, este error se llama Error Tipo II
Roberto Castro Z
45
Ejemplo
Un fabricante de software afirma que la proporción de personas que llamará solicitando servicio se su producto no supera el 10%. Pero un distribuidor mayorista del software sospecha que esta proporción es mayor a lo que el fabricante afirma.
El distribuidor quiere determinar si la afirmación del fabricante es incorrecta (se quiere demostrar que la afirmación del distribuidor es la correcta)
1.0:
1.0:
1
0
PH
PH
Prueba de Hipótesis
Roberto Castro Z
46
Ejemplo
Para verificar si la afirmación del fabricante es cierta, se toman los primeros 100 compradores del software y se controla si llaman solicitando servicio durante el siguiente mes luego de la compra.
La proporción de personas llamaron en esa muestra es de 13%, o sea p=0.13.
¿Podríamos considerar que 0.13 es muy cercano a 0.10 y que la diferencia se debe al azar? Entonces: ¿Podemos concluir que la afirmación del fabricante es cierta?O sea, no rechazamos H0
¿O podemos considerar que 0.13 y 0.10 son muy lejanos y que hay “suficiente evidencia” para concluir que la proporción de llamadas es superior al 10%? Entonces: ¿Podemos rechazar H0
Prueba de Hipótesis
Roberto Castro Z
47
Nivel de Significancia
Cuando consideramos que la diferencia entre el parámetro y el valor en la muestra es mayor que lo que puede atribuirse al azar, decimos que la diferencia es significativa.
Cuando la diferencia es significativa rechazamos la hipótesis nula y aceptamos como válida la hipótesis alternativa. De lo contrario se mantiene como cierta la hipótesis nula.
El nivel de significancia es la probabilidad de cometer el error tipo I () . Como es una probabilidad se le dan valores porcentuales entre 0 y 100.
Los valores más comunes son 0.01 (1%) , 0.05 (5%) y 0.1 (10%).
Un nivel de significancia del 1%, (= 0.01) indica que existe un 1% de probabilidad de cometer el error de rechazar H0 cuando es realmente cierta (Error Tipo I).
En otras palabras, si se realizara 100 veces el proceso, cometeríamos 1 vez el error de rechazar la hipótesis nula cuando realmente es cierta.
Prueba de Hipótesis
Roberto Castro Z
48
¿Como se determina ?
Si se esta probando un nuevo medicamento contra una enfermedad. Y suponemos que las normas dicen que el medicamento se comercializa si por lo menos el 60% de las personas que lo prueban sanan. La hipótesis es:
H0 : P = 0.6 H1 : P < 0.6
¿ Utilizamos: =0.1 o =0.01 ?
Prueba de Hipótesis
Con =0.1, la probabilidad de rechazar H0 cuando es cierta es 10% O sea, que si se extrajeran 100 muestra, en 10 de éstas podríamos concluir que el porcentaje de personas que sanan es menor al 60% cuando en realidad es el 60% (o más)
Al usar =0.1, podríamos rechazar la comercialización del producto cuando este realmente funciona un 10% de las veces.
Roberto Castro Z
49
Si usamos =0.01, la probabilidad de rechazar H0 cuando es cierta es de un 1% O sea, que en 1 de cada 100 muestras posibles podríamos concluir que el porcentaje de personas que sanan es menor al 60% cuando en realidad es el 60% (o más)
Al usar =0.01, rechazaríamos la comercialización del producto cuando realmente funciona solamente en 1% de las veces.
En este caso es mejor utilizar =0.01 en lugar de =0.1, ya que el rechazo de comercialización de un medicamento que cumple las normas es un error serio, por ello la probabilidad de cometer el error tipo I debe ser pequeña.
En algunos casos el a puede ser superior (10%, 15%, e incluso más del 15%).
Prueba de Hipótesis
Roberto Castro Z
50
Estadístico para realizar la prueba de hipótesis
Para determinar si la diferencia entre el estimador y el parámetro es significativa se utiliza un estadístico zc o tc. Este se compara con un valor en la distribución normal o la distribución t-student de acuerdo con el nivel de significancia establecido.
01
00
:
:
H
H
1
0
_
N
nN
n
xzc
s conocido
Estadístico de prueba
Prueba de Hipótesis
Roberto Castro Z
51
zzc
01
00
:
:
H
H
Prueba de cola izquierda
Rechazar Ho si
Tradicional Software
Método
Prueba de Hipótesis
Regla de Decisión
Valor P <
Roberto Castro Z
52
Prueba de cola derecha
Rechazar Ho si
Tradicional Software
Método
Prueba de Hipótesis
1zzc
01
00
:
:
H
H
Regla de Decisión
Valor P <
Roberto Castro Z
53
Prueba de dos colas
Rechazar Ho si
Valor P <
Tradicional Software
Método
Prueba de Hipótesis
2
21
:
zz
sio
zz
c
c
01
00
:
:
H
H
Regla de Decisión
Roberto Castro Z
54
404 87 703 96874 234 125 712
234 68 350 503149 489 440 498279 57 37 327215 185 252 608123 141 27 35855 758 521 42543 72 302 303
321 863 127 203
One-Sample Z: Var1
Test of mu = 310 vs mu not = 310The assumed sigma = 243,9
Variable N Mean StDev SE MeanVar1 40 316,0 243,9 38,6
Variable 95,0% CI Z PVar1 ( 240,4. 391,6) 0,16 0,876
310:
310:
1
0
H
H
1- = 0.95 → = 0.05 → 1-/2 = 0.025
Hipótesis:
Nivel de Significancia:
Regla de Decisión: i) Rechazar H0 si zc>1,96 o si zc<1,96ii) Rechazar H0 si Valor P < 0,05
Datos
Cálculo en MinitabCálculo en Excel
No se rechaza H0 ya que:Valor P > 0,05
En Excel cuando la prueba de hipótesis es de dos colas, el valor de la fórmula se debe multiplicar por 2 (Excel calcula siempre la prueba de una cola
Prueba de Hipótesis
Roberto Castro Z
55
Cálculo tradicional
Dado que zc = 0,156 < 1,96 , yzc = 0,156 > -1,96
Entonces no se rechaza H0
Prueba de Hipótesis
Roberto Castro Z
56
Prueba de Hipótesis
¿Cómo plantear una hipótesis?
Cuando se desea probar una afirmación, la negación de la afirmación se debe tomar como hipótesis nula (siempre una hipótesis simple =). Entonces, la afirmación es la hipótesis alternativa (siempre una hipótesis compuesta > < ≠)
Ejemplos:
Un tratamiento tradicional contra una enfermedad tiene una efectividad del 35%. Se desarrolló un nuevo tratamiento que se asegura es más efectivo que el anterior (efectivo en el 45% de los casos). Se afirma que el nuevo tratamiento es mejor que el tradicional.
Sea P: Proporción de personas que sanan de la enfermedad con el nuevo tratamiento.
35.0:
35.0:
1
0
PH
PH
Roberto Castro Z
57
Ejemplos:
En un gimnasio se sigue una rutina de ejercicios que junto a una dieta produce un descenso de 20 libras en 5 semanas. La rutina de ejercicios será sustituida por otra que se afirma disminuye 25 libras (o más). Se quiere demostrar que la nueva rutina de ejercicios es mejor que la anterior. Sea μ : promedio de disminución de peso en libras luego de 5 semanas de ejercicios junto con la dieta
20:
20:
1
0
H
H
En cierto país se sabe que la proporción de mujeres jóvenes que ingresan a los hospitales embarazadas sin saberlo es de 7%. Un nuevo hospital se construye para dar servicio a una zona con índices de pobreza altos. Se sospecha que en esta zona la proporción de mujeres jóvenes que ingresen embarazadas sin saberlo será mayor que en el resto de los hospitales.Sea P : proporción de mujeres jóvenes que ingresan embarazadas al nuevo hospital sin saberlo.
7.0:
7.0:
1
0
PH
PH
Prueba de Hipótesis
Roberto Castro Z
58
Pasos para hacer una prueba de hipótesis
Método tradicional
1. Plantear la hipótesis nula y la hipótesis alterna H0 y H1
2. Fijar el nivel de significancia () 3. Se determina el estadístico apropiado y se construye una regla de decisión.4. Cálculo del estadístico5. Decisión
Por Software
1. Plantear la hipótesis nula y la hipótesis alterna H0 y H1
2. Fijar el nivel de significancia () 3. Determinar en el software la Prueba Apropiada (o fórmulas apropiadas).4. Cálculo en el Software5. Decisión
Prueba de Hipótesis
Roberto Castro Z
59
Prueba de Hipótesis para Un Promedio
Estadístico de Prueba conocida
01
00
:
:
H
H
1
0
_
N
nN
n
xzc
Roberto Castro Z
60
Prueba de Hipótesis para Un Promedio
Estadístico de Prueba desconocida
01
00
:
:
H
H
1
0
_
NnN
n
s
xtc
Roberto Castro Z
61
Hipótesis:
La Carolina Tobacco Company afirma que sus cigarrillos sin filtro más vendidos tienen como máximo 40 mg de nicotina. Se examinaron, de forma aleatoria, 10 cigarrillos de esta compañía. Usando un nivel de significancia del 1%, probar si la afirmación de la compañía es incorrecta.
Nivel de significancia: = 0,01
Regla de Decisión: Rechazar H0 si:
Valor P < 0,01
Prueba de Hipótesis para Un Promedio
40:
40:
1
0
H
H
Ejemplo
Nicotina47,339,340,338,346,343,342,349,340,346,3
Roberto Castro Z
62
Stat / Basic Statistics / 1-Sample t
Calculo en Minitab
One-Sample T: Nicotina
Test of mu = 40 vs mu > 40
Variable N Mean StDev SE MeanNicotina 10 43,30 3,80 1,20
Variable 95,0% Lower Bound T PNicotina 41,10 2,75 0,011
Dado que Valor P = 0,011 y es mayor que =0,01, entonces NO se rechaza H0
→ μ=40
Ejemplo
Prueba de Hipótesis para Un Promedio
Roberto Castro Z
63
Prueba de Hipótesis para Dos Promedios
Estadístico de Prueba 1 y 2 desconocidas
21
2121
222
211
212
_
1
_
1
)2(
)1()1(
)()(21 nn
nnnn
snsn
xxt nnc
0:
0:
21211
21210
H
H
kH
kH
211
210
:
:
Roberto Castro Z
64
Hipótesis:
Contenido de alquitrán en miligramos en cigarrillos con filtro y sin filtro. Se quiere probar con un 5% de nivel de significancia si los cigarrillos con filtro tienen menor contenido medio de alquitrán que los sin filtro.
Nivel de significancia: = 0,01
Regla de Decisión: Rechazar H0 si:
Valor P < 0,01
Prueba de Hipótesis para Dos Promedios
Con Filtro Sin Filtro16 2315 2316 2414 2616 251 26
16 2118 24101412111413131316168
1611
CS
CS
H
H
:
:
1
0
Ejemplo
Roberto Castro Z
65
Prueba de Hipótesis para Dos Proporciones
Stat / Basic Statistics / 2-Sample t
Calculo en Minitab
Two-Sample T-Test and CI: Sin Filtro. Con Filtro
Two-sample T for Sin Filtro vs Con Filtro
N Mean StDev SE MeanSin Filt 8 24,00 1,69 0,60Con Filt 21 13,29 3,74 0,82
Difference = mu Sin Filtro - mu Con FiltroEstimate for difference: 10,7195% lower bound for difference: 8,99T-Test of difference = 0 (vs >): T-Value = 10,59 P-Value = 0,000 DF = 25
Dado que Valor P = 0,00 y es menor que =0,01, entonces SI se rechaza H0
→ μS>μC
Ejemplo
Roberto Castro Z
66
Prueba de Hipótesis para Dos Proporciones
Calculo en Excel
Valor P 2,57E-08
Ejemplo
Roberto Castro Z
67
Estadístico de Prueba
01
00
:
:
PPH
PPH
n
QP
Ppzc
00
0
Prueba de Hipótesis para una Proporción
Roberto Castro Z
68
Prueba de Hipótesis para una Proporción
Hipótesis:
Los datos corresponden a 25 fumadores que siguieron una terapia para dejar de fumar con parches de nicotina, después de un año se verifica cuales dejaron de fumar (1) y cuales continúan fumando (0). Se desea demostrar que no hay diferencia en la proporción de fumadores que dejaron de fumar y los que no, luego de la terapia de parches de nicotina.
5,0:
5,0:
1
0
PH
PH
Nivel de significancia: = 0,05
Regla de Decisión: Rechazar H0 si:
Valor P < 0,05
Individuo Resultado1 02 03 14 05 16 17 08 09 0
10 111 012 113 114 115 116 017 018 119 020 121 022 123 024 025 0
Ejemplo
Roberto Castro Z
69
Prueba de Hipótesis para Dos Proporciones
Stat / Basic Statistics / 1 Proportion
Calculo en Minitab
Test and CI for One Proportion: Resutlado
Test of p = 0,5 vs p not = 0,5
Success = 1
ExactVariable X N Sample p 95,0% CI P-ValueResutlado 11 25 0,440000 (0,244024. 0,650718) 0,690
Dado que Valor P = 0,69 y es mucho mayor que =0,05, entonces NO se rechaza H0
→ P=50%
Ejemplo
Roberto Castro Z
70
Prueba de Hipótesis para dos Proporciones
Estadístico de Prueba
0:
0:
21211
21210
PPPPH
PPPPH
21
2121
11)ˆ1(ˆ
)()(
nnpp
PPppzc
kPPH
kPPH
211
210
:
:
21
21ˆnn
xxp
Roberto Castro Z
71
Prueba de Hipótesis para Dos Proporciones
Hipótesis:
Los datos corresponden a 20 mujeres y 30 hombres a los que en una encuesta se les pidió que dijeran si estaban de acuerdo (1) o en desacuerdo (0) con la afirmación: Definitivamente quiero estar casado (a). Se desea poner a prueba la hipótesis de que la proporción de hombres que contestó afirmativamente es igual a la proporción de mujeres que también contestó afirmativamente
MH
MH
PPH
PPH
:
:
1
0
Nivel de significancia: = 0,05
Regla de Decisión: Rechazar H0 si:
Valor P < 0,05
Individuo Sexo Respuesta Individuo Sexo RespuestaA1 Mujer 0 B1 Hombres 0A2 Mujer 0 B2 Hombres 0A3 Mujer 1 B3 Hombres 0A4 Mujer 0 B4 Hombres 1A5 Mujer 0 B5 Hombres 1A6 Mujer 0 B6 Hombres 0A7 Mujer 0 B7 Hombres 0A8 Mujer 1 B8 Hombres 0A9 Mujer 0 B9 Hombres 1A10 Mujer 0 B10 Hombres 0A11 Mujer 0 B11 Hombres 0A12 Mujer 1 B12 Hombres 1A13 Mujer 1 B13 Hombres 0A14 Mujer 0 B14 Hombres 1A15 Mujer 0 B15 Hombres 0A16 Mujer 0 B16 Hombres 0A17 Mujer 0 B17 Hombres 1A18 Mujer 1 B18 Hombres 0A19 Mujer 0 B19 Hombres 0A20 Mujer 0 B20 Hombres 0
B21 Hombres 0B22 Hombres 1B23 Hombres 0B24 Hombres 0B25 Hombres 0B26 Hombres 1B27 Hombres 0B28 Hombres 0B29 Hombres 1B30 Hombres 0
Ejemplo
Roberto Castro Z
72
Prueba de Hipótesis para Dos Proporciones
Stat / Basic Statistics / 2 Proportions
Calculo en Minitab
En Minitab los datos se organizan en una sola columna y se diferencian por la Variable Sexo
Test and CI for Two Proportions: Respuesta. Sexo
Success = 1
Sexo X N Sample pHombres 9 30 0,300000Mujer 5 20 0,250000
Estimate for p(Hombres) - p(Mujer): 0,0595% CI for p(Hombres) - p(Mujer): (-0,200806. 0,300806)Test for p(Hombres) - p(Mujer) = 0 (vs not = 0): Z = 0,39 P-Value = 0,696
Dado que Valor P = 0,696 y es mucho mayor que =0,05, entonces NO se rechaza H0 → PH=PM
Ejemplo
Roberto Castro Z
73
Prueba de Hipótesis para Dos Muestras Pareadas
n
DD
n
ii
1_
Media
11
2
12
2
nn
D
DS
n
i
n
ii
i
D
Desviación Estándar
Roberto Castro Z
74
Estadístico de Prueba
Prueba de Hipótesis para Dos Muestras Pareadas
00:
00:
21211
21210
D
D
H
H
kkH
kkH
D
D
211
210
:
:
n
SD
tD
Dnc
_
)1(
Roberto Castro Z
75
Prueba de Hipótesis para Dos Muestras Pareadas
Sujeto Antes DespuésA 6,6 6,8B 6,5 2,4C 9,0 7,4D 10,3 8,5E 11,3 8,1F 8,1 6,1G 6,3 3,4H 11,6 2,0
Hipótesis:
Los datos corresponden a 8 individuos seleccionados al azar: mediciones antes y después de la hipnosis en una escala de dolor en centímetros. Se quiere probar que el promedio en la escala de dolor es diferente luego de la hipnosis.
DA
DA
H
H
:
:
1
0
Nivel de significancia: = 0,05
Regla de Decisión: Rechazar H0 si: Valor P < 0,05
Ejemplo
Roberto Castro Z
76
Prueba de Hipótesis para Dos Muestras Pareadas
Valor de P 0,0190
Stat / Basic Statistics / Paired t
Paired T for Antes - Después
N Mean StDev SE MeanAntes 8 8,713 2,177 0,770Después 8 5,588 2,608 0,922Difference 8 3,13 2,91 1,03
95% CI for mean difference: (0,69. 5,56)T-Test of mean difference = 0 (vs not = 0): T-Value = 3,04 P-Value = 0,019
Calculo en Minitab
Calculo en Excel
Valor P = 0,019
1- = 0,05
Se rechaza H0
→ μA≠μD
Ejemplo
Roberto Castro Z
77
Lecturas:
Mason & Lind:
Prueba de Hipótesis muestras grandes: pág 410 a 441
Prueba de Hipótesis para Proporciones: pág 451 a 467
Prueba t student Muestras pequeñas: pág 479 a 505
Ejercicios:
Mason & Lind:
Página Ejercicios
446 36, 37
469 23
503 21
504 24
506 31
509 39
510 40
Prueba de Hipótesis
Roberto Castro Z
78
Análisis de Variancia de un Factor
Distribución F
La distribución de probabilidad que se utiliza para la prueba de hipótesis relacionada con el análisis de variancia es la Distribución F. Esta distribución es sesgada a la derecha.
La prueba de hipótesis del análisis de variancia es solo de cola derecha, por lo que si se utilizan los valores de la distribución como regla de decisión, solamente se Rechaza H0 si el valor calculado Fc es mayor que el
valor de la distribución F1-
Si se utiliza un software que calcule el Valor P, la regla de decisión, siempre es Rechazar H0 si Valor P < 1-
Roberto Castro Z
79
Análisis de Variancia de un Factor
Análisis de Variancia
En experimentos, se conducen automóviles nuevos contra una pared fija a 35 millas por hora, luego se miden las lesiones en la cabeza que sufren los “maniquíes”. Los resultados dependen del tipo de automóvil, por lo que se separan en Subcompacto, Compacto, Medio, y Full-size.
La cantidad de lesiones sufridas tiene una variabilidad que se puede asociar a condiciones aleatorias, pero también hay variación debida al tamaño del automóvil. El análisis de variancia divide la variabilidad total en dos fuentes: una variabilidad debida al tamaño del automóvil, y el resto debido a otros factores (que consideramos aleatorios).
Cuando solo se considera una fuente de variación (tamaño del automóvil en este caso) se llama análisis de variancia de un factor.Se puede realizar análisis de variancia de muchos factores. En este curso solo tratamos el de un solo factor.
Roberto Castro Z
80
Análisis de Variancia de un Factor
Hipótesis en el Análisis de Variancia
Sean: μsc el promedio de lesiones en autos subcompactos, μc el promedio de lesiones
en autos compactos, μm el promedio de lesiones en autos medianos y μfs el promedio
de lesiones en autos full-size. Entonces la prueba de hipótesis por plantear es:
diferente es promedioalgún :
:
1
0
H
H fsmcsc
La hipótesis nula es que los promedios de lesiones para autos subcompactos, compactos, medianos y full-size son todos iguales, contra la hipótesis alternativa de que al menos uno de esos promedios es diferente.
Con el análisis de variancia no es posible determinar cuál de los promedios es diferente, solo se prueba que alguno es diferente.
Roberto Castro Z
81
Lecturas:
Mason & Lind:
Ejercicios:
Mason & Lind:
Página Ejercicios
510 40
Prueba de Hipótesis