Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Inferencia de información para dos o más poblacionesContrastes de hipótesis para dos poblaciones y comparación de grupos mediante ANOVA
Blanca de la Fuente y Ángel A. Juan
PID_00161060
CC-BY-SA • PID_00161060 2 Inferencia de información para dos o más poblaciones
CC-BY-SA • PID_00161060 Inferencia de información para dos o más poblaciones
Índice
Introducción .......................................................................................... 5
Objetivos ................................................................................................. 6
1. Contrastes de hipótesis para dos poblaciones ......................... 71.1. Contrastes de hipótesis para la diferencia de medias ................... 7
1.2. Contrastes de hipótesis para la diferencia
de proporciones ............................................................................ 22
1.3. Contrastes de hipótesis de comparación de varianzas ................. 26
2. Comparación de grupos mediante ANOVA ............................... 312.1. Comparaciones de varias medias ................................................. 32
2.2. La lógica del contraste ANOVA .................................................... 38
2.3. Las hipótesis del modelo ANOVA ................................................ 41
Resumen .................................................................................................. 47
Ejercicios de autoevaluación ............................................................. 49
Solucionario ........................................................................................... 52
CC-BY-SA • PID_00161060 Inferencia de información para dos o más poblaciones
CC-BY-SA • PID_00161060 5 Inferencia de información para dos o más poblaciones
Introducción
En los módulos anteriores se introdujeron los conceptos básicos de estimación
y de contraste de hipótesis relacionados con una población. En la práctica co-
tidiana, sin embargo, es fácil encontrarse con situaciones en las que se dispone
de dos o más grupos de individuos o poblaciones y, en tal caso, el interés ra-
dica a menudo en ser capaz de discernir si dichos grupos o poblaciones se pue-
den considerar como semejantes –desde un punto de vista estadístico– o si,
por el contrario, son grupos o poblaciones que muestran diferencias significa-
tivas entre ellos. Así, por ejemplo, puede ser conveniente comparar las califi-
caciones medias de dos grupos de estudiantes en función de si han hecho o no
uso de una metodología docente innovadora, comparar los porcentajes de re-
cuperación de dos o más grupos de enfermos según el tratamiento recibido,
comparar las calidades medias de diferentes accesos a Internet en función de
la empresa proveedora, comparar los precios medios de los servicios de obten-
ción de documentos en función de la institución que los ofrezca, etc.
Cuando se consideran dos grupos o poblaciones, las técnicas que se usan para
comparar las respectivas medias o proporciones son muy similares a las utili-
zadas en el caso de una población: contrastes de hipótesis basados en el uso de
la distribución normal (cuando se comparan dos proporciones) o de la t-Stu-
dent (cuando se comparan dos medias). En el caso de la comparación entre
dos medias de grupos distintos, hay que distinguir si se trata de dos grupos in-
dependientes (por ejemplo, cuando se comparan los resultados de un test rea-
lizados a dos grupos distintos de individuos) o bien si se trata de dos grupos
dependientes (por ejemplo, cuando se están considerando los resultados de un
test previo con los resultados de un test posterior, ambos realizados al mismo
grupo de individuos).
Finalmente, en el caso de que se deseen comparar más de dos grupos o pobla-
ciones, los contrastes anteriores ya no sirven y resulta necesario recurrir a las
técnicas ANOVA basadas en la distribución F-Snedecor. El uso de estas técnicas
posibilita discernir si las medias correspondientes a un conjunto de tres o más
grupos son todas aproximadamente iguales o si, por el contrario, se puede es-
tablecer que existen diferencias significativas entre algunas de ellas (y, por
consiguiente, entre los grupos asociados).
CC-BY-SA • PID_00161060 6 Inferencia de información para dos o más poblaciones
Objetivos
Los objetivos académicos del presente módulo se describen a continuación:
1. Comparar dos poblaciones utilizando procedimientos similares a los vistos
para una sola población.
2. Aprender a formular una hipótesis sobre la naturaleza de las dos poblacio-
nes y la diferencia entre sus medias o proporciones.
3. Conocer el método para comparar las varianzas de dos poblaciones. Para
realizar estos contrastes se introduce la distribución F.
4. Entender la importancia práctica de las técnicas ANOVA a la hora de dis-
cernir si existen diferencias significativas entre más de dos grupos o pobla-
ciones.
5. Aprender a usar los tests F de ANOVA y saber interpretar adecuadamente
los resultados que ofrecen.
6. Comprender la lógica que subyace a la metodología ANOVA.
7. Conocer las hipótesis que se han de satisfacer para poder aplicar las técni-
cas ANOVA con garantías.
8. Aprender a usar software estadístico y/o de análisis de datos como instru-
mento básico en la aplicación práctica de los conceptos y técnicas estadís-
ticas.
CC-BY-SA • PID_00161060 7 Inferencia de información para dos o más poblaciones
1. Contrastes de hipótesis para dos poblaciones
En este módulo se presentan métodos para contrastar las diferencias entre las
medias o proporciones de dos poblaciones y para contrastar varianzas.
Para comparar las medias o las proporciones poblacionales, se extrae una muestra
aleatoria de las dos poblaciones y la inferencia sobre la diferencia entre ambas me-
dias o proporciones se basa en los resultados muestrales. El método apropiado
para analizar la información depende del procedimiento empleado al seleccionar
las muestras. Consideramos las dos posibilidades siguientes:
a) Muestras dependientes (datos pareados): en este procedimiento, las mues-
tras se eligen por pares, una de cada población. La idea es que aparte de la carac-
terística objeto del estudio, los elementos de cada uno de estos pares deben estar
relacionados, de manera que la comparación pueda establecerse directamente.
Por ejemplo, supongamos que queremos medir la eficacia de un curso de lectura
rápida. Una manera de abordar el problema sería tomar nota de las palabras leídas
por minuto por una muestra de alumnos antes de tomar el curso y compararlas
con los resultados obtenidos por los mismos alumnos una vez completado el curso.
En este caso, cada par consistiría en medidas de velocidad de un mismo alumno
realizadas antes y después del curso, se podría averiguar si existen pruebas contun-
dentes de la eficacia del curso de lectura rápida.
b) Muestras independientes: en este método se extraen muestras indepen-
dientes de cada una de las dos poblaciones, de manera que los miembros de
una muestra no tienen necesariamente relación con los miembros de la otra.
Por ejemplo, se realiza un estudio para evaluar las diferencias en los niveles
educativos entre dos centros de capacitación, se aplica un examen común a
personas que asisten a cada centro. Las calificaciones del examen son uno de
los factores principales para evaluar diferencias de calidad entre los centros.
1.1. Contrastes de hipótesis para la diferencia de medias
Contraste de hipótesis para la diferencia entre las medias de dos poblaciones:
muestras independientes.
En este apartado presentaremos los procedimientos para contrastar las hipóte-
sis acerca de la diferencia de medias de dos poblaciones.
Se supone que se dispone de muestras aleatorias independientes de n1 y n2,
observaciones procedentes de dos poblaciones normales con medias 1 y 2 y
varianzas conocidas y respectivamente. Se desea contrastar la hipóte-
sis nula (H0) que afirma que los valores de las medias de las dos poblaciones
son iguales: H0: μ1 – μ2 = 0 frente a cualquiera de las hipótesis alternativas:
Nota
A veces en lugar de: H0: 1 – 2 = 0escribiremos: H0: 1 = 2
21
22
CC-BY-SA • PID_00161060 8 Inferencia de información para dos o más poblaciones
H1: μ1 – μ2 0, H1: μ1 – μ2 < 0, H1: μ1 – μ2 > 0. Se fija un nivel de significación
para realizar el contraste.
El estadístico de contraste será:
,
donde es el error estándar.
Es una observación de una distribución N(0,1).
Recordad
La variable diferencia de me-dias muestrales:
1 1 1
2 2 2
, y
,
X N
X N
2 21 2 1 2 1 2,X X N
En el caso de que no se pueda asegurar que las muestras provienen de
poblaciones normales, sólo podremos contrastar la diferencia de medias
si los tamaños de las muestras son superiores a treinta.
El teorema central del límite dice que si tenemos un grupo numeroso
de variables independientes y todas ellas siguen el mismo modelo de
distribución (cualquiera que éste sea), la suma de ellas se distribuye se-
gún una distribución normal estándar.
Por lo tanto el estadístico de contraste:
es una observación de una variable aleatoria que se distribuye aproxi-
madamente como una N(0,1).
1 22 21 2
1 2
*x x
z
n n
2 21 2
1 21 2
x xn n
1 22 21 2
1 2
*x x
zs sn n
CC-BY-SA • PID_00161060 9 Inferencia de información para dos o más poblaciones
Regla de decisión del contraste de hipótesis
Las regiones de rechazo de la hipótesis nula H0: μ1 – μ2 = 0 son:
Figura 1. Regiones de rechazo para contrastes de las diferencias de mediasVarianzas poblacionales conocidas
Se puede actuar de dos mane-ras:1) A partir del p-valor según sea H1:• p-valor = P (Z > z*)• p-valor = P (Z < z*)• p-valor = P (Z > z*)2) Si p-valor se rechaza H0 a partir de los valores críticos según sea H1:• Si z* > z2 se rechaza H0 • Si z*< – zse rechaza H0 • Si z*> – zse rechaza H0 donde z es tal que P(Z > z) = y z/2 es tal que P(Z > z ) = /2
CC-BY-SA • PID_00161060 10 Inferencia de información para dos o más poblaciones
Una vez que se ha calculado el valor del estadístico de contraste, se debe de-
terminar el p-valor. El p-valor depende de la hipótesis alternativa planteada.
• Si H1 : 1 – 2 ≠ 0, entonces
• Si H1 : 1 – 2 < 0, entonces
• Si H1 : 1 – 2 > 0, entonces
Los p-valores de estos contrastes son la probabilidad de obtener un valor al me-
nos tan extremo como el estadístico de contraste obtenido.
Ejemplo 1. “Comparación de las medias del tiempo de respuesta de dos
servidores”.
Figura 2. Estimación de la diferencia entre las medias de dos poblaciones
En una empresa informática se desea medir la eficiencia de dos servidores web.
Para ello, miden el tiempo de espera del cliente entre la petición que hace y la
respuesta que le da el servidor. En la tabla 1 vemos los tiempos de espera (en
milisegundos) de ambos servidores (TA y TB) para cincuenta peticiones son:
Tabla 1. Datos del ejemplo 1. “Comparación de las medias del tiempo de respuesta de dos servidores”
Si el p-valor es significativo se rechaza la hipótesis nula si es menor que
el nivel de significación fijado.
2p P Z z
p P Z z
p P Z z
Tiempo de espera para el servidor A Tiempo de espera para el servidor B
9,67 10,01 8,08 10,01 6,45 6,94 12,11 10,31
9,62 10,55 9,98 9,96 9,64 10,47 12,55 10,83
9,50 11,26 10,30 9,28 8,53 8,47 7,98 8,41
CC-BY-SA • PID_00161060 11 Inferencia de información para dos o más poblaciones
Supongamos que las muestras aleatorias de los tiempos de espera son indepen-
dientes. La empresa quiere saber si el servidor A es menos eficiente (más lento)
que el servidor B con un nivel de confianza del 99%.
Para contestar a estas preguntas se hará un contraste para comparar dos me-
dias. Dado que el enunciado nos pregunta “si el servidor A es menos eficiente
que el servidor B”, considerando que un servidor es menos eficiente si es más
lento, entonces hemos de contrastar si la media del tiempo de espera del ser-
vidor A es más grande que la media del tiempo de espera del servidor B. Así
pues, tenemos que plantear una hipótesis alternativa unilateral.
• Las hipótesis nula y alternativa son:
• Fijamos = 0,01.
• No podemos asegurar que las poblaciones sean normales, pero como he-
mos mencionado anteriormente, al tratarse de muestras grandes (superio-
res a treinta observaciones) el estadístico de contraste será:
Es una observación de una variable aleatoria que se distribuye aproximada-
mente como una N(0,1).
Para resolverlo manualmente calcularemos primero los valores muestrales
como hemos expuesto en los módulos anteriores:
Tiempo de espera para el servidor A Tiempo de espera para el servidor B
10,88 10,64 7,05 10,30 9,20 7,42 10,20 9,15
8,94 10,23 11,79 11,08 4,55 7,48 11,28 7,06
10,59 11,63 9,59 10,05 8,51 11,01 6,53 8,04
9,81 8,91 10,88 9,74 12,11 9,56 8,14 11,70
9,46 10,27 9,83 11,14 7,65 6,80 8,99 10,56
9,26 9,49 10,92 9,44 8,85 8,99 10,01 7,82
9,02 8,99 10,98 9,17 8,45 7,48 8,14 6,01
8,61 10,09 9,54 10,86 8,80 12,57 9,69 8,82
9,42 9,11 10,17 8,82 7,97 7,03
10,86 9,47 10,32 9,85 8,62 8,59
Tiempo de espera para el servidor A Tiempo de espera para el servidor B
nA= 50 nB = 50
= 9,94 = 8,90
sA = 0,90 sB = 1,75
0
1
: 0
: 0A B
A B
H
H
1 22 21 2
1 2
*x x
zs sn n
Ax Bx
CC-BY-SA • PID_00161060 12 Inferencia de información para dos o más poblaciones
Las varianzas muestrales y para estimar las varianzas poblacionales y
calcular el estadístico z*:
= 3,75
Ahora se puede calcular el p-valor = 0,00
Puesto que el p-valor es menor que = 0,01, se rechaza la hipótesis nula a favor
de la alternativa. Así, el tiempo medio de espera del servidor A es mayor que
el del B. Luego el servidor A es menos eficiente que el B.
Ejemplo con Minitab: si el ejemplo anterior se resuelve con Minitab, se ob-
serva que el programa no ofrece la opción de usar la distribución normal. De
todas formas, dado que las muestras son muy grandes, sabemos que la distri-
bución t de Student se acerca a la normal a medida que aumenta el número de
grados de libertad. Por tanto, los resultados que da Minitab no serán similares
por la aproximación a lo normal.
Los resultados de la figura 3 muestran el p-valor = 0,000 < 0,001. Esto indica
que podemos rechazar la hipótesis nula concluyendo que las medias de tiem-
pos de espera del servidor A es mayor que las del B. Luego el servidor A es me-
nos eficiente que el B.
Los grados de libertad (DF) del estadístico t aumentan si las poblaciones tienen
distribución aproximadamente normal pero las varianzas poblacionales no
son iguales.
2As 2
Bs
2 2
9,94 8,90*
0,90 1,7550 50
z
( 3,75)p P Z
CC-BY-SA • PID_00161060 13 Inferencia de información para dos o más poblaciones
Figura 3. Pasos para realizar un contraste de hipótesis para la diferencia de medias para muestras independentes
Figura 4. Resultados del contraste de hipótesis
Contrastes para muestras con varianzas poblacionales desconocidas pero
iguales
El procedimiento que utilizamos se basa en la distribución t con n1 + n2 – 2
grados de libertad.
Pasos a seguir
Una vez introducidos los datos en el programa, se sigue la ruta Stat > Basic Statistics > 2-Sam-ple t (1), y se seleccionan las variables en la ventana corres-pondiente (2). En el cuadro de dialogo Options se completan los campos Confidence level: 99,0 y el tipo de hipótesis alter-nativa Alternative: greater than (3).Seleccionad OK para obtener el contraste.
Observad
En el paso (2) no presupone-mos que las varianzas sean iguales.
CC-BY-SA • PID_00161060 14 Inferencia de información para dos o más poblaciones
El estadístico de contraste será:
donde s es la desviación típica común.
Ejemplo 2. “Estudio sobre la producción científica”.
El director de una escuela universitaria quiere comparar dos departamentos, A
y B, de tamaño similar, por lo que se refiere al “número total de publicaciones
o ponencias de calidad que puedan aportar mejoras a la actividad docente de
la escuela”. Se considerará que una publicación es de calidad cuando se haya
publicado en una revista indexada o la haya publicado una editorial de pres-
tigio internacional; se considerará que una ponencia es de calidad cuando se
haya desarrollado en un congreso internacional con proceso de selección; para
determinar si la publicación o ponencia puede aportar mejoras a la actividad
docente se ha constituido un tribunal de expertos independientes.
Se ha tomado una muestra aleatoria formada por seis profesores del departa-
mento A y se ha hallado el valor de la variable “número total de publicaciones
o ponencias de calidad para cada uno de dichos profesores”. Se ha hecho lo
propio con otra muestra aleatoria formada por ocho profesores del departa-
mento B. Los resultados se presentan a continuación:
Tabla 2. Datos del ejemplo 2. “Estudio sobre la difusión científica”
Para un nivel de significación alfa = 0,05, ¿puede afirmarse que la producción
media de ambos departamentos (según los criterios establecidos) es significa-
tivamente distinta?
Para realizar el estudio partiremos del supuesto de que no hay diferencias en el
“número total de publicaciones o ponencias de calidad de ambos departamen-
tos”. Por consiguiente, en términos de la media del número total de publicacio-
nes o ponencias de calidad, la hipótesis nula es que la diferencia de medias es
cero. Si la evidencia de la muestra conduce al rechazo de esta hipótesis, llegare-
mos a la conclusión de que las medias de calidad son distintas para las dos po-
blaciones, lo que indica que hay diferencia en las publicaciones de calidad de
los dos departamentos, y eso induciría a encontrar las razones de esa diferencia.
En este estudio hay dos poblaciones: una de los profesores del departamento
A, y otra de los profesores del departamento B. Suponemos que ambas pobla-
ciones son normales y que sus varianzas son iguales pero desconocidas.
Dep. A 5 8 7 6 9 7
Dep. B 8 10 7 11 9 12 14 9
1 2
1 2
1 1
x xt
sn n
CC-BY-SA • PID_00161060 15 Inferencia de información para dos o más poblaciones
Considerando el número de publicaciones y ponencias, las medias de pobla-
ción son: A y B, se plantean las hipótesis de trabajo:
H0: μ1 – μ2 = 0 (ambas medias son iguales)
H1: μ1 – μ2 0 (ambas medias son distintas)
Se trata de un contraste de hipótesis bilateral sobre la media de dos poblacio-
nes independientes.
Se empleara Minitab para probar las hipótesis acerca de la diferencia entre las
medias de dos poblaciones (figura 5).
Figura 5. Pasos para realizar un contraste de hipótesis para la diferencia de medias para muestras con varianzas poblacionales desconocidas Pasos a seguir
Una vez introducidos los datos en el programa se sigue la ruta Stat > Basic Statistics > 2-Sam-ple t (1), y se seleccionan las va-riables en la ventana correspondiente (2).En el cua-dro de dialogo Options se com-pletan los campos Confidence level: 95,0 y el tipo de hipótesis alternativa Alternative: not equal (3).Seleccionad OK para obtener el contraste.
Observad
En el paso (2) suponemos que las varianzas son desconocidas pero iguales y marcamos la ca-silla correspondiente.
CC-BY-SA • PID_00161060 16 Inferencia de información para dos o más poblaciones
Obtuvimos los resultados de la figura 6. Aparecen los valores muestrales de
ambos departamentos. El estadístico de contraste es un valor t = –2,84 con
12 grados de libertad (DF) y el p-valor P-Value = 0,015.
Figura 6. Resultados del contraste de hipótesis
Como p-valor = 0,015 < 0,05, se puede rechazar la hipótesis nula con = 0,05.
Así, la producción media de ambos departamentos (según los criterios estable-
cidos) es significativamente distinta en los departamento A y B. Observad
que la información de Minitab para el intervalo de confianza del 95% en la
figura 5 tiene como extremos los valores 5,30 y 0,70 (observad que el 0 no
está incluido en dicho intervalo). Esto también nos indica que debemos recha-
zar la hipótesis nula y aceptar la alternativa (las medias son distintas).
Así, los resultados permiten que el director de la escuela universitaria concluya
que existen diferencias significativas entre ambos departamentos en el “nú-
mero total de publicaciones o ponencias de calidad”.
Aplicando Microsoft Excel al ejemplo 2. “Estudio sobre la difusión científica”.
Para ejecutar una prueba t de dos muestras independientes para datos no apa-
reados haced clic en (t-Test: Two Simple > Assuming Equal Variants) “prueba t:
dos muestras suponiendo varianzas iguales” y especificad las dos columnas
que contengan los datos.
La figura 7 muestra el correspondiente output que ofrece Microsoft Excel.
Figura 7. Resultados ejemplo 2. “Estudio sobre la difusión científica”. Excel
Análisis de datos
Para realizar contrastes de hi-pótesis con MS Excel es nece-sario instalar previamente un complemento llamado “Análisis de datos”. Para ins-talar las herramientas de análisis de datos haced clic en Herramientas > comple-mentos, en el cuadro de diálo-go activar Herramientas para análisis.
CC-BY-SA • PID_00161060 17 Inferencia de información para dos o más poblaciones
Como observamos, el p-valor = 0,0149, al ser menor que el valor de , se puede
rechazar la hipótesis nula con = 0,05.
Contraste de hipótesis para la diferencia entre las medias de dos poblaci-
ones: muestras dependientes (datos pareados)
Disponemos de una muestra aleatoria de n pares de observaciones de distribu-
ciones con medias A y B. Denotamos por y sd la media muestral y la des-
viación típica observadas para las n diferencias (xA-xB) y sea d = A – B media
de las diferencias para la población.
Si la distribución poblacional es normal podemos realizar los siguientes con-
trastes para un nivel de significación :
la hipótesis nula: H0 = d = 0
la hipótesis alternativa (H1) puede ser bilateral:
o unilateral H1: d > 0 o H1 : d < 0
En este tipo de contraste se usa la misma metodología usada para el contraste
de la media para una sola población que vimos en el módulo anterior.
Para ilustrar el diseño con muestras emparejadas ilustrar el ejemplo siguiente:
Ejemplo 3. “Puntuaciones de un test de actitud”
A un grupo de personas se les propuso un test de actitud acerca de un tema
polémico y obtuvimos unos resultados. Luego el grupo asistió a la proyección
de una película favorable al tema y acto seguido se les propuso de nuevo el test
de actitud, del que se obtuvieron otros resultados. En la tabla 3 aparecen los
datos acerca de las puntuaciones del test realizado a once personas. Cada per-
sona da un par de valores, uno para antes de asistir a la proyección de la pelí-
cula y otro después de asistir a la proyección. Se quiere verificar la hipótesis de
que la proyección de una película favorable hace que cambie la actitud desfa-
vorable hacia el tema.
Tabla 3. Datos del ejemplo 3. “Puntuaciones de un test de actitud”
Muestras dependientes
Muestras dependientes significa que tenemos una muestra de observaciones de dos variables. La media de la muestra es:
La desviación estándar es:
La notación d es para recordar que la muestra apareada pro-duce datos de diferencia.
n
ii
dd
n
2( )
1
n
ii
d
d ds
n
Persona Puntuación del test antes de ver la película
Puntuación del testdespués de ver la
película
Diferencia de puntuaciones del test
(di )
1 24 16 8
2 20 18 2
3 24 20 4
4 28 24 4
5 30 24 6
d
1 : 0dH
CC-BY-SA • PID_00161060 18 Inferencia de información para dos o más poblaciones
Observad que la última columna de la tabla 3 contiene la diferencia entre las
puntuaciones antes y después de ver la película. La clave para analizar el dise-
ño con muestras apareadas es tener en cuenta que sólo se considera la colum-
na de las diferencias. Verificaremos la hipótesis de investigación a un nivel de
significación del 1% ( = 0,01). Sea d = la media de las diferencias para la po-
blación de personas.
Las hipótesis serán:
H0: d = 0
H1: d 0
Se trata de un contraste bilateral. Si se rechaza H0 se llega a la conclusión de
que las medias de las puntuaciones del test son distintas al nivel de significa-
ción del 1%. En el módulo 2 se vio que si se puede suponer que la población
tiene una distribución normal, el estadístico de contraste es una t-Student con
n – 1 grados de libertad, para probar la hipótesis nula acerca de la media po-
blacional, si no conocemos la varianza de la población como en este ejemplo.
Con datos de diferencia se calcula el estadístico de prueba para la hipótesis
nula
H0: d = 0 es:
como y
Con = 0,01 y n – 1 = 10 grados de libertad (t0,01/2 = t0,005 = 3,169), la regla de
rechazo para la prueba bilateral es:
Rechazar H0 si t* < 3,169 o t* > 3,169
Persona Puntuación del test antes de ver la película
Puntuación del testdespués de ver la
película
Diferencia de puntuaciones del test
(di )
6 20 22 -2
7 24 20 4
8 22 18 4
9 18 10 8
10 18 8 10
11 24 20 4
11
1
52ii
d
524,72
11d
106,183,26
10ds
* 4,72 04,80
3,2611
d
d
dt
sn
CC-BY-SA • PID_00161060 19 Inferencia de información para dos o más poblaciones
En vista de que t*= 4,80 está en la región de rechazo, se rechaza H0 y se acepta
H1 y podemos afirmar con un 99% de confianza que la película influyó en la
actitud de las personas.
Con los resultados de la muestra podemos definir un intervalo de confianza
de diferencia entre las dos medias de la población, con la metodología para po-
blación única del módulo 2 los cálculos son:
En consecuencia, el intervalo de confianza de 99% de la diferencia de medias
entre las medias de las dos puntuaciones del test es de 1,6 hasta 7,84 observa-
mos que el intervalo no incluye el valor cero, luego, como hemos visto en el
contraste, podemos rechazar H0.
Emplearemos Minitab para este ejemplo 3. “Puntuaciones de un test de ac-
titud”.
La figura 8 muestra los pasos básicos necesarios para realizar el contraste de
hipótesis.
En primer lugar comprobaremos el supuesto de que las poblaciones siguen
una distribución aproximadamente normal:
Figura 8. Pasos para realizar un test de normalidad. Minitab
En los gráficos resultantes (figuras 9 y 10) se observa que no hay indicios
para dudar de que se cumpla el supuesto de normalidad, ya que los puntos
se encuentran muy próximos a las respectivas rectas. Los gráficos nos pro-
porcionan también el p-valor asociado al test de normalidad de Ander-
son-Darling, siendo dicho p-valor suficientemente grande en ambos casos
para no descartar la hipótesis nula de este contraste: que los datos siguen
una distribución normal.
2
3,264,72 3,169 4,72 3,12 [1,60; 7,84]
11dsd tn
Pasos a seguir
Una vez introducidos los datos en el programa se sigue la ruta Stat > Basic Statistics > Norma-lity Test. Y rellenamos los cam-pos en la ventana correspondiente.En el cuadro de diálogo se se-lecciona el test de Anderson-Darling.
CC-BY-SA • PID_00161060 20 Inferencia de información para dos o más poblaciones
Figura 9. Test de normalidad. Minitab
Figura 10. Test de normalidad. Minitab
Pasamos, pues a realizar las inferencias ya comentadas sobre d.
CC-BY-SA • PID_00161060 21 Inferencia de información para dos o más poblaciones
Figura 11. Pasos para realizar un contraste de hipótesis para la diferencia de medias para muestras dependientes
Los resultados obtenidos en la figura 12 que, en base a las observaciones regis-
tradas, hay una probabilidad de 0,99 de que d sea un valor del intervalo
(1,613; 7,841). Además, con un p-valor de 0,001 también podemos afirmar
que hay indicios suficientes para rechazar la hipótesis nula. Por lo tanto, po-
demos concluir que la película influyó en la actitud de las personas.
Figura 12. Resultados del contraste de medias para dos muestras dependientes. Minitab
También puede ejecutar una prueba t por pares utilizando Excel. Desde Herra-
mientas > Análisis de datos, haced clic en Prueba t para medias de dos muestras
emparejadas y especificad las dos columnas que contienen los datos por pares.
Este comando no calcula el intervalo de confianza, de modo que tenéis que
calcularlo mediante las fórmulas que aparecen en este módulo.
Pasos a seguir
Se sigue la ruta Stat > Basic Statistics > Paired t (1) y se re-llenan los campos en la venta-na correspondiente (2). En el cuadro de diálogo Options se completan los campos Confi-dence level: 99,0 y el tipo de hi-pótesis alternativa Alternative: not equal (3).Seleccionad OK para obtener el contraste.
CC-BY-SA • PID_00161060 22 Inferencia de información para dos o más poblaciones
La figura 13 muestra el correspondiente output que ofrece Microsoft Excel.
Figura 13. Resultados del contraste de medias para dos muestras emparejadas. Excel
Al ser el p-valor = 0,0007 < (0,01), se rechaza H0.
1.2. Contrastes de hipótesis para la diferencia de
proporciones
Al estudiar la diferencia entre dos proporciones poblacionales, el estimador es
. Como hemos visto en casos anteriores, la distribución del estimador
de las muestras es un factor clave para determinar los intervalos de confianza
y probar las hipótesis de los parámetros.
Supongamos que disponemos de dos muestras aleatorias simples e indepen-
dientes de n1 y n2 observaciones. Las proporciones muestrales de éxitos son
respectivamente: y .
La distribución de la variable diferencia de proporciones muestrales se
puede aproximar con una distribución N(0,1).
Bajo el supuesto de la hipótesis nula cierta (H0: p1 – p2 = 0), tenemos que el
estadístico de contraste es:
donde ( – ) es la diferencia de las proporciones muestrales.
El valor es el valor estimado común de la proporción poblacional, que po-
demos estimarlo a partir de las dos muestras:
1 2p p
1p
2p
Recordad
Si los tamaños de las muestras son grandes:
1 111
1
2 222
2
1,
1,
p pp N p
n
y
p pp N p
n
1 2p p
1 2
1 2
*1 1
p pz
p p p p
n n
1p
2p
p
CC-BY-SA • PID_00161060 23 Inferencia de información para dos o más poblaciones
Regla de decisión del contraste de hipótesis
Una vez que se ha calculado el valor del estadístico de contraste, se debe
determinar el p-valor. El p-valor depende de la hipótesis alternativa plan-
teada.
• Si , entonces
• Si , entonces
• Si , entonces
Se utilizará el ejemplo del apartado 1.1, tabla 1. Datos del ejemplo 1. “Compa-
ración de las medias del tiempo de respuesta de dos servidores”.
En una empresa informática se desea medir la eficiencia de dos servidores
web. Para ello, miden el tiempo de espera del cliente entre la petición que
éste hace y la respuesta que le da el servidor. Los tiempos de espera (en mi-
lisegundos) de ambos servidores (TA y TB) para cincuenta peticiones están
en la tabla 2.
Diremos que el tiempo de espera es aceptable si es menor que 9 milisegundos.
¿Podemos decir que la proporción de peticiones con tiempo de espera acepta-
ble es distinta para los dos servidores?
Para contestar esta pregunta debemos hacer un contraste de diferencia de pro-
porciones que resolveremos con Minitab.
Lo primera operación es calcular para cada tipo de servidor la proporción de
tiempo inferior a 9 milisegundos. Para ello, creamos una nueva columna de
nombre A donde pondremos un 1 si la observación de tiempo de espera del
servidor A es inferior a 9 y 0 en caso contrario. Después sumaremos los valores
de la columna y obtendremos el número de observaciones de tiempo del ser-
vidor A inferior a 9 milisegundos.
1 21 2
1 2
n p n pp
n n
Nota
A veces, en lugar de: H0: p1 – p2 = 0escribiremos: H0: p1 = p2
Si el p-valor es significativo se rechaza la hipótesis nula si es menor que
el nivel de significación fijado.
1 1 2: 0H p p 2 ( )p P Z z
1 1 2: 0H p p ( )p P Z z
1 1 2: 0H p p p P Z z
CC-BY-SA • PID_00161060 24 Inferencia de información para dos o más poblaciones
En la figura 14 se indican los pasos a seguir:
Figura 14. Pasos a seguir para recalcular una variable nueva
Hacemos lo mismo para el tiempo del servidor B, creamos una columna de
nombre B con 1 si el tiempo es inferior a 9 y 0 en caso contrario.
Figura 15. Datos
Indicación
Para hacer este ejercicio prime-ro calcularemos una nueva va-riable, que valga 1 si el tiempo de espera es menor que 9 mili-segundos y 0 en caso contra-rio. Para calcular esta variable, podemos utilizar la instrucción IF de Minitab.
CC-BY-SA • PID_00161060 25 Inferencia de información para dos o más poblaciones
Una vez tenemos estas dos nuevas columnas, calculamos la suma de cada una
de ellas y así tendremos para cada servidor el número de observaciones de
tiempo inferior a 9:
Figura 16. Pasos a seguir para obtener el valor suma
Figura 17. Resultados
Para el servidor A hay seis observaciones con un tiempo de espera inferior
a 9 milisegundos y para el servidor B el número de observaciones menores
de 9 milisegundos es treinta y una.
Plantearemos el siguiente contraste:
Fijamos = 0,05.
La figura 18 muestra los pasos a seguir para realizar el contraste de la diferencia
de proporciones.
Pasos a seguir
Se sigue la ruta Stat > Basic Statistics > Display Descriptive Statistics. (1), y se rellenan los campos en la ventana corres-pondiente.En el cuadro de dialogo Statis-tic se marca Sum (2).Seleccionad OK para obtener el contraste.
0
1
: 0
: 0A B
A B
H p p
H p p
CC-BY-SA • PID_00161060 26 Inferencia de información para dos o más poblaciones
Figura 18. Pasos para hacer un contraste de hipótesis para la diferencia de proporciones
Los resultados de la figura 19 muestran el p-valor = 0,000 < 0,05. Esto indica que
podemos rechazar la hipótesis nula y concluimos que la proporción de peticiones
con tiempo de espera aceptable es diferente para los dos servidores.
Figura 19. Resultados del contraste de diferencia de proporciones. Minitab
1.3. Contrastes de hipótesis de comparación de varianzas
Uno de los contrastes desarrollados en el apartado 1.1 para la comparación de
medias poblacionales depende del supuesto de igualdad de las dos varianzas
poblacionales. Aunque en muchas aplicaciones prácticas este es un supuesto
razonable, conviene usar los datos disponibles para contrastar su validez.
Pasos a seguir
Se sigue la ruta Stat > Basic Statistics > 2-Proportions y se rellenan los campos en la ven-tana correspondiente.Summarized data (1)First: Events: 6 Trials: 50Second: Events: 31 Trials: 50Seleccione Options (2) y se re-llenan los campos: Confidence level: 95,0Alternative: not equal
CC-BY-SA • PID_00161060 27 Inferencia de información para dos o más poblaciones
En este apartado consideramos el caso de dos muestras aleatorias indepen-
dientes de poblaciones normales y contrastaremos la igualdad de varianzas
poblacionales.
Sea la varianza muestral de una muestra de n1 observaciones de una población
normal con varianza , y la varianza muestral de una muestra independien-
te de n2 observaciones de una población normal con varianza . Siempre que
las dos varianzas poblacionales sean iguales ( = ). La distribución de la rela-
ción de las dos varianzas de las muestras está definida por el estadístico F
que sigue una distribución F de Snedecor con n1 – 1 grados de libertad para el
numerador y n2 – 1 grados de libertad para el denominador,
Contraste de igualdad de varianzas de dos poblaciones normales
Ahora nos interesa contrastar la hipótesis nula que asegura que las varianzas
de las poblaciones son iguales , es decir, la varianza de la población 1
es igual a la varianza de la población 2. Primero fijaremos el nivel de significa-
ción del contraste.
Hipótesis alternativa, puede ser:
• Bilateral: H1: , las varianzas de las dos poblaciones son distintas.
• Unilateral: H1: , la varianza de la población 1 es mayor que la va-
rianza de la población 2.
• Unilateral: H1: , la varianza de la población 1 es menor que la va-
rianza de la población 2.
Bajo el supuesto de la hipótesis nula cierta H0: , el estadístico de con-
traste es:
Regla de decisión del contraste de hipótesis
Una vez que se ha calculado el valor del estadístico de contraste, se debe de-
terminar el p-valor. El p-valor depende de la hipótesis alternativa planteada.
• Si H1: , entonces p-valor
21s
21
22s
22
21
22
21
22
ss
21
1; 11 2 22
n ns
Fs
Nota
A veces, en lugar de:
H0:
escribiremos:
H0:
2 21 2
2 21 2 1
2 21 2
2 21 2
2 21 2
2 21 2
2 21 2
21
1; 11 2 22
*n ns
Fs
2 21 2 1,1 2 12 *n nP F F
CC-BY-SA • PID_00161060 28 Inferencia de información para dos o más poblaciones
• Si H1: , entonces p-valor
• Si H1: , entonces p-valor
• Si p-valor se rechaza H0
Ejemplo 4. “Variabilidad de procesadores de texto”.
Queremos comparar dos tipos de procesadores de textos: el LaTeX y el OpenOffi-
ce. Para hacerlo, consideramos textos más o menos de la misma longitud y
contamos la variabilidad del espacio que deja cada procesador entre las pala-
bras. En el caso del LaTeX, consideramos diez textos y obtenemos que la des-
viación estándar muestral del espacio que deja es de 2,5 mm, mientras que
para el OpenOffice consideramos quince textos y obtenemos que la desvia-
ción estándar muestral del espacio que deja es de 3,5 mm. Suponiendo nor-
malidad, ¿podemos afirmar que los dos procesadores de textos tienen la
misma variabilidad en el espacio que dejan entre palabras?
Para contestar a la pregunta hemos de realizar un contraste de igualdad de va-
rianzas.
El contraste de hipótesis es:
Fijamos el valor de = 0,05.
El estadístico de contraste vale: Los valores de y
son, respectivamente, = 6,25 y .
El estadístico F sigue la distribución F de Fisher-Snedecor con 9 y 14 grados de
libertad. El valor del estadístico de contraste será:
Los valores críticos serán:
.
Para calcular los valores críticos utilizaremos la tabla F o mediante un software
estadístico.
Como F0,0,25,9,14 < F* < F0,975,9,14 aceptamos la hipótesis nula y concluimos
que las varianzas son iguales. Luego los dos procesadores tienen la misma va-
2 21 2 1,1 2 1 *n nP F F
2 21 2 1, 11 2 *n nP F F
2 20
2 21
:
:
LaTeX OpenOffice
LaTeX OpenOffice
H
H
2
2* .LaTeX
OpenOffice
sF
s 2
LaTeXs
2OpenOffices 2
LaTeXs 2 12,25OpenOffices
6,25* 0,51.
12,25F
1 2,9,14 0,975,9,14 2 0,025,9,140,265 y = 3,21F F F F
CC-BY-SA • PID_00161060 29 Inferencia de información para dos o más poblaciones
riabilidad en el espacio que dejan entre palabras. Si quisiéramos realizar el con-
traste con el p-valor, éste valdría: Como es
mucho mayor que 0,05, aceptamos la hipótesis nula y llegamos a la misma
conclusión.
En el ejemplo 1. “Comparación de las medias del tiempo de respuesta de
dos servidores”, cuando realizamos el contraste de diferencia de medias con
Minitab no presupusimos que las varianzas fueran iguales. Ahora realizaremos
un contraste para comparar las dos varianzas y ver si son iguales.
Las hipótesis nula y alternativa son:
Fijamos = 0,1. El estadístico de contraste es: donde y son
respectivamente, las varianzas de los tiempos de espera de los servidores A y
B. La distribución de F es la de la F de Snedecor con 50 – 1 = 49 grados de li-
bertad en el numerador y 50 – 1 = 49 grados de libertad en el denominador.
Se resolverá el problema con Minitab. Los resultados de Minitab se muestran
en la figura 20.
Figura 20. Resultados del contraste de varianzas. Minitab
Podemos ver que como el p-valor es prácticamente cero, hemos de rechazar la
hipótesis nula, es decir, no podemos considerar que las varianzas sean iguales.
Por esa razón cuando hicimos el contraste de diferencia de medias no asumi-
mos que las varianzas fueran iguales.
9,142 ( 0,51) 0,312.p p F
2 20
2 21
:
:
A B
A B
H
H
2*
2 ,A
B
sF
s 2
As 2Bs
Pasos a seguir
Se sigue la ruta Stat > Basic Statistics >2-Variances y se re-llenan los campos en la venta-na correspondiente.En el cuadro de dialogo se completan los campos:Samples in different colums: First: TASecond: TBSeleccionad Options, comple-tad los campos: Confidence level: 90,0Title: Contraste de igualdad de varianzas
CC-BY-SA • PID_00161060 30 Inferencia de información para dos o más poblaciones
Minitab también nos ha proporcionado el siguiente gráfico para el contraste
de igualdad de varianzas:
Figura 21. Resultados del contraste de igualdad de varianzas. Minitab
La figura 21 presenta un gráfico con los intervalos de confianza de las varian-
zas de las dos poblaciones, se observa que los intervalos son distintos y no se
solapan. El p-valor del test F indica que se rechaza la hipótesis de igualdad de
varianzas.
En el gráfico de boxplot se ve claramente que la variabilidad del tiempo de es-
pera del servidor A es mucho más pequeña que la del servidor B.
CC-BY-SA • PID_00161060 31 Inferencia de información para dos o más poblaciones
2. Comparación de grupos mediante ANOVA
En el apartado anterior se presentaron algunos de los contrastes de hipótesis
que se usan habitualmente para determinar si existen diferencias significativas
entre dos poblaciones o grupos de individuos. En ocasiones, sin embargo, se
deseará comparar más de dos poblaciones o grupos entre sí, para lo cual se em-
plearán las técnicas de analysis of variance (ANOVA) que se introducen en
este apartado.
Así, por ejemplo, las técnicas ANOVA se podrían aplicar para dar respuestas a
preguntas como las siguientes:
• ¿Existen diferencias significativas entre la duración media de los juicios se-
gún el tipo de delito cometido (homicidio, abuso sexual, robo, piratería,
fraude fiscal, etc.)?
• ¿Existen diferencias significativas entre el gasto anual promedio en tecno-
logía según la franja de edad a la que pertenezca el individuo (niño, joven,
adulto, anciano)?
• ¿Existen diferencias significativas entre el número medio de alumnos y or-
denadores por centro escolar entre los diferentes países de la eurozona?
• ¿Existen diferencias significativas entre el número medio de autocitas a re-
vistas científicas según la editorial (Elsevier, Inderscience, Taylor & Francis,
IGI Global, etc.)?
• ¿Existen diferencias significativas entre el consumo medio de combustible
según el modelo de automóvil usado (deportivo, turismo, todoterreno,
monovolumen, etc.)?
• ¿Existen diferencias significativas entre la calidad media (medida a partir de
unos parámetros definidos) de los resultados de búsquedas en línea según el
tipo de motor usado (Google, Microsoft Bing, Yahoo!, etc.)? (figura 22)
Figura 22. ANOVA permite comparar la calidad media de diferentes servicios
Nota
El acrónimo ANOVA viene del término analysis of variance (análisis de la variación existen-te entre las distintas medias consideradas, para ver si exis-ten diferencias significativas entre las mismas).
Observad
Los ejemplos que se presentan en este capítulo se caracterizan porque la pertenencia a una po-blación o a otra depende de un único factor (tipo de delito, fran-ja de edad, país, editorial, mode-lo de automóvil, motor de búsqueda, etc.). En estos casos, se usa ANOVA de un único fac-tor (en inglés one-way ANOVA o single-factor ANOVA). Sin em-bargo, existen también técnicas ANOVA para el caso en que los grupos vengan determinados por dos factores (p. ej.: tipo de delito y solvencia económica del acusado, franja de edad y clase social, etc.).
CC-BY-SA • PID_00161060 32 Inferencia de información para dos o más poblaciones
2.1. Comparaciones de varias medias
Cuando se desean comparar entre sí las medias correspondientes a más de dos
poblaciones o grupos de individuos, se podría pensar en comparar dichas me-
dias dos a dos mediante un contraste de hipótesis para dos poblaciones. Así,
por ejemplo, en el caso de tres poblaciones se podría pensar en realizar una
serie de tests t de hipótesis para comparar las distintas medias entre sí: un pri-
mer test t para comparar las medias de las poblaciones 1 y 2, otro para com-
parar las medias de las poblaciones 1 y 3, y otro para comparar las medias de
las poblaciones 2 y 3. Sin embargo, esta aproximación tiene un grave proble-
ma: si para cada test t se usa un nivel de significación (generalmente se usa
= 0,05), entonces la probabilidad de cometer un error de tipo I es en cada
test; en tales condiciones, se puede comprobar que la probabilidad de cometer
un error de tipo I en el global de los tres tests sería de (si = 0,05
dicha probabilidad sería de, aproximadamente, 0,14). En otras palabras, com-
parando las medias dos a dos se está realizando un test global con una proba-
bilidad de error de tipo I mucho mayor que la prevista inicialmente para cada
test individual. Para evitar este problema se pueden usar las técnicas ANOVA,
que permiten realizar un único test global con una probabilidad de error de
tipo I determinada (generalmente = 0,05).
El test F de ANOVA
A fin de comparar las medias correspondientes a k poblaciones o grupos de in-
dividuos distintos ( ), se puede plantear el siguiente contraste de hipóte-
sis, donde el símbolo i representa la media de la población i-ésima para
:
(1)
En otras palabras, la hipótesis nula, H0, sostiene que no hay diferencias signi-
ficativas entre las distintas medias poblacionales, mientras que la hipótesis al-
ternativa, Ha, sostiene todo lo contrario, p. ej.: que las medias sí son
significativamente distintas. Es importante observar aquí que la hipótesis nula
no dice que todas las medias sean significativamente distintas entre sí, sino
simplemente que no todas las medias son iguales, aunque puede haber algu-
nas de ellas que sí lo sean (podría ocurrir, por ejemplo, que y
pero siendo ). Por tanto, si se concluyese que no todas las medias son
iguales, cabría realizar un análisis posterior para determinar cuáles de ellas son
diferentes entre sí.
El contraste de hipótesis (1) se llama test F de ANOVA, y generalmente se recurre
al uso de algún software estadístico para resolverlo, es decir, para obtener el p-
valor asociado al test. A partir de dicho p-valor corresponde al investigador de-
Recordad
Un error de tipo I consiste en rechazar la hipótesis nula cuan-do resulta que ésta es cierta. En este caso, la hipótesis nula sería que las medias son coinciden-tes.
31 (1 )
3k
1,2,...,i k
0 1 2: (todas las medias son iguales)
: no todas las medias son igualesk
a
H
H
Software estadístico
En la actualidad existe una gran variedad de programas estadísticos o de análisis de datos de gran calidad, tanto comerciales (Minitab, SPSS, MS Excel, SAS, S-Plus, etc.) como de código abierto (R, Calc de Open Office, etc.).
1 2 2 3
1 3
CC-BY-SA • PID_00161060 33 Inferencia de información para dos o más poblaciones
terminar si ha sido posible encontrar suficientes evidencias para rechazar la hi-
pótesis nula o si, por el contrario, los datos empíricos parecen no estar en
contradicción con la hipótesis nula y, por tanto, se acepta ésta como válida.
Como en cualquier otro tipo de contraste estadístico, antes de resolver el test se
suele fijar un valor de significación, (por lo general = 0,05 o bien = 0,01).
Una vez obtenido el p-valor, si se rechaza la hipótesis nula; en caso
contrario no hay indicios suficientes para hacerlo y, por tanto, se aceptará la hi-
pótesis nula como válida. La elección del valor concreto para dependerá del
nivel de confianza, , que se desee que tenga la decisión final sobre la acep-
tación o no de la hipótesis nula. Así, por ejemplo, un = 0,05 implicará un nivel
de confianza en la decisión final del 95%, mientras que un = 0,01 implicará un
nivel de confianza en la decisión final del 99%. El problema de seleccionar nive-
les de confianza excesivamente elevados (superiores al 99% o, lo que es lo mis-
mo, valores de inferiores a 0,01) es que entonces el contraste de hipótesis se
vuelve excesivamente “conservador”, de manera que sólo cuando las evidencias
empíricas en contra de la hipótesis nula son totalmente abrumadoras (es decir,
sólo cuando las diferencias entre algunas de las medias son desproporcionadas),
es posible obtener un p-valor más pequeño o igual que . Por ese motivo, en la
mayoría de los casos prácticos se suele usar el valor = 0,05 o bien = 0,01.
Ejemplo de aplicación de ANOVA: comparando el número medio de
accesos a contenidos en línea según la posición del enlace en el portal
En un portal web de acceso a publicaciones en línea, se sospecha que la posi-
ción que ocupa el enlace a una determinada base de datos afecta al número de
consultas diarias que ésta recibe. Para comprobarlo, se han seleccionado al azar
un total de 13 días laborables de un mes y, para cada uno de ellos, se ha con-
tabilizado el número de accesos recibidos. La tabla 4 muestra los valores obte-
nidos, los cuales han sido agrupados según la posición diaria del enlace (en el
encabezado de la página, en el margen derecho o en el margen izquierdo).
Tabla 4. Accesos a una base de datos según la posición del enlace
¿Se puede afirmar que hay diferencias significativas entre las distintas me-
dias?, es decir: ¿depende el número medio de consultas diarias de la posición
que ocupe el enlace?
Posición del enlace
Encabezado (1) Derecha (2) Izquierda (3)
10 7 3
12 6 3
10 7 5
9 8 4
7
Total 41 45 15
Media = 10,25 = 7,0 = 3,75
p valor
1
1x 2x 3x
CC-BY-SA • PID_00161060 34 Inferencia de información para dos o más poblaciones
Como primera aproximación a este problema, se puede optar por generar un
diagrama de cajas y bigotes (boxplot) para cada uno de los grupos de datos. La
figura 23 muestra dicho diagrama que incluye además una línea uniendo las
respectivas medias. Se aprecian claras diferencias entre los tres grupos consi-
derados, tanto a nivel de boxplots como a nivel de las respectivas medias.
Figura 23. Boxplot del número de consultas para cada posición
Sin embargo, para contestar de forma contundente a las preguntas anteriores,
resulta necesario realizar un test F de ANOVA. El contraste de hipótesis se pue-
de formular como sigue:
Para resolver dicho contraste, se fijará un valor de significación = 0,05 y se
recurrirá al uso de software estadístico para obtener el p-valor correspondiente
a las observaciones de la tabla 4.
La figura 24 muestra los pasos básicos necesarios para generar un análisis
ANOVA con el programa Minitab. Por su parte, la figura 24 muestra el output
generado para los datos de este ejemplo. Se observa que el valor resultante para
el estadístico del contraste es F = 44,47. El estadístico F es una variable aleatoria
que se comporta según una distribución F-Snedecor con 2 grados de libertad
en el numerador (DF Factor) y 10 grados de libertad en el denominador (DF
Error). El p-valor no es más que la probabilidad de que una variable aleatoria
con esas características supere el valor observado para el estadístico de contras-
te, p. ej.: p-valor = P(F2,10 > 44,47). Según se observa en el output, en este caso
se obtiene p-valor = 0,000. Dado que el p-valor es mucho menor que el nivel
de significación escogido (p-valor = 0,000 < 0,05 = ), se concluye que los datos
obtenidos parecen contradecir la hipótesis nula y, por tanto, ésta se debe re-
chazar. Así pues, hay indicios claros para pensar que no todas las medias son
0 1 2 3:
: no todas las medias son igualesa
H x x x
H
CC-BY-SA • PID_00161060 35 Inferencia de información para dos o más poblaciones
iguales, p. ej.: que el número medio de consultas diarias sí depende de la po-
sición que ocupe el enlace.
Figura 24. Pasos a seguir para realizar un análisis ANOVA en Minitab
Figura 25. Output ANOVA de Minitab para la comparativa de posiciones
En la segunda parte del output Minitab se representa cada una de las medias
junto con su respectivo intervalo de confianza para un nivel de confianza del
95%. Se observa que los intervalos son disjuntos (no se solapan), lo que signi-
fica que las observaciones aportan evidencias de que las tres medias son signi-
ficativamente distintas. En general, sin embargo, el hecho de que todas las
medias no sean iguales no implicará necesariamente que todas sean distintas
(es decir, podría haber intervalos que se solapasen y otros que no).
Pasos a seguir
Una vez introducidos los datos en el programa (1), se sigue la ruta Stat > ANOVA > One-Way (Unstacked) (2) y se seleccio-nan las variables en la ventana de ANOVA (3). Más adelante se hará uso de la opción Graphs de esta ventana (4).
CC-BY-SA • PID_00161060 36 Inferencia de información para dos o más poblaciones
La figura 26 muestra el correspondiente output ANOVA que ofrece Microsoft
Excel. Se observa el mismo valor para el estadístico F = 44,47, así como un
p-valor = 1,0543E-05 (es decir, p-valor = 0,00001543 o, redondeando, p-valor
= 0,000).
Figura 26. Output ANOVA de Excel para la comparativa de posiciones
Ejemplo de aplicación de ANOVA: comparando promedios de resultados
válidos ofrecidos por un motor de búsqueda según el algoritmo empleado
Los desarrolladores de un nuevo motor de búsqueda especializado en recursos
de investigación están probando tres algoritmos distintos de recuperación de
la información. Para comprobar si el promedio de resultados válidos que pro-
porciona cada algoritmo es el mismo en los tres casos, se han realizado unas
pruebas aleatorias con cada uno de ellos. La tabla 5 muestra las observaciones
que se han obtenido tras realizar las pruebas.
Tabla 5. Resultados válidos obtenidos con cada algoritmo
¿Se puede afirmar que hay diferencias significativas entre los distintos prome-
dios?, es decir: ¿depende el promedio de resultados válidos obtenidos del al-
goritmo que implemente el motor de búsqueda?
Nuevamente, para responder adecuadamente a estas preguntas resulta necesa-
rio llevar a cabo un test F de ANOVA. Como paso previo, sin embargo, pode-
Nota
Para poder realizar ANOVA con MS Excel, es necesario instalar previamente un complemento llamado “Análisis de datos”. Usando Google o cualquier otro buscador es fácil encon-trar información detallada so-bre el proceso de instalación. También existe un comple-mento similar para Open Offi-ce Calc.
Algoritmo
SR-GCWS SS-NEH Híbrido
12 10 16
10 17 14
18 16 16
12 13 11
14 20
21
Total 66 56 98
Media = 13,20 = 14,00 = 16,331x 2x 3x
CC-BY-SA • PID_00161060 37 Inferencia de información para dos o más poblaciones
mos graficar los correspondientes boxplots. Como se observa en la figura 27, en
este caso las diferencias entre los distintos grupos no parecen ser excesivas, si
bien el algoritmo híbrido parece haber proporcionado resultados ligeramente
superiores al resto.
Figura 27. Boxplot del número de resultados válidos para cada algoritmo
A fin de comprobar si las diferencias entre los promedios son o no estadística-
mente significativas, se formula el siguiente contraste ANOVA:
Nuevamente se hará uso de un nivel de significación = 0,05 (es decir, el nivel
de confianza usado es del 95%). Las figuras 28 y 29 muestran, respectivamen-
te, los output Minitab y Excel para este ejemplo.
Figura 28. Output ANOVA de Minitab para la comparativa de algoritmos
0 1 2 3:
: no todas las medias son igualesa
H x x x
H
CC-BY-SA • PID_00161060 38 Inferencia de información para dos o más poblaciones
Figura 29. Output ANOVA de Excel para la comparativa de algoritmos
En ambos outputs se observa un valor del estadístico F = 1,29. En esta oca-
sión, dicho estadístico es una variable aleatoria que se distribuye según una
F-Snedecor con 2 grados de libertad en el numerador (DF Factor) y 12 en el
denominador (DF Error). La probabilidad de que una variable como esta al-
cance o supere el valor 1,29 obtenido por el estadístico es de 0,312, que es
precisamente el p-valor que se observa en ambos outputs. Puesto que p-valor
= 0,312 > = 0,05, no parece que haya indicios suficientes como para re-
chazar la hipótesis nula. En otras palabras, los datos observados parecen es-
tar en sintonía con la hipótesis nula, por lo que aceptaremos la hipótesis
de que los promedios de resultados válidos son equivalentes para los tres
algoritmos, sin que haya diferencias estadísticamente significativas entre
ellos.
De hecho, en la segunda parte del output Minitab se observa que los intervalos
de confianza para las tres medias se solapan parcialmente, lo que significa que
para un nivel de confianza del 95% no se puede afirmar que haya diferencias
significativas entre dichas medias.
2.2. La lógica del contraste ANOVA
Cuando mediante un experimento aleatorio se recogen una serie de datos (ob-
servaciones) y estos son clasificados en varios grupos o niveles según un factor
determinado (franja de edad, clase social, etc.), se pueden analizar dos tipos
distintos de varianza en las observaciones (figura 30):
• Por un lado, la variación existente entre los distintos grupos o niveles (p.ej.:
la variación entre las respectivas medias de cada grupo). Esta se conoce
como “variación entre-grupos” o “MS Factor”.
• Por otro, la variación existente dentro de cada grupo o nivel. Esta se conoce
como “variación intra-grupos” o “MS Error”.
CC-BY-SA • PID_00161060 39 Inferencia de información para dos o más poblaciones
Figura 30. Variación entre-grupos y variación intra-grupos
En el fondo, lo que hace el test ANOVA es comparar las dos medidas de varia-
bilidad, la variación entre-grupos (MS Factor) y la variación intra-grupos (MS
Error). Si ocurre que el MS Factor es significativamente mayor que el MS Error
(figura 31), entonces el test concluirá que las medias de los distintos grupos
no son iguales en todos los casos (lo que implica que no todos los datos per-
tenecen a un mismo grupo o, lo que es lo mismo, que el valor de las observa-
ciones sí depende del factor considerado). Si, por el contrario, el MS Factor no
es significativamente mayor que el MS Error (figura 32), entonces el test con-
cluirá que no se aprecian diferencias significativas entre las medias de los dis-
tintos grupos (en otras palabras, que las observaciones parecen proceder todas
de un único grupo o, lo que es lo mismo, que las observaciones no parecen
depender del factor considerado).
Figura 31. La variación entre-grupos es mayor que la intra-grupos
CC-BY-SA • PID_00161060 40 Inferencia de información para dos o más poblaciones
Figura 32. La variación entre-grupos es menor que la intra-grupos
En la figura 25 (output ANOVA de Minitab) se observan los valores MS Factor
= 42,250 y MS Error = 0,950. Es decir, en este caso la variación entre-grupos
(MS Factor) es mucho mayor que la variación intra-grupos (MS Error), lo que
ya deja entrever que, probablemente, el test concluya que no todas las medias
son iguales. Pero, ¿cómo llega el test a la conclusión final? La figura 33 ayuda
a entender mejor cómo funciona el test F de ANOVA:
a) Por un lado, a partir de los valores obtenidos para MS Factor y MS Error se
calcula el estadístico de contraste .
En este caso, F = 44,47.
b) Por otra parte, se sabe que si la hipótesis nula fuese cierta (p. ej.: si todas las
medias son iguales), este estadístico F sería una variable aleatoria que seguiría
una distribución F-Snedecor con k – 1 grados de libertad en el numerador (DF
Factor), y n – k grados de libertad en el denominador (DF Error), siendo k el
número de grupos o niveles y n el número total de observaciones.
En el ejemplo de la figura 25, DF Factor = 2 y DF Error = 10. Ahora bien, ¿cuál
es la probabilidad de que una variable aleatoria F-Snedecor (2, 10) alcance un
valor como el obtenido por el estadístico de contraste F? En otras palabras, ¿es
razonable pensar que una F-Snedecor (2,10) haya alcanzado un valor de
44,47? La probabilidad de que esto ocurra nos la proporciona el p-valor. De
esta manera, un p-valor “pequeño” (inferior al nivel de significación ) se pue-
de interpretar como una probabilidad demasiado baja de que una F-Snedecor
(2, 10) pueda dar el valor obtenido para F, lo que pone en entredicho la supo-
sición inicial de que la hipótesis nula era cierta. Por otra parte, un p-valor
“grande” (superior al nivel de significación ) se puede interpretar como una
MS FactorF
MS Error
CC-BY-SA • PID_00161060 41 Inferencia de información para dos o más poblaciones
probabilidad aceptable de que, en efecto, una F-Snedecor (2, 10) tome dicho
valor y, por tanto, no habría evidencias para dudar de la hipótesis nula.
Figura 33. Funcionamiento interno del test F de ANOVA
2.3. Las hipótesis del modelo ANOVA
Como cualquier otra técnica de inferencia estadística, el contraste ANOVA se
puede usar con garantías, para comparar poblaciones o grupos, sólo si se cum-
plen unas determinadas condiciones de entorno o supuestos básicos:
1) Las observaciones son independientes entre sí y constituyen, para cada po-
blación o grupo, una muestra aleatoria.
2) Las observaciones de cada población o grupo siguen una distribución
aproximadamente normal.
3) Las observaciones de cada población o grupo tienen una varianza , que
es aproximadamente la misma para todos los grupos.
El primer supuesto garantiza que las muestras son aleatorias e independientes,
lo que es un requisito común en las técnicas de inferencia estadística. Si las
muestras no fuesen aleatorias o las observaciones no fuesen independientes,
la información que se generaría estaría sesgada y, por tanto, no sería válida. Es
función del investigador garantizar, durante la fase de diseño del experimento
y posterior recogida de datos, que se cumple este supuesto.
Observad
que cuando el valor obtenido para el estadístico F a partir de las observaciones no es cohe-rente con lo que cabría esperar de una F-Snedecor (k – 1, n – k), entonces lo que está fa-llando es la suposición inicial de que la hipótesis nula es cierta.
2
CC-BY-SA • PID_00161060 42 Inferencia de información para dos o más poblaciones
Por lo que respecta al supuesto segundo (normalidad de los datos), éste se suele
comprobar mediante la realización de un gráfico de normalidad para el con-
junto de los datos. La figura 34 muestra dicho gráfico para el ejemplo anterior
de los algoritmos. Siempre que los puntos (que representan a las observacio-
nes) estén razonablemente cerca de la línea recta (que representa a la distribu-
ción normal) y no muestren un patrón de comportamiento extraño, no hay
motivos para sospechar que falla el supuesto de normalidad. Si se observase al-
gún patrón de comportamiento anómalo (e.j.: muchos puntos excesivamente
alejados de la línea o bien muchos puntos consecutivos situados al mismo
lado de la línea), entonces el supuesto de normalidad quedaría en entredicho.
Para el ejemplo de los algoritmos, no se observa en el gráfico nada extraño y,
por tanto, se puede validar el supuesto de normalidad de los datos.
Figura 34. Gráfico de normalidad para los datos del ejemplo de algoritmos
Finalmente, por lo que respecta al supuesto de varianza constante, este se suele
comprobar o bien calculando las desviaciones estándar de las muestras para
verificar que no hay grandes diferencias entre ellas (figura 35), o bien median-
te un gráfico que permita comparar visualmente la dispersión de los datos en
cada grupo (figura 36). En el caso del ejemplo de los algoritmos no se observan
diferencias sustanciales entre las varianzas de los distintos grupos, lo que per-
mite validar el supuesto de varianza constante.
Figura 35. La columna StDev permite estimar la varianza de cada grupo
Pasos a seguir
Este tipo de gráfico se puede obtener con Minitab sin más que marcar la casilla “Normal plot of residuals” en las opcio-nes de Graphs de la ventana ANOVA (figura 24).
Recordad
La varianza, 2, es el cuadrado de la desviación estándar o tí-pica, . Por lo general, el valor exacto de la varianza poblacio-nal, 2, será desconocido, pero dicho valor se puede estimar mediante la varianza de la muestra, s2.
CC-BY-SA • PID_00161060 43 Inferencia de información para dos o más poblaciones
Figura 36. El gráfico muestra la dispersión de cada grupo
Ejemplo de aplicación de ANOVA: comparando valoraciones medias en
un cuestionario de escala Likert según el perfil de los encuestados
En una universidad se ha implementado recientemente un nuevo servicio
online que facilita el acceso a recursos didácticos complementarios. Se desea
conocer la opinión de los estudiantes sobre este nuevo servicio y, en parti-
cular, si existen diferencias significativas en la valoración media del servicio
según la titulación a la que pertenezca el estudiante. Para ello, un investiga-
dor ha seleccionado al azar cinco estudiantes de cada uno de los principales
estudios que se ofrecen y les ha pedido que rellenen un cuestionario de eva-
luación del servicio. El cuestionario usa una escala Likert entre 1 (mínima va-
loración) y 7 (máxima valoración). Los resultados obtenidos se muestran en
la tabla 6.
Tabla 6. Valoraciones obtenidas según perfil del estudiante
La figura 37 muestra el output Minitab correspondiente a los estadísticos des-
criptivos para cada grupo o nivel de observaciones. A simple vista parecen
apreciarse diferencias considerables entre la máxima valoración media (CC.
Información, con 5,4) y la mínima (Psicología, con 2,8). El boxplot de la figura
38 también apunta a la posibilidad de que las valoraciones medias del servicio
Pasos a seguir
Este tipo de gráfico se puede obtener con Minitab sin más que marcar la casilla “Residuals versus fits” en las opciones de Graphs de la ventana ANOVA (figura 24).
Estudios
CC. Información CC. Empresariales Ing. Informática Derecho Psicología
6 4 5 4 3
5 4 4 4 3
5 3 4 5 2
7 3 6 4 4
4 2 2 6 2
CC-BY-SA • PID_00161060 44 Inferencia de información para dos o más poblaciones
puedan depender del perfil del estudiante, no siendo las mismas para todas las
titulaciones.
Figura 37. Estadísticos descriptivos de las valoraciones por grupo
Figura 38. Boxplot para las valoraciones del servicio por titulación
Para poder corroborar o desmentir estas impresiones visuales de una forma
más científica, se opta por realizar un test F de ANOVA con un nivel de signi-
ficación = 0,01 (es decir, en este caso se opta por usar un nivel de confianza
del 99%).
La figura 39 muestra el output ANOVA de Minitab, en el que se aprecia un MS
Factor = 5,54 (variación entre-grupos), un MS Error = 1,14 (variación intra-gru-
pos) y un valor para el estadístico de contraste F = 5,54 / 1,14 = 4,86. En el su-
puesto de que la hipótesis nula fuese cierta, este estadístico seguiría una
distribución F-Snedecor con 4 grados de libertad en el numerador (DF Factor)
y 20 grados de libertad en el denominador (DF Error). La probabilidad de que
una variable aleatoria F-Snedecor (4, 20) tome un valor igual o superior a 4,86
es 0,007 (p-valor). Esta probabilidad es extremadamente baja (más baja que el
valor de significación fijado), lo cual pone en entredicho el supuesto inicial de
que la hipótesis nula era cierta. En otras palabras: puesto que p-valor < hay
que rechazar la hipótesis nula. Así, pues, según las evidencias empíricas en-
contradas, se puede afirmar con un 99% de confianza que las valoraciones me-
dias de los grupos no son todas iguales.
CC-BY-SA • PID_00161060 45 Inferencia de información para dos o más poblaciones
Figura 39. Output ANOVA de Minitab para la comparativa de valoraciones
La segunda parte del output Minitab ofrece los intervalos de confianza, a un
nivel de confianza del 99% en este caso, para cada una de las medias. Se
observa cómo los intervalos más extremos, p. ej.: los correspondientes a
CC. Información y Psicología, no se solapan por muy poco. Esto es lógico,
puesto que el p-valor = 0,007 está muy cercano al valor de significación es-
cogido = 0,01. Si el p-valor hubiera sido todavía menor, ambos intervalos
estarían claramente separados. Si, por el contrario, el p-valor hubiera sido
mayor, ambos intervalos se solaparían parcialmente como ocurre en el res-
to de los casos.
Antes de dar por definitivas las conclusiones anteriores, conviene validar
que se cumplen los supuestos básicos de normalidad y varianza constante
de los datos. La figura 40 muestra el gráfico de normalidad correspondiente
a las observaciones. No parecen observarse patrones extraños ni demasia-
dos puntos excesivamente alejados de la recta, por lo que se aceptará como
válido el supuesto de normalidad. Por su parte, la figura 41 muestra el grá-
fico de dispersión de cada grupo. Tampoco se observan grandes diferencias
entre las dispersiones de los distintos niveles, por lo que se aceptará como
válido el supuesto de varianza constante entre los distintos grupos.
Atención
Para evitar confusiones en la segunda parte del output, es importante fijar bien el nivel de confianza (1 – ) en la ventana ANOVA (figura 24), de mane-ra que éste se corresponda con el nivel de significación esco-gido en cada caso.
CC-BY-SA • PID_00161060 46 Inferencia de información para dos o más poblaciones
Figura 40. Gráfico de normalidad de las valoraciones registradas
Figura 41. Gráfico de dispersión de cada grupo
CC-BY-SA • PID_00161060 47 Inferencia de información para dos o más poblaciones
Resumen
En este módulo se han presentado las principales técnicas estadísticas que per-
miten comparar estadísticamente dos o más grupos y discernir si existen o no
diferencias significativas entre ellos. En el caso de dos grupos, se usa un con-
traste de hipótesis basado en la t-Student (si se están comparando dos medias)
o en la normal (si se están comparando dos proporciones).Por último, se han
estudiado procedimientos que se pueden aplicar para hacer inferencias acerca
de varianzas poblacionales. Se presentó la distribución F, para emplearla en
pruebas de hipótesis acerca de las varianzas de dos poblaciones normales.
En el caso de tres o más grupos, se usa un test ANOVA basado en la F-Snedecor.
Conviene tener siempre muy presente que lo más importante de un test de hi-
pótesis no son los cálculos matemáticos que subyacen al mismo (en gran parte
porque dichos cálculos se pueden automatizar mediante el uso de software),
sino la correcta interpretación de los resultados obtenidos y la credibilidad de
los mismos, que dependerá de que se cumplan o no los supuestos necesarios
para poder aplicar cada una de las técnicas de inferencia vistas en este módulo.
Si bien el ordenador puede ser muy útil efectuando los cálculos matemáticos
con precisión y rapidez, es responsabilidad del investigador saber interpretar
los resultados y comprobar la validez de los supuestos.
CC-BY-SA • PID_00161060 48 Inferencia de información para dos o más poblaciones
CC-BY-SA • PID_00161060 49 Inferencia de información para dos o más poblaciones
Ejercicios de autoevaluación
1) Se estudia el impacto que causa la reubicación forzada sobre la buena vecindad. Se entre-vista a seis individuos tanto antes como después de que se les obligara a mudarse. Las entre-vistas producen las siguientes puntuaciones:
Realizad un contraste de hipótesis al nivel de confianza del 95%.
2) De una muestra de ochenta y cinco mensajes de correo con virus que llegan al servidor denuestra empresa, nuestro programa KILLVIRUS instalado en el servidor sólo ha detectadoveinticinco. Las especificaciones del programa decían que el programa detectaba más del40% del correo con virus. ¿Estáis de acuerdo con los resultados obtenidos con las especifica-ciones del programa? (considerad = 0,1). Hallad el p-valor del contraste.
3) Queremos comparar la eficiencia de dos compiladores de dos sistemas de indización dife-rentes: A y B. Para hacerlo, se diseñan ocho programas en cada uno de los dos sistemas y semide el tiempo de ejecución que tarda cada uno de los programas para resolver ocho proble-mas determinados de optimización. Los resultados se muestran en la tabla siguiente:
¿Podemos asegurar a partir de los datos anteriores que el compilador del sistema A es máseficiente que el compilador del sistema B? (considerad = 0,05). Hallad el p-valor del con-traste.
4) Dos empresas, A y B, quieren comprar un dispositivo de almacenamiento para realizar co-pias de seguridad. Antes de hacer la compra se hace un estudio de cuántos gigas necesitaríanpara realizar la copia. Este estudio consiste en calcular durante diez días toda la informaciónde la empresa necesaria para la copia de seguridad. Los resultados se muestran en la tabla si-guiente:
Entrevistado Antes Después
1 2 1
2 1 2
3 3 1
4 3 1
5 1 2
6 4 1
Problema de optimización a
resolver
Tiempo de ejecución usado por el ejecutable compilado
con el sistema A (en segundos)
Tiempo de ejecución usado por el ejecutable compilado
con el sistema B (en segundos)
P1 1,2 1,4
P2 1,3 1,7
P3 1,5 1,5
P4 1,4 1,3
P5 1,7 2,0
P6 1,8 2,1
P7 1,4 1,7
P8 1,3 1,6
Día 1 2 3 4 5 6 7 8 9 10
Empresa A (gigas) 34 45 47 49 31 30 24 33 35 40
Empresa B (gigas) 45 47 50 42 40 51 46 59 42 46
CC-BY-SA • PID_00161060 50 Inferencia de información para dos o más poblaciones
Suponiendo normalidad y un nivel de significación del 0,05, ¿podemos afirmar que la em-presa B necesita más capacidad de almacenamiento que la empresa A? Indicación: antes denada, tenéis que realizar el contraste correspondiente para ver si las varianzas de las dosmuestras son iguales a un nivel de significación de 0,05.
5) Se ha diseñado un experimento aleatorio para analizar durante cuánto tiempo es efectivacada una de las cuatro drogas distintas que se pueden emplear para aliviar el dolor tras unaoperación quirúrgica. Los datos obtenidos se muestran en la tabla siguiente:
Para un nivel de significación = 005, contrastar la hipótesis nula de que las cuatro drogasson igualmente efectivas.
6) A la hora de descargar programas open-source de Internet, suele ser habitual poder optar porhacerlo desde varios servidores (mirrors). Generalmente, las velocidades de descarga desde cadaservidor dependen de la distancia existente entre el servidor y el cliente que solicita la descarga.En este caso se desea estudiar si las velocidades de descarga desde cinco servidores distintos sepueden considerar equivalentes o no. Para cada uno de los servidores, se han seleccionado al-gunos ficheros al azar (todos ellos del mismo tamaño) y se han descargado en el cliente, obte-niendo los tiempos de descarga (en segundos) que se muestran en la tabla siguiente:
¿Se puede afirmar que la velocidad media de descarga es independiente del servidor seleccio-nado? Usar un nivel de significación = 0,01.
7) Se desean comparar los ingresos por familia (en miles de euros) correspondientes a tresprovincias de una misma comunidad autónoma. A tal efecto, para cada provincia se han se-leccionado 9 familias al azar y se han registrado sus ingresos. La tabla siguiente muestra lasobservaciones obtenidas:
Tiempo (horas)
Droga
A B C D
8 6 8 4
6 6 10 4
4 4 10 2
2 4 10
12
Servidor
Tiempo de descarga (en segundos)
A B C D E
3,8 6,8 4,4 6,5 6,2
4,2 7,1 4,1 6,4 4,5
4,1 6,7 3,9 6,2 5,3
4,4 4,5 5,8
Provincia
Ingresos familiares (miles de euros)
A B C
45 32 40
39,5 30 42
42 37 45
35 35 39,5
40 28,5 40
37 37,5 38
44 31 51
48,5 37,6 47,5
50 25 41
CC-BY-SA • PID_00161060 51 Inferencia de información para dos o más poblaciones
Para un nivel de significación = 0,05, ¿se puede afirmar que los ingresos medios por familiano dependen de la provincia a la que ésta pertenezca?
8) Una universidad hace uso de tres consultorías externas que ofrecen servicios de asesora-miento técnico en línea a sus estudiantes. Para cada una de estas consultorías, se han escogi-do al azar seis servicios prestados durante el año en curso y se ha registrado el cambioporcentual en su precio con respecto al precio medio del año anterior. Los datos recogidos semuestran en la tabla siguiente:
Para un nivel de significación = 0,01, se desea contrastar la hipótesis nula de que el cambioporcentual medio en el precio del servicio es el mismo para las tres consultorías.
9) Se desea comparar el nivel de innovación/originalidad de seis revistas distintas, aunquetodas ellas pertenecientes a un mismo ámbito temático. A tal efecto, se han seleccionado alazar siete ejemplares de cada una de las revistas y un comité de expertos ha evaluado el nivelde innovación/originalidad de cada ejemplar, para lo cual se ha usado una escala entre 1 (mí-nimo) y 300 (máximo). Los datos recogidos se muestran en la tabla siguiente:
A partir de estas observaciones, ¿se puede afirmar que todas las revistas muestran un nivel deinnovación/originalidad equivalente o, por el contrario, existen diferencias significativas en-tre los niveles de innovación/originalidad de las distintas revistas? Utilizar un nivel de signi-ficación = 0,05.
Consultoría
Cambio porcentual en el precio del servicio
A B C
3,0 4,5 1,0
2,5 2,5 –2,5
–1,5 7,0 –3,5
4,0 9,0 2,0
–1,0 1,5 4,6
5,5 2,0 0,5
Revista
A B C D E F
Nivel de
innovación/
originalidad
300 190 228 276 162 264
300 164 300 296 175 168
300 238 268 62 157 254
260 200 280 300 262 216
300 221 300 230 200 257
261 132 300 175 256 183
300 156 300 211 92 93
CC-BY-SA • PID_00161060 52 Inferencia de información para dos o más poblaciones
Solucionario
1) Se trata de un contraste de diferencia de medias para muestras dependientes o empare-jadas (estadístico de contraste t* =1,49; el valor crítico es t/2=0,05/2, y 5 grados de libertad =2,571. t* < t0,025; 5 no se puede rechazar H0. Podemos decir con un 95% de confianza que labuena vecindad no ha variado cuando se produce la reubicación.
2) Se trata de un contraste de diferencia de proporciones. El estadístico de contraste sigueaproximadamente la distribución normal N(0,1) si el tamaño de la muestra es suficientemen-te grande como en nuestro caso. El valor del estadístico de contraste es z* = 1,993.
El valor crítico será: Como z < z0,1, aceptamos la hipótesis nula y concluimos quelas especificaciones del servidor son falsas.
3) Se trata de un contraste de diferencia de medias dependientes. El valor del estadístico decontraste vale: . El valor crítico vale Como t < –t0,05;7; rechazamosla hipótesis.
El p-valor es , valor que es menor que 0,05. Por tanto, llegamos ala misma conclusión: rechazar la hipótesis nula.
4) El resultado del Minitab para el contraste de varianzas es:
Se acepta la igualdad de varianzas.
El resultado del Minitab para el contraste de diferencia medias independientes es:
Como p-valor < 0,05, rechazamos la hipótesis nula, por lo tanto aceptamos que la empresa Bnecesita más capacidad de almacenamiento que la empresa A.
5) Estadístico de contraste F = 12,50; p-valor = 0,001 < = 0,05 Rechazar la hipótesis nula,p. ej.: no todos los grupos tienen el mismo comportamiento.
0,1 1,28.z
3,481t 0,05,7 1,895.t
7( 3,481) 0,0051p p t
CC-BY-SA • PID_00161060 53 Inferencia de información para dos o más poblaciones
6) Estadístico de contraste F = 31,6; p-valor = 0,000 < = 0,01 Rechazar la hipótesis nula,p. ej.: no todos los grupos tienen el mismo comportamiento.
7) Estadístico de contraste F = 13,83; p-valor = 0,000 < = 0,05 Rechazar la hipótesis nula,p. ej.: no todos los grupos tienen el mismo comportamiento.
8) Estadístico de contraste F = 2,91; p-valor = 0,085 > = 0,01 No rechazar la hipótesisnula, p. ej.: todos los grupos parecen tener el mismo comportamiento.
9) Estadístico de contraste F = 5,30; p-valor = 0,001 < = 0,05 Rechazar la hipótesis nula,p. ej.: no todos los grupos se comportan igual.