54
Inferencia de información para dos o más poblaciones Contrastes de hipótesis para dos poblaciones y comparación de grupos mediante ANOVA Blanca de la Fuente y Ángel A. Juan PID_00161060

Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

Inferencia de información para dos o más poblacionesContrastes de hipótesis para dos poblaciones y comparación de grupos mediante ANOVA

Blanca de la Fuente y Ángel A. Juan

PID_00161060

Page 2: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 2 Inferencia de información para dos o más poblaciones

Page 3: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 Inferencia de información para dos o más poblaciones

Índice

Introducción .......................................................................................... 5

Objetivos ................................................................................................. 6

1. Contrastes de hipótesis para dos poblaciones ......................... 71.1. Contrastes de hipótesis para la diferencia de medias ................... 7

1.2. Contrastes de hipótesis para la diferencia

de proporciones ............................................................................ 22

1.3. Contrastes de hipótesis de comparación de varianzas ................. 26

2. Comparación de grupos mediante ANOVA ............................... 312.1. Comparaciones de varias medias ................................................. 32

2.2. La lógica del contraste ANOVA .................................................... 38

2.3. Las hipótesis del modelo ANOVA ................................................ 41

Resumen .................................................................................................. 47

Ejercicios de autoevaluación ............................................................. 49

Solucionario ........................................................................................... 52

Page 4: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 Inferencia de información para dos o más poblaciones

Page 5: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 5 Inferencia de información para dos o más poblaciones

Introducción

En los módulos anteriores se introdujeron los conceptos básicos de estimación

y de contraste de hipótesis relacionados con una población. En la práctica co-

tidiana, sin embargo, es fácil encontrarse con situaciones en las que se dispone

de dos o más grupos de individuos o poblaciones y, en tal caso, el interés ra-

dica a menudo en ser capaz de discernir si dichos grupos o poblaciones se pue-

den considerar como semejantes –desde un punto de vista estadístico– o si,

por el contrario, son grupos o poblaciones que muestran diferencias significa-

tivas entre ellos. Así, por ejemplo, puede ser conveniente comparar las califi-

caciones medias de dos grupos de estudiantes en función de si han hecho o no

uso de una metodología docente innovadora, comparar los porcentajes de re-

cuperación de dos o más grupos de enfermos según el tratamiento recibido,

comparar las calidades medias de diferentes accesos a Internet en función de

la empresa proveedora, comparar los precios medios de los servicios de obten-

ción de documentos en función de la institución que los ofrezca, etc.

Cuando se consideran dos grupos o poblaciones, las técnicas que se usan para

comparar las respectivas medias o proporciones son muy similares a las utili-

zadas en el caso de una población: contrastes de hipótesis basados en el uso de

la distribución normal (cuando se comparan dos proporciones) o de la t-Stu-

dent (cuando se comparan dos medias). En el caso de la comparación entre

dos medias de grupos distintos, hay que distinguir si se trata de dos grupos in-

dependientes (por ejemplo, cuando se comparan los resultados de un test rea-

lizados a dos grupos distintos de individuos) o bien si se trata de dos grupos

dependientes (por ejemplo, cuando se están considerando los resultados de un

test previo con los resultados de un test posterior, ambos realizados al mismo

grupo de individuos).

Finalmente, en el caso de que se deseen comparar más de dos grupos o pobla-

ciones, los contrastes anteriores ya no sirven y resulta necesario recurrir a las

técnicas ANOVA basadas en la distribución F-Snedecor. El uso de estas técnicas

posibilita discernir si las medias correspondientes a un conjunto de tres o más

grupos son todas aproximadamente iguales o si, por el contrario, se puede es-

tablecer que existen diferencias significativas entre algunas de ellas (y, por

consiguiente, entre los grupos asociados).

Page 6: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 6 Inferencia de información para dos o más poblaciones

Objetivos

Los objetivos académicos del presente módulo se describen a continuación:

1. Comparar dos poblaciones utilizando procedimientos similares a los vistos

para una sola población.

2. Aprender a formular una hipótesis sobre la naturaleza de las dos poblacio-

nes y la diferencia entre sus medias o proporciones.

3. Conocer el método para comparar las varianzas de dos poblaciones. Para

realizar estos contrastes se introduce la distribución F.

4. Entender la importancia práctica de las técnicas ANOVA a la hora de dis-

cernir si existen diferencias significativas entre más de dos grupos o pobla-

ciones.

5. Aprender a usar los tests F de ANOVA y saber interpretar adecuadamente

los resultados que ofrecen.

6. Comprender la lógica que subyace a la metodología ANOVA.

7. Conocer las hipótesis que se han de satisfacer para poder aplicar las técni-

cas ANOVA con garantías.

8. Aprender a usar software estadístico y/o de análisis de datos como instru-

mento básico en la aplicación práctica de los conceptos y técnicas estadís-

ticas.

Page 7: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 7 Inferencia de información para dos o más poblaciones

1. Contrastes de hipótesis para dos poblaciones

En este módulo se presentan métodos para contrastar las diferencias entre las

medias o proporciones de dos poblaciones y para contrastar varianzas.

Para comparar las medias o las proporciones poblacionales, se extrae una muestra

aleatoria de las dos poblaciones y la inferencia sobre la diferencia entre ambas me-

dias o proporciones se basa en los resultados muestrales. El método apropiado

para analizar la información depende del procedimiento empleado al seleccionar

las muestras. Consideramos las dos posibilidades siguientes:

a) Muestras dependientes (datos pareados): en este procedimiento, las mues-

tras se eligen por pares, una de cada población. La idea es que aparte de la carac-

terística objeto del estudio, los elementos de cada uno de estos pares deben estar

relacionados, de manera que la comparación pueda establecerse directamente.

Por ejemplo, supongamos que queremos medir la eficacia de un curso de lectura

rápida. Una manera de abordar el problema sería tomar nota de las palabras leídas

por minuto por una muestra de alumnos antes de tomar el curso y compararlas

con los resultados obtenidos por los mismos alumnos una vez completado el curso.

En este caso, cada par consistiría en medidas de velocidad de un mismo alumno

realizadas antes y después del curso, se podría averiguar si existen pruebas contun-

dentes de la eficacia del curso de lectura rápida.

b) Muestras independientes: en este método se extraen muestras indepen-

dientes de cada una de las dos poblaciones, de manera que los miembros de

una muestra no tienen necesariamente relación con los miembros de la otra.

Por ejemplo, se realiza un estudio para evaluar las diferencias en los niveles

educativos entre dos centros de capacitación, se aplica un examen común a

personas que asisten a cada centro. Las calificaciones del examen son uno de

los factores principales para evaluar diferencias de calidad entre los centros.

1.1. Contrastes de hipótesis para la diferencia de medias

Contraste de hipótesis para la diferencia entre las medias de dos poblaciones:

muestras independientes.

En este apartado presentaremos los procedimientos para contrastar las hipóte-

sis acerca de la diferencia de medias de dos poblaciones.

Se supone que se dispone de muestras aleatorias independientes de n1 y n2,

observaciones procedentes de dos poblaciones normales con medias 1 y 2 y

varianzas conocidas y respectivamente. Se desea contrastar la hipóte-

sis nula (H0) que afirma que los valores de las medias de las dos poblaciones

son iguales: H0: μ1 – μ2 = 0 frente a cualquiera de las hipótesis alternativas:

Nota

A veces en lugar de: H0: 1 – 2 = 0escribiremos: H0: 1 = 2

21

22

Page 8: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 8 Inferencia de información para dos o más poblaciones

H1: μ1 – μ2 0, H1: μ1 – μ2 < 0, H1: μ1 – μ2 > 0. Se fija un nivel de significación

para realizar el contraste.

El estadístico de contraste será:

,

donde es el error estándar.

Es una observación de una distribución N(0,1).

Recordad

La variable diferencia de me-dias muestrales:

1 1 1

2 2 2

, y

,

X N

X N

2 21 2 1 2 1 2,X X N

En el caso de que no se pueda asegurar que las muestras provienen de

poblaciones normales, sólo podremos contrastar la diferencia de medias

si los tamaños de las muestras son superiores a treinta.

El teorema central del límite dice que si tenemos un grupo numeroso

de variables independientes y todas ellas siguen el mismo modelo de

distribución (cualquiera que éste sea), la suma de ellas se distribuye se-

gún una distribución normal estándar.

Por lo tanto el estadístico de contraste:

es una observación de una variable aleatoria que se distribuye aproxi-

madamente como una N(0,1).

1 22 21 2

1 2

*x x

z

n n

2 21 2

1 21 2

x xn n

1 22 21 2

1 2

*x x

zs sn n

Page 9: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 9 Inferencia de información para dos o más poblaciones

Regla de decisión del contraste de hipótesis

Las regiones de rechazo de la hipótesis nula H0: μ1 – μ2 = 0 son:

Figura 1. Regiones de rechazo para contrastes de las diferencias de mediasVarianzas poblacionales conocidas

Se puede actuar de dos mane-ras:1) A partir del p-valor según sea H1:• p-valor = P (Z > z*)• p-valor = P (Z < z*)• p-valor = P (Z > z*)2) Si p-valor se rechaza H0 a partir de los valores críticos según sea H1:• Si z* > z2 se rechaza H0 • Si z*< – zse rechaza H0 • Si z*> – zse rechaza H0 donde z es tal que P(Z > z) = y z/2 es tal que P(Z > z ) = /2

Page 10: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 10 Inferencia de información para dos o más poblaciones

Una vez que se ha calculado el valor del estadístico de contraste, se debe de-

terminar el p-valor. El p-valor depende de la hipótesis alternativa planteada.

• Si H1 : 1 – 2 ≠ 0, entonces

• Si H1 : 1 – 2 < 0, entonces

• Si H1 : 1 – 2 > 0, entonces

Los p-valores de estos contrastes son la probabilidad de obtener un valor al me-

nos tan extremo como el estadístico de contraste obtenido.

Ejemplo 1. “Comparación de las medias del tiempo de respuesta de dos

servidores”.

Figura 2. Estimación de la diferencia entre las medias de dos poblaciones

En una empresa informática se desea medir la eficiencia de dos servidores web.

Para ello, miden el tiempo de espera del cliente entre la petición que hace y la

respuesta que le da el servidor. En la tabla 1 vemos los tiempos de espera (en

milisegundos) de ambos servidores (TA y TB) para cincuenta peticiones son:

Tabla 1. Datos del ejemplo 1. “Comparación de las medias del tiempo de respuesta de dos servidores”

Si el p-valor es significativo se rechaza la hipótesis nula si es menor que

el nivel de significación fijado.

2p P Z z

p P Z z

p P Z z

Tiempo de espera para el servidor A Tiempo de espera para el servidor B

9,67 10,01 8,08 10,01 6,45 6,94 12,11 10,31

9,62 10,55 9,98 9,96 9,64 10,47 12,55 10,83

9,50 11,26 10,30 9,28 8,53 8,47 7,98 8,41

Page 11: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 11 Inferencia de información para dos o más poblaciones

Supongamos que las muestras aleatorias de los tiempos de espera son indepen-

dientes. La empresa quiere saber si el servidor A es menos eficiente (más lento)

que el servidor B con un nivel de confianza del 99%.

Para contestar a estas preguntas se hará un contraste para comparar dos me-

dias. Dado que el enunciado nos pregunta “si el servidor A es menos eficiente

que el servidor B”, considerando que un servidor es menos eficiente si es más

lento, entonces hemos de contrastar si la media del tiempo de espera del ser-

vidor A es más grande que la media del tiempo de espera del servidor B. Así

pues, tenemos que plantear una hipótesis alternativa unilateral.

• Las hipótesis nula y alternativa son:

• Fijamos = 0,01.

• No podemos asegurar que las poblaciones sean normales, pero como he-

mos mencionado anteriormente, al tratarse de muestras grandes (superio-

res a treinta observaciones) el estadístico de contraste será:

Es una observación de una variable aleatoria que se distribuye aproximada-

mente como una N(0,1).

Para resolverlo manualmente calcularemos primero los valores muestrales

como hemos expuesto en los módulos anteriores:

Tiempo de espera para el servidor A Tiempo de espera para el servidor B

10,88 10,64 7,05 10,30 9,20 7,42 10,20 9,15

8,94 10,23 11,79 11,08 4,55 7,48 11,28 7,06

10,59 11,63 9,59 10,05 8,51 11,01 6,53 8,04

9,81 8,91 10,88 9,74 12,11 9,56 8,14 11,70

9,46 10,27 9,83 11,14 7,65 6,80 8,99 10,56

9,26 9,49 10,92 9,44 8,85 8,99 10,01 7,82

9,02 8,99 10,98 9,17 8,45 7,48 8,14 6,01

8,61 10,09 9,54 10,86 8,80 12,57 9,69 8,82

9,42 9,11 10,17 8,82 7,97 7,03

10,86 9,47 10,32 9,85 8,62 8,59

Tiempo de espera para el servidor A Tiempo de espera para el servidor B

nA= 50 nB = 50

= 9,94 = 8,90

sA = 0,90 sB = 1,75

0

1

: 0

: 0A B

A B

H

H

1 22 21 2

1 2

*x x

zs sn n

Ax Bx

Page 12: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 12 Inferencia de información para dos o más poblaciones

Las varianzas muestrales y para estimar las varianzas poblacionales y

calcular el estadístico z*:

= 3,75

Ahora se puede calcular el p-valor = 0,00

Puesto que el p-valor es menor que = 0,01, se rechaza la hipótesis nula a favor

de la alternativa. Así, el tiempo medio de espera del servidor A es mayor que

el del B. Luego el servidor A es menos eficiente que el B.

Ejemplo con Minitab: si el ejemplo anterior se resuelve con Minitab, se ob-

serva que el programa no ofrece la opción de usar la distribución normal. De

todas formas, dado que las muestras son muy grandes, sabemos que la distri-

bución t de Student se acerca a la normal a medida que aumenta el número de

grados de libertad. Por tanto, los resultados que da Minitab no serán similares

por la aproximación a lo normal.

Los resultados de la figura 3 muestran el p-valor = 0,000 < 0,001. Esto indica

que podemos rechazar la hipótesis nula concluyendo que las medias de tiem-

pos de espera del servidor A es mayor que las del B. Luego el servidor A es me-

nos eficiente que el B.

Los grados de libertad (DF) del estadístico t aumentan si las poblaciones tienen

distribución aproximadamente normal pero las varianzas poblacionales no

son iguales.

2As 2

Bs

2 2

9,94 8,90*

0,90 1,7550 50

z

( 3,75)p P Z

Page 13: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 13 Inferencia de información para dos o más poblaciones

Figura 3. Pasos para realizar un contraste de hipótesis para la diferencia de medias para muestras independentes

Figura 4. Resultados del contraste de hipótesis

Contrastes para muestras con varianzas poblacionales desconocidas pero

iguales

El procedimiento que utilizamos se basa en la distribución t con n1 + n2 – 2

grados de libertad.

Pasos a seguir

Una vez introducidos los datos en el programa, se sigue la ruta Stat > Basic Statistics > 2-Sam-ple t (1), y se seleccionan las variables en la ventana corres-pondiente (2). En el cuadro de dialogo Options se completan los campos Confidence level: 99,0 y el tipo de hipótesis alter-nativa Alternative: greater than (3).Seleccionad OK para obtener el contraste.

Observad

En el paso (2) no presupone-mos que las varianzas sean iguales.

Page 14: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 14 Inferencia de información para dos o más poblaciones

El estadístico de contraste será:

donde s es la desviación típica común.

Ejemplo 2. “Estudio sobre la producción científica”.

El director de una escuela universitaria quiere comparar dos departamentos, A

y B, de tamaño similar, por lo que se refiere al “número total de publicaciones

o ponencias de calidad que puedan aportar mejoras a la actividad docente de

la escuela”. Se considerará que una publicación es de calidad cuando se haya

publicado en una revista indexada o la haya publicado una editorial de pres-

tigio internacional; se considerará que una ponencia es de calidad cuando se

haya desarrollado en un congreso internacional con proceso de selección; para

determinar si la publicación o ponencia puede aportar mejoras a la actividad

docente se ha constituido un tribunal de expertos independientes.

Se ha tomado una muestra aleatoria formada por seis profesores del departa-

mento A y se ha hallado el valor de la variable “número total de publicaciones

o ponencias de calidad para cada uno de dichos profesores”. Se ha hecho lo

propio con otra muestra aleatoria formada por ocho profesores del departa-

mento B. Los resultados se presentan a continuación:

Tabla 2. Datos del ejemplo 2. “Estudio sobre la difusión científica”

Para un nivel de significación alfa = 0,05, ¿puede afirmarse que la producción

media de ambos departamentos (según los criterios establecidos) es significa-

tivamente distinta?

Para realizar el estudio partiremos del supuesto de que no hay diferencias en el

“número total de publicaciones o ponencias de calidad de ambos departamen-

tos”. Por consiguiente, en términos de la media del número total de publicacio-

nes o ponencias de calidad, la hipótesis nula es que la diferencia de medias es

cero. Si la evidencia de la muestra conduce al rechazo de esta hipótesis, llegare-

mos a la conclusión de que las medias de calidad son distintas para las dos po-

blaciones, lo que indica que hay diferencia en las publicaciones de calidad de

los dos departamentos, y eso induciría a encontrar las razones de esa diferencia.

En este estudio hay dos poblaciones: una de los profesores del departamento

A, y otra de los profesores del departamento B. Suponemos que ambas pobla-

ciones son normales y que sus varianzas son iguales pero desconocidas.

Dep. A 5 8 7 6 9 7

Dep. B 8 10 7 11 9 12 14 9

1 2

1 2

1 1

x xt

sn n

Page 15: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 15 Inferencia de información para dos o más poblaciones

Considerando el número de publicaciones y ponencias, las medias de pobla-

ción son: A y B, se plantean las hipótesis de trabajo:

H0: μ1 – μ2 = 0 (ambas medias son iguales)

H1: μ1 – μ2 0 (ambas medias son distintas)

Se trata de un contraste de hipótesis bilateral sobre la media de dos poblacio-

nes independientes.

Se empleara Minitab para probar las hipótesis acerca de la diferencia entre las

medias de dos poblaciones (figura 5).

Figura 5. Pasos para realizar un contraste de hipótesis para la diferencia de medias para muestras con varianzas poblacionales desconocidas Pasos a seguir

Una vez introducidos los datos en el programa se sigue la ruta Stat > Basic Statistics > 2-Sam-ple t (1), y se seleccionan las va-riables en la ventana correspondiente (2).En el cua-dro de dialogo Options se com-pletan los campos Confidence level: 95,0 y el tipo de hipótesis alternativa Alternative: not equal (3).Seleccionad OK para obtener el contraste.

Observad

En el paso (2) suponemos que las varianzas son desconocidas pero iguales y marcamos la ca-silla correspondiente.

Page 16: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 16 Inferencia de información para dos o más poblaciones

Obtuvimos los resultados de la figura 6. Aparecen los valores muestrales de

ambos departamentos. El estadístico de contraste es un valor t = –2,84 con

12 grados de libertad (DF) y el p-valor P-Value = 0,015.

Figura 6. Resultados del contraste de hipótesis

Como p-valor = 0,015 < 0,05, se puede rechazar la hipótesis nula con = 0,05.

Así, la producción media de ambos departamentos (según los criterios estable-

cidos) es significativamente distinta en los departamento A y B. Observad

que la información de Minitab para el intervalo de confianza del 95% en la

figura 5 tiene como extremos los valores 5,30 y 0,70 (observad que el 0 no

está incluido en dicho intervalo). Esto también nos indica que debemos recha-

zar la hipótesis nula y aceptar la alternativa (las medias son distintas).

Así, los resultados permiten que el director de la escuela universitaria concluya

que existen diferencias significativas entre ambos departamentos en el “nú-

mero total de publicaciones o ponencias de calidad”.

Aplicando Microsoft Excel al ejemplo 2. “Estudio sobre la difusión científica”.

Para ejecutar una prueba t de dos muestras independientes para datos no apa-

reados haced clic en (t-Test: Two Simple > Assuming Equal Variants) “prueba t:

dos muestras suponiendo varianzas iguales” y especificad las dos columnas

que contengan los datos.

La figura 7 muestra el correspondiente output que ofrece Microsoft Excel.

Figura 7. Resultados ejemplo 2. “Estudio sobre la difusión científica”. Excel

Análisis de datos

Para realizar contrastes de hi-pótesis con MS Excel es nece-sario instalar previamente un complemento llamado “Análisis de datos”. Para ins-talar las herramientas de análisis de datos haced clic en Herramientas > comple-mentos, en el cuadro de diálo-go activar Herramientas para análisis.

Page 17: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 17 Inferencia de información para dos o más poblaciones

Como observamos, el p-valor = 0,0149, al ser menor que el valor de , se puede

rechazar la hipótesis nula con = 0,05.

Contraste de hipótesis para la diferencia entre las medias de dos poblaci-

ones: muestras dependientes (datos pareados)

Disponemos de una muestra aleatoria de n pares de observaciones de distribu-

ciones con medias A y B. Denotamos por y sd la media muestral y la des-

viación típica observadas para las n diferencias (xA-xB) y sea d = A – B media

de las diferencias para la población.

Si la distribución poblacional es normal podemos realizar los siguientes con-

trastes para un nivel de significación :

la hipótesis nula: H0 = d = 0

la hipótesis alternativa (H1) puede ser bilateral:

o unilateral H1: d > 0 o H1 : d < 0

En este tipo de contraste se usa la misma metodología usada para el contraste

de la media para una sola población que vimos en el módulo anterior.

Para ilustrar el diseño con muestras emparejadas ilustrar el ejemplo siguiente:

Ejemplo 3. “Puntuaciones de un test de actitud”

A un grupo de personas se les propuso un test de actitud acerca de un tema

polémico y obtuvimos unos resultados. Luego el grupo asistió a la proyección

de una película favorable al tema y acto seguido se les propuso de nuevo el test

de actitud, del que se obtuvieron otros resultados. En la tabla 3 aparecen los

datos acerca de las puntuaciones del test realizado a once personas. Cada per-

sona da un par de valores, uno para antes de asistir a la proyección de la pelí-

cula y otro después de asistir a la proyección. Se quiere verificar la hipótesis de

que la proyección de una película favorable hace que cambie la actitud desfa-

vorable hacia el tema.

Tabla 3. Datos del ejemplo 3. “Puntuaciones de un test de actitud”

Muestras dependientes

Muestras dependientes significa que tenemos una muestra de observaciones de dos variables. La media de la muestra es:

La desviación estándar es:

La notación d es para recordar que la muestra apareada pro-duce datos de diferencia.

n

ii

dd

n

2( )

1

n

ii

d

d ds

n

Persona Puntuación del test antes de ver la película

Puntuación del testdespués de ver la

película

Diferencia de puntuaciones del test

(di )

1 24 16 8

2 20 18 2

3 24 20 4

4 28 24 4

5 30 24 6

d

1 : 0dH

Page 18: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 18 Inferencia de información para dos o más poblaciones

Observad que la última columna de la tabla 3 contiene la diferencia entre las

puntuaciones antes y después de ver la película. La clave para analizar el dise-

ño con muestras apareadas es tener en cuenta que sólo se considera la colum-

na de las diferencias. Verificaremos la hipótesis de investigación a un nivel de

significación del 1% ( = 0,01). Sea d = la media de las diferencias para la po-

blación de personas.

Las hipótesis serán:

H0: d = 0

H1: d 0

Se trata de un contraste bilateral. Si se rechaza H0 se llega a la conclusión de

que las medias de las puntuaciones del test son distintas al nivel de significa-

ción del 1%. En el módulo 2 se vio que si se puede suponer que la población

tiene una distribución normal, el estadístico de contraste es una t-Student con

n – 1 grados de libertad, para probar la hipótesis nula acerca de la media po-

blacional, si no conocemos la varianza de la población como en este ejemplo.

Con datos de diferencia se calcula el estadístico de prueba para la hipótesis

nula

H0: d = 0 es:

como y

Con = 0,01 y n – 1 = 10 grados de libertad (t0,01/2 = t0,005 = 3,169), la regla de

rechazo para la prueba bilateral es:

Rechazar H0 si t* < 3,169 o t* > 3,169

Persona Puntuación del test antes de ver la película

Puntuación del testdespués de ver la

película

Diferencia de puntuaciones del test

(di )

6 20 22 -2

7 24 20 4

8 22 18 4

9 18 10 8

10 18 8 10

11 24 20 4

11

1

52ii

d

524,72

11d

106,183,26

10ds

* 4,72 04,80

3,2611

d

d

dt

sn

Page 19: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 19 Inferencia de información para dos o más poblaciones

En vista de que t*= 4,80 está en la región de rechazo, se rechaza H0 y se acepta

H1 y podemos afirmar con un 99% de confianza que la película influyó en la

actitud de las personas.

Con los resultados de la muestra podemos definir un intervalo de confianza

de diferencia entre las dos medias de la población, con la metodología para po-

blación única del módulo 2 los cálculos son:

En consecuencia, el intervalo de confianza de 99% de la diferencia de medias

entre las medias de las dos puntuaciones del test es de 1,6 hasta 7,84 observa-

mos que el intervalo no incluye el valor cero, luego, como hemos visto en el

contraste, podemos rechazar H0.

Emplearemos Minitab para este ejemplo 3. “Puntuaciones de un test de ac-

titud”.

La figura 8 muestra los pasos básicos necesarios para realizar el contraste de

hipótesis.

En primer lugar comprobaremos el supuesto de que las poblaciones siguen

una distribución aproximadamente normal:

Figura 8. Pasos para realizar un test de normalidad. Minitab

En los gráficos resultantes (figuras 9 y 10) se observa que no hay indicios

para dudar de que se cumpla el supuesto de normalidad, ya que los puntos

se encuentran muy próximos a las respectivas rectas. Los gráficos nos pro-

porcionan también el p-valor asociado al test de normalidad de Ander-

son-Darling, siendo dicho p-valor suficientemente grande en ambos casos

para no descartar la hipótesis nula de este contraste: que los datos siguen

una distribución normal.

2

3,264,72 3,169 4,72 3,12 [1,60; 7,84]

11dsd tn

Pasos a seguir

Una vez introducidos los datos en el programa se sigue la ruta Stat > Basic Statistics > Norma-lity Test. Y rellenamos los cam-pos en la ventana correspondiente.En el cuadro de diálogo se se-lecciona el test de Anderson-Darling.

Page 20: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 20 Inferencia de información para dos o más poblaciones

Figura 9. Test de normalidad. Minitab

Figura 10. Test de normalidad. Minitab

Pasamos, pues a realizar las inferencias ya comentadas sobre d.

Page 21: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 21 Inferencia de información para dos o más poblaciones

Figura 11. Pasos para realizar un contraste de hipótesis para la diferencia de medias para muestras dependientes

Los resultados obtenidos en la figura 12 que, en base a las observaciones regis-

tradas, hay una probabilidad de 0,99 de que d sea un valor del intervalo

(1,613; 7,841). Además, con un p-valor de 0,001 también podemos afirmar

que hay indicios suficientes para rechazar la hipótesis nula. Por lo tanto, po-

demos concluir que la película influyó en la actitud de las personas.

Figura 12. Resultados del contraste de medias para dos muestras dependientes. Minitab

También puede ejecutar una prueba t por pares utilizando Excel. Desde Herra-

mientas > Análisis de datos, haced clic en Prueba t para medias de dos muestras

emparejadas y especificad las dos columnas que contienen los datos por pares.

Este comando no calcula el intervalo de confianza, de modo que tenéis que

calcularlo mediante las fórmulas que aparecen en este módulo.

Pasos a seguir

Se sigue la ruta Stat > Basic Statistics > Paired t (1) y se re-llenan los campos en la venta-na correspondiente (2). En el cuadro de diálogo Options se completan los campos Confi-dence level: 99,0 y el tipo de hi-pótesis alternativa Alternative: not equal (3).Seleccionad OK para obtener el contraste.

Page 22: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 22 Inferencia de información para dos o más poblaciones

La figura 13 muestra el correspondiente output que ofrece Microsoft Excel.

Figura 13. Resultados del contraste de medias para dos muestras emparejadas. Excel

Al ser el p-valor = 0,0007 < (0,01), se rechaza H0.

1.2. Contrastes de hipótesis para la diferencia de

proporciones

Al estudiar la diferencia entre dos proporciones poblacionales, el estimador es

. Como hemos visto en casos anteriores, la distribución del estimador

de las muestras es un factor clave para determinar los intervalos de confianza

y probar las hipótesis de los parámetros.

Supongamos que disponemos de dos muestras aleatorias simples e indepen-

dientes de n1 y n2 observaciones. Las proporciones muestrales de éxitos son

respectivamente: y .

La distribución de la variable diferencia de proporciones muestrales se

puede aproximar con una distribución N(0,1).

Bajo el supuesto de la hipótesis nula cierta (H0: p1 – p2 = 0), tenemos que el

estadístico de contraste es:

donde ( – ) es la diferencia de las proporciones muestrales.

El valor es el valor estimado común de la proporción poblacional, que po-

demos estimarlo a partir de las dos muestras:

1 2p p

1p

2p

Recordad

Si los tamaños de las muestras son grandes:

1 111

1

2 222

2

1,

1,

p pp N p

n

y

p pp N p

n

1 2p p

1 2

1 2

*1 1

p pz

p p p p

n n

1p

2p

p

Page 23: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 23 Inferencia de información para dos o más poblaciones

Regla de decisión del contraste de hipótesis

Una vez que se ha calculado el valor del estadístico de contraste, se debe

determinar el p-valor. El p-valor depende de la hipótesis alternativa plan-

teada.

• Si , entonces

• Si , entonces

• Si , entonces

Se utilizará el ejemplo del apartado 1.1, tabla 1. Datos del ejemplo 1. “Compa-

ración de las medias del tiempo de respuesta de dos servidores”.

En una empresa informática se desea medir la eficiencia de dos servidores

web. Para ello, miden el tiempo de espera del cliente entre la petición que

éste hace y la respuesta que le da el servidor. Los tiempos de espera (en mi-

lisegundos) de ambos servidores (TA y TB) para cincuenta peticiones están

en la tabla 2.

Diremos que el tiempo de espera es aceptable si es menor que 9 milisegundos.

¿Podemos decir que la proporción de peticiones con tiempo de espera acepta-

ble es distinta para los dos servidores?

Para contestar esta pregunta debemos hacer un contraste de diferencia de pro-

porciones que resolveremos con Minitab.

Lo primera operación es calcular para cada tipo de servidor la proporción de

tiempo inferior a 9 milisegundos. Para ello, creamos una nueva columna de

nombre A donde pondremos un 1 si la observación de tiempo de espera del

servidor A es inferior a 9 y 0 en caso contrario. Después sumaremos los valores

de la columna y obtendremos el número de observaciones de tiempo del ser-

vidor A inferior a 9 milisegundos.

1 21 2

1 2

n p n pp

n n

Nota

A veces, en lugar de: H0: p1 – p2 = 0escribiremos: H0: p1 = p2

Si el p-valor es significativo se rechaza la hipótesis nula si es menor que

el nivel de significación fijado.

1 1 2: 0H p p 2 ( )p P Z z

1 1 2: 0H p p ( )p P Z z

1 1 2: 0H p p p P Z z

Page 24: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 24 Inferencia de información para dos o más poblaciones

En la figura 14 se indican los pasos a seguir:

Figura 14. Pasos a seguir para recalcular una variable nueva

Hacemos lo mismo para el tiempo del servidor B, creamos una columna de

nombre B con 1 si el tiempo es inferior a 9 y 0 en caso contrario.

Figura 15. Datos

Indicación

Para hacer este ejercicio prime-ro calcularemos una nueva va-riable, que valga 1 si el tiempo de espera es menor que 9 mili-segundos y 0 en caso contra-rio. Para calcular esta variable, podemos utilizar la instrucción IF de Minitab.

Page 25: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 25 Inferencia de información para dos o más poblaciones

Una vez tenemos estas dos nuevas columnas, calculamos la suma de cada una

de ellas y así tendremos para cada servidor el número de observaciones de

tiempo inferior a 9:

Figura 16. Pasos a seguir para obtener el valor suma

Figura 17. Resultados

Para el servidor A hay seis observaciones con un tiempo de espera inferior

a 9 milisegundos y para el servidor B el número de observaciones menores

de 9 milisegundos es treinta y una.

Plantearemos el siguiente contraste:

Fijamos = 0,05.

La figura 18 muestra los pasos a seguir para realizar el contraste de la diferencia

de proporciones.

Pasos a seguir

Se sigue la ruta Stat > Basic Statistics > Display Descriptive Statistics. (1), y se rellenan los campos en la ventana corres-pondiente.En el cuadro de dialogo Statis-tic se marca Sum (2).Seleccionad OK para obtener el contraste.

0

1

: 0

: 0A B

A B

H p p

H p p

Page 26: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 26 Inferencia de información para dos o más poblaciones

Figura 18. Pasos para hacer un contraste de hipótesis para la diferencia de proporciones

Los resultados de la figura 19 muestran el p-valor = 0,000 < 0,05. Esto indica que

podemos rechazar la hipótesis nula y concluimos que la proporción de peticiones

con tiempo de espera aceptable es diferente para los dos servidores.

Figura 19. Resultados del contraste de diferencia de proporciones. Minitab

1.3. Contrastes de hipótesis de comparación de varianzas

Uno de los contrastes desarrollados en el apartado 1.1 para la comparación de

medias poblacionales depende del supuesto de igualdad de las dos varianzas

poblacionales. Aunque en muchas aplicaciones prácticas este es un supuesto

razonable, conviene usar los datos disponibles para contrastar su validez.

Pasos a seguir

Se sigue la ruta Stat > Basic Statistics > 2-Proportions y se rellenan los campos en la ven-tana correspondiente.Summarized data (1)First: Events: 6 Trials: 50Second: Events: 31 Trials: 50Seleccione Options (2) y se re-llenan los campos: Confidence level: 95,0Alternative: not equal

Page 27: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 27 Inferencia de información para dos o más poblaciones

En este apartado consideramos el caso de dos muestras aleatorias indepen-

dientes de poblaciones normales y contrastaremos la igualdad de varianzas

poblacionales.

Sea la varianza muestral de una muestra de n1 observaciones de una población

normal con varianza , y la varianza muestral de una muestra independien-

te de n2 observaciones de una población normal con varianza . Siempre que

las dos varianzas poblacionales sean iguales ( = ). La distribución de la rela-

ción de las dos varianzas de las muestras está definida por el estadístico F

que sigue una distribución F de Snedecor con n1 – 1 grados de libertad para el

numerador y n2 – 1 grados de libertad para el denominador,

Contraste de igualdad de varianzas de dos poblaciones normales

Ahora nos interesa contrastar la hipótesis nula que asegura que las varianzas

de las poblaciones son iguales , es decir, la varianza de la población 1

es igual a la varianza de la población 2. Primero fijaremos el nivel de significa-

ción del contraste.

Hipótesis alternativa, puede ser:

• Bilateral: H1: , las varianzas de las dos poblaciones son distintas.

• Unilateral: H1: , la varianza de la población 1 es mayor que la va-

rianza de la población 2.

• Unilateral: H1: , la varianza de la población 1 es menor que la va-

rianza de la población 2.

Bajo el supuesto de la hipótesis nula cierta H0: , el estadístico de con-

traste es:

Regla de decisión del contraste de hipótesis

Una vez que se ha calculado el valor del estadístico de contraste, se debe de-

terminar el p-valor. El p-valor depende de la hipótesis alternativa planteada.

• Si H1: , entonces p-valor

21s

21

22s

22

21

22

21

22

ss

21

1; 11 2 22

n ns

Fs

Nota

A veces, en lugar de:

H0:

escribiremos:

H0:

2 21 2

2 21 2 1

2 21 2

2 21 2

2 21 2

2 21 2

2 21 2

21

1; 11 2 22

*n ns

Fs

2 21 2 1,1 2 12 *n nP F F

Page 28: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 28 Inferencia de información para dos o más poblaciones

• Si H1: , entonces p-valor

• Si H1: , entonces p-valor

• Si p-valor se rechaza H0

Ejemplo 4. “Variabilidad de procesadores de texto”.

Queremos comparar dos tipos de procesadores de textos: el LaTeX y el OpenOffi-

ce. Para hacerlo, consideramos textos más o menos de la misma longitud y

contamos la variabilidad del espacio que deja cada procesador entre las pala-

bras. En el caso del LaTeX, consideramos diez textos y obtenemos que la des-

viación estándar muestral del espacio que deja es de 2,5 mm, mientras que

para el OpenOffice consideramos quince textos y obtenemos que la desvia-

ción estándar muestral del espacio que deja es de 3,5 mm. Suponiendo nor-

malidad, ¿podemos afirmar que los dos procesadores de textos tienen la

misma variabilidad en el espacio que dejan entre palabras?

Para contestar a la pregunta hemos de realizar un contraste de igualdad de va-

rianzas.

El contraste de hipótesis es:

Fijamos el valor de = 0,05.

El estadístico de contraste vale: Los valores de y

son, respectivamente, = 6,25 y .

El estadístico F sigue la distribución F de Fisher-Snedecor con 9 y 14 grados de

libertad. El valor del estadístico de contraste será:

Los valores críticos serán:

.

Para calcular los valores críticos utilizaremos la tabla F o mediante un software

estadístico.

Como F0,0,25,9,14 < F* < F0,975,9,14 aceptamos la hipótesis nula y concluimos

que las varianzas son iguales. Luego los dos procesadores tienen la misma va-

2 21 2 1,1 2 1 *n nP F F

2 21 2 1, 11 2 *n nP F F

2 20

2 21

:

:

LaTeX OpenOffice

LaTeX OpenOffice

H

H

2

2* .LaTeX

OpenOffice

sF

s 2

LaTeXs

2OpenOffices 2

LaTeXs 2 12,25OpenOffices

6,25* 0,51.

12,25F

1 2,9,14 0,975,9,14 2 0,025,9,140,265 y = 3,21F F F F

Page 29: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 29 Inferencia de información para dos o más poblaciones

riabilidad en el espacio que dejan entre palabras. Si quisiéramos realizar el con-

traste con el p-valor, éste valdría: Como es

mucho mayor que 0,05, aceptamos la hipótesis nula y llegamos a la misma

conclusión.

En el ejemplo 1. “Comparación de las medias del tiempo de respuesta de

dos servidores”, cuando realizamos el contraste de diferencia de medias con

Minitab no presupusimos que las varianzas fueran iguales. Ahora realizaremos

un contraste para comparar las dos varianzas y ver si son iguales.

Las hipótesis nula y alternativa son:

Fijamos = 0,1. El estadístico de contraste es: donde y son

respectivamente, las varianzas de los tiempos de espera de los servidores A y

B. La distribución de F es la de la F de Snedecor con 50 – 1 = 49 grados de li-

bertad en el numerador y 50 – 1 = 49 grados de libertad en el denominador.

Se resolverá el problema con Minitab. Los resultados de Minitab se muestran

en la figura 20.

Figura 20. Resultados del contraste de varianzas. Minitab

Podemos ver que como el p-valor es prácticamente cero, hemos de rechazar la

hipótesis nula, es decir, no podemos considerar que las varianzas sean iguales.

Por esa razón cuando hicimos el contraste de diferencia de medias no asumi-

mos que las varianzas fueran iguales.

9,142 ( 0,51) 0,312.p p F

2 20

2 21

:

:

A B

A B

H

H

2*

2 ,A

B

sF

s 2

As 2Bs

Pasos a seguir

Se sigue la ruta Stat > Basic Statistics >2-Variances y se re-llenan los campos en la venta-na correspondiente.En el cuadro de dialogo se completan los campos:Samples in different colums: First: TASecond: TBSeleccionad Options, comple-tad los campos: Confidence level: 90,0Title: Contraste de igualdad de varianzas

Page 30: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 30 Inferencia de información para dos o más poblaciones

Minitab también nos ha proporcionado el siguiente gráfico para el contraste

de igualdad de varianzas:

Figura 21. Resultados del contraste de igualdad de varianzas. Minitab

La figura 21 presenta un gráfico con los intervalos de confianza de las varian-

zas de las dos poblaciones, se observa que los intervalos son distintos y no se

solapan. El p-valor del test F indica que se rechaza la hipótesis de igualdad de

varianzas.

En el gráfico de boxplot se ve claramente que la variabilidad del tiempo de es-

pera del servidor A es mucho más pequeña que la del servidor B.

Page 31: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 31 Inferencia de información para dos o más poblaciones

2. Comparación de grupos mediante ANOVA

En el apartado anterior se presentaron algunos de los contrastes de hipótesis

que se usan habitualmente para determinar si existen diferencias significativas

entre dos poblaciones o grupos de individuos. En ocasiones, sin embargo, se

deseará comparar más de dos poblaciones o grupos entre sí, para lo cual se em-

plearán las técnicas de analysis of variance (ANOVA) que se introducen en

este apartado.

Así, por ejemplo, las técnicas ANOVA se podrían aplicar para dar respuestas a

preguntas como las siguientes:

• ¿Existen diferencias significativas entre la duración media de los juicios se-

gún el tipo de delito cometido (homicidio, abuso sexual, robo, piratería,

fraude fiscal, etc.)?

• ¿Existen diferencias significativas entre el gasto anual promedio en tecno-

logía según la franja de edad a la que pertenezca el individuo (niño, joven,

adulto, anciano)?

• ¿Existen diferencias significativas entre el número medio de alumnos y or-

denadores por centro escolar entre los diferentes países de la eurozona?

• ¿Existen diferencias significativas entre el número medio de autocitas a re-

vistas científicas según la editorial (Elsevier, Inderscience, Taylor & Francis,

IGI Global, etc.)?

• ¿Existen diferencias significativas entre el consumo medio de combustible

según el modelo de automóvil usado (deportivo, turismo, todoterreno,

monovolumen, etc.)?

• ¿Existen diferencias significativas entre la calidad media (medida a partir de

unos parámetros definidos) de los resultados de búsquedas en línea según el

tipo de motor usado (Google, Microsoft Bing, Yahoo!, etc.)? (figura 22)

Figura 22. ANOVA permite comparar la calidad media de diferentes servicios

Nota

El acrónimo ANOVA viene del término analysis of variance (análisis de la variación existen-te entre las distintas medias consideradas, para ver si exis-ten diferencias significativas entre las mismas).

Observad

Los ejemplos que se presentan en este capítulo se caracterizan porque la pertenencia a una po-blación o a otra depende de un único factor (tipo de delito, fran-ja de edad, país, editorial, mode-lo de automóvil, motor de búsqueda, etc.). En estos casos, se usa ANOVA de un único fac-tor (en inglés one-way ANOVA o single-factor ANOVA). Sin em-bargo, existen también técnicas ANOVA para el caso en que los grupos vengan determinados por dos factores (p. ej.: tipo de delito y solvencia económica del acusado, franja de edad y clase social, etc.).

Page 32: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 32 Inferencia de información para dos o más poblaciones

2.1. Comparaciones de varias medias

Cuando se desean comparar entre sí las medias correspondientes a más de dos

poblaciones o grupos de individuos, se podría pensar en comparar dichas me-

dias dos a dos mediante un contraste de hipótesis para dos poblaciones. Así,

por ejemplo, en el caso de tres poblaciones se podría pensar en realizar una

serie de tests t de hipótesis para comparar las distintas medias entre sí: un pri-

mer test t para comparar las medias de las poblaciones 1 y 2, otro para com-

parar las medias de las poblaciones 1 y 3, y otro para comparar las medias de

las poblaciones 2 y 3. Sin embargo, esta aproximación tiene un grave proble-

ma: si para cada test t se usa un nivel de significación (generalmente se usa

= 0,05), entonces la probabilidad de cometer un error de tipo I es en cada

test; en tales condiciones, se puede comprobar que la probabilidad de cometer

un error de tipo I en el global de los tres tests sería de (si = 0,05

dicha probabilidad sería de, aproximadamente, 0,14). En otras palabras, com-

parando las medias dos a dos se está realizando un test global con una proba-

bilidad de error de tipo I mucho mayor que la prevista inicialmente para cada

test individual. Para evitar este problema se pueden usar las técnicas ANOVA,

que permiten realizar un único test global con una probabilidad de error de

tipo I determinada (generalmente = 0,05).

El test F de ANOVA

A fin de comparar las medias correspondientes a k poblaciones o grupos de in-

dividuos distintos ( ), se puede plantear el siguiente contraste de hipóte-

sis, donde el símbolo i representa la media de la población i-ésima para

:

(1)

En otras palabras, la hipótesis nula, H0, sostiene que no hay diferencias signi-

ficativas entre las distintas medias poblacionales, mientras que la hipótesis al-

ternativa, Ha, sostiene todo lo contrario, p. ej.: que las medias sí son

significativamente distintas. Es importante observar aquí que la hipótesis nula

no dice que todas las medias sean significativamente distintas entre sí, sino

simplemente que no todas las medias son iguales, aunque puede haber algu-

nas de ellas que sí lo sean (podría ocurrir, por ejemplo, que y

pero siendo ). Por tanto, si se concluyese que no todas las medias son

iguales, cabría realizar un análisis posterior para determinar cuáles de ellas son

diferentes entre sí.

El contraste de hipótesis (1) se llama test F de ANOVA, y generalmente se recurre

al uso de algún software estadístico para resolverlo, es decir, para obtener el p-

valor asociado al test. A partir de dicho p-valor corresponde al investigador de-

Recordad

Un error de tipo I consiste en rechazar la hipótesis nula cuan-do resulta que ésta es cierta. En este caso, la hipótesis nula sería que las medias son coinciden-tes.

31 (1 )

3k

1,2,...,i k

0 1 2: (todas las medias son iguales)

: no todas las medias son igualesk

a

H

H

Software estadístico

En la actualidad existe una gran variedad de programas estadísticos o de análisis de datos de gran calidad, tanto comerciales (Minitab, SPSS, MS Excel, SAS, S-Plus, etc.) como de código abierto (R, Calc de Open Office, etc.).

1 2 2 3

1 3

Page 33: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 33 Inferencia de información para dos o más poblaciones

terminar si ha sido posible encontrar suficientes evidencias para rechazar la hi-

pótesis nula o si, por el contrario, los datos empíricos parecen no estar en

contradicción con la hipótesis nula y, por tanto, se acepta ésta como válida.

Como en cualquier otro tipo de contraste estadístico, antes de resolver el test se

suele fijar un valor de significación, (por lo general = 0,05 o bien = 0,01).

Una vez obtenido el p-valor, si se rechaza la hipótesis nula; en caso

contrario no hay indicios suficientes para hacerlo y, por tanto, se aceptará la hi-

pótesis nula como válida. La elección del valor concreto para dependerá del

nivel de confianza, , que se desee que tenga la decisión final sobre la acep-

tación o no de la hipótesis nula. Así, por ejemplo, un = 0,05 implicará un nivel

de confianza en la decisión final del 95%, mientras que un = 0,01 implicará un

nivel de confianza en la decisión final del 99%. El problema de seleccionar nive-

les de confianza excesivamente elevados (superiores al 99% o, lo que es lo mis-

mo, valores de inferiores a 0,01) es que entonces el contraste de hipótesis se

vuelve excesivamente “conservador”, de manera que sólo cuando las evidencias

empíricas en contra de la hipótesis nula son totalmente abrumadoras (es decir,

sólo cuando las diferencias entre algunas de las medias son desproporcionadas),

es posible obtener un p-valor más pequeño o igual que . Por ese motivo, en la

mayoría de los casos prácticos se suele usar el valor = 0,05 o bien = 0,01.

Ejemplo de aplicación de ANOVA: comparando el número medio de

accesos a contenidos en línea según la posición del enlace en el portal

En un portal web de acceso a publicaciones en línea, se sospecha que la posi-

ción que ocupa el enlace a una determinada base de datos afecta al número de

consultas diarias que ésta recibe. Para comprobarlo, se han seleccionado al azar

un total de 13 días laborables de un mes y, para cada uno de ellos, se ha con-

tabilizado el número de accesos recibidos. La tabla 4 muestra los valores obte-

nidos, los cuales han sido agrupados según la posición diaria del enlace (en el

encabezado de la página, en el margen derecho o en el margen izquierdo).

Tabla 4. Accesos a una base de datos según la posición del enlace

¿Se puede afirmar que hay diferencias significativas entre las distintas me-

dias?, es decir: ¿depende el número medio de consultas diarias de la posición

que ocupe el enlace?

Posición del enlace

Encabezado (1) Derecha (2) Izquierda (3)

10 7 3

12 6 3

10 7 5

9 8 4

7

Total 41 45 15

Media = 10,25 = 7,0 = 3,75

p valor

1

1x 2x 3x

Page 34: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 34 Inferencia de información para dos o más poblaciones

Como primera aproximación a este problema, se puede optar por generar un

diagrama de cajas y bigotes (boxplot) para cada uno de los grupos de datos. La

figura 23 muestra dicho diagrama que incluye además una línea uniendo las

respectivas medias. Se aprecian claras diferencias entre los tres grupos consi-

derados, tanto a nivel de boxplots como a nivel de las respectivas medias.

Figura 23. Boxplot del número de consultas para cada posición

Sin embargo, para contestar de forma contundente a las preguntas anteriores,

resulta necesario realizar un test F de ANOVA. El contraste de hipótesis se pue-

de formular como sigue:

Para resolver dicho contraste, se fijará un valor de significación = 0,05 y se

recurrirá al uso de software estadístico para obtener el p-valor correspondiente

a las observaciones de la tabla 4.

La figura 24 muestra los pasos básicos necesarios para generar un análisis

ANOVA con el programa Minitab. Por su parte, la figura 24 muestra el output

generado para los datos de este ejemplo. Se observa que el valor resultante para

el estadístico del contraste es F = 44,47. El estadístico F es una variable aleatoria

que se comporta según una distribución F-Snedecor con 2 grados de libertad

en el numerador (DF Factor) y 10 grados de libertad en el denominador (DF

Error). El p-valor no es más que la probabilidad de que una variable aleatoria

con esas características supere el valor observado para el estadístico de contras-

te, p. ej.: p-valor = P(F2,10 > 44,47). Según se observa en el output, en este caso

se obtiene p-valor = 0,000. Dado que el p-valor es mucho menor que el nivel

de significación escogido (p-valor = 0,000 < 0,05 = ), se concluye que los datos

obtenidos parecen contradecir la hipótesis nula y, por tanto, ésta se debe re-

chazar. Así pues, hay indicios claros para pensar que no todas las medias son

0 1 2 3:

: no todas las medias son igualesa

H x x x

H

Page 35: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 35 Inferencia de información para dos o más poblaciones

iguales, p. ej.: que el número medio de consultas diarias sí depende de la po-

sición que ocupe el enlace.

Figura 24. Pasos a seguir para realizar un análisis ANOVA en Minitab

Figura 25. Output ANOVA de Minitab para la comparativa de posiciones

En la segunda parte del output Minitab se representa cada una de las medias

junto con su respectivo intervalo de confianza para un nivel de confianza del

95%. Se observa que los intervalos son disjuntos (no se solapan), lo que signi-

fica que las observaciones aportan evidencias de que las tres medias son signi-

ficativamente distintas. En general, sin embargo, el hecho de que todas las

medias no sean iguales no implicará necesariamente que todas sean distintas

(es decir, podría haber intervalos que se solapasen y otros que no).

Pasos a seguir

Una vez introducidos los datos en el programa (1), se sigue la ruta Stat > ANOVA > One-Way (Unstacked) (2) y se seleccio-nan las variables en la ventana de ANOVA (3). Más adelante se hará uso de la opción Graphs de esta ventana (4).

Page 36: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 36 Inferencia de información para dos o más poblaciones

La figura 26 muestra el correspondiente output ANOVA que ofrece Microsoft

Excel. Se observa el mismo valor para el estadístico F = 44,47, así como un

p-valor = 1,0543E-05 (es decir, p-valor = 0,00001543 o, redondeando, p-valor

= 0,000).

Figura 26. Output ANOVA de Excel para la comparativa de posiciones

Ejemplo de aplicación de ANOVA: comparando promedios de resultados

válidos ofrecidos por un motor de búsqueda según el algoritmo empleado

Los desarrolladores de un nuevo motor de búsqueda especializado en recursos

de investigación están probando tres algoritmos distintos de recuperación de

la información. Para comprobar si el promedio de resultados válidos que pro-

porciona cada algoritmo es el mismo en los tres casos, se han realizado unas

pruebas aleatorias con cada uno de ellos. La tabla 5 muestra las observaciones

que se han obtenido tras realizar las pruebas.

Tabla 5. Resultados válidos obtenidos con cada algoritmo

¿Se puede afirmar que hay diferencias significativas entre los distintos prome-

dios?, es decir: ¿depende el promedio de resultados válidos obtenidos del al-

goritmo que implemente el motor de búsqueda?

Nuevamente, para responder adecuadamente a estas preguntas resulta necesa-

rio llevar a cabo un test F de ANOVA. Como paso previo, sin embargo, pode-

Nota

Para poder realizar ANOVA con MS Excel, es necesario instalar previamente un complemento llamado “Análisis de datos”. Usando Google o cualquier otro buscador es fácil encon-trar información detallada so-bre el proceso de instalación. También existe un comple-mento similar para Open Offi-ce Calc.

Algoritmo

SR-GCWS SS-NEH Híbrido

12 10 16

10 17 14

18 16 16

12 13 11

14 20

21

Total 66 56 98

Media = 13,20 = 14,00 = 16,331x 2x 3x

Page 37: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 37 Inferencia de información para dos o más poblaciones

mos graficar los correspondientes boxplots. Como se observa en la figura 27, en

este caso las diferencias entre los distintos grupos no parecen ser excesivas, si

bien el algoritmo híbrido parece haber proporcionado resultados ligeramente

superiores al resto.

Figura 27. Boxplot del número de resultados válidos para cada algoritmo

A fin de comprobar si las diferencias entre los promedios son o no estadística-

mente significativas, se formula el siguiente contraste ANOVA:

Nuevamente se hará uso de un nivel de significación = 0,05 (es decir, el nivel

de confianza usado es del 95%). Las figuras 28 y 29 muestran, respectivamen-

te, los output Minitab y Excel para este ejemplo.

Figura 28. Output ANOVA de Minitab para la comparativa de algoritmos

0 1 2 3:

: no todas las medias son igualesa

H x x x

H

Page 38: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 38 Inferencia de información para dos o más poblaciones

Figura 29. Output ANOVA de Excel para la comparativa de algoritmos

En ambos outputs se observa un valor del estadístico F = 1,29. En esta oca-

sión, dicho estadístico es una variable aleatoria que se distribuye según una

F-Snedecor con 2 grados de libertad en el numerador (DF Factor) y 12 en el

denominador (DF Error). La probabilidad de que una variable como esta al-

cance o supere el valor 1,29 obtenido por el estadístico es de 0,312, que es

precisamente el p-valor que se observa en ambos outputs. Puesto que p-valor

= 0,312 > = 0,05, no parece que haya indicios suficientes como para re-

chazar la hipótesis nula. En otras palabras, los datos observados parecen es-

tar en sintonía con la hipótesis nula, por lo que aceptaremos la hipótesis

de que los promedios de resultados válidos son equivalentes para los tres

algoritmos, sin que haya diferencias estadísticamente significativas entre

ellos.

De hecho, en la segunda parte del output Minitab se observa que los intervalos

de confianza para las tres medias se solapan parcialmente, lo que significa que

para un nivel de confianza del 95% no se puede afirmar que haya diferencias

significativas entre dichas medias.

2.2. La lógica del contraste ANOVA

Cuando mediante un experimento aleatorio se recogen una serie de datos (ob-

servaciones) y estos son clasificados en varios grupos o niveles según un factor

determinado (franja de edad, clase social, etc.), se pueden analizar dos tipos

distintos de varianza en las observaciones (figura 30):

• Por un lado, la variación existente entre los distintos grupos o niveles (p.ej.:

la variación entre las respectivas medias de cada grupo). Esta se conoce

como “variación entre-grupos” o “MS Factor”.

• Por otro, la variación existente dentro de cada grupo o nivel. Esta se conoce

como “variación intra-grupos” o “MS Error”.

Page 39: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 39 Inferencia de información para dos o más poblaciones

Figura 30. Variación entre-grupos y variación intra-grupos

En el fondo, lo que hace el test ANOVA es comparar las dos medidas de varia-

bilidad, la variación entre-grupos (MS Factor) y la variación intra-grupos (MS

Error). Si ocurre que el MS Factor es significativamente mayor que el MS Error

(figura 31), entonces el test concluirá que las medias de los distintos grupos

no son iguales en todos los casos (lo que implica que no todos los datos per-

tenecen a un mismo grupo o, lo que es lo mismo, que el valor de las observa-

ciones sí depende del factor considerado). Si, por el contrario, el MS Factor no

es significativamente mayor que el MS Error (figura 32), entonces el test con-

cluirá que no se aprecian diferencias significativas entre las medias de los dis-

tintos grupos (en otras palabras, que las observaciones parecen proceder todas

de un único grupo o, lo que es lo mismo, que las observaciones no parecen

depender del factor considerado).

Figura 31. La variación entre-grupos es mayor que la intra-grupos

Page 40: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 40 Inferencia de información para dos o más poblaciones

Figura 32. La variación entre-grupos es menor que la intra-grupos

En la figura 25 (output ANOVA de Minitab) se observan los valores MS Factor

= 42,250 y MS Error = 0,950. Es decir, en este caso la variación entre-grupos

(MS Factor) es mucho mayor que la variación intra-grupos (MS Error), lo que

ya deja entrever que, probablemente, el test concluya que no todas las medias

son iguales. Pero, ¿cómo llega el test a la conclusión final? La figura 33 ayuda

a entender mejor cómo funciona el test F de ANOVA:

a) Por un lado, a partir de los valores obtenidos para MS Factor y MS Error se

calcula el estadístico de contraste .

En este caso, F = 44,47.

b) Por otra parte, se sabe que si la hipótesis nula fuese cierta (p. ej.: si todas las

medias son iguales), este estadístico F sería una variable aleatoria que seguiría

una distribución F-Snedecor con k – 1 grados de libertad en el numerador (DF

Factor), y n – k grados de libertad en el denominador (DF Error), siendo k el

número de grupos o niveles y n el número total de observaciones.

En el ejemplo de la figura 25, DF Factor = 2 y DF Error = 10. Ahora bien, ¿cuál

es la probabilidad de que una variable aleatoria F-Snedecor (2, 10) alcance un

valor como el obtenido por el estadístico de contraste F? En otras palabras, ¿es

razonable pensar que una F-Snedecor (2,10) haya alcanzado un valor de

44,47? La probabilidad de que esto ocurra nos la proporciona el p-valor. De

esta manera, un p-valor “pequeño” (inferior al nivel de significación ) se pue-

de interpretar como una probabilidad demasiado baja de que una F-Snedecor

(2, 10) pueda dar el valor obtenido para F, lo que pone en entredicho la supo-

sición inicial de que la hipótesis nula era cierta. Por otra parte, un p-valor

“grande” (superior al nivel de significación ) se puede interpretar como una

MS FactorF

MS Error

Page 41: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 41 Inferencia de información para dos o más poblaciones

probabilidad aceptable de que, en efecto, una F-Snedecor (2, 10) tome dicho

valor y, por tanto, no habría evidencias para dudar de la hipótesis nula.

Figura 33. Funcionamiento interno del test F de ANOVA

2.3. Las hipótesis del modelo ANOVA

Como cualquier otra técnica de inferencia estadística, el contraste ANOVA se

puede usar con garantías, para comparar poblaciones o grupos, sólo si se cum-

plen unas determinadas condiciones de entorno o supuestos básicos:

1) Las observaciones son independientes entre sí y constituyen, para cada po-

blación o grupo, una muestra aleatoria.

2) Las observaciones de cada población o grupo siguen una distribución

aproximadamente normal.

3) Las observaciones de cada población o grupo tienen una varianza , que

es aproximadamente la misma para todos los grupos.

El primer supuesto garantiza que las muestras son aleatorias e independientes,

lo que es un requisito común en las técnicas de inferencia estadística. Si las

muestras no fuesen aleatorias o las observaciones no fuesen independientes,

la información que se generaría estaría sesgada y, por tanto, no sería válida. Es

función del investigador garantizar, durante la fase de diseño del experimento

y posterior recogida de datos, que se cumple este supuesto.

Observad

que cuando el valor obtenido para el estadístico F a partir de las observaciones no es cohe-rente con lo que cabría esperar de una F-Snedecor (k – 1, n – k), entonces lo que está fa-llando es la suposición inicial de que la hipótesis nula es cierta.

2

Page 42: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 42 Inferencia de información para dos o más poblaciones

Por lo que respecta al supuesto segundo (normalidad de los datos), éste se suele

comprobar mediante la realización de un gráfico de normalidad para el con-

junto de los datos. La figura 34 muestra dicho gráfico para el ejemplo anterior

de los algoritmos. Siempre que los puntos (que representan a las observacio-

nes) estén razonablemente cerca de la línea recta (que representa a la distribu-

ción normal) y no muestren un patrón de comportamiento extraño, no hay

motivos para sospechar que falla el supuesto de normalidad. Si se observase al-

gún patrón de comportamiento anómalo (e.j.: muchos puntos excesivamente

alejados de la línea o bien muchos puntos consecutivos situados al mismo

lado de la línea), entonces el supuesto de normalidad quedaría en entredicho.

Para el ejemplo de los algoritmos, no se observa en el gráfico nada extraño y,

por tanto, se puede validar el supuesto de normalidad de los datos.

Figura 34. Gráfico de normalidad para los datos del ejemplo de algoritmos

Finalmente, por lo que respecta al supuesto de varianza constante, este se suele

comprobar o bien calculando las desviaciones estándar de las muestras para

verificar que no hay grandes diferencias entre ellas (figura 35), o bien median-

te un gráfico que permita comparar visualmente la dispersión de los datos en

cada grupo (figura 36). En el caso del ejemplo de los algoritmos no se observan

diferencias sustanciales entre las varianzas de los distintos grupos, lo que per-

mite validar el supuesto de varianza constante.

Figura 35. La columna StDev permite estimar la varianza de cada grupo

Pasos a seguir

Este tipo de gráfico se puede obtener con Minitab sin más que marcar la casilla “Normal plot of residuals” en las opcio-nes de Graphs de la ventana ANOVA (figura 24).

Recordad

La varianza, 2, es el cuadrado de la desviación estándar o tí-pica, . Por lo general, el valor exacto de la varianza poblacio-nal, 2, será desconocido, pero dicho valor se puede estimar mediante la varianza de la muestra, s2.

Page 43: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 43 Inferencia de información para dos o más poblaciones

Figura 36. El gráfico muestra la dispersión de cada grupo

Ejemplo de aplicación de ANOVA: comparando valoraciones medias en

un cuestionario de escala Likert según el perfil de los encuestados

En una universidad se ha implementado recientemente un nuevo servicio

online que facilita el acceso a recursos didácticos complementarios. Se desea

conocer la opinión de los estudiantes sobre este nuevo servicio y, en parti-

cular, si existen diferencias significativas en la valoración media del servicio

según la titulación a la que pertenezca el estudiante. Para ello, un investiga-

dor ha seleccionado al azar cinco estudiantes de cada uno de los principales

estudios que se ofrecen y les ha pedido que rellenen un cuestionario de eva-

luación del servicio. El cuestionario usa una escala Likert entre 1 (mínima va-

loración) y 7 (máxima valoración). Los resultados obtenidos se muestran en

la tabla 6.

Tabla 6. Valoraciones obtenidas según perfil del estudiante

La figura 37 muestra el output Minitab correspondiente a los estadísticos des-

criptivos para cada grupo o nivel de observaciones. A simple vista parecen

apreciarse diferencias considerables entre la máxima valoración media (CC.

Información, con 5,4) y la mínima (Psicología, con 2,8). El boxplot de la figura

38 también apunta a la posibilidad de que las valoraciones medias del servicio

Pasos a seguir

Este tipo de gráfico se puede obtener con Minitab sin más que marcar la casilla “Residuals versus fits” en las opciones de Graphs de la ventana ANOVA (figura 24).

Estudios

CC. Información CC. Empresariales Ing. Informática Derecho Psicología

6 4 5 4 3

5 4 4 4 3

5 3 4 5 2

7 3 6 4 4

4 2 2 6 2

Page 44: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 44 Inferencia de información para dos o más poblaciones

puedan depender del perfil del estudiante, no siendo las mismas para todas las

titulaciones.

Figura 37. Estadísticos descriptivos de las valoraciones por grupo

Figura 38. Boxplot para las valoraciones del servicio por titulación

Para poder corroborar o desmentir estas impresiones visuales de una forma

más científica, se opta por realizar un test F de ANOVA con un nivel de signi-

ficación = 0,01 (es decir, en este caso se opta por usar un nivel de confianza

del 99%).

La figura 39 muestra el output ANOVA de Minitab, en el que se aprecia un MS

Factor = 5,54 (variación entre-grupos), un MS Error = 1,14 (variación intra-gru-

pos) y un valor para el estadístico de contraste F = 5,54 / 1,14 = 4,86. En el su-

puesto de que la hipótesis nula fuese cierta, este estadístico seguiría una

distribución F-Snedecor con 4 grados de libertad en el numerador (DF Factor)

y 20 grados de libertad en el denominador (DF Error). La probabilidad de que

una variable aleatoria F-Snedecor (4, 20) tome un valor igual o superior a 4,86

es 0,007 (p-valor). Esta probabilidad es extremadamente baja (más baja que el

valor de significación fijado), lo cual pone en entredicho el supuesto inicial de

que la hipótesis nula era cierta. En otras palabras: puesto que p-valor < hay

que rechazar la hipótesis nula. Así, pues, según las evidencias empíricas en-

contradas, se puede afirmar con un 99% de confianza que las valoraciones me-

dias de los grupos no son todas iguales.

Page 45: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 45 Inferencia de información para dos o más poblaciones

Figura 39. Output ANOVA de Minitab para la comparativa de valoraciones

La segunda parte del output Minitab ofrece los intervalos de confianza, a un

nivel de confianza del 99% en este caso, para cada una de las medias. Se

observa cómo los intervalos más extremos, p. ej.: los correspondientes a

CC. Información y Psicología, no se solapan por muy poco. Esto es lógico,

puesto que el p-valor = 0,007 está muy cercano al valor de significación es-

cogido = 0,01. Si el p-valor hubiera sido todavía menor, ambos intervalos

estarían claramente separados. Si, por el contrario, el p-valor hubiera sido

mayor, ambos intervalos se solaparían parcialmente como ocurre en el res-

to de los casos.

Antes de dar por definitivas las conclusiones anteriores, conviene validar

que se cumplen los supuestos básicos de normalidad y varianza constante

de los datos. La figura 40 muestra el gráfico de normalidad correspondiente

a las observaciones. No parecen observarse patrones extraños ni demasia-

dos puntos excesivamente alejados de la recta, por lo que se aceptará como

válido el supuesto de normalidad. Por su parte, la figura 41 muestra el grá-

fico de dispersión de cada grupo. Tampoco se observan grandes diferencias

entre las dispersiones de los distintos niveles, por lo que se aceptará como

válido el supuesto de varianza constante entre los distintos grupos.

Atención

Para evitar confusiones en la segunda parte del output, es importante fijar bien el nivel de confianza (1 – ) en la ventana ANOVA (figura 24), de mane-ra que éste se corresponda con el nivel de significación esco-gido en cada caso.

Page 46: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 46 Inferencia de información para dos o más poblaciones

Figura 40. Gráfico de normalidad de las valoraciones registradas

Figura 41. Gráfico de dispersión de cada grupo

Page 47: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 47 Inferencia de información para dos o más poblaciones

Resumen

En este módulo se han presentado las principales técnicas estadísticas que per-

miten comparar estadísticamente dos o más grupos y discernir si existen o no

diferencias significativas entre ellos. En el caso de dos grupos, se usa un con-

traste de hipótesis basado en la t-Student (si se están comparando dos medias)

o en la normal (si se están comparando dos proporciones).Por último, se han

estudiado procedimientos que se pueden aplicar para hacer inferencias acerca

de varianzas poblacionales. Se presentó la distribución F, para emplearla en

pruebas de hipótesis acerca de las varianzas de dos poblaciones normales.

En el caso de tres o más grupos, se usa un test ANOVA basado en la F-Snedecor.

Conviene tener siempre muy presente que lo más importante de un test de hi-

pótesis no son los cálculos matemáticos que subyacen al mismo (en gran parte

porque dichos cálculos se pueden automatizar mediante el uso de software),

sino la correcta interpretación de los resultados obtenidos y la credibilidad de

los mismos, que dependerá de que se cumplan o no los supuestos necesarios

para poder aplicar cada una de las técnicas de inferencia vistas en este módulo.

Si bien el ordenador puede ser muy útil efectuando los cálculos matemáticos

con precisión y rapidez, es responsabilidad del investigador saber interpretar

los resultados y comprobar la validez de los supuestos.

Page 48: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 48 Inferencia de información para dos o más poblaciones

Page 49: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 49 Inferencia de información para dos o más poblaciones

Ejercicios de autoevaluación

1) Se estudia el impacto que causa la reubicación forzada sobre la buena vecindad. Se entre-vista a seis individuos tanto antes como después de que se les obligara a mudarse. Las entre-vistas producen las siguientes puntuaciones:

Realizad un contraste de hipótesis al nivel de confianza del 95%.

2) De una muestra de ochenta y cinco mensajes de correo con virus que llegan al servidor denuestra empresa, nuestro programa KILLVIRUS instalado en el servidor sólo ha detectadoveinticinco. Las especificaciones del programa decían que el programa detectaba más del40% del correo con virus. ¿Estáis de acuerdo con los resultados obtenidos con las especifica-ciones del programa? (considerad = 0,1). Hallad el p-valor del contraste.

3) Queremos comparar la eficiencia de dos compiladores de dos sistemas de indización dife-rentes: A y B. Para hacerlo, se diseñan ocho programas en cada uno de los dos sistemas y semide el tiempo de ejecución que tarda cada uno de los programas para resolver ocho proble-mas determinados de optimización. Los resultados se muestran en la tabla siguiente:

¿Podemos asegurar a partir de los datos anteriores que el compilador del sistema A es máseficiente que el compilador del sistema B? (considerad = 0,05). Hallad el p-valor del con-traste.

4) Dos empresas, A y B, quieren comprar un dispositivo de almacenamiento para realizar co-pias de seguridad. Antes de hacer la compra se hace un estudio de cuántos gigas necesitaríanpara realizar la copia. Este estudio consiste en calcular durante diez días toda la informaciónde la empresa necesaria para la copia de seguridad. Los resultados se muestran en la tabla si-guiente:

Entrevistado Antes Después

1 2 1

2 1 2

3 3 1

4 3 1

5 1 2

6 4 1

Problema de optimización a

resolver

Tiempo de ejecución usado por el ejecutable compilado

con el sistema A (en segundos)

Tiempo de ejecución usado por el ejecutable compilado

con el sistema B (en segundos)

P1 1,2 1,4

P2 1,3 1,7

P3 1,5 1,5

P4 1,4 1,3

P5 1,7 2,0

P6 1,8 2,1

P7 1,4 1,7

P8 1,3 1,6

Día 1 2 3 4 5 6 7 8 9 10

Empresa A (gigas) 34 45 47 49 31 30 24 33 35 40

Empresa B (gigas) 45 47 50 42 40 51 46 59 42 46

Page 50: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 50 Inferencia de información para dos o más poblaciones

Suponiendo normalidad y un nivel de significación del 0,05, ¿podemos afirmar que la em-presa B necesita más capacidad de almacenamiento que la empresa A? Indicación: antes denada, tenéis que realizar el contraste correspondiente para ver si las varianzas de las dosmuestras son iguales a un nivel de significación de 0,05.

5) Se ha diseñado un experimento aleatorio para analizar durante cuánto tiempo es efectivacada una de las cuatro drogas distintas que se pueden emplear para aliviar el dolor tras unaoperación quirúrgica. Los datos obtenidos se muestran en la tabla siguiente:

Para un nivel de significación = 005, contrastar la hipótesis nula de que las cuatro drogasson igualmente efectivas.

6) A la hora de descargar programas open-source de Internet, suele ser habitual poder optar porhacerlo desde varios servidores (mirrors). Generalmente, las velocidades de descarga desde cadaservidor dependen de la distancia existente entre el servidor y el cliente que solicita la descarga.En este caso se desea estudiar si las velocidades de descarga desde cinco servidores distintos sepueden considerar equivalentes o no. Para cada uno de los servidores, se han seleccionado al-gunos ficheros al azar (todos ellos del mismo tamaño) y se han descargado en el cliente, obte-niendo los tiempos de descarga (en segundos) que se muestran en la tabla siguiente:

¿Se puede afirmar que la velocidad media de descarga es independiente del servidor seleccio-nado? Usar un nivel de significación = 0,01.

7) Se desean comparar los ingresos por familia (en miles de euros) correspondientes a tresprovincias de una misma comunidad autónoma. A tal efecto, para cada provincia se han se-leccionado 9 familias al azar y se han registrado sus ingresos. La tabla siguiente muestra lasobservaciones obtenidas:

Tiempo (horas)

Droga

A B C D

8 6 8 4

6 6 10 4

4 4 10 2

2 4 10

12

Servidor

Tiempo de descarga (en segundos)

A B C D E

3,8 6,8 4,4 6,5 6,2

4,2 7,1 4,1 6,4 4,5

4,1 6,7 3,9 6,2 5,3

4,4 4,5 5,8

Provincia

Ingresos familiares (miles de euros)

A B C

45 32 40

39,5 30 42

42 37 45

35 35 39,5

40 28,5 40

37 37,5 38

44 31 51

48,5 37,6 47,5

50 25 41

Page 51: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 51 Inferencia de información para dos o más poblaciones

Para un nivel de significación = 0,05, ¿se puede afirmar que los ingresos medios por familiano dependen de la provincia a la que ésta pertenezca?

8) Una universidad hace uso de tres consultorías externas que ofrecen servicios de asesora-miento técnico en línea a sus estudiantes. Para cada una de estas consultorías, se han escogi-do al azar seis servicios prestados durante el año en curso y se ha registrado el cambioporcentual en su precio con respecto al precio medio del año anterior. Los datos recogidos semuestran en la tabla siguiente:

Para un nivel de significación = 0,01, se desea contrastar la hipótesis nula de que el cambioporcentual medio en el precio del servicio es el mismo para las tres consultorías.

9) Se desea comparar el nivel de innovación/originalidad de seis revistas distintas, aunquetodas ellas pertenecientes a un mismo ámbito temático. A tal efecto, se han seleccionado alazar siete ejemplares de cada una de las revistas y un comité de expertos ha evaluado el nivelde innovación/originalidad de cada ejemplar, para lo cual se ha usado una escala entre 1 (mí-nimo) y 300 (máximo). Los datos recogidos se muestran en la tabla siguiente:

A partir de estas observaciones, ¿se puede afirmar que todas las revistas muestran un nivel deinnovación/originalidad equivalente o, por el contrario, existen diferencias significativas en-tre los niveles de innovación/originalidad de las distintas revistas? Utilizar un nivel de signi-ficación = 0,05.

Consultoría

Cambio porcentual en el precio del servicio

A B C

3,0 4,5 1,0

2,5 2,5 –2,5

–1,5 7,0 –3,5

4,0 9,0 2,0

–1,0 1,5 4,6

5,5 2,0 0,5

Revista

A B C D E F

Nivel de

innovación/

originalidad

300 190 228 276 162 264

300 164 300 296 175 168

300 238 268 62 157 254

260 200 280 300 262 216

300 221 300 230 200 257

261 132 300 175 256 183

300 156 300 211 92 93

Page 52: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 52 Inferencia de información para dos o más poblaciones

Solucionario

1) Se trata de un contraste de diferencia de medias para muestras dependientes o empare-jadas (estadístico de contraste t* =1,49; el valor crítico es t/2=0,05/2, y 5 grados de libertad =2,571. t* < t0,025; 5 no se puede rechazar H0. Podemos decir con un 95% de confianza que labuena vecindad no ha variado cuando se produce la reubicación.

2) Se trata de un contraste de diferencia de proporciones. El estadístico de contraste sigueaproximadamente la distribución normal N(0,1) si el tamaño de la muestra es suficientemen-te grande como en nuestro caso. El valor del estadístico de contraste es z* = 1,993.

El valor crítico será: Como z < z0,1, aceptamos la hipótesis nula y concluimos quelas especificaciones del servidor son falsas.

3) Se trata de un contraste de diferencia de medias dependientes. El valor del estadístico decontraste vale: . El valor crítico vale Como t < –t0,05;7; rechazamosla hipótesis.

El p-valor es , valor que es menor que 0,05. Por tanto, llegamos ala misma conclusión: rechazar la hipótesis nula.

4) El resultado del Minitab para el contraste de varianzas es:

Se acepta la igualdad de varianzas.

El resultado del Minitab para el contraste de diferencia medias independientes es:

Como p-valor < 0,05, rechazamos la hipótesis nula, por lo tanto aceptamos que la empresa Bnecesita más capacidad de almacenamiento que la empresa A.

5) Estadístico de contraste F = 12,50; p-valor = 0,001 < = 0,05 Rechazar la hipótesis nula,p. ej.: no todos los grupos tienen el mismo comportamiento.

0,1 1,28.z

3,481t 0,05,7 1,895.t

7( 3,481) 0,0051p p t

Page 53: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste

CC-BY-SA • PID_00161060 53 Inferencia de información para dos o más poblaciones

6) Estadístico de contraste F = 31,6; p-valor = 0,000 < = 0,01 Rechazar la hipótesis nula,p. ej.: no todos los grupos tienen el mismo comportamiento.

7) Estadístico de contraste F = 13,83; p-valor = 0,000 < = 0,05 Rechazar la hipótesis nula,p. ej.: no todos los grupos tienen el mismo comportamiento.

8) Estadístico de contraste F = 2,91; p-valor = 0,085 > = 0,01 No rechazar la hipótesisnula, p. ej.: todos los grupos parecen tener el mismo comportamiento.

9) Estadístico de contraste F = 5,30; p-valor = 0,001 < = 0,05 Rechazar la hipótesis nula,p. ej.: no todos los grupos se comportan igual.

Page 54: Inferencia de información para dos o más poblacionesopenaccess.uoc.edu/webapps/o2/bitstream/10609/6829/9/Estadística_Módulo3_Inferencia...Ejercicios de autoevaluación ... Contraste