Upload
luis
View
227
Download
0
Embed Size (px)
DESCRIPTION
Analisis
Citation preview
Analisis de Varianza - Prof. Mario Pelaez O.
1
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
El Diseño de un Experimento
• El plan de muestreo o diseño experimental determina la forma en que la muestra es seleccionada.
• En un estudio observacional, el experimentador registra datos que ya existen. Ejemplo: las encuestas.
• Experimentacion, el experimentador controla una o mas condiciones en las unidades experimentales y registra las respuestas a esos cambios.
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Definiciones
• Una unidad experimental es el objeto en el que se toma una medicion (o mediciones).
• Un factor es una variable independiente cuyos valores son controlados por el experimentador.
• Un nivel es el grado de intensidad de un factor.
• Un tratamiento es una combinacion especifica de niveles de factor.
• La respuesta es la variable que es medida por el experimentador.
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Ejemplo 1
Un grupo de personas se divide aleatoriamente en
un grupo experimental y un grupo control. Al grupo
de control se le aplica una prueba de aptitud después
de haber tomado un desayuno completo. Al grupo
experimental se le aplica la misma prueba sin haber
tomado ningún desayuno.
Unidad Experimental = Factor =
Respuesta = Niveles =
Tratamientos:
persona
Puntaje en la
prueba
“comida”
Desayuno o
no desayuno
Desayuno o no desayuno
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Ejemplo 2
En un partido de futbol son muchos los factores que influyen en el
número de goles anotados, el entrenamiento, el entrenador, el jugador,
etc. Diseñamos el siguiente experimento: Se elijen dos factores que se
pueden controlar: la distancia y ángulo de tiro al arco. Se definen 3
niveles para cada factor. Para la distancia a 4, 8 y 12 metros del arco y
ángulo de tiro: 45, 90 y 135. Se toma una muestra representativa de
jugadores. Cada jugador lanza 5 tiros y registra el número de goles. Para
cada posición se utiliza 4 jugadores. Se sortean las posiciones a los
jugadores
Unidad Experimental = Factor1 =
Respuesta = Niveles1 =
Factor2 =
Tratamientos: Niveles2 =
jugador
#Goles (0-5)
Distancia
4m; 8m ;12m
Angulo tiro
a45 ; a90; a135
T1= 4m – a45; T2= 4m – a90; T3= 4m – a135;
T4= 8m – a45; T5= 8m – a90; T6= 8m – a135;
T7= 12m – a45; T8= 12m – a90; T9= 12m – a135
Analisis de Varianza - Prof. Mario Pelaez O.
2
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
El Analisis de Varianza (ANVA)
• La variable respuesta tiene una variabilidad total
• Esta varianza se divide en partes que pueden
atribuirse a varios factores.
• Estas partes pueden usarse para determinar los
efectos de los factores en la variable respuesta.
Variacion Total Factor 2
Variacion aleatoria
Factor 1
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Supuestos para el ANVA
1. Las observaciones dentro de cada grupo estan normalmente distribuidas con una varianza comun σ 2.
2. Las suposiciones respecto al procedimiento de muestreo son especificadas para cada diseño.
•El ANVA es un procedimiento robusto cuando los tamaños muestrales son iguales y cuando los datos tienen forma de campana
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
En el DCA un factor tiene k niveles diferentes.
Los k niveles corresponden a k poblaciones normales, los que corresponden con los tratamientos.
¿Estas k poblaciones tienen la misma media, o al menos una media es diferente de la otras?
Diseño Completamente Aleatorizado
– Una clasificacion en una direccion
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
EjemploEn un experimento para determinar el efecto de la
nutricion en la capacidad de concentracion de
estudiantes de escuelas elementales. Doce niños fueron
divididos aleatoriamente en tres grupos y asignados a
un plan de alimentación diferente. La respuesta fue la
capacidad de concentración en minutos durante la
lectura de la mañana.No Desayuno Desayuno
ligero
Desayuno
completo
8 14 10
7 16 12
9 12 16
13 17 15
a = 3 tratamientos.
¿los promedios de
concentracion son
diferentes?
Analisis de Varianza - Prof. Mario Pelaez O.
3
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
• Muestras aleatorias de tamaño n1, n2, …,nk se
toman de k poblaciones con medias µ1, µ2,…,
µk y con varianza comun σ2.
• Sea yij la j-esima medida en la i-esima muestra.
• La variacion total de la variable respuesta se
mide con la Suma de Cuadrados Total
El Analisis de Varianza (ANVA)
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
La Suma de Cuadrados Total (SCT) se
descompone en dos partes:
� SCR (Suma de Cuadrados Tratamientos):
mide la variacion entre las k muestras.
� SCE (Suma de Cuadrados del Error):
mide la variacion dentro de las k muestras
El Analisis de Varianza (ANVA)
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Formulas ANVA
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
El Problema del Desayuno
No Desayuno Desayuno
ligero
Desayuno
completo
8 14 10
7 16 12
9 12 16
13 17 15
T1 = 37 T2 = 59 T3 = 53T = 149
Analisis de Varianza - Prof. Mario Pelaez O.
4
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
La tabla ANVA para el DCA
Fuente de Variación Suma de
Cuadrados
Grados de
Libertad
Cuadrado Medio Fc
Tratamientos SCR a-1 1−
=a
SCRCMR
CME
CMRFc =
Error SCE N-a aN
SCECME
−=
Total SCT N-1
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Fuente gl SC CM Fc
Tratamientos 2 64.6667 32.3333 5.00
Error 9 58.25 6.4722
Total 11 122.9167
El Problema del Desayuno
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Prueba de igualdad de medias
σ 2 es la varianza comun de las “k” poblaciones.
CME = SCE/(N− a) es la estimacion de σ 2
... :H k0 µµµµ========µµµµ====µµµµ====µµµµ 321
diferente es media una menos al:Ha
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
La prueba F de Fisher
• Rechazamos H 0 usando siempre una prueba de cola derecha.
• Cuando H 0 es verdad, F tiene distribucionr1 = (a − 1) y r2 = (N − a) grados de libertad.
µ... µµµ:H a3210 ================
g.l. N-a y a con FF si HRechazar
CME
CMRF :Prueba
0 1−−−−>>>>
====
αααα
Analisis de Varianza - Prof. Mario Pelaez O.
5
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Metodo Tukey para
comparacion de medias
Basado en el rango estudentizado, la diferencia entre la mayor y menor media de las k medias muestrales ( k = a = numero de tratamientos).
El método asume que los tamaños de lasmuestras son iguales y calcula una "regla" quemide la distancia requerida entre cualquier parde medias para declarar una diferenciasignificativa
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Metodo de Tukey
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
¿cual de las tres medias poblacionales son diferentes?
No
Desayuno
Desayuno
ligero
Desayuno
completo
T1 = 37 T2 = 59 T3 = 53
Medias 37/4 = 9.25 59/4 = 14.75 53/4 = 13.25
El Problema del Desayuno
Analisis de Varianza - Prof. Mario Pelaez O.
6
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Las medias muestrales ordenadas de menor a mayor:
La diferencia entre 9.25 y 13.25 es
menor que T = 5.02, no hay diferencia
significativa.
Como 14.75-9.25 = 5.50 > 5.02
si hay diferencia significativa entre las
medias problacionales 1 y 2.
Podemos declarar una
diferencia significativa
entre "sin desayuno" y
"desayuno ligero",
pero no entre los otros
pares
El Problema del Desayuno
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
• Es un diseño con a tratamientos y con b bloques, entonces el total de observaciones es
N = = = = ab.
• El propósito de bloqueo es eliminar o aislar la
variabilidad de bloque a bloque que podría ocultar el
efecto de los tratamientos
• Este diseño usa bloques de k unidades
experimentales homogeneas o similares, con una
unidad dentro de cada bloque asignados
aleatoriamente a cada tratamiento
Diseño en Bloques Completo al Azar - DBCA
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Ejemplo
Una empresa ensambladora de computadoras
desea presentar 3 modelos de computadora.
Efectúa un sondeo en 4 lugares (bloques)
registrando el número de posibles compras del
público que frecuenta los lugares de venta. Se
obtiene los siguientes resultados:
. Lugares
Modelo 1 2 3 4
A 11 13 16 10
B 15 17 20 12
C 10 15 13 10
Tratamiento = modelo de
computadora (a = 3)
Bloque = lugar (b = 4)
¿Las ventas promedio son diferentes
para los tres modelos?
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
El Analisis de Varianza
La SCT se divide en 3 partes:
� SCR (Suma de cuadrados de los tratamientos)
� SCB (Suma de cuadrados de bloques)
� SCE (Suma de cuadrados del Error): mide la
variacion aleatoria o error experimental
Analisis de Varianza - Prof. Mario Pelaez O.
7
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Formulas para DBCA
SCB-SCR-SCTSCE
j uetotal_bloq B donde Ca
BSCB
i amientototal_trat T :donde Cb
TSCR
CYSCT
YT donde N
TC
j
j
ii
ij
ij
====
====−−−−∑∑∑∑
====
====−−−−∑∑∑∑
====
−−−−∑∑∑∑====
∑∑∑∑========
2
2
2
2
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
La Tabla ANVA - DBCA
Total = Cuadrados Medios
Tratamiento =
Bloque =
Error =
ab –1 = N -1
a –1
ab– (a – 1) – (b-1) =
(a-1)(b-1)
CMR = SCR/(a-1)
CME = SCE/(a-1)(b-1)
Fuente gl SC CM Fc
Tratamientos a -1 SCR SCR/(a-1) CMR/CME
Bloques b -1 SCB SCB/(b-1) CMB/CME
Error (b-1)(a-1) SCE SCE/(b-1)(a-1)
Total N -1 SCT
b –1 CMB = SCB/(b-1)
Grados de libertad
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
El problema de los modelos de computadoras
Lugares
Modelo 1 2 3 4 Ti
A 11 13 16 10 50
B 15 17 20 12 64
C 10 15 13 10 48
Bj 36 45 49 32 162
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Fuente gl SC CM F
Tratamientos 2 38 19 10.06
Bloques 3 61.6667 20.5556 10.88
Error 6 11.3333 1.8889
Total 11 111
Analisis de Varianza - Prof. Mario Pelaez O.
8
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Prueba para las medias de
bloques y tratamientos
versus ... :H0 ====µµµµ====µµµµ====µµµµ 321
diferente es media una menos al:Ha
iguales son bloques o ostratamient los:Hprobar Para 0
. )k)(b( y)b (o 1-a con FF si HRchazar
)CME
CMBF (o
CME
CMRF :Prueba
0 111 −−−−−−−−−−−−>>>>
========
αααα
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Fuente gl SC CM F
Modelos 2 38 19 10.06
Lugares
(Bloques)
3 61.6667 20.5556 10.88
Error 6 11.3333 1.8889
Total 11 122.9167
Aunque no es de importancia
primordial, observe que los
bloques (locales) también
fueron significativamente
diferentes
(F = 10.88)
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Metodo Tukey
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Use el metodo de Tukey para determinar cuales de los
tres modelos difieren de los demas.
A B C
T1 = 50 T2 = 64 T3 = 48
Medias 50/4 = 12.5 64/4 = 16 48/4 = 12
Analisis de Varianza - Prof. Mario Pelaez O.
9
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Ordenar las medias de menor a mayor
Como la diferencia entre 12 y 12.5 es menor que
Tα
= 2.98,no hay diferencia significativa.
Hay diferencia entre las medias poblacionales C y B.
Asimismo hay diferencia entre las medias A y B
Una diferencia significativa en las ventas solamente ocurre con el
modelo B. Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Herramientas de diagnostico
1. Grafico de Probabilidad Normal
2. Grafico de Residuos versus estimados
•Muchos programas de computo tienen opciones para verificar los supuestos de poblacion normal y el supuesto de igualdad de varianzas
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
� Si la hipótesis de normalidad es válida, el grafico debe parecerse a una línea recta, inclinada hacia arriba en la derecha.
� La normalidad tambien se demuestra con la prueba Kolmogorov - Smirnov.
Probabilidad Normal de residuos
Copyright ©2006 Brooks/Cole
A division of Thomson Learning, Inc.
Si la hipótesis de igualdad de varianzas es válida, el grafico debe aparecer como una dispersión aleatoria alrededor de la línea central de cero sin ningún patron. Asimismo la prueba Levene demuestra la homogeneidad de varianzas
Residuos versus pronostico