View
5
Download
0
Category
Preview:
Citation preview
DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9
UD 5 – Introducción a la Inferencia Estadística
Contenido- UD5 Introducción a la Inferencia Estadística -
5.4. Introducción a la Regresión Lineal5.4. Introducción a la Regresión Lineal
2.2. Estadística Descriptiva Bidimensional - 22.2. Estadística Descriptiva Bidimensional - 2
5.3 Introducción al Análisis de la Varianza
5.2 Inferencia básica en poblaciones normales
5.1 Distribuciones en el muestreo5.1 Distribuciones en el muestreo
5.3 - ANOVAAnálisis de la Varianza(ANalysis Of VAriance)
Contenidos
1. Idea Intuitiva del ANOVA
2. ANOVA con un sólo factor controlado
2.1. Un ejemplo
2.2. Descomposición de la Suma de Cuadrados.
Test F
2.3. Intervalos LSD
2.4. Análisis de residuos
3. ANOVA con más de un factor. Factores cuantitativos
4. Ejemplos y ejercicios
Idea intuitiva del ANOVA
Técnica estadística muy poderosa para el estudiodel efecto de uno o más factores sobre la mediade una variable
Idea básica: descomponer la variabilidad totalobservada en unos datos en las partes asociadas acada factor estudiado más una parte residual, conla que después se compararán las primeras
Técnica básica para el estudio de observacionesque dependen de varios factores, siendo laherramienta fundamental en el análisis de losModelos de Regresión Lineal y de Diseño deExperimentos
Idea intuitiva del ANOVA
Ejemplo intuitivo
Efecto del tipo de algoritmo y del nivel de tráficoen la red de interconexión de un multicomputador,sobre la latencia de los mensajes enviados por la red
Veamos unos resultados hipotéticos en algunos casos extremos:
Ejemplo intuitivo ALTURA
1 2 3
ALG
ORIT
MO
1 20 20 20 20 20 20
2 20 20 20 20 20 20
Factor 2
Factor 1
2 variantes: 2algoritmos diferentes
3 niveles: 3 niveles de
TRÁFICO en la red
Valor observado: LATENCIA(media) de los mensajes enviados utilizando el algoritmo 2 con un nivel de tráficointermedio (2) en la red
TRÁFICO
Ejemplo intuitivo TRÁFICO
1 2 3
ALG
ORIT
MO
1 20 20 20 20 20 20
2 20 20 20 20 20 20
Latencia media = 20La suma de los cuadrados de las desviaciones de cada valor observado de la LATENCIA con respecto a su media:
( ) ( ) ( ) ( )2 2 2 2020 20 20 20 20 20ikj
ikj
x x− = + + + =− − − …
Suma de Cuadrados Total (SCT)
Caso A
Nada influye
SCTotal=0
( ) ( ) ( ) ( )2 2 2 230020 25 20 25 30 25ikj
ikj
x x− = + + + =− − − …
Ejemplo intuitivo TRÁFICO
1 2 3
ALG
ORIT
MO
1 20 20 20 20 20 20
2 30 30 30 30 30 30
Latencia media = 25
Caso B
SCT=300 Hay variabilidad.
Al “analizar la varianza” se observa que la variabilidad se debe sólo al efecto del tipo de algoritmo utilizado
El factor algoritmo influye sobre la mediade la latencia de los mensajes
SCTotal=SCalgoritmo
( ) ( ) ( )2 2 250020 30 25 30 40 30TOTAL
SC = + + + =− − −…
Ejemplo intuitivo TRÁFICO
1 2 3
ALG
OR
ITM
O 1 20 20 25 25 30 30
2 30 30 35 35 40 40
Latencia media = 30
Caso C
SCT=500 Hay variabilidad
Al “analizar la varianza” se observa que la variabilidad se debe tanto al efecto del algoritmo como al efecto del nivel de
tráfico en la red
El factor algoritmo y el factor nivel de tráfico de la red influyensobre el promedio de la latencia de los mensajes No hay interacción entre ambos factores. El efecto del tráfico es lineal
SCTotal=SCalgoritmo+SCtráfico
TRÁFICO
1 2 3
ALG
ORIT
MO
1 20 20 25 25 30 30
2 30 30 35 35 50 50
( ) ( ) ( )2 2 2
1066 6720 31 67 25 31 67 50 31 67TOTALSC '' ' '= + + + =− − −…
Ejemplo intuitivo
Latencia media = 31’67
Caso D
SCT=1066’67 Hay variabilidad
Al “analizar la varianza” se observa que la variabilidad se debe tanto al efecto del tipo de algoritmo como al efecto del
nivel de tráfico de la red y a su interacción
El factor algoritmo, el factor tráfico y su interaccióninfluyen sobre el promedio de la latencia. El efecto del nivel detráfico sobre la latencia media de los mensajes es mayor utilizando elalgoritmo 2 que el 1
SCTotal=SCalgoritmo+SCtráfico+ SCInteracción
TRÁFICO
1 2 3
ALG
ORIT
MO
1 19 21 27 24 28 32
2 30 31 36 33 47 51
( ) ( ) ( )2 2 2
100119 31 6 21 31 6 51 31 6TOTALSC ' ' '= + + + =− − −…
Ejemplo intuitivo
Latencia media = 31’6
Caso E
Único realista
SCT=1001 Hay variabilidad
Se observa que la variabilidad se debe tanto al efecto del algoritmo como al efecto del nivel de tráfico y a su
interacción, así como al de los factores no controlados
El factor algoritmo, el factor tráfico y su interacción, así como otros factores no controlados o no tenidos en cuenta influyen sobre el promedio de la latencia de los mensajes
SCTotal=SCalgoritmo+SCtráfico+ SCInteracción + SCResidual
Grados de libertad (gl)
SCT glT = nº de datos – 1 SCF glF = nº de variantes –1 SCInteracción producto de los gl de los factores que interaccionan
SCR glR= glT - glF - glinter
En el ejemplo:
SCT 12 - 1= 11 gl
SCalgoritmo 2 – 1 = 1 gl
SCtráfico 3 – 1 = 2 gl
SCalgoritmoXtráfico 1 x 2 = 2 gl
SCR 11 – 5 = 6 gl
En paralelo a esta descomposición de la SCTotal se realiza una descomposición de los “grados de libertad” totales en los grados de libertad asociados a cada término
Significación de un efecto
La comparación de la “varianza” asociada acada efecto con la varianza residual permiteestudiar si dicho efecto es o no significativo
Estas varianzas se estiman dividiendo cadasuma de cuadrados por sus grados de libertad,obteniéndose unos estadísticos a los que sedenomina Cuadrados Medios:
SCCM
g .l=
Test F
El CMTotal es la varianza de los datos observados(no se suele calcular)
El CMResidual es una estimación de la σ2 existenteen las poblaciones muestreadas, asumiendo lamisma σ2 para todas las poblaciones (o unaestimación del promedio de dichas varianzas, en elcaso de que difieran de unas poblaciones a otras)
El CM asociado a cada efecto: es otra estimación de la σ2 independiente de la
del CMResidual, si el efecto no existe en lapoblación
tiende a ser mayor que σ2, si existe un efectoreal poblacional
Test F
Si no existe un efecto real del factor a nivelpoblacional el CMfactor será muy parecido alCMresidual
glF,glR
CMFF ratio F
CMR− = ≈
La F-ratio será muy parecida a 1 con unadistribución F de Fisher con los grados delibertad correspondientes
El factor no influye sobre la media de la respuesta
Test F
Si existe un efecto real del factor a nivelpoblacional el CMfactor >>> CMresidual
La F-ratio será demasiado elevada para ser una Fde Fisher con los grados de libertadcorrespondientes
El factor influye sobre la media de la respuesta
,glF glR
CMFF
CMR>>
Test F
Los programas estadísticos no muestran losvalores críticos de la distribución F manejada. En sulugar, utilizan el p-value asociado (en ladistribución manejada, porcentaje de valores
mayores que el correspondiente estadístico
calculado) Prob (Fglf, glr > Fratio) = p-value
Cuanto menor sea este p-value más fuerte será laevidencia respecto a la existencia poblacional delefecto correspondiente
Contenidos
1. Idea Intuitiva del ANOVA
2. ANOVA con un sólo factor controlado
2.1. Un ejemplo
2.2. Descomposición de la Suma de Cuadrados.
Test F
2.3. Intervalos LSD
2.4. Análisis de residuos
3. ANOVA con más de un factor. Factores cuantitativos
4. Ejemplos y ejercicios
ANOVA con un factor. EjemploUna factoría de motores tiene 2 proveedores de loscigüeñales que mecaniza. Un tercer proveedorofrece sus cigüeñales algo más carosargumentando sus mejores propiedades dinámicas,concretamente que su equilibrado dinámico(número de gramos de material que hay queeliminar hasta conseguir que el centro de gravedadde la pieza coincida con el eje de giro) es menor.
La factoría decide hacer una prueba comparando10 cigüeñales del nuevo proveedor (código=1) con10 de cada uno de sus 2 proveedores tradicionales(códigos 2 y 3). Los resultados obtenidos serecogen en la siguiente tabla:
Ejemplo Proveedores cigüeñales
Factor estudiado PROVEEDOR
Variantes del factor 1 2 3
Resultados obtenidos
Equilibrado dinámico (grs)
23 35 50
28 36 43
21 29 36
27 40 34
95 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
Ejemplo Proveedores cigüeñales
¿Hay evidencia suficiente respecto a lasuperioridad de los cigüeñales del nuevoproveedor para cambiar a éste, pese al precioligeramente más elevado?
CUESTIÓN CLAVE
El ejemplo que consideramos es un caso particular deDiseño de Experimentos:
se estudia el efecto de un único factor (el proveedor) con3 variantes (los 3 proveedores a comparar) sobre lamedia de la variable respuesta (el equilibrado dinámico,que debe ser el menor posible)
(Más adelante consideraremos el efecto de varios factores en el análisis)
Ejemplo Proveedores cigüeñales
Experimento:Factores: PROVEEDORVariantes: Prov. 1, 2, 3Variable respuesta: Equilibrado Dinámico (EQUIDINA)
Objetivo: ¿existen diferencias entre losequilibrados dinámicos medios en loscigüeñales de los 3 proveedores?
0 1 2 3
1 1 2 3i j
H : m m m
H : i, j ;i j / m m ;i, j : , ,
= =
∃ ≠ ≠
ANOVA
Descomposición de la Suma de Cuadrados. Test F
Descomposición de la variabilidad total:
Variabilidad Total en los
datos=
Variabilidad debida a diferencias entre
proveedores(efecto del factor
proveedor)
+Variabilidad residual(diferencias dentro de
cada proveedor)
¿Cómo se obtiene...?
Ejemplo Proveedores cigüeñales
PROVEEDORES
1 2 3
23 35 50
28 36 43
21 29 36
27 40 34
95 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
37 41.3 43.3medias
40.53
Media de todos los
datos
Ejemplo Proveedores cigüeñales
Cuantificación de la variabilidad:
Variabilidad Total en los
datos=
Variabilidad debida a diferencias entre
proveedores(efecto del factor
proveedor)
+Variabilidad residual(diferencias dentro de
cada proveedor)
Suma de Cuadrados Total
SCT
Suma de Cuadrados
FactorSCF
Suma de Cuadrados ResidualSCR
Ejemplo Proveedores cigüeñales
PROVEEDORES
1 2 3
23 35 50
28 36 43
21 29 36
27 40 34
95 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
37 41.3 43.3 40.53
Suma de Cuadrados Total (SCT):
(23– 40.53)2 + (28– 40.53)2 + ... +
(36– 40.53)2 + (35– 40.53)2 + ... +
(44– 40.53)2 + (34– 40.53)2 = 5465
Suma de los cuadrados de las desviaciones de cada dato con respecto a la media general
Ejemplo Proveedores cigüeñales
PROVEEDORES
1 2 3
23 35 50
28 36 43
21 29 36
27 40 34
95 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
37 41.3 43.3 40.53
Suma de Cuadrados Factor (SCF):
10 x (37– 40.53)2
+ 10 x (41.3– 40.53)2 +
+ 10 x (43.3– 40.53)2 = 207
Suma de los cuadrados de las desviaciones de la media de cada proveedor con respecto a la media general
(23– 37)2 + ... + (36– 37)2 +
(35– 41.3)2 + ... + (52– 41.3)2 +
(50– 43.3)2 + ... + (34– 43.3)2 = 5258
Suma de los cuadrados de las desviaciones de cada dato con respecto a la media del proveedor correspondiente
Ejemplo Proveedores cigüeñales
PROVEEDORES
1 2 3
23 35 50
28 36 43
21 29 36
27 40 34
95 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
37 41.3 43.3 40.53
Suma de Cuadrados Residual (SCR):
Grados de libertad (gl)
SCT glT = nº de datos – 1SCF glF = nº de variantes –1SCR glR= glT - glF
En el ejemplo:
SCT 30 - 1= 29 glSCF 3 – 1 = 2 glSCR 29 – 2 = 27 gl
Significación de un efecto
La comparación de la SC asociada a cada efectocon la SCresidual permite estudiar si dicho efectoes o no significativo
Para llevar a cabo dicha comparación, cada sumade cuadrados SC se divide por sus grados delibertad, obteniéndose unos estadísticos a losque se denomina Cuadrados Medios:
SCCM
g .l=
Test F
Si el CMfactor es muy parecido al CMresidual
glF,glR
CMFF ratio F
CMR− = ≈
La F-ratio será muy parecida a 1, con unadistribución F de Fisher con los grados delibertad correspondientes
0 1 2 3Aceptamos H :m m m= =
No hay diferencias significativas entre los proveedores
(El factor no tiene un efecto real a nivel poblacional)
Test F
Si el CMfactor >>> CMresidual
La F-ratio será demasiado elevada para ser unaF de Fisher con los grados de libertadcorrespondientes
Sí hay diferencias significativas entre los proveedores, con respecto al valor medio del equilibrado dinámico
de los cigüeñales
Al menos uno de los tres proveedores tiene una media diferente a la de los otros dos
(Existe un efecto real del factor a nivel poblacional)
0 1 2 3Rechazamos H :m m m= =
¿Cómo estudiar si el efecto de un factor es o no significativo?
VARIABILIDAD RESIDUAL (CMR) VARIABILIDAD FACTOR (CMF)
m2
σ
m1
σ
m3
σ
m1= m2 = m3
σ
1C M RC M F C M RC M F ≈≈1
C M RC M F C M RC M F >>>>
Si no es cierta H0 (al menos uno de los tresproveedores tiene una media diferente a la de losotros dos) la Fratio (o la Fcalculada) tiende a sermayor que una F2, 27
La H0 se contrasta, por tanto, viendo si el valorobtenido para la F-ratio es “demasiado grande”para ser una F de Fisher, lo que viene cuantificadopor el p-value correspondiente que no es más quela Prob(F2,27 > Fratio). Si dicho p-value es inferior alriesgo de 1ª especie α con el que se trabaja(generalmente se opera con α= 0.05), o sea si laFratio excede al valor crítico de una F2, 27 para dichaprobabilidad α, se considera que el efecto delfactor será significativo
Test F (Conclusión)
Ejemplo Proveedores cigüeñales
Tabla resumen del ANOVA
Origen Variación
Suma de Cuadrados
Grados Libertad
Cuadrado Medio
F ratio
Total 5465 29 - -
Proveedor 207 2 103’5 0’532
Residual 5258 27 194’7 -
Riesgo de 1ª especie: α=0’05
Tabla: F2,27(5%) = 3’35 >> 0’532Aceptamos H0
¡NO HAY DIFERENCIAS SIGNIFICATIVAS ENTRE PROVEEDORES!
Test F (p-value)
Distribucion F 2,27
x
den
sity
0 1 2 3 4 5
0
0,2
0,4
0,6
0,8
1
1,2
f=3,35
F-ratio=0,53
(P_value=0,59) > (α=0,05) Aceptamos H0
TEST F Comparando la P_value con α Gráficamente
α=0’05
2,27 ratio 2,27P(F F ) P(F 0,53
P _ value
)
0,59
≥ = ≥ =
= =
α 0,05=2,27/ P(F > f) = 0,05
DEIOAC – Estadística – etsinfDEIOAC – Estadística – etsinf
Construcción Tabla resumen del ANOVA
Origen Variación
Suma de Cuadrados
Grados Libertad
Cuadrado Medio
F ratio
Total SCT glT - -
Factor SCF glF CMF=SCF/glF CMF/CMR
Residual SCR glR CMR=SCR/glR -
1) Establecer Riesgo de 1ª especie: α2) Buscar valor f en Tabla:
3) Comparar f con el F ratio
4) Aceptar o Rechazar H0 NO hay/SI hay diferencias significativas entre los tratamientos
αF Rgl ,glf / P(F > f) = α
Resolución del Test o contraste¡OJO!α NO se
divide por 2
Ejemplo Proveedores cigüeñales
Analysis of Variance for EQUIDINA - Type III Sums of Squares--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value--------------------------------------------------------------------------------MAIN EFFECTS A:PROVEEDO 207,267 2 103,633 0,53 0,5934
RESIDUAL 5258,2 27 194,748--------------------------------------------------------------------------------TOTAL (CORRECTED) 5465,47 29
--------------------------------------------------------------------------------All F-ratios are based on the residual mean square error.
Los resultados se sintetizan en la Tabla Resumen del Anova, proporcionada por Statgraphics
El p-value es superior a 0.05 � ¡el efecto delproveedor sobre la media del equilibrado dinámicoNO es significativo!, es decir es admisible la
H0: m1 = m2 = m3
Contenidos
1. Idea Intuitiva del ANOVA
2. ANOVA con un sólo factor controlado
2.1. Un ejemplo
2.2. Descomposición de la Suma de Cuadrados.
Test F
2.3. Intervalos LSD
2.4. Análisis de residuos
3. ANOVA con más de un factor. Factores cuantitativos
4. Ejemplos y ejercicios
Análisis de residuos
Tiene una gran importancia práctica completarcualquier análisis de datos reales con un estudio de los residuos de los datos. En estos residuos, se refleja el efecto de todos los factores no controlados que pueden haber afectado a los resultados obtenidos
El Statgraphics calcula los residuos automáticamente y permite guardarlos en una variable que por defecto denomina RESIDUALS
También proporciona diferentes representaciones gráficas de los mismos
Análisis de residuos
El “cumplimiento” de las tres hipótesis básicas del ANOVA: Normalidad, Independencia, Homocedasticidad (igualdad de varianzas de las poblaciones) se puede “comprobar” a partir de diferentes tipos de análisis realizados sobre los residuos
Permite detectar datos anómalos o pautas de variabilidad sospechosas
Los residuos deben ser independientes, presentar distribución normal y tener de media 0. La varianza de los residuos es la varianza residual (CMR del ANOVA)
Análisis de residuos
Residuos: diferencia entre cada dato y la media del tratamiento que se ha aplicado para obtener dicho datoObjetivo: Validar análisis previosEjemplo:
37 423 1− = −
91 7415 3' '− =Primer valor
observado del equilibrado
dinámico del prov. 1
Media del equilibrado dinámico de la
muestra del prov. 1
Residuo 1
El residuo de una observaciónrecoge el efecto que sobre dichaobservación han tenido todos losfactores no incluidos en elexperimento
Análisis de residuos
Residual Plot for EQUIDINAR
ES
IDU
OS
PROVEEDOR
1 2 3
-60
-40
-20
0
20
40
60
Residual Plot for EQUIDINAR
ES
IDU
OS
PROVEEDOR
1 2 3
-60
-40
-20
0
20
40
60 Los residuos deben estar alrededor de cero, distribuidos más o menos de manera uniforme
Dato anómalo: la 5ª observación del prov. 1 debe ser 35, no 95
¡Una observación anómala puede invalidar por completo todas las conclusiones de un análisis!
Estudiando los datos introducidos, con los que haoperado el programa, se observa que el 5º dato delproveedor 1 se ha introducido como 95, en vez de 35que era su valor correcto
Análisis de residuos
Si se vuelve a realizar el ANOVA ...
Factor estudiado PROVEEDOR
Variantes del factor 1 2 3
Resultados obtenidos
Equilibrado dinámico (grs)
23 35 50
28 36 43
21 29 36
27 40 34
35 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
Ejemplo Proveedores (sin dato anómalo)
Tabla resumen del ANOVA
Origen Variación
Suma de Cuadrados
Grados Libertad
Cuadrado Medio
F ratio
Total 2409’46 29 - -
Proveedor 871’26 2 435’6 7’64
Residual 1538’2 27 56’97 -
Riesgo de 1ª especie: α=0’05
Tabla: F2,27(5%) = 3’35 << 7’64Rechazamos H0
¡SI HAY DIFERENCIAS SIGNIFICATIVAS ENTRE PROVEEDORES!
Ejemplo Proveedores cigüeñales
Distribucion F 2,27
x
den
sity
0 1 2 3 4 5
0
0,2
0,4
0,6
0,8
1
1,2
3.35
α=0’05
Aceptación Rechazo
7’6
Rechazamos H0
TEST F (Gráficamente)
Analysis of Variance for EQUIDINA - Type III Sums of Squares--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value--------------------------------------------------------------------------------MAIN EFFECTS A:PROVEEDO 871,267 2 435,633 7,65 0,0023
RESIDUAL 1538,2 27 56,9704--------------------------------------------------------------------------------TOTAL (CORRECTED) 2409,47 29
--------------------------------------------------------------------------------All F-ratios are based on the residual mean square error.
Ejemplo Proveedores cigüeñalesSe recoge a continuación el cuadro resumen del ANOVA, obtenido una vez corregido el dato erróneo
Las conclusiones son ahora distintas, detectándose un efecto significativo estadísticamente (p-value = 0.0023) del factor Proveedor. (Obsérvese que un único dato anómalo, de un total de 30, había conducido en una FRatio catorce veces menor que la correcta)
Comparación de medias Si el test F resulta significativo:
¿Es mejor el Proveedor 1 que el 2 y el 3?
¿Son mejores el 1 y el 2 que el 3, no habiendodiferencias entre los primeros?
...
Estudiar entre qué proveedores existendiferencias significativas
Un valor significativo de la Fratio sólo indicaría que almenos una de las tres medias difiere de lasrestantes, pero no precisa cuáles son las quedifieren entre sí
Comparación de medias
Intervalos LSD (Least Signficative Difference) son intervalos para la media de cada tratamiento.
Intuitivamente, se calculan como la mitad del intervalo de confianza para la diferencia de medias, pero no corresponde a un intervalo de confianza para las medias.
Interpretación práctica:
Comparación de medias. Intervalos LSD
La diferencia entre la media de dos tratamientos no será significativa si los respectivos
intervalos LSD se solapan.
Intervalos LSD
¿Entre qué proveedores existen diferencias significativas con respecto al equilibrado dinámico?
Means and 95,0 Percent LSD Intervals
PROVEEDOR
EQ
UID
INA
1 2 3
27
31
35
39
43
47
Means and 95,0 Percent LSD Intervals
PROVEEDOR
EQ
UID
INA
1 2 3
27
31
35
39
43
47
Los intervalos se solapan: entre los prov 2 y 3 no hay diferencias significativas del eq. dinámico
Pero entre el prov. 1 y el 2 ó el 3 si hay diferencias significativas
27'53,34'47
37'83,44'77
39'83,46'77
Ejemplo Proveedores (con dato anómalo)
Means and 95,0 Percent LSD Intervals
PROVEEDOR
EQ
UID
INA
1 2 3
30
32
34
36
38
40
42
44
46
48
50
¿Entre que tratamientos existen diferencias significativas con respecto al equilibrado dinámico?
Los 3 intervalos se solapan: no hay diferencias significativas del eq. dinámico entre los proveedores
Análisis de residuos
1 2 3
Residual Plot for EQUIDINA
-14
-9
-4
1
6
11
16
resi
dual
PROVEEDOR
1 2 3
Residual Plot for EQUIDINA
-14
-9
-4
1
6
11
16
resi
dual
PROVEEDOR
Contenidos
1. Idea Intuitiva del ANOVA
2. ANOVA con un sólo factor controlado
2.1. Un ejemplo
2.2. Descomposición de la Suma de Cuadrados.
Test F
2.3. Intervalos LSD
2.4. Análisis de residuos
3. ANOVA con más de un factor. Factores cuantitativos
4. Ejemplos y ejercicios
Ejemplo 2: ANOVA con 2 factores
Objetivo: analizar el efecto que sobre el tiempomedio de respuesta de un sistema informático tienen dos factores :
Factor cualitativo: FICHEROS con 3 variantescodificadas como 1, 2 y 3 I=3
Distribución de los ficheros en los discos.
Factor cuantitativo: BUFFERS con 3 niveles10, 20, 30 J=3Número de buffers en el sistema.
Tratamientos y pruebas
Cada uno de los 9 tratamientos (9 combinaciones posibles) se ha probado 2 veces N=2
Plan Factorial Equilibrado y replicado
Cada prueba consistió en un día completo: obteniéndose los tiempos medios de respuesta evaluados para un proceso estándar consistente en la
compilación de un determinado programa en lenguaje C.
Los resultados se recogen en la siguiente tabla:
Resultados
BUFFERS
10 20 30
1 2’72’4
2’02’2
1’81’6
2 3’13’2
2’72’5
2’21’9
3 3’73’9
2’93’2
3’53’8
FICH
ERO
S
Sumas de Cuadrados y g.l.
FicherosSC 5= '914(nº de variantes – 1) ↔
(I – 1)=(3-1)=2 g.l.
BuffersSC 1= '688(nº de niveles– 1) ↔
(J – 1)=(3-1)=2 g.l.
Suma de Cuadrados Total SCT=8'74
(nº de datos– 1) ↔ (IxJxN – 1)=(3x3x2 - 1)=17 g.l.
Suma de Cuadrados Factores
Sumas de Cuadrados y g.l.
=FicherosxBuffersSC 0'875
(I – 1)x(J – 1) ↔ (3-1)x(3-1) = 2x2 = 4 g.l.
Suma de Cuadrados Interacción
SC Factor i x Factor j = SCFixFj
… Más adelante veremos con más detalle qué representan las interacciones entre factores.
Sumas de Cuadrados y g.l. Suma de Cuadrados Residual
pResidual El fTotaSC SC-S =C
Residual =8'74-(5'914+1'568+0'875)=SC 0'265
SCT 18-1=17 g.l. SCFICHEROS 3-1=2 g.l. SCBUFFERS 3-1=2 g.l. SCFICHxBUFF 2x2=4 g.l.
8 g.l
SCR 17-8=9 g.l. Suficientes
Los g.l de los que disponemos serían:
Tabla Resumen del ANOVAOrigen
VariaciónSC g.l. CM F
ratioF_tabla α=0’05
Total 8’743
FICHEROS 5’914
BUFFERS 1’688
FICHxBUFF 0’876
Residual
Tabla Resumen del ANOVAOrigen
VariaciónSC g.l. CM F
ratioF_tabla α=0’05
Total 8’743 17 - -
FICHEROS 5’914 2 2’957 100’433 4’26 = F2,9
BUFFERS 1’688 2 0’844 28’66 4’26 = F2,9
FICHxBUFF 0’876 4 0’219 7’437 3’63 = F4,9
Residual 0’265 9 0’029
>>>
• Los efectos simples de FICHEROS y BUFFERS resultan significativos, pues su Fratio es mayor que el valor en tablas de una F2,9
(α=0,05) .
• Por el mismo motivo, también es significativo el efecto de la interacción FICHEROSxBUFFERS (F4,9
α)
Means and 95,0 Percent LSD Intervals
FICHEROS
TM
RE
SP
1 2 3
2
2,2
2,4
2,6
2,8
3
3,2
3,4
3,6
3,8
Análisis efecto FICHEROS: Intervalos LSD
1X 2'116=
2X 2'6=
3X 3'5=
Para el promedio de BUFFERS ensayados, con la distribución de FICHEROS 1 se obtienen Tiempos medios de Respuesta significativamente menores que para la distribución 2, y a su vez para ésta se tienen Tiempos de Respuesta significativamente más pequeños que para la configuración 3.
Means and 95,0 Percent LSD Intervals
FICHEROS
TM
RE
SP
1 2 3
2
2,2
2,4
2,6
2,8
3
3,2
3,4
3,6
3,8
Efecto simple de un factor
El efecto simple de un factor se define sobre el promedio de las condiciones estudiadas de los restantes factores
1X 2'116=
2X 2'6=
3X 3'5=
=X 2'74
Media general
= − == − =
F3 3X
3,
X
2,745
Ef
0,76
El efecto simple de la distribución de FICHEROS 3 hace aumentar el Tiempo MEDIO DE RESPUESTA en 0,76
Efecto de la interacción doble
Cuando se estudia más de un factor, aparece el concepto de INTERACCIÓN.
• Puede ser doble, triple, etc, según sea entre dos, tres, … factores. El estudio de interacciones de orden superior a 3 son difíciles de interpretar y rara vez tienen sentido.
• Aparece cuando el efecto de un determinado factor es diferente según el nivel (o variante) considerada del otro factor.
Ejemplos de efectos simples e interacciones dobles
Factor A- +
B a nivel -
B a nivel +
Resultado
A Bx + +
A Bx + −
A Bx − +
A Bx − −
A no tiene efecto B tiene efectoNo hay interacción
Resultado
Factor A- +
A Bx + −
A Bx + +
A Bx − +
A Bx − −
A tiene efecto B tiene efectoNo hay interacción
A tiene efecto B tiene efectoLigera interacción
Fuerte interacción(carece de sentido hablar de efectos simples)
Resultado
Factor A- +
A Bx + −
A Bx + +
A Bx − +
A Bx − −
Factor A- +
Resultado
A Bx + +
A Bx + −
A Bx − +
A Bx − −
Efecto de la interacción doble
El efecto de la interacción existe porque el efecto del factor Buffers es distinto para las diferentes variantes de ficheros
Interaction Plot
BUFFERS
1,6
2
2,4
2,8
3,2
3,6
4T
MR
ES
P
10 20 30
FICHEROS123
Factores cuantitativos: Introducción
Factores Cualitativos Cuantitativos
Factores cualitativos: Tipo de procesador en cierto sistema
Tipo de procedimiento de análisis utilizado en determinado laboratorio
Tipo de proveedor del cableado de red
Tipo de material utilizado en la fabricación de cierto producto
Topología de la red
.......
Factores cuantitativos: Introducción
Factores Cualitativos Cuantitativos
Factores cuantitativos: Tamaño de la memoria caché Cantidad de abono utilizado en cierto cultivo Velocidad de agitación de una mezcla en un proceso
químico Cantidad de pegamento utilizado en un proceso de
adhesivado Nivel de carga de un sistema informático Número de procesadores en un multicomputador Nivel de presión ejercida en cierto proceso ...........
Factores cuantitativos : Introducción
Factores cuantitativos: si su efecto resulta significativo en el ANOVA ……
No tiene sentido comprobar entre qué niveles del factor existen diferencias significativas
Sino si se observa algún tipo de pautas en esas diferencias
Interesa estudiar la naturaleza del efecto del factor sobre la media de la vble. respuesta
Factores cuantitativos
EJEMPLO: Estudio de PRESTACIONES de un multicomputador
• Analizar la LATENCIA de los mensajes de una red deinterconexión en función del TRÁFICO (tasa deinyección de mensajes) de esa red.
• Se ensayan 4 ó 5 niveles de tráfico diferentes y semide la latencia media. ANOVA: TRÁFICOsignificativo.
Cuestión Clave:
¿Existen diferencias significativas en la LATENCIA MEDIA de los mensajes con “poco” y “mucho”
TRÁFICO?
Factores cuantitativos
EJEMPLO: Estudio de PRESTACIONES de un multicomputador
• Analizar la LATENCIA de los mensajes de una red enfunción del TRÁFICO (tasa de inyección de mensajes)de esa red.
• Se ensayan 4 ó 5 niveles de tráfico diferentes y semide la latencia media. ANOVA: TRÁFICOsignificativo.
Cuestión Clave:
¿Cómo evoluciona la LATENCIA MEDIA de los mensajes a medida que aumenta o disminuye el
nivel de TRÁFICO?
DEIOAC – EST
Es obvio que a medida que aumenta el tráfico también aumenta la latencia media, pero cómo ...
¿En la misma proporción a medida que
aumenta el el nivel de TRÁFICO?
EFECTO LINEAL
Tráfico
Latencia media
EJEMPLO: Estudio del TRUOGHPUT
A medida que aumenta el el nivel de TRÁFICO, ¿son mayores los incrementos
de la latencia media?
EFECTO CUADRÁTICO
Tráfico
Latencia media
Factores cuantitativos
EJEMPLO: Estudio de PRESTACIONES de un multicomputador
• Es obvio que a medida que aumenta el tráfico también aumenta la latencia media, pero cómo ...
A medida que aumenta el nivel de
TRÁFICO, ¿son menores los
incrementos de la latencia media?
EFECTO CUADRÁTICOTráfico
Latencia media
EJEMPLO: Buffers y Ficheros
No tiene sentido decir que para 10 buffers el TM de Respuesta es mayor y que entre 20 y 30 buffers no hay diferencia, obteniéndose los menores TM de respuesta (aunque se ha de tener en cuenta).
10 20 30
Means and 95,0 Percent LSD Intervals
BUFFERS
2,2
2,4
2,6
2,8
3
3,2
3,4
TM
RE
SP
Lo importante es si se aprecia o no una posible relación lineal o cuadrática para, en el caso de que ésta fuera significativa, obtener la expresión matemática correspondiente y obtener el número óptimo de ficheros, que puede ser no se haya contemplado en el experimento.
NOTA sobre Condiciones Operativas Óptimas¿Qué número de buffers y qué protocolo se deberían usar para que el TM de Respuesta fuera el menor?
Interactions and 95,0 Percent LSD Intervals
BUFFERS
1,5
1,7
1,9
2,1
2,3
2,5
2,7
2,9
3,1
3,3
3,5
3,7
3,9
4,1
TM
RE
SP
10 20 30
FICHEROS123
COO
Nº buffers = 30
Distribución de Ficheros = 1 o 2
Pero entre la distribución de Ficheros 1 y 2 NO hay diferencias
significativas
Cuanto menor, mejor
Fact. cuantitativos. Combinación de efectos
ZCuadrática
<0 0 >0
ZLineal
<0
0
>0
Factores cuantitativos: Ejemplo1
Con el fin de estudiar el comportamiento de unsistema informático, y tratar de minimizar eltiempo medio de utilización de CPU, se hallevado a cabo un experimento para conocer laposible influencia que la carga pueda tener sobredicho tiempo.
Se han ensayado 3 niveles de carga (50, 100 y 150Mflops/seg.) y se ha medido el tiempo medio deutilización de CPU en segundos. Cada tratamientose ha probado 5 veces en diferentes ejecuciones .
Los resultados del experimento se recogen en lasiguiente tabla:
Factores cuantitativos: Ejemplo1
Factor: Carga Niveles: 3 (50, 100 y 150 Mflops/seg) Variable respuesta:Tiempo medio de Utilización CPU (seg)
CARGA (Mflops/s)50 100 15038 54 63
40 47 65
42 52 57
37 53 58
43 49 62
T1= 200 T2= 255 T3= 305 TG=760
140=X
251X = 3
61X =
Objetivo: estudiar si el factor CARGA afecta a lavariable respuesta “Tiempo medio de utilización
de CPU”
Factores cuantitativos: Ejemplo1
0 50 100 150
1 50 100 150i j
H : m m m
H : i, j ;i j / m m i, j : , ,
= = ∃ ≠ ≠
Hipótesis a contrastar:
ANOVA
2 2
2
,
2
1
76038506,67
15
1209,33
1103,33
106
ij
i j
Ii
i i
TG
N
x
SG
SG
SGT
SCT
SN
SC
CF
FR TC SCS
=
= = =
= − =
= − =
= − =
Factores cuantitativos: Ejemplo1
1103,33551,66
2
1068,83
12
551,66_ 62,45
8,8_
3
SC SCFCM
gl glF
SCR
glR
CMFF ratio
CMR
CMF
CMR
F ratio
= = = =
= = =
= = =
Factores cuantitativos: Ejemplo1
Tabla resumen del ANOVA
Origen Variación
Suma de Cuadrados
Grados Libertad
Cuadrado Medio
F ratio
Total 1209’33 14 - -
CARGA 1103’33 2 551’66 62’45
Residual 106 12 8’83 -
Riesgo de 1ª especie: α=0’05
Tabla: F2,12(5%) = 3’88 << 62’45Rechazamos H0
¡SÍ HAY DIFERENCIAS SIGNIFICATIVAS ENTRE LOS NIVELES DE CARGA!
50 100 150
Medias y 95,0% de Fisher LSD
CARGA
37
42
47
52
57
62
67
TC
PU
Factores cuantitativos: Ejemplo1
A medida que aumenta la CARGA el tiempo medio de utilización de CPU crece linealmente.
Factores cuantitativos: Ejemplo1
A medida que aumenta la CARGA el tiempo medio de utilización de CPU crece linealmente.
Carga
Tiempo CPU
Contenidos
1. Idea Intuitiva del ANOVA
2. ANOVA con un sólo factor controlado
2.1. Un ejemplo
2.2. Descomposición de la Suma de Cuadrados.
Test F
2.3. Intervalos LSD
2.4. Análisis de residuos
3. ANOVA con más de un factor. Factores cuantitativos
4. Ejemplos y ejercicios
Ejercicios
A continuación tienes dos ejercicios adicionales a
las explicaciones de esta tercera parte de la Unidad
Didáctica 5.
Intenta responder a las diferentes preguntas que
se plantean en los dos ejercicios.
Recuerda que puedes consultar ejercicios resueltos
de ANOVA, tanto en el documento de Ejercicios
resueltos UD5_3 como en los diferentes exámenes
resueltos de la asignatura que se encuentran en la
carpeta de Recursos de PoliformaT.
No te olvides aclarar las posibles dudas con tu
profesor.
Ejercicio 1
Con el objeto de analizar el comportamiento de los sistemas
de memoria caché en un tipo de multiprocesador se plantea
llevar a cabo un estudio de la influencia de dos de las
características más importantes de estos sistemas (Nº de
procesadores y protocolo) sobre las prestaciones de los
mismos (3 niveles y 3 variantes).
Cada uno de los 9 tratamientos se ensayó 3 veces,
midiéndose en cada prueba la tasa de fallos (%) de los
sistemas de memoria producida por la ejecución de un
determinado programa tipo.
Los datos obtenidos se recogen en la siguiente tabla:
Ejercicio 1
CPU’s
Para mantener la coherencia entre las memorias necesitamos
un protocolo
Ejercicio 1
PROTOCOLO (PROT)
MSI MESI DRAGON
Nº
DE
PR
OC
ES
AD
OR
ES
(NP
RO
)
2
25,80 30,00 35,25
26,25 32,25 33,17
24,60 33,75 37,01
4
32,40 40,05 48,45
28,80 37,35 47,70
30,90 37,05 45,75
6
19,05 20,10 14,70
15,60 19,95 16,65
14,70 21,90 20,10
DATOS ADICIONALES
SCT = 2601,63
SCPROT = 376,06
SCPROTxNPRO = 212,62
CMNPRO = 976,62
Ejercicio 1
a) ¿Cuál es la variable respuesta?, ¿cuáles son losfactores?, indica de qué tipo son.
b) Construye la tabla resumen del ANOVA e indicaqué efectos han resultado significativos y por qué(α=0,05). Explica los cálculos realizados.
c) Analiza el efecto del tipo de protocolo utilizadomediante los intervalos LSD que se acompañan, eindica qué porcentaje de fallos se ha obtenido, enpromedio, para cada variante.
Ejercicio 1d) Estudia la naturaleza del efecto del número de
procesadores a nivel descriptivo mediante loscorrespondientes gráficos de medias. ¿Existenindicios de una posible relación lineal o cuadrática(positiva o negativa) entre el porcentaje de fallosde los sistemas de memoria y el número deprocesadores? Justifica la respuesta.
e) Interpreta gráficamente los gráficos de lainteracción entre el tipo de protocolo y el númerode procesadores.
Ejercicio 1: Tabla Resumen del ANOVA
109
Source Sum of Squares Df Mean Square F-Ratio P-Value
MAIN EFFECTS
A:NPRO 1953,24 2 976,62 294,41 0,0000
B:PROT 376,06 2 188,03 56,68 0,0000
INTERACTIONS
AB 212,619 4 53,2287 16,02 0,0000
RESIDUAL 59,7099 18 3,3172
TOTAL
(CORRECTED) 2601,63 26
OrigenVariación
SC g.l. CM Fratio
F_tablaα=0’05
Total 2601,63 - -
NPROC 976,62 = F
PROTO 376,06 = F
NPROxPROT 212,62 = F
Residual
Ejercicio 1: Intervalos LSD
PROTOCOLO
DRAGON MESI MSI
Medias y 95,0% de Fisher LSD
23
25
27
29
31
33
35
Tasa_fa
llo
s
Para el promedio del número de procesadores estudiados, existendiferencias significativas en el promedio de la tasa de fallosresultante con los tres protocolos analizados.
A falta de estudiar la interacción, el protocolo MSI proporciona unvalor de la tasa de fallos significativamente más bajo que losotros dos protocolos.
Ejercicio 1: Intervalos LSD
Nº PROCESADORES
2 4 6
Medias y 95,0% de Fisher LSD
17
21
25
29
33
37
41T
asa_fa
llo
s
A medida que aumenta el número de procesadores (y para elpromedio de los protocolos analizados) aumenta la tasa promedio defallos y luego disminuye, dando lugar a una tendencia o pautacuadrática negativa.
A falta de estudiar la interacción, trabajar con 6 procesadores conducea un valor medio de la tasa de fallos significativamente menor.
Ejercicio 1: Interacción doble
Nº PROCESADORES
Interacciones y 95,0% de Fisher LSD
10
20
30
40
50
Tasa_fa
llo
s
2 4 6
PROTODRAGONMESIMSI
El paso de 4 a 6 procesadores proporciona una disminución en la tasamedia de fallos más marcada con el protocolo DRAGON que con los otrosdos protocolos analizados. En estos dos últimos, el comportamiento de latasa promedio de fallos conforme aumenta el número de procesadores esmuy similar, proporcionando MSI en todos los casos valores más bajos dela tasa de fallos.
Sería adecuado trabajar con 6 procesadores y el protocolo MSI con el finde reducir la tasa media de fallos.
Ejercicio 1: Interacción doble
PROTOCOLO
Gráfico de Interacciones
16
26
36
46
56
Tasa_fa
llo
s
DRAGON MESI MSI
NPRO246
Nº PROCESADORES
Gráfico de Interacciones
16
26
36
46
56
Tasa_fa
llo
s
2 4 6
PROTODRAGONMESIMSI
Ejercicio 2
Se ha llevado a cabo un diseño de experimentos con el
objeto de conocer la posible influencia de dos tipos de
puerto de conexión (codificados como A y B) y de tres
niveles de memoria RAM (64, 128 y 192), sobre los
tiempos medios de transmisión de un servidor. Los
resultados del experimento, expresados en segundos por
Mb de información, son los que se indican a continuación:
RAM
64 128 192
Conexión
A
5,462
5,769
5,615
3,308
3,923
4,231
2,692
2,923
3,077
B
6,154
6,538
6,077
5,231
5,307
5,538
4,307
4,615
4,692
Ejercicio 2
a) Realizar un ANOVA para estudiar qué efectosresultan significativos sobre el tiempo medio detransmisión del servidor, teniendo en cuenta losdos factores en estudio y su interacción (α=0,1).
NOTA: SCT= 24,0078; SCCONX=7,295;CMRAM=7,493; CMR=0,0683.
b) Indicar cuál de los dos tipos de puerto resultamás interesante. Justifica el procedimientoutilizado para llegar a la decisión adoptada.
Ejercicio 2
c) Estudia la naturaleza del factor memoria anivel descriptivo mediante los correspondientesgráficos de medias. ¿Existen indicios de unaposible relación lineal o cuadrática (positiva onegativa) entre el tiempo medio de transmisióny el tamaño de memoria? Justifica la respuesta.
d) Interpreta gráficamente los gráficos de lainteracción entre el tipo de conexión y eltamaño de memoria.
e) ¿Con qué tipo de conexión y cantidad de RAM sedebería trabajar con el fin de obtener el menortiempo medio de transmisión?. Justifica larespuesta.
Ejercicio 2: Tabla Resumen del ANOVA
117
OrigenVariación
SC g.l. CM Fratio
F_tablaα=0’05
Total 24,0078 - -
CONX 7,295 = F
RAM 7,493 = F
CONXxRAM = F
Residual 0,0683
Ejercicio 2Means and 90,0 Percent LSD Intervals
CONX
TM
TR
AN
SM
A B
4
4,3
4,6
4,9
5,2
5,5
Means and 90,0 Percent LSD Intervals
RAM
TM
TR
AN
SM
64 128 192
3,5
4
4,5
5
5,5
6
6,5
Interaction Plot
RAM
TM
TR
AN
SM
CONXA
B
2,8
3,8
4,8
5,8
6,8
64 128 192
Recommended