CAPITULO 5 DISEÑOS FACTORIALES
En los diseños estudiados anteriormente solo se contaba con un factor de interés y, el
objetivo del diseño era determinar si los tratamientos (niveles del factor) conducían a
resultados estadísticamente diferentes. Es decir, si el factor tenia influencia o no sobre
la variable respuesta. En este capítulo se estudia el caso más general en el que se
estudia la forma como influyen varios factores (más de dos) sobre la variable repuesta.
En general, los diseños factoriales combinan todos los niveles de todos los factores de
interés para determinar si existen diferencias significativas entre los diferentes
tratamientos. Aquí, un tratamiento es un experimento en el cual se fijan los niveles de
los factores en un valor particular y se realiza el experimento. Por ejemplo, si un
ingeniero químico está interesado en investigar los efectos del tiempo de reacción y de
la temperatura de reacción sobre el rendimiento de un proceso, y se consideran
importantes los dos niveles de tiempo (1 y 1.5 horas) y los dos niveles de temperatura
(125 ºF y 150 ºF), entonces el experimento factorial consiste en hacer corridas
experimentales para cada una de las cuatro combinaciones posibles de los niveles de
tiempo y temperatura de reacción.
5.1 Definiciones básicas
5.1.1 Diseño Factorial
Un diseño factorial es el conjunto de experimentales o tratamientos que se forman
considerando todas las posibles combinaciones de los niveles de los factores. Por
ejemplo si se desean estudiar la forma como influyen dos factores sobre la variable de
interés y se consideran importantes tres niveles para el primer factor y dos para el
segundo, se forma el diseño 3x2, para un total de 6 corridas o tratamientos. El nombre
de diseño factorial establece de manera implícita el número de corridas que se deben
realizar de acuerdo a la cantidad de niveles de cada factor que se combinan.
Como un segundo ejemplo suponga que se desea estudiar el efecto de tres factores
sobre la variable respuesta y que se tiene interés en tres niveles para el primer factor,
cuatro para el segundo y cinco para el tercero. Esto da origen a un diseño 3x4x5, es
decir, un total de 60 corridas o tratamientos que resultan de todas las posibles
combinaciones de los niveles de cada factor
5.1.2 Efecto principal y efecto de interacción
El efecto de un factor se define como el cambio observado en la variable de respuesta
debido a un cambio de nivel de tal factor. En particular los efectos principales son los
cambios en la medida de la variable de respuesta debidos a la acción individual de
cada factor. Matemáticamente el efecto principal de un factor es la diferencia entre la
respuesta media observada cuando tal factor estuvo en su nivel alto y la respuesta
media observada cuando el factor estuvo en su nivel bajo.
Vemos esto con un ejemplo sencillo
5.1.2.1 Ejemplo de un diseño sin interacción entre factores
Suponga que se estudia el efecto de la presión y la temperatura sobre el rendimiento
de un proceso químico y que resultan importantes dos niveles de cada factor. Los
resultados se muestran en la siguiente tabla
A: Temperatura
Baja Alta
Baja 50 70 B: Presión
Alta 60 80
Tabla 5.1 Ejemplo de un diseño factorial a dos niveles sin interacción entre factores
Observe que el cambio en la variable respuesta (el rendimiento) debido a la
temperatura (A) es
202
6050
2
8070 =+−+=A (5-1)
Es decir que hay un cambio de 20 unidades en el rendimiento promedio al pasar de la
temperatura baja a la temperatura alta. De la misma forma:
102
7050
2
8060 =+−+=B (5-2)
Que indica que el rendimiento cambia, en promedio, 10 unidades cuando cambia la
presión del nivel bajo al nivel alto.
Note que, en este ejemplo, el efecto de A no depende de B ni el del B depende de A.
Es decir, el rendimiento siempre cambiar 10 unidades al pasar de la presión baja a la
presión alta independientemente de cual sea la presión y que el cambio será de 20
unidades al pasar de la temperatura baja a la alta independientemente de cual sea la
presión. Siempre que ocurre esto decimos que no existe interacción entre los dos
factores.
Así, el efecto de A en el nivel bajo de B es 205070 =−=A y en el nivel alto
206080 =−=A que concuerda con el valor promedio obtenido en la ecuación (5-1)
De igual forma, el efecto de B sobre la variable respuesta en el nivel bajo de A es
105060 =−=B y en el nivel alto de A 107080 =−=B que concuerda con el valor
medio encontrado en la ecuación (5-2)
Esto es típico cuando no existe interacción entre los factores de interés: su efecto
sobre la variable respuesta es el mismo independientemente del nivel de los otros
factores y por lo tanto es igual al efecto promedio.
En la siguiente figura se muestra esquemáticamente el efecto de la temperatura y la
presión sobre el rendimiento.
Figura 5.1 Diseño factorial con dos factores sin interacción
Las dos figuras dan la misma información y en ambas se puede apreciar que no existe
interacción entre los dos factores de interés. Note que el efecto de la temperatura
sobre el rendimiento siempre es de 20 unidades independientemente de la presión y
que el efecto de la presión siempre es de 10.unidades independientemente de la
temperatura
Una regla que resulta de utilidad a la hora de identificar si existe o no interacción entre
los factores estudiados en un diseño experimental es observar si en la gráfica de los
factores (como la Figura 5.1) las líneas son casi paralelas. Si las líneas se cruzan
entonces es porque existe una interacción entre los dos factores de interés
Efecto de la presión, B sobre el rendimiento
40
45
50
55
60
65
70
75
80
85
T Baja T Alta
P Baja
P Alta
10 unidades
Efecto de la Temperatura, A sobre el rendimiento
40
45
50
55
60
65
70
75
80
85
P Baja P Alta
T Baja
T Alta
20 unidades
5.1.2.2 Ejemplo de un diseño con interacción entre factores
En algunos experimentos, la diferencia en la respuesta entre los niveles de un factor
no es la misma para todos los niveles de los otros factores. Cuando esto sucede,
existe una interacción entre los factores. Por ejemplo, considérense los datos del
mismo problema explicado anteriormente en la sesión 5.1.2.1 pero con los siguientes
datos:
A: Temperatura
Baja Alta
Baja 50 70 B: Presión
Alta 60 40
Tabla 5.2 Ejemplo de un diseño factorial a dos niveles con interacción entre factores
El efecto de la temperatura se calcula igual que en caso anterior
02
6050
2
4070 =+−+=A (5-3)
Lo que lleva, de manera tentativa, a concluir que el factor A no tiene ningún efecto. Sin
embargo, cuando se examinan los efectos de A para diferentes niveles del factor B, se
observa que éste no es el caso. Observe que el efecto de A en el nivel bajo de B es de
205070 =−=A
y en el nivel alto es de
206040 −=−=A
lo que lleva a un valor promedio de cero.
En este ejemplo se aprecia que el efecto del factor A depende de los niveles del factor
B. Por tanto, el conocimiento de la interacción AB es más útil que el conocimiento del
efecto principal. Una interacción significativa puede enmascarar la significancia de los
efectos principales. En consecuencia, cuando la interacción está presente, los efectos
principales de los factores involucrados en ella tal vez no tengan mucho significado.
Es fácil estimar el efecto de interacción en experimentos factoriales tales como los
ilustrados en los ejemplos anteriores (Tabla 5.1 y Tabla 5.2). En este tipo de
experimento, cuando ambos factores tienen dos niveles, el efecto de la interacción AB
es la diferencia entre los promedios de las diagonales. Esto representa la mitad de la
diferencia entre los efectos de A para los dos niveles de B. Por ejemplo, en Tabla 5.1
se tiene que el efecto de la interacción AB es
02
7060
2
8050 =+−+=AB (5-4)
Por tanto, no hay interacción entre A y B. En la Tabla 5.2, el efecto de la interacción
AB es
202
7060
2
4050 −=+−+=AB (5-5)
Tal como se mencionó, el efecto de interacción en estos datos es muy grande.
El concepto de interacción puede ilustrarse de manera gráfica en varias formas. La
Figura 5.2 es una gráfica de los datos de la Tabla 5.2 contra los niveles de A para los
dos niveles de B.
Figura 5.2 Diseño factorial con dos factores sin interacción
Nótese que las rectas Pbajo y Palto (o Tbajo y Talto) no son paralelas, lo que indica que
existe interacción entre los factores Temperatura (A) y Presión (B). Estas gráficas
reciben el nombre de gráficas de interacción de dos factores , y a menudo son útiles
para presentar los resultados de los experimentos. Muchos de los paquetes
estadísticos utilizados para el análisis de datos construyen estas gráficas de manera
automática.
Los experimentos factoriales son la única manera de descubrir la interacción
entre las variables.
Efecto de la presión, B sobre el rendimiento
40
45
50
55
60
65
70
75
T Baja T Alta
P Baja
P Alta
Efecto de la Temperatura, A sobre el rendimiento
40
45
50
55
60
65
70
75
P Baja P Alta
T Baja
T Alta
5.2 Experimento factorial Vs mover un factor a la v ez.
Uno de los errores comunes en la investigación es evaluar el efecto de los factores de
manera individual cambiando uno a la vez (y manteniendo los demás constantes) y
observar así el efecto sobre la variable respuesta. Consideremos nuevamente el
ejemplo de rendimiento y suponga que se desean encontrar las condiciones óptimas
(de mayor rendimiento)
En la Figura 5.3 se muestran las curvas de nivel para el rendimiento como una función
de la temperatura y la presión.
Figura 5.3 Optimización de un proceso moviendo un factor a la vez
La Figura 5.3 cada punto representa una corrida que se realiza en busca del óptimo.
La figura muestra claramente que la dirección del óptimo no concuerda con la
dirección que se obtiene al mover un factor a la vez y que, en general, mover un factor
a la vez no necesariamente lleva al óptimo del proceso.
El enfoque de mover un factor a la vez ha fallado porque no puede detectar la
interacción entre los dos factores de interés (la temperatura y la presión). Los
experimentos factoriales son la única manera de det ectar las interacciones . Por
otra parte, el método de un factor a la vez es insuficiente, requiere más
experimentación que un experimento factorial, y no existe garantía de que produzca
los resultados correctos.
Si no existiera interacción entre los factores de interés en el experimento, el diseño
factorial y el enfoque de mover un factor a la vez nos llevaran al mismo valor óptimo.
Temperatura
60%
70%
80%
85%
90%
95%
600 500 400 300 200 700 100
10
20
30
40
50
60
70
Presión
Región del óptimo
Condiciones
Actuales
Dirección del óptimo
Sin embargo, como esto no esta garantizado, y lo usual es que exista interacción entre
los factores considerados (sobretodo en fenómenos complejos) el procedimiento de
mover un factor a la vez no conduce a resultados correctos.
5.3 Diseños factoriales con dos factores.
Dentro de los diseños factoriales, es el diseño más sencillo y con el que debemos
empezar para entender los diseños factoriales generales que se verán más adelante.
En este tipo de experimentos se tienen solo dos factores de interés y se desea
comprobar si éstos influyen o no sobre la variable respuesta.
5.3.1 Modelo de efectos fijos
Suponga que se tienen los factores A y B. El factor A tiene a niveles, mientras que el
factor B tiene b niveles. La Tabla 5.3 contiene este experimento factorial con dos
factores. El experimento tiene n réplicas , y cada uno contiene ab combinaciones de
tratamientos. La observación en la ij-ésima celda para la k-ésima réplica está denotada
por yijk. Al realizar el experimento, las observaciones abn deben obtenerse con un
orden aleatorio. Por tanto, el experimento factorial con dos factores es un diseño
completamente aleatorizado.
Factor B 1 2 … b Totales Promedios
y111 y112 y121 y122 y1b1 y1b2 1 … y11n … y12n
… … y1bn ••1y ••1y
y211 y212 y221 y222 y2b1 y2b2 2 … y21n … y22n
… … y2bn ••2y ••2y
.
.
.
.
.
.
.
.
. O
.
.
.
.
.
.
.
.
. ya11 ya12 ya21 ya22 yab1 yab2
Factor A
a … ya1n … ya2n
… … yabn ••ay ••ay
Totales ••1y ••2y … ••by
Promedios ••1y ••2y … ••by •••y •••y
Tabla 5.3 Arreglo de datos para el diseño factorial con dos factores
En la tabla anterior se ha hecho uso de la notación de subíndice “punto”. Recuerde
que con esta notación, cuando aparece un punto en lugar de una letra en el subíndice
de la variable respuesta se debe realizar la sumatoria a lo largo de esta letra. Así, por
ejemplo ∑=
• =n
kijkij yy
1
. Además, la barra en la parte superior indica promedio, como por
ejemplo en, n
yy
n
kijk
ij
∑=
• = 1
Las observaciones pueden describirse con el modelo estadístico lineal
( )
===
++++=nk
bj
ai
Y ijkijjiijk
,...,2,1
,...,2,1
,...,2,1
ετββτµ (5-6)
donde µ es la media global o la gran media, τi es el efecto del i-ésimo nivel del factor
A, βj es el efecto del j-ésimo nivel del factor B, (τβ)ij es el efecto de la interacción entre
A y B y εijk es un componente de error aleatorio que tiene una distribución normal con
media cero y varianza σ2.
El objetivo es determinar si no existe efecto de principal de A, B y no hay interacción
entre ellos.
5.3.2 Hipótesis a evaluar y análisis de varianza
Cuando existen dos factores de interés las hipótesis estadísticas a probar son las
siguientes:
0...: 210 ==== aH τττ ( A no influye)
0:1 ≠iH τ al menos para un i (5-7)
0...: 210 ==== bH βββ (B no influye)
0:1 ≠jH β al menos para un j (5-8)
( ) ( ) ( ) 0...: 12110 === abH τβτβτβ (No hay interacción)
0)(:1 ≠ijH τβ al menos para algún ij (5-9)
La primeras dos hipótesis [(5-7) y (5-8)] evalúan los efectos principales (A y B) y la
última [(5-9)] los efectos de interacción entre los dos factores.
En este caso, se pretende explicar la variabilidad observada en la variable respuesta
en términos de 4 fuentes posibles de variabilidad: dos factores principales (A y B), su
interacción y el error aleatorio. Este hecho también se ilustra en identidad (5-10):
( )2
1 1 1
...∑∑∑= = =
−a
i
b
j
n
kijk yy
Medida de
variabilidad
total
=
( )2
1
.....∑=
−a
ii yybn
Medida de
variabilidad
debida al factor A
+
( )2
1
.....∑=
−b
jj yyan
Medida de
variabilidad
debida al factor B
+
( )2
1 1
........∑∑= =
+−−a
i
b
jjiij yyyyn
Medida de variabilidad
debida a la interacción
entre A y B
+
( )2
1 1 1
.∑∑∑= = =
−a
i
b
j
n
kijijk yy
Medida de
variabilidad debida
al error aleatorio
(5-10)
La identidad (5-10) muestra la forma como se puede descomponer la variabilidad total
de la variable respuesta en términos de los dos factores principales, la interacción y el
error aleatorio.
El sentido de esta identidad se comprende mejor si se analizan las cantidades
involucrados en cada término. Por ejemplo, ( )2
1
.....∑=
−a
ii yybn involucra la suma de los
cuadrados de las diferencias entre los promedios del primer factor, ••iy y la gran
media, •••y ; si esta sumatoria es diferente de cero es precisamente debido al efecto del
primer factor, A. De igual forma, si B no influyera sobre la variable respuesta, entonces
todos los sus promedios serian iguales a la gran media y por lo tanto la cantidad
( )2
1
.....∑=
−b
jj yyan seria igual a cero.
En la en la Tabla 5.4 se destacan en color verde y azul las calidades involucradas en
el cálculo de la suma de cuadrados debida al factor A y B respectivamente. Si todos
los valores en verde son aproximadamente iguales entonces la cantidad
( )2
1
.....∑=
−a
ii yybn es cercana a cero y como consecuencia A no influye sobre la variable
respuesta; si todos los valores en azul son aproximadamente iguales entonces la
cantidad ( )2
1
.....∑=
−b
jj yyan es cercana a cero y por lo tanto B no influye sobre la
variable respuesta.
Factor B 1 2 … b Totales Promedios
y111 y112 y121 y122 y1b1 y1b2 1 … y11n … y12n
… … y1bn ••1y ••1y
y211 y212 y221 y222 y2b1 y2b2 2 … y21n … y22n
… … y2bn ••2y ••2y
.
.
.
.
.
.
.
.
. O
.
.
.
.
.
.
.
.
. ya11 ya12 ya21 ya22 yab1 yab2
Factor A
a … ya1n … ya2n
… … yabn ••ay ••ay
Totales ••1y ••2y … ••by
Promedios ••1y ••2y … ••by •••y •••y
Tabla 5.4 Términos involucrados en la valuación de los efectos principales en un diseño con dos factores. En
verde el factor A y en azul B
Para comprender mejor porqué el termino ( )2
1 1
........∑∑= =
+−−a
i
b
jjiij yyyyn en la ecuación
(5-10) mide la interacción entre A y B considere los datos en la celda correspondiente
al nivel i del factor A y el nivel j del factor B en la Tabla 5.3. El resumen de los datos
involucrados en el efecto de interacción se muestra en la
Tabla 5.5
Factor B
•ijy … ••iy
.
.
. O
.
.
.
Factor A
•• jy … •••y
Tabla 5.5 Términos involucrados en la evaluación de los efectos de interacción en un diseño con dos factores.
Observe que la cantidad dentro de paréntesis en la suma de los cuadrados debido a la
interacción se puede escribir en la forma ( ) ( )................ yyyyyyyy jiijjiij −−−=+−−
La cantidad, ... iij yy − es una medida del efecto de B en el nivel i-ésimo de A y
..... yy j − es una medida del efecto promedio de B para cualquier nivel de A. Si estas
dos cantidades son diferentes es porque el cambio en la variable respuesta debido a B
depende de nivel escogido de A, lo cual indica que existe interacción entre A y B.
La identidad de la suma de los cuadrados de la ecuación (5-10) se puede escribir de
manera simbólica de la forma:
SCT
=
SCA
+
SCB
+
SCAB
+
SCE
Suma de
Cuadrados
totales
=
Suma de
Cuadrados
Factor A
+
Suma de
Cuadrados
Factor B
+
Suma de
Cuadrados
interacción
+
Suma de
Cuadrados
Error
(5-11)
Además, también se puede demostrar que existen en total abn – 1 grados de libertad.
Los efectos principales A y B tienen a – b y b – 1 grados de libertad, mientras que el
efecto de interacción AB tiene (a – 1) (b – 1) grados de libertad. Dentro de cada una de
las ab celdas de la Tabla 5.3 existen n – 1 grados de libertad entre las n réplicas, y las
observaciones en la misma celda sólo pueden diferir debido al error aleatorio.
Por lo tanto los grados de libertad también quedan divididos de acuerdo a la expresión:
SCT
=
SCA
+
SCB
+
SCAB
+
SCE
abn-1
= (a – 1) + (b – 1) + (a-1)(b-1) + ab(n-1)
(5-12)
Dividiendo cada suma de cuadrados entre sus respectivos grados de libertad se
obtienen las respectivas medias de cuadrados. Si las hipótesis dadas anteriormente
para los efectos principales así como la hipótesis del efecto de interacción [Hipótesis
(5-9)] son todas verdaderas, se puede demostrar que todas las medias de cuadrados
estiman la misma varianza común, σ2. Por lo tanto, se puede utilizar la distribución F
para verificar las hipótesis estadísticas en el diseño factorial con dos factores
[Hipótesis de (5-7) y (5-9)].
Los resultados se suelen escribir en una tabla como la siguiente
Fuente de
Variación Suma de Cuadrados
Grados
de
libertad
Media de
cuadrados F0 Valor P
Factor A abn
y
bn
ySC
a
i
iA
⋅⋅⋅−⋅⋅=∑=
2
1
2
a-1 1−
=a
SCMC A
A E
A
MC
MCF =0
Probabilidad
Factor B abn
y
an
ySC
b
j
jB
⋅⋅⋅−⋅⋅
=∑=
2
1
2
b-1 1−
=b
SCMC B
B E
B
MC
MCF =0
Probabilidad
Interacción
AB BA
a
i
b
j
ijAB SSSS
abn
y
n
ySC −−⋅⋅⋅−
⋅=∑∑
= =
2
1 1
2
(a-1)(b-1) )1)(1( −−
=ba
SCMC AB
AB
E
AB
MC
MCF =0
Probabilidad
Error BAABTE SCSCSCSCSC −−−= ab(n-1) )1( −
=nab
SCMC E
E
Total ∑∑∑= = =
⋅⋅⋅−=a
i
b
j
n
kijkT abn
yySC
1 1 1
22
abn-1
Tabla 5.6 Tabla ANOVA para un diseño factorial con dos factores
5.3.3 Comparación de medias
Cuando ambos factores son fijos, las comparaciones entre las medias de cualquier
factor pueden efectuarse mediante el empleo de métodos de comparación múltiple,
tales como el método gráfico o la prueba de rango múltiple de Duncan. Cuando no hay
interacción, estas comparaciones pueden realizarse con el empleo de los promedios
por renglón, ••iy o por columna, •• jy . Sin embargo, cuando la interacción es
significativa, las comparaciones entre las medias de un factor (por ejemplo, A) pueden
verse oscurecidas por la interacción AB. En este caso, puede aplicarse a las medias
del factor A un procedimiento tal como la prueba de rangos múltiples de Duncan, con
el valor del factor B ubicado en un nivel en particular.
5.3.4 Verificación de la adecuación del modelo y de los
supuestos hechos.
Al igual que en los experimentos de un solo factor, los residuos de un experimento
factorial juegan un papel importante en la evaluación de la adecuación de un modelo.
Los residuos de un experimento factorial de dos factores son
eijk = yijk - y ij· (5-13)
Esto es, los residuos son precisamente la diferencia entre las observaciones y los
promedios de celda correspondientes.
5.3.5 Una observación por celda
En algunos casos donde se tiene un experimento factorial con dos factores, se tiene
sólo una réplica –esto es, sólo una observación por celda-. En esta situación, existen
tantos parámetros en el modelo del análisis de la varianza como observaciones, y en
los grados de libertad del error son cero. Por tanto, no es posible probar hipótesis con
respecto a los efectos principales y a las interacciones, a menos que se hagan
suposiciones con adicionales. Un a de éstas es suponer que el efecto de interacción
es despreciable y utilizar la media de cuadrados de ésta como error cuadrático medio.
De este modo, el análisis es equivalente al utilizado en el diseño aleatorizado por
bloques. Esta suposición de no interacción puede ser peligrosa, y el experimentador
debe examinar con cuidado los datos y los residuos para determinar si existen o no
indicios de interacción.
5.4 Diseños factoriales con tres factores.
En este diseño se tienen tres factores de interés denotados como A, B y C. Suponga
que se tienen a niveles del factor A, b niveles del factor B, c niveles del factor C y n
replicas. Esto da un total de a×b×c×n observaciones, las cuales resultan de todas las
posibles combinaciones de los niveles de cada factor. Por ejemplo, si se tiene 3
niveles de A, 2 niveles de B y 4 niveles de C se obtienen 3×2×4 combinaciones
posibles; y si se decide realizar 3 replicas, el total de observaciones será de 3×2×4×3 =
72.
En el diseño factorial con tres factores, la variable respuesta, Y se pretende explicar a
partir del modelo:
( ) ( ) ( ) ( )
====
++++++++=
nl
ck
bj
ai
Y ijklijkjkikijkjiijkl
,...,2,1
,...,2,1
,...,2,1
,...,2,1
ετβγβγτγτβγβτµ (5-14)
Este modelo incluye, en total, 8 fuentes de variabilidad: tres efectos principales, tres
efectos de interacción entre dos factores, un efecto de interacción entre tres factores y
el termino de error aleatorio. El término de error aleatorio incluye el efecto de aquellas
variables o factores distintos a los tres factores considerados en el diseño, que
también pueden influir sobre la variable respuesta, pero que se espera que su efecto
sea pequeño y aleatorio.
La Tabla 5.7 muestra la tabla del Análisis de Varianza para los diseños factoriales con
tres factores.
Fuente de
Variación Suma de Cuadrados
Grados
de
libertad
Media de
cuadrados F0 Valor P
Factor A abcn
y
bcn
ySC
a
i
iA
2
1
2••••
=
••• −=∑ a-1 1−
=a
SCMC A
A E
A
MC
MCF =0
Probabilidad
Factor B abcn
y
acn
ySC
b
j
jB
2
1
2••••
=
••• −=∑ b-1 1−
=b
SCMC B
B E
B
MC
MCF =0
Probabilidad
Factor C abcn
y
abn
ySC
b
k
kC
2
1
2••••
=
••• −=∑ c-1 1−
=c
SCMC B
C E
C
MC
MCF =0
Probabilidad
Interacción
AB BA
a
i
b
j
ijAB SSSS
abn
y
cn
ySC −−−
⋅= ••••
= =
••∑∑2
1 1
2
(a-1)(b-1) )1)(1( −−
=ba
SCMC AB
AB
E
AB
MC
MCF =0
Probabilidad
Interacción
AC CA
a
i
c
k
kiAC SSSS
abn
y
bn
ySC −−−
⋅= ••••
= =
••∑∑2
1 1
2
(a-1)(c-1) )1)(1( −−=
ca
SCMC AC
AC
E
AC
MC
MCF =0
Probabilidad
Interacción
BC CB
b
j
c
k
jkBC SSSS
abn
y
an
ySC −−−
⋅= ••••
= =
••∑∑2
1 1
2
(b-1)(c-1) )1)(1( −−=
cb
SCMC BC
BC
E
BC
MC
MCF =0
Probabilidad
Interacción
ABC BCACABCB
A
a
i
b
j
c
k
ijkAB
SSSSSSSSSS
SSabn
y
n
ySC
−−−−−
−−⋅
= ••••
= = =
•∑∑∑
2
1 1 1
2
(a-1)(b-1)(c-1)
)1)(1)(1( −−−
=
cba
SC
MC
ABC
ABC
E
ABC
MC
MCF =0
Probabilidad
Error BAABTE SCSCSCSCSC −−−= abc(n-1) )1( −=
nabc
SCMC E
E
Total ∑∑∑= = =
⋅⋅⋅−=a
i
b
j
n
kijkT abn
yySC
1 1 1
22
abcn-1
Tabla 5.7 Tabla ANOVA para un diseño factorial con tres factores
En la tabla de Análisis de Varianza (Tabla 5.7) se puede apreciar las 7 hipótesis nulas
en tela de juicio: las que evalúan los tres efectos principales, los tres de interacción
binarias y la interacción entre tres factores. Cada una de estas hipótesis establece que
el efecto correspondiente no es significativo, y se deben rechazar, a favor de la
hipótesis alternativa correspondiente, si su valor P en la tabla ANOVA (Tabla 5.7) es
menor que el nivel de significancia establecido para la prueba (usualmente del 5%).
5.5 Diseños factoriales generales.
Para estudiar el caso general, considere f factores A, B, C,…, K con niveles a, b, c,…,
k, respectivamente, donde la letra K denota al f-ésimo o último factor del conjunto a
estudiar, no necesariamente al decimoprimero, que es el lugar de esta letra en el
alfabeto. Con estos niveles y factores se puede construir el diseño factorial general a x
b x… x k, que consiste de a x b x k tratamientos o puntos de prueba. Con este diseño
se pueden estudiar f efectos principales, f (f - 1) /2 interacciones dobles, f (f – 1)(f –
2)/(3 x 2) interacciones triples, y así sucesivamente hasta la única interacción de los f
factores (ABC …K). El cálculo del número de interacciones de cierta cantidad m de
factores se hace mediante la operación “combinaciones de f en m” ( ) ( )!!
!
mfm
ffm −
=
que cuenta el número de maneras diferentes de seleccionar m factores de los f, donde
f! = f x (f – 1) x…x 2 x 1.
En resumen, con el diseño factorial general descrito se pueden estudiar los siguientes
2f – 1 efectos:
ff
=
1 efectos principales (A, B, … K)
2
)1(2
−=
fff interacción entre dos factores (AB, AC, …)
M
ff
f=
−1 interacción entre f-1 factores (ABC…K-1,…)
11
=
f interacción con todos los factores (ABC…K)
(5-15)
Por ejemplo, el diseño factorial 25 tiene cinco efectos principales, 10 interacciones
dobles, 10 interacciones triples, cinco interacciones cuádruples y una interacción
quíntuple, lo que da un total de 5 +10 +10 +5 +1= 31 efectos. Por su parte, el factorial
35 tiene también estos 31 efectos, pero al contar con tres niveles en cada factor, cada
efecto principal se puede descomponer en su parte lineal y cuadrática, y cada
interacción doble en cuatro componentes, las triples en ocho componentes, así
sucesivamente, las interacciones se parten según los grados de libertad que tienen
sus sumas de cuadrados. Cabe hacer notar que mientras el diseño factorial 25 tiene 32
tratamientos, el factorial 35 tiene 243, una cantidad de tratamientos difícil de manejar.
Aun si pudiera correrse, representa una opción muy ineficaz; además de que existen
arreglos experimentales más pequeños y eficientes.
Una fracción de la tabla de Análisis de Varianza con la columna de fuente de variación,
Suma de cuadrados y grados de libertad se muestra en Tabla 5.8
Fuente Variación Suma de cuadrados Grados de liberta
Efecto A SCA a-1
M M M
Efecto k SCK k-1
Interacción AB SCAB (a-1) (b-1)
M M M
Interacción K(k-1) SC(K-1)K (l-1) (k-1)
Interacción ABC SCABC (a-1)(b-1)(c-1)
M M M
Interacción (K-2)(K-1)K SC(K-2)(K-1)K (m-1)(l-1)(k-1)
M M M
Interacción AB…K SCAB…K (a-1)(b-1)…(k-1)
Error SCE abc…j(n-1)
Total SCT (abc…kn)-1
Tabla 5.8 ANOVA para el diseño factorial general
La columna de la media de cuadrados, el valor F y el valor P de la tabla ANOVA, se
obtienen de manera análoga a como se vio en los diseños con dos o tres factores.
De acuerdo a lo antes dicho, en el factorial general a x b x…x k, se pueden plantear
2f – 1 hipótesis que se prueban mediante el análisis de varianza. Las primeras tres
columnas de este ANOVA se muestran en la Tabla 5.8.
La suma de cuadrados totales está dada por
∑∑ ∑∑= = = =
•••••−=a
i
b
j
k
m
n
rmrijT N
yySC
1 1 1 1
22 ,L
LL (5-16)
donde N= abc… kn es el total de observaciones en el experimento; los subíndices k y
m representan al tercero y último factor, respectivamente. Las sumas de cuadrados de
efectos son
N
y
lknbc
ySC
a
i
iA
2
1
2••••••
=
••• −=∑ LL
L (5-17)
N
y
lknac
ySC
b
j
jB
2
1
2••••••
=
••••• −=∑ LL
L (5-18)
N
y
lknab
ySC
a
i
kC
2
1
2••••••
=
••••• −=∑ LL
L (5-19)
M
N
y
abc
ySC
k
m
mK
2
1
2
ln••••••
=
••••• −=∑ LL
L (5-20)
BA
a
i
b
j
ijAB SCSC
N
y
lknc
ySC −−−= ••••••
= =
••••∑∑2
1 1
2LL
L (5-21)
M
( ) ( ) Kk
l
p
k
m
pmKk SCSC
N
y
nabc
ySC −−−= −
••••••
= =
••••− ∑∑ 1
2
1 1
2
1LL
L (5-22)
BCACBA
a
i
b
j
c
k
ijkABC SCSCSCSC
N
y
lkn
ySC −−−−−= ••••••
= = =
•••∑∑∑ LLL
2
1 1 1
2
(5-23)
M
.1
2
1 1 1 1
2
−••••••
= = = =
• −−−−−−=∑∑ ∑∑ KABABA
a
i
b
j
l
p
k
m
pmijKAB SCSCSC
N
y
n
ySC
L
LL
LLLL (5-24)
( ) .1 KABABCKkABKATE SCSCSCSCSCSCSCSCL
LLL −−−−−−−−−= − (5-25)
En el ANOVA de la Tabla 5.8 para el factorial general a x b x…x k se observa la
necesidad de contar con al menos dos réplicas del experimento para poder calcular la
suma de cuadrados del error (SCE), y poder completar toda la tabla de ANOVA. Sin
embargo, esta necesidad de réplicas (n≥2) es para el caso irreal de que interesan los
2f – 1 efectos. Pero resulta que, con excepción del factorial 22, prácticamente nunca en
un factorial completo interesan todos sus posibles efectos, puesto que en general sólo
algunos de ellos están activos. El principio de Pareto, que en este contexto se llama
también principio de esparcidad de efectos, dice que la mayoría de la variabilidad
observada se debe a unos pocos de los efectos posibles; por lo común se debe a
algunos efectos principales e interacciones dobles. En general no influyen las
interacciones de tres o más factores, por lo que es innecesario gastar recursos
experimentales para estudiar estos efectos.
En resumen, sólo en el caso irreal de que todos los posibles efectos en el diseño
factorial general estén activos, es necesario realizar al menos dos réplicas del
experimento. En las situaciones reales se replican al menos dos veces (y no siempre)
sólo los diseños factoriales consistentes de 16 o menos puntos de prueba.
5.6 Ejercicios propuestos.
1. A continuación se muestra parte del ANOVA para un diseño factorial 3 x 5 con dos
réplicas, el factor A con tres niveles y el B con cinco.
F. de variación Suma de
cuadrados
Grados de
libertad
Cuadrado
medio Razón F
A 800
B 900
AB 300
Error 400
Total
a. Suponga efectos fijos, anote el modelo estadístico apropiado y formule las
hipótesis a probar para este experimento.
b. Agregue en esta tabla los grados de libertad, el cuadrado medio y la razón F
para cada una de las fuentes de variación.
c. Explique de manera esquemática cómo calcularía el p-value para A, por
ejemplo.
d. ¿Con la información disponible se pueden hacer conjeturas sobre cuáles de las
fuentes de variación son significativas estadísticamente? Argumente.
2. En una fábrica de aceites vegetales comestibles la calidad se ve afectada por la
cantidad de impurezas dentro del aceite, ya que éstas causan oxidación, y por ello
repercute a su vez en las características de sabor y color del producto final. El
proceso de “blanqueo” que consiste básicamente en elevar la temperatura del
aceite, agregar cierta cantidad de arcilla (arena), y agitar durante cierto tiempo
para que las impurezas se adhieran a la arcilla; de esta manera al bajar la
temperatura del aceite y dejarlo en reposo, la arcilla junto con las impurezas se
depositen en el fondo del tanque de aceite. Una forma de medir la eficacia del
proceso de blanqueo es midiendo el color del aceite. De acuerdo al método de
medición que se aplica en esta planta, consideran que a un aceite se le eliminó las
suficientes impurezas si el color es mayor a 4.8 (a mayores valores más claro el
aceite). Cuando los lotes del proceso de blanqueo no cumplen con los
requerimientos de blancura, la solución del problema implica reprocesos, aumento
del tiempo de ciclo, entre otras cosas. Para generar una primera aproximación a la
solución del problema se decide estudiar la temperatura y el porcentaje de arcilla a
nivel laboratorio inicialmente. El diseño y los datos de las pruebas experimentales
se muestran a continuación.
Porcentaje de arcilla
Temperatura 0.8 0.9 1.0 1.1
90 5.8 5.9 5.4 5.5 4.9 5.1 4.5 4.4
100 5.0 4.9 4.8 4.7 4.6 4.4 4.1 4.3
110 4.7 4.6 4.4 4.4 4.1 4.0 3.7 3.6
a. Construya el modelo estadístico y formule las hipótesis pertinentes.
b. ¿Cuál es el nombre del diseño utilizado?
c. Normalmente, a condiciones reales se utiliza 1.1% de arcilla y 100 grados de
temperatura. ¿Por qué cree que se han elegido precisamente los niveles de
prueba para el experimento?
d. Realice un análisis de varianza para probar las hipótesis y obtenga
conclusiones.
e. Apoyándose en las gráficas de efectos, ¿cuál es la relación general entre el
color y los factores controlados en su rango de experimentación?
f. A partir de la gráfica de interacciones, ¿cree que haya un efecto no lineal?
Apoye su respuesta con el análisis de varianza apropiado.
g. Considerando que el nivel mínimo aceptable de blancura es de 4.8, ¿qué
tratamiento utilizaría?
h. ¿Vale la pena ahora plantear el estudio a condiciones reales?
i. ¿Qué cambio le haría al experimento si lo corre a condiciones reales?
3. En un laboratorio de microbiología se realiza un experimento para investigar si
influye el tipo de verdura (lechuga-L, cilantro-C, zanahoria-Z) y la temperatura (8 y
20ºC) de almacenamiento en la sobrevivencia del vidrio colerae. Se hicieron varias
réplicas. El porcentaje de sobrevivencia obtenido después de 24 horas de
inoculado el alimento se muestra a continuación.
Temperatura
Alimento 20 8
L 13.1 15.0 33.6 35.5 42.0 11.1 12.8 6.2 28.5 41.0 35.9 25.0 23.8 79.0 41.6
C 19.0 19.0 66.6 66.6 11.0 11.0 49.0 49.0 84.3 68.7 68.7 30.5 30.5 11.0 11.0 20.0
Z 1.2 1.2 0.2 0.1 0.3 0.2 0.1 0.4 0.2 0.3 25.8 21.8 16.0 16-0 20.1 15.4 13.3 25.2
a. Señale el nombre del diseño que se ha empleado y formule las hipótesis que
pueden ser apropiadas.
b. Haga un análisis de varianza e interprételo con detalle.
c. Verifique el supuesto de igual varianza entre los tratamientos (varianza
constante). ¿Si se cumplen satisfactoriamente?
d. En caso de que no se cumpla el supuesto anterior, ¿cómo afecta esto a sus
conclusiones?
4. Para el caso del problema anterior:
a. Transforme los datos con logaritmos, haga el análisis de varianza.
b. Verifique supuestos.
c. ¿Cuáles son las diferencias más importantes que encontró en los dos análisis?
¿Por qué?
d. Con los datos transformados, y en caso de que haya alguna interacción
relevante, interprétela con detalle.
5. En una empresa alimenticia se desean evaluar cuatro antioxidantes, a través de su
efecto en un aceite vegetal. El propósito es seleccionar el producto que retrase
más la oxidación. Las pruebas se hacen a condiciones de estrés, midiendo como
variable respuesta el índice de peróxidos. Diferentes unidades experimentales se
evalúan a diferentes tiempos. Los datos obtenidos se muestran a continuación (en
el control no se agrega ningún antioxidante)
Tiempo
Producto 4 horas 8 horas 12 horas
Control 3.84, 3.72 27.63, 27.58 39.95, 39.00
A 4.00, 3.91 22.00, 21.83 46.20, 45.60
B 3.61, 3.61 21.94, 21.85 43.58, 42.98
C 3.57, 3.50 20.50, 20.32 45.14, 44.89
D 3.64, 3.61 20.30, 20.19 44.36, 44.02
a. Señale los factores controlados y la variable de respuesta.
b. Formule el modelo estadístico apropiado al problema y la hipótesis estadística
que se pueden probar.
c. Haga un análisis de varianza y observe los aspectos más relevantes.
d. ¿Los supuestos del modelo se cumplen?
e. Considerando que a menor índice de peróxidos mejor es el producto, ¿hay
algún producto que sea mejor estadísticamente?