ANOVA
El Analisis de la varianza es una tecnica estadstica de amplio uso, se situa en el contexto parametricoen el que se tiene una variable respuesta X cuyo comportamiento puede depender de una o variasvariables factor que generalmente estan controladas por el investigador; se desea analizar la influenciade los factores en la respuesta. Para ello se elegiran distintos niveles o modalidades de cada uno delos factores y se combinaran dando lugar a los tratamientos
Empezaremos el estudio por el caso mas sencillo en el que solo se tiene un factor, anova unifactorial,y los individuos sobre los que se analiza la variable respuesta son homogeneos por lo que se asignanaleatoriamente a los distintos tratamientos(diseno completamente aleatorizado). Dependiendo deque las modalidades del factor sean unas determinadas (efectos fijos) o se elijan al azar por no estarinteresados en unas en particular (efectos aleatorios) se tendran dos modelos un poco diferentes ensu planteamiento.
ANOVA UNIFACTORIAL DE EFECTOS FIJOS
Se quiere analizar el efecto de un factor del que se estudian los niveles i=1, . . . , I sobre una variablerespuesta X.Sea Xi la variable respuesta bajo el nivel i del factor, supongo que la variacion de los datos dentrode este nivel se debe al error experimental, es decir Xi = i + e. Para modelar el comportamiento delos errores supongo que estos se comportan como una normal, y que ademas su comportamiento es elmismo en todos los niveles es decir e N(0, ). Esta variable error no se puede observar, o medir,lo que se mide es Xi N(i, ) y de la que se tiene una m.a.s. (xi1, . . . , xini) y en funcion de estosdatos se realizara el analisis.Si todas las muestras son del mismo tamano, es decir ni=m se dice que el modelo es equilibrado.
Tambien se puede utilizar la descomposicion Xi = + i + e siendo =I
i=1 niin
y i = i ypor tanto
Ii=1 nii = 0.
Hipotesis Previas
1. e N(0, ) o equivalentemente Xi N(i, ) (Normalidad y homocedasticidad)2. (xi1, . . . , xini) m.a.s. de Xi i=1,. . . , I
3. las distintas muestras son independientes
Parametros del Modelo:
= (1, . . . , I , ) RI+1 o equivalentemente = (, 1, . . . , I1, ) RI+1
Hipotesis del ANOVA
H0: No influencia del factor en la respuestaH0 : 1 = . . . ,= I H0 : i = 0 i = 1, . . . , I
Estadsticos
Como su nombre indica el Anova esta basado en el analisis de la variacion de los datos, por ello seconsideran los estadsticos que se basan en la variacion de los datos
Variacion total de los datos, que se debe tanto al error como al factor
SCT =I
i=1
ni
j=1
(Xij X ..)2
Variacion dentro de los niveles o variacion debida al error experimental
SCE =I
i=1
ni
j=1
(Xij Xi.)2
Variacion entre los niveles o variacion debida al factor
SCF =I
i=1
ni(Xi. X ..)2
Cada una de las sumas anteriores es una variable aleatoria, por serlo las Xij , y vamos a estudiar sucomportamiento
SCE =
I
i=1
ni
j=1
(Xij Xi.)2 =I
i=1
ni
j=1
(eij ei.)2 =I
i=1
(ni 1)S2i
es una variable aleatoria, funcion de las cuasivarianzas de cada una de las muestras que sonestimadores insesgados de la varianza de cada una de las variables Xi, 2. Por tanto la mediadel estadstico SCE es
E(SCE) = (N I)2
por ello el estadstico CME =SCE
n I es un estimador insesgado de 2.
SCF =
I
i=1
ni(Xi. X ..)2 =I
i=1
ni(i + ei. e..)2
esta variable aleatoria tiene una esperanza que es
E(SCF ) =I
i=1
ni2i +E
(I
i=1
ni(ei. e..)2)
=I
i=1
ni2i +
I
i=1
ni
(2
ni
2
n
)=
I
i=1
ni2i +
2(I1)
El estadstico CMF =SCF
I 1 tiene una esperanza 2 +
Ii=1 ni
2i
I 1 .
En consecuencia se podra utilizar para contrastar H0 el cocienteCMF
CMEy rechazar esta hipotesis
nula cuando este cociente fuese grande. Para estudiar el comportamiento de este cociente es para loque se necesita imponer la condicion de normalidad a los errores, ya que hasta ahora esta no ha sidoutilizada.Bajo las condiciones de que los errores son normales, independientes y homocedasticos (con la mismavarianza) se tiene las siguientes distribuciones para los estadsticos
SCE
2 2nI
SCT
2H0 2n1
que se obtienen a partir del teorema de Fisher. Por otro lado utilizando los siguientes resultados sobreformas cuadraticas:
Teorema: Sea Q = x Ax una forma cuadratica sobre x N(0, 2) (x es una m.a.s sobre x) Q/2 2r si y solo si A es idempotente de rango r. Si Q1 es otra forma cuadratica sobre x con matriz asociada B. Q y Q1 son independientes si y
solo si AB=0.
Sea Q = Q1 + + Qk donde Qi son formas cuadraticas sobre x si Q/2 2r, Qi/2 2ri Qk 0
entonces Q1 . . . Qk son independientes y Qk/2 2rk rk = r k1
i=1 ri.
como consecuencia se obtiene que
SCF
2H0 2I1 y es independiente de SCE2
Por ello se puede obtener la distribucion del cociente:
F =SCFI1SCEnI
=CMF
CMEHo FI1,nI
conocido como estadstico F del anova, al que se puede llegar tambien por ejemplo a traves delmetodo de la razon de verosimiludes, y que nos sirve para definir la region crtica asociada al testANOVA
RC ={
(x11 . . . xknk |CMF
CME> F1FI1,nI (1 )
}
Los calculos necesarios para efectuar el contraste anova se suelen presentar a traves de una tablade la forma siguiente (salvo la columna teorica ECM que me sirve como orientacion para calcular elestadstico F):
FV GL SC CM ECM F
Factor I-1 SCF CMF 2 +P
ni2i
I1CMF
CMEError n-I SCE CME 2
Total n-1 SCT
Debe hacerse notar que el rechazo de la hipotesis nula 1 = . . . ,= I no significa que todas lasmedias sean diferentes sino que al menos dos lo son, por ello cuando se rechaza H0 suelen plantearselas preguntas a que se debe el rechazo de la hipotesis? que tratamientos se comportan de formadistinta?.Por otro lado puede ser que la hipotesis basica del test anova carezca de interes ya que se sabe deantemano que los tratamientos no tienen el mismo efecto sino que se va buscando el que lo tengamejor. Surgen as otros nuevos test que se conocen con el nombre generico de comparacionesmultiples y que estan basados en el trabajo con combinaciones lineales de las medias poblacionales.
Definicion:- se llama contraste a La =
aii con a = (a1, . . . , aI)/
ai = 0.
Un ejemplo de contraste es i j .
A continuacion vamos a estudiar las inferencias sobre los distintos parametros del ANOVA unifactorialde efectos fijos as como algunas funciones de los mismos.Inferencias sobre
la varianza de los errores 2 se basan en su estimador el CME y en la distribucion SCE2
2nI .
Tambien se pueden basar, si H0 es cierta, en el estimadorSCT
n 1 y en la distribucionSCT
2 2n1.
la media global de la variable respuesta se basan en su estimador x.. y en los estadsticosx..
CMEn
tnI , o si H0 es cierta x.. SCT/(n1)
n
tn1.
sobre i cuando se rechaza H0 se basan en su estimador xi. y en el estadstico xi. iCME
n
tnI .
contrastes L = aii se basan en sus estimadores L =
aixi. y en la distribucion
L LCME
a2ini
tnI
Tests MultiplesLa hipotesis nula del test ANOVA H0 : 1 = = k puede plantearse como interseccion dedistintas hipotesis sobre contrastes que se resuelven por el metodo de union interseccion. Asla hipotesis nula puede formularse como:
2jI
H0j : 1 = j 1 j = 0 L1j = 0
que puede resolverse mediante la region crtica de Bonferroni:
RC =
x/ max2jI
|L1j|(1n1
+ 1nj
)CME
> tnI, 2(I1)
1ijI
H0ij : i = j
que puede resolverse mediante las siguientes regiones crticas
1. de Bonferroni:
RC =
x/ max1i tnI, I(I1)
2. de Scheffe
RC =
x/ max1i
(I 1)FI1,nI,
en su desmostracion sera util el siguiente lema
Lema: Sean c y v dos vectores de RI , con c tal que todas sus componentes sonpositivas, ci 0. Se considera el subespacio A = {a RI |
Ii=1 ai = 0}.
La funcion g(a) =(PI
i=1 aivi)2
PIi=1
a2i
ci
presenta un maximo en el subespacio A y vale
maxaA
g(a) = maxaA
(Ii=1 aivi
)2
Ii=1
a2ici
=I
i=1
ci(vi vc)2
Demostracion
Sea B = {b RI |Ii=1 bi = 0 yI
i=1b2ici
= 1},
como B A y dado a A existe un ba B con bai = aiPIj=1
a2j
cj
tal que g(ba) = g(a)
entonces maxaA g(a) = maxbB g(b).
Como
g(b) =
(I
i=1
aivi
)2= t2
(I
i=1
bici
vicit
)2; con t =
Ii=1
ci
g(b) se puede definir a traves de la covarianza entre las componentes de una variablebidimensional (X,Y) que toma los valores ( bi
ci, vi) con probabilidades
cit, es decir
g(b) = t2E2(XY )
Ademas E(X)=I
i=1bici
cit=0 y var(X) = E(X2) =
Ii=1(
bici
)2 cit
= 1t
por tanto, y
aplicando la desigualdad de Cauchy-Swartz: cov(XY ) (var(X)var(Y )) 12 ,
g(b) = t2E2(XY ) = t2cov2(XY ) t2var(X)var(Y ) = t2 1tvar(Y ) = t
Ii=1
cit(vi vc)2
en consecuencia
maxaA
g(a) = maxbB
g(b) I
i=1
ci(vi vc)2
Por otro lado sea a0 A dado por a0i = ci(vi vc) entonces
g(a0) =
(Ii=1 ci(vi vc)vi
)2I
i=1 ci(vi vc)2=
Ii=1
ci(vi vc)2
Es decir
maxaA
g(a) =I
i=1
ci(vi vc)2
3. de Tukey (modelo equilibrado ni = m)
que se basa en una nueva distribucion que es la del recorrido o rango estudentizado
Definicion: Sean Y1 . . . Yn v.a. independientes,con distribucion N(0,1), Y(n) sumaximo e Y(1) su mnimo, sea Z otra variable aleatoria independiente con las anteriores
con distribucion ji-cuadrado Z 2k entonces Q =Y(n) Y(1)
Z/kse dice que tiene una
distribucion del rango estudentizado con n y q grados de libertad, qn,k.
y define la siguiente region crtica
RC =
x/ max1i QI,nI,
Todas estas regiones crticas pueden servir de base para construir regiones de confianza multiplespara las diferencias entre i j
Potencia del test Anova
Otro aspecto de interes en el estudio ANOVA es la potencia del test, es decir la probabilidad dela region crtica cuando no se cumple la hipotesis nula de igualdad de medias para la variablerespuesta en los distintos niveles del factor. Para el estudio del comportamiento del estadsticoCMF
CMEcuando no es cierta la hipotesis nula utilizaremos las distribuciones descentradas, ya que
SCF
2 2
I1,
ni
2i
2
y en consecuencia
CMF
CME F
I1,nI,
ni
2i
2
ANOVA UNIFACTORIAL DE EFECTOS ALEATORIOS
Queremos analizar el efecto de un factor sobre una variable respuesta, pero no se esta interesadoen unos determinados niveles sino que estos se eligen al azar, con lo que aparece una segundafuente de aleatorizacion.En este caso la variable respuesta se puede descomponer en X = + + e donde los errores,que recogen la parte de la respuesta correspondiente al error experimental, se comportan comoe N(0, ), y N(0, a), recoge la parte de X correspondiente al tratamiento.Tanto los errores como la influencia de los tratamientos son variables que no se pueden observar,solo se observa X de la que para el nivel i elegido al azar se tiene una m.a.s. (xi1, . . . , xini) y enfuncion de estos datos se realizara el analisis.
Hipotesis Previas
1. e N(0, ) o equivalentemente Xi N(i, ) (Normalidad y homocedasticidad)2. (xi1, . . . , xini) m.a.s. de Xi i=1,. . . , I
3. las distintas muestras son independientes
Parametros del Modelo:
= (, , a) R3
Hipotesis del ANOVA
H0: No influencia del factor en la respuesta a = 0
Estadsticos
SCE =I
i=1
nij=1
(Xij X i.)2 SCE2
2nI
SCT =I
i=1
nij=1
(Xij X ..)2 SCT2
H0 2n1
SCF =I
i=1
ni(X i. X ..)2 SCF2
H0 2I1
e igual que ocurra en el modelo de efectos fijos, ya que bajo las dos hipotesis mulas el compor-tamiento de X es el mismo, se define a region crtica asociada al test ANOVA
RC =
{(x11 . . . xknk |
CMF
CME> F1FI1,nI (1 )
}
La tabla anova para este modelo es analoga a la anterior para el modelo de efectos fijos, lounico que cambia es la columna teorica de esperanzas de los cuadrados medios obteniendose.
FV GL SC CM ECM F
Factor I-1 SCF CMF 2 + 2an2Pn2in(I1)
CMF
CMEError n-I SCE CME 2
Total n-1 SCT
En este caso no tienen sentido test a posteriori, ya que no estamos interesados en nivelesparticulares. Puesto que en este modelo X = N(,
2 + 2a) pueden ser interesante realizar
inferencias sobre los parametros del modelo.
Inferencias sobre
la varianza de los errores 2 se basan en su estimador el CME y en la distribucion SCE2
2nI . Tambien se pueden basar si H0 es cierta en el estimadorSCT
n 1 y en la distribucionSCT
2 2n1.
la varianza de los niveles 2a se basan en su estimador , que en el caso de modelos equili-brados es
CMF CMEm
.
que se basaran en el estimador x y en el estadstico x CMF/n
tI1
Potencia del test Anova
Para el estudio de la funcion potencia en este modelo, tenemos que buscar la distribucion dela SCF. Se considera el modelo equilibrado, y teniendo en cuenta que Xi = N(,
2/m + 2a)
se obtiene, aplicando el teorema de Fisher, que
SCF
m2a + 2 2I1
de dondeCMF
CME m
2a +
2
2FI1,nI
distribucion que se utiliza para el calculo de la potencia.
Tests de homocedasticidad
Bajo el supuesto de que la variable respuesta en cada nivel sigue una distribucion normalXi N(i, i), i = 1; . . . , I, y que para cada nivel se dispone de una m.a.s. Xij j = 1, . . . , nilos test de homocedasticidad tienen por objetivo contrastar H0 : 1 = = I . Test de la razon de verosimilitudes
(x) =I
i=1
(s2is2
)ni2
, s2i =
nij=1(xij xi.)2
nis2 =
Ii=1 nis
2i
n
Se utiliza su distribucion asintotica, por ello necesita tamanos de muestra grandes
RC ={x / 2ln(x) > 2I1,
}=
{x /
Ii=1
niln(s2i ) + nln(s
2) > 2I1,
}.
Test de BartlettModificacion del anterior para acelerar la convergencia asintotica, es valido si ni 5
B = 1/c
(
Ii=1
(ni 1)ln(s2i ) + (n I)ln(s2))
s2i =
nij=1(xij xi.)2
ni 1 s2 =
Ii=1(ni 1)s2i
n I c = 1+1
3(I 1)
(I
i=1
1
ni 1 1
n I
)
RC ={x /B > 2I1,
}
Test Union-interseccion (modelo equilibrado ni = m)1. basado en el metodo de Bonferroni
RC =
{x / max
i,j
s2is2j
> Fm1,m1, I(I1)
}
2. basado en el Fmax
RC =
{x / max
i,j
s2is2j
> Fmaxm,I,
}
Test de LeveneConsidera las variables Zij = |Xij X i.| y los estadsticos
CMEz =
Ii=1
nij=1(zij zi.)2n I CMFz =
Ii=1 ni(zi. z..)2
I 1y considera la region crtica
RC =
{x /CMFz
CMEz> FI1,nI,
}
Recommended