3
ANOVA simple Contraste de ANOVA El ANOVA simple trata de analizar si dos variables Y (continua, llamada variable respuesta)y F (categ´orica,llamada factor), son independientes o no (es decir, si hay relaci´on entre ellas, si hay diferencias significativas en el valor de la primera seg´ un el valor que tome la segunda, si el factor influye en la variable respuesta, etc.). Por ejemplo, podemos pensar en la variable Y como el tiempo que tarda en curar un paciente, y en el factor F como el medicamento que se le administra. Si consideramos que el factor tiene k valores posibles, que representamos por F 1 ,...,F k , y que llamamos niveles del factor (por ejemplo, en el ejemplo anterior podemos pensar que hay k medicamentos posibles), entonces la hip´otesis que se contrasta es: H 0 : μ 1 = μ 2 = ··· = μ k H 1 : alguna μ i es distinta donde μ 1 ,...,μ k representan las medias correspondientes a cada nivel del factor (si Y es el tiempo de curaci´on y F el tipo de medicamento, entonces μ 1 ser´ ıa el tiempo medio que tardan en curar los pacientes a los que se les ad- ministr´o el medicamento F 1 , etc). Observemos que, si aceptamos H 0 , estamos diciendo que en todos los casos la media de Y es la misma independientemente del valor del factor, y por tanto que Y y F son independientes (por ejemplo, que el tiempo medio de curaci´on es el mismo siempre, y por lo tanto que el tipo de medicamento no influye especialmente en el tiempo de cura). La media conjunta de todos los datos se llama media global, μ. En caso de aceptar H 0 , estaremos aceptando no s´olo la igualdad entre las μ i , sino tambi´ en que todas las μ i son iguales a la media global, μ. Para contrastar H 0 , utilizaremos la noci´on de variabilidad, que esencialmente coincide con la de dispersi´on. Para medir la variabilidad de los datos Y ij (el primer sub´ ındice, i, indica el nivel de factor al que pertenece el dato, y el segundo, j , el orden que ocupa el dato dentro de los recogidos en ese nivel) utilizaremos la suma de cuadrados totales (SCT), y la descompondremos en suma de dos: suma de cuadrados residual o intra-grupos (SCR), que tiene que ver con la variabilidad dentro de cada nivel de factor, y la suma de cuadrados explicada o entre-grupos (SCR), que tiene que ver con las diferencias entre la media de cada factor, y la media global. M´as concretamente, se cumple: 1

Anova Simple

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Anova Simple

ANOVA simple

Contraste de ANOVA

El ANOVA simple trata de analizar si dos variables Y (continua, llamadavariable respuesta) y F (categorica, llamada factor), son independienteso no (es decir, si hay relacion entre ellas, si hay diferencias significativas enel valor de la primera segun el valor que tome la segunda, si el factor influyeen la variable respuesta, etc.). Por ejemplo, podemos pensar en la variableY como el tiempo que tarda en curar un paciente, y en el factor F comoel medicamento que se le administra. Si consideramos que el factor tiene kvalores posibles, que representamos por F1, . . . , Fk, y que llamamos nivelesdel factor (por ejemplo, en el ejemplo anterior podemos pensar que hay kmedicamentos posibles), entonces la hipotesis que se contrasta es:

H0 : µ1 = µ2 = · · · = µk

H1 : alguna µi es distinta

donde µ1, . . . , µk representan las medias correspondientes a cada nivel delfactor (si Y es el tiempo de curacion y F el tipo de medicamento, entoncesµ1 serıa el tiempo medio que tardan en curar los pacientes a los que se les ad-ministro el medicamento F1, etc). Observemos que, si aceptamos H0, estamosdiciendo que en todos los casos la media de Y es la misma independientementedel valor del factor, y por tanto que Y y F son independientes (por ejemplo,que el tiempo medio de curacion es el mismo siempre, y por lo tanto que eltipo de medicamento no influye especialmente en el tiempo de cura). La mediaconjunta de todos los datos se llama media global, µ. En caso de aceptarH0, estaremos aceptando no solo la igualdad entre las µi, sino tambien quetodas las µi son iguales a la media global, µ.

Para contrastar H0, utilizaremos la nocion de variabilidad, que esencialmentecoincide con la de dispersion. Para medir la variabilidad de los datos Yij (elprimer subındice, i, indica el nivel de factor al que pertenece el dato, y elsegundo, j, el orden que ocupa el dato dentro de los recogidos en ese nivel)utilizaremos la suma de cuadrados totales (SCT), y la descompondremosen suma de dos: suma de cuadrados residual o intra-grupos (SCR),que tiene que ver con la variabilidad dentro de cada nivel de factor, y lasuma de cuadrados explicada o entre-grupos (SCR), que tiene quever con las diferencias entre la media de cada factor, y la media global. Masconcretamente, se cumple:

1

Page 2: Anova Simple

∑(Yij − µ)2

︸ ︷︷ ︸SCT

=∑

(Yij − µi)2

︸ ︷︷ ︸SCR

+∑

(µi − µ)2

︸ ︷︷ ︸SCE

Claramente, si H0 es cierta, entonces SCE sera pequena frente a SCT. Dehecho, se llama porcentaje de variabilidad explicada a (SCE/SCT ) ·100.En general, podemos decir que H0 sera aceptada si el porcentaje anterior noes demasiado alto. Si es suficientemente alto, entenderemos que el factor quehemos introducido esta realmente explicando las diferencias que observamosentre los valores de la variable Y , y por tanto que efectivamente hay ciertarelacion entre Y y F , con lo cual H0 es falsa. Observemos tambien que siH0 se rechaza, ello no implica que todas las µi sean distintas entre sı, sinosimplemente que alguna(s) de ellas es diferente a las demas. De hecho, puedenlocalizarse los diferentes grupos que aparecen entre los niveles del factor (i.e.las medias que se consideran similares entre sı) mediante la opcion Contrastemultiple de rango, de Statgraphics.

Las diferencias que aparecen entre los datos, y que no son explicadas por el fac-tor introducido, se consideran debidas al azar. Se llama error experimentala la parte de la variabilidad de los datos debida al azar. Puede estimarse comola raız cuadrada de la suma de cuadrados medios intra-grupos, que apareceen la tabla de ANOVA (esta tabla la proporciona Statgraphics).

Modelo de ANOVA

En el modelo de ANOVA se supone que cada observacion Yij puede expresarsecomo

Yij = µi + εij = µ + αi + εij

A los valores εij se les llama residuos, y se corresponden con las desviacionesde cada dato respecto a la media del nivel del factor al que pertenecen (µi); seconsideran debidos al azar. Los valores αi se llaman efectos de cada nivel (αi

es el efecto del nivel i, etc.) y se consideran una medida de la “tendencia” quetienen los datos a desviarse de la media global, segun el nivel del factor al quepertenezcan (por ejemplo, en el caso del tiempo de curacion, el efecto de cadamedicamento serıa una medida del “adelanto” o “retraso” en cuanto al tiempomedio de curacion que supone la administracion de uno u otro medicamento).Los efectos se calculan como

αi = µi − µ

Ademas, en terminos de los efectos, las hipotesis nula y alternativa que secontrastan en el ANOVA, pueden enunciarse como

H0 : α1 = α2 = · · · = αk = 0

H1 : algun αi 6= 0

2

Page 3: Anova Simple

Hipotesis del modelo: Para que lo anterior “funcione”, es necesario que lasvariables y los datos cumplan ciertos requisitos:

(i) Y es normal en cada nivel de factor.(ii) La varianza es la misma en cada nivel de factor (homocedasticidad).(iii) Independencia de las observaciones. Tiene que ver con que no haya ningun

factor que altere el proceso de recogida de datos (por ejemplo, la pereza delobservador, la posibilidad de que algunos encuestados “pasen informacion”a otros posibles encuestados y se altere de ese modo el resultado, etc.). Enla practica, se comprueba contrastando si los residuos son aleatorios (lo cualrequiere guardarlos primero, utilizando la opcion apropiada de Statgraph-ics).

Las condiciones anteriores implican que los residuos siguen una distribucionnormal de media 0 y desviacion tıpica igual a la observada en cada nivel defactor, y son independientes unos de otros (i.e. son aleatorios).

Si alguna de las hipotesis de arriba falla, las conclusiones del ANOVA sondudosas.

Contraste de Kruskal-Wallis: Este es un contraste no-parametrico, queunicamente requiere que la variable Y sea continua. Se trata de un contrastesobre la igualdad de las medianas. Por lo tanto, la hipotesis nula es, en estecaso,

H0 : M1 = M2 = · · · = Mk

H1 : alguna Mi es distinta

Este contraste utiliza, como otros contrastes no-parametricos, la nocion derango. La idea es ordenar de menor a mayor todos los datos (mezclando nivelesde factor distintos), asignar rangos, y comparar despues los rangos medioscorrespondientes a los distintos niveles del factor.

Si las hipotesis de ANOVA (que hemos descrito arriba) se verifican, estecontraste proporciona otro metodo para comprobar esencialmente la mismacondicion. Si alguna de las hipotesis de arriba falla, este test permite realizarcon fiabilidad el contraste pedido.

3