26
Tema 6: Análisis de la Varianza

Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

Embed Size (px)

Citation preview

Page 1: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

Tema 6: Análisis de la Varianza

Page 2: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variablecualitativa F, determínese si entre ambas hay relación, o no.

Ejemplos: Tiempo de cura / medicamento utilizado Rendimiento de cosechas / fertilizante Renta familiar / hábito de lectura

Número de préstamos / ubicación

PROBLEMA 2: Dada una variable cuantitativa continua Y, y varias variablescualitativas F1, F2,…, Fn, determínese cuáles de ellas infuyen en Y, y cuálesno (es decir, cuáles guardan relación con Y).

Ejemplos: Tiempo de cura / medicamento utilizado, grupo sanguíneo Número de préstamos / sexo, nivel de estudios, afición al cine

Page 3: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variablecualitativa F, determínese si entre ambas hay relación, o no.

PROBLEMA 2: Dada una variable cuantitativa continua Y, varias variablescualitativas F1, F2,…, Fn, determínese cuáles de ellas infuyen en Y, y cuálesno (es decir, cuáles guardan relación con Y).

ANOVA simple

ANOVA multifactorial

Y: variable respuesta (numérica)F: factor (cualitativa)

Y: variable respuesta (numérica)F1, F2,…, Fn : factores (cualitativas)

Page 4: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

1. ANOVA simple: idea

¿Son independientes Y y F? ¿Hay relación entre Y y F? ¿Hay diferencias significativas en el valor de Y, según que F tome

uno u otro valor? ¿Influye F en el valor de Y?

Y: variable respuesta (numérica)F: factor (cualitativa)

F

Y

1 2 3

µ1

µ2

µ3

Niveles de factor

Medias en cada nivelde factor

Page 5: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

F

Y

1 2 3

µ1

µ2

µ3

Si el valor de F no guarda relación con el de Y… ¿Cómo deberían serµ1, µ2, µ3?

Y: variable respuesta (numérica)F: factor (cualitativa)

µ

Media global

Page 6: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

H0: µ1= µ2= µ3

H1: alguna µi es distinta

H0 equivalente a: Y, F son independientes; Y, F no guardanrelación; F no influye en el valor de Y; no hay diferencias

significativas en Y según distintos valores de F, etc.

Rechazar H0 equivale a encontrar dependencia entre F e Y.

Page 7: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

¿Cómo contrastar H0: µ1= µ2= … = µn

H1: alguna µi es distinta ?

Mala idea: varios contrastesH0: µi=µk

H1: µi≠µk

Error de tipo I se acumula,la confianza “total” es demasiado baja

Buena idea: descomposiciónde la variabilidad

Pizarra

Page 8: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

F

Y

1 2 3

µ1

µ2

µ3

µ

Media global

Yik

Residuo del dato Yik:Yik-µi

Yik: el primer subíndice (i) indica el valor del nivel del factor; el segundo (k), el orden que ocupa el dato dentro de los perte- necientes a ese nivel del factor.

Page 9: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

Análisis de la Varianza------------------------------------------------------------------------------Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor------------------------------------------------------------------------------Entre grupos 1,05061E9 3 3,50202E8 1,21 0,3104Intra grupos 2,69068E10 93 2,8932E8------------------------------------------------------------------------------Total (Corr.) 2,79574E10 96

SCE: suma de cuadr. explicada o entre-grupos

SCR: suma de cuadr. residual o intra-grupos

SCT: suma de cuadr. totales

TABLA DE ANOVA:TABLA DE ANOVA:

EXPLICADA ADVARIABILID 100 SCT

SCE

Page 10: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

H0: µ1= µ2= … = µn

H1: alguna µi es distinta ?

Rechazamos si p-valor < nivel de significación

Intuitivamente, aceptaremos cuando la variabilidad explicada es pequeña(es decir, rechazamos cuando la variabilidad explicada es grande)

Statgraphics

Page 11: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

2. El modelo de ANOVA simple

Descripción del modelo: PIZARRA

Requisitos del modelo:

1.- Normalidad en cada nivel de factor.2.- Homocedasticidad (igual varianza en cada nivel de factor)3.- Independencia de las observaciones: residuos aleatorios.

H0: σ1= σ2= … = σn

H1: alguna σi es distinta

Statgraphics

Page 12: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

3. Contraste de Kruskal-Wallis

- Método no-paramétrico

-Util si fallan los requisitos del ANOVA.

- Realiza un contraste sobre las medianas

H0: M1= M2=…= Mn

H1: alguna Mi es distinta.

- Utiliza la noción de rango. La idea es ordenar de menor a mayor todos los datos (sin atender al nivel del factor del que provienen), asignar rangos, y comparar después los rangos medios correspondientes a los distintos niveles del factor.

Page 13: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

4. Anova multifactorial

PROBLEMA: Dada una variable cuantitativa continua Y, varias variablescualitativas F1, F2,…, Fn, determínese cuáles de ellas influyen en Y, y cuálesno (es decir, cuáles guardan relación con Y).

Y: variable respuesta (numérica)F1, F2,…, Fn : factores (cualitativas)

Si Fi influye en el valor de Y (si existen diferencias significativas en Y según los distintos valores de Fi) decimos que Fi es SIGNIFICATIVO.

Ejemplo: Y tiempo de cura, F1 medicamento administrado, F2 gruposanguíneo; Y nº de visitas a una página web, F1 nivel de estudios,F2 sexo.

Por tanto, un primer problema consiste en determinar cuáles de los factores considerados en un cierto estudio, son significativos.

Page 14: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

1. Sin interacción: consideramos que los efectos de los factores se suman, sin que la combinación de factores produzca cambios cualitativos.

PROBLEMA: Determinar factores significativos.

2. Con interacción: consideramos la posibilidad de que la combinación de factores produzca cambios cualitativos.

PROBLEMA 1: Determinar factores significativos.PROBLEMA 2: Determinar la existencia de “interacción” entre

factores (es decir, qué combinaciones de factores pueden tener un efecto cualitativo distinto a la mera suma de efectos).

Dos modelos:

Page 15: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

1. Sin interacción: consideramos que los efectos de los factores se suman, sin que la combinación de factores produzca cambios cualitativos.

PROBLEMA: Determinar factores significativos.

2. Con interacción: consideramos la posibilidad de que la combinación de factores produzca cambios cualitativos.

PROBLEMA 1: Determinar factores significativos.PROBLEMA 2: Determinar la existencia de “interacción” entre

factores (es decir, qué combinaciones de factores pueden tener un efecto cualitativo distinto a la mera suma de efectos).

Dos modelos:

Un intento de visualizar qué implica que un factor sea o no significativo….

Page 16: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

A

B

1 2

F1

F2

Y

Page 17: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

A

B

1 2

F1

F2

YLas medias en A y B parecen muy

diferentes; por tanto, F1 significativo.

µA

µB

Page 18: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

A

B

1 2

F1

F2

Yµ1

µ2

Las medias en 1 y 2 parecen muy

similares; por tanto, F2 NO significativo.

Page 19: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

5. Modelo de ANOVA multifactorial sin interacción

- Modelo: PIZARRA

- Requisitos del modelo: suponemos que F1 tiene “a” niveles, y F2 tiene “b” niveles. Por tanto, en total hay a.b subgrupos.

1.- Cada uno de los subgrupos es normal. 2.- La varianza es la misma en todos ellos (Homocedasticidad) 3.- Independencia de las observaciones (residuos aleatorios)

1 + 2 + 3 = Residuos normales N(0,σ); σ: error experimental

Esto es lo que, en este caso, debemoscomprobar

Page 20: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

6. Modelo de ANOVA multifactorial con interacción

Idea intuitiva de lo que suponela existencia de interacción…

Decimos que existe INTERACCION si los factores no son indepen-dientes, es decir, si el efecto de alguno de ellos depende del nivel en que esté el otro.

Page 21: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

A

B

1 2

F1

F2

Y

Page 22: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

A

B

1 2

F1

F2

YF1 NO significativo.

Page 23: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

A

B

1 2

F1

F2

YF2 NO significativo.

Page 24: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

A

B

1 2

F1

F2

YSin embargo, para aquellos que

tienen el primer factor en A, parece

haber diferencias significativas…

Page 25: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

A

B

1 2

F1

F2

YY análogamente para los que tienen

el primer factor en B

Page 26: Tema 6: Análisis de la Varianza. PROBLEMA 1: Dada una variable cuantitativa continua Y, y una variable cualitativa F, determínese si entre ambas hay relación,

- Modelo: PIZARRA

- Requisitos del modelo: 1,2,3 como en el caso sin interacción (ojo, los residuos no son los mismos en uno y otro caso).

1 + 2 + 3 = Residuos normales N(0,σ); σ: error experimental

Esto es lo que, en este caso, debemoscomprobar

Statgraphics