Javier Roca Pardiñas - Inicio · Multiple R-squared: 0.645, Adjusted R-squared: 0.639 F ... El...

Preview:

Citation preview

Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo

30/10/2013

Modelos Lineales de Regresión

3

Índice

1. Planteamiento de modelo

– Caso práctico

2. Estimación y predicción

– Aspectos computacionales

3. Inferencia

– Intervalos de confianza

– Contrastes de hipótesis

4. Bondad de ajuste

– Comprobación de hipótesis

5. Caso multivariante

6. Resumen

7. Bibliografía

4

1. Planteamiento del modelo

5

Introducción

Una de las aplicaciones más importantes de la estadística consiste en establecer la relación entre

• un conjunto de covariables explicativas 𝑋1, … , 𝑋𝑝 , y

• el valor medio de la variable respuesta 𝑌.

Objetivos del estudio:

• estudiar el posible efecto de las covariables en la respuesta

• predecir el valor de la repuesta dados los valores de las covariables

• seleccionar las covariables que influyen en la respuesta

• etc.

6

Ejemplo: estudio de la tensión arterial

En un estudio se pretende conocer la influencia que tienen las covariables

• edad, y

• el sexo del paciente

en el comportamiento de

• la tensión arterial.

Para ello se dispone de una muestra de 69 pacientes a los que se le han registrado las variables en estudio.

Paciente Sexo Edad Tensión

1 mujer 17 114

2 mujer 19 124

3 mujer 20 116

… … …

68 hombre 18 134

69 hombre 19 128

Fuente: www.fisterra.com (Atención Primaria en la Red)

7 FEGAS

20 30 40 50 60 70

120

140

160

180

edad

tensio

n

El gráfico de dispersión permite intuir visualmente la posible relación entre

dos variables continuas.

8 FEGAS

20 30 40 50 60 70

120

140

160

180

edad

tensio

n

hombres

mujeres

9

Planteamiento del modelo

respuesta media error aleatorio

Los modelos de regresión establecen la siguiente relación

𝑌 = 𝑎0 + 𝑎1𝑋1 +⋯+ 𝑎𝑝𝑋𝑝 + 𝜀

𝑎0, 𝑎1, … , 𝑎𝑝 son los coeficientes del modelo

• 𝑎0 : término independiente

• 𝑎𝑗 : coeficiente asociado a la covariable 𝑋𝑗 (𝑗 = 1,… , 𝑝)

𝜀 representa la componente aleatoria del modelo (no se puede predecir). Es habitual suponer

𝜀~𝑁(0, 𝜎)

10

Interpretación de los coeficientes

FEGAS

Cada coeficiente 𝑎𝑗 representa el incremento medio de la respuesta al

aumentar una unidad el valor de la covariable 𝑋𝑗 .

• 𝑎𝑗 = 0: no existe relación

• 𝑎𝑗 > 0: relación directa. Valores altos de 𝑋𝑗 corresponden con valores

altos de la respuesta 𝑌

• 𝑎𝑗 < 0: relación inversa. Valores altos de 𝑋𝑗 corresponden con valores

bajos de 𝑌 El término independiente 𝑎0 no siempre tiene un interpretación :

• Coincide con el valor de 𝑌 cuando todas las covariables son nulas

11 FEGAS

Dado el modelo de regresión

tensión = 𝑎0 + 𝑎1edad + 𝜀

• 𝑎1: representa el incremento medio de tensión por año de edad.

• 𝑎0: no tiene interpretación

• representaría la tensión media para un paciente de cero años de edad.

• 𝜀: representa las perturbaciones debidas a otras variables no observadas.

• Por ejemplo, el consumo de tabaco, consumo de alcohol, hábitos alimenticios, hábitos deportivos,...

12

2. Estimación y predicción

13 FEGAS

Para la estimación de los coeficientes del modelo

𝑌 = 𝑎0 + 𝑎1𝑋1 +⋯+ 𝑎𝑝𝑋𝑝 + 𝜀

se utiliza el llamado método de mínimos cuadrados. Los coeficientes estimados se denotan por 𝑎 0, 𝑎 1… , 𝑎 𝑝 dando lugar a la recta

ajustada

𝑌 = 𝑎 0 + 𝑎 1𝑋1 +⋯+ 𝑎 𝑝𝑋𝑝

14

Aspectos Computacionales

15 FEGAS

La mayoría de los programas informáticos (Excel, SPSS, R, …) con alguna capacidad estadística permiten hacer el ajuste de los modelos de regresión. Dentro de estos programas nos centraremos en el programa llamado R :

• paquete estadístico que incluye herramientas de análisis de datos y generación de gráficos

• software libre y gratuito que funciona bajo Windows, MAC OS, Linux y Ubuntu.

Por todo ello R es una herramienta estadística muy adecuada ya que permite que los usuarios la descarguen, y utilicen de forma libre y gratuita, desde la página web

http://www.r-project.org

16

> modelo=lm(tension~edad)

> modelo

Call:

lm(formula = tension ~ edad)

Coefficients:

(Intercept) edad

103.3527 0.9836

FEGAS

Se obtiene que hay un incremento medio de tensión de 0.98 unidades por cada año de edad

17

Predicciones

FEGAS

La recta de regresión puede servir para hacer predicciones de la respuesta para nuevos valores de las covariables. El método es muy sencillo: • A partir de los datos observados se obtiene la recta ajustada

𝑌 = 𝑎 0 + 𝑎 1𝑋1 +⋯+ 𝑎 𝑝𝑋𝑝

• Entonces, dados los valore 𝒙0 = 𝑥01, … , 𝑥0𝑝 de las covariables, la predicción

para la respuesta viene dada por

𝑌 𝒙0 = 𝑎 0 + 𝑎 1𝑥01 +⋯+ 𝑎 𝑝𝑥0𝑝

18 FEGAS

edad tensión

20 123,0

30 132,9

40 142,7

50 152,5

60 162,4

70 172,2

En el estudio de tensión se había obtenido la recta ajustada

tensión =103.35 + 0.98 ∙ edad En la tabla de la derecha se muestran las predicciones de tensión media para distintos valores de edad.

19

3. Inferencia

Intervalos de confianza

Contrastes de hipótesis

20

Inferencia

FEGAS

Para poder obtener conclusiones significativas será necesario la utilización de métodos inferenciales (contrastes e intervalos). • Contraste de significación conjunta del modelo: F de Snedecor

𝐻0: 𝑎1 = ⋯ = 𝑎𝑝 = 0

• Contraste de significación individual de cada covariable: t de Student

𝐻0: 𝑎𝑗 = 0

21

> summary(modelo)

Call:

lm(formula = tensión ~ edad)

Residuals:

Min 1Q Median 3Q Max

-26.79 -7.02 1.96 8.19 22.63

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 103.3527 4.3261 23.9 <2e-16 ***

edad 0.9836 0.0892 11.0 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 11.1 on 67 degrees of freedom

Multiple R-squared: 0.645, Adjusted R-squared: 0.639

F-statistic: 122 on 1 and 67 DF, p-value: <2e-16

FEGAS

Significación individual

Significación conjunta

Los p-valores obtenidos son muy pequeños obteniéndose significación estadística

22 FEGAS

A continuación se muestran los intervalos de confianza (IC) al 95% de los

coeficientes del modelo.

Los intervalos obtenidos no contienen al cero, lo que concuerda con el hecho de que los p-valores obtenidos antes fuesen pequeños

> confint(modelo)

2.5 % 97.5 %

(Intercept) 94.718 111.99

edad 0.806 1.16

23

Intervalos para la respuesta

FEGAS

Como ya se ha comentado con anterioridad, dados los valores de las covariables

𝒙0 = 𝑥01, … , 𝑥0𝑝 , la predicción para la respuesta viene dada por

𝑌 𝒙0 = 𝑎 0 + 𝑎 1𝑥01 +⋯+ 𝑎 𝑝𝑥0𝑝

Sin embargo, para la construcción de intervalos de confianza (IC) se necesita

distinguir entre:

• IC para la respuesta media

• IC para un valor específico de la respuesta (intervalo de predicción)

Lógicamente, los IC en el segundo caso serán mucho más amplios.

24 FEGAS

edad tensión IC para valor medio IC de predicción

20 123.02 (117.66, 128.39) (100.24, 145.81)

30 132.86 (128.94, 136.78) (110.37, 155.35)

40 142.69 (139.81, 145.58) (120.36, 165.03)

50 152.53 (149.78, 155.28) (130.22, 174.85)

60 162.37 (158.73, 166.00) (139.93, 184.81)

70 172.20 (167.19, 177.22) (149.50, 194.91)

25 FEGAS

20 30 40 50 60 70

120

140

160

180

edad

tensión

valor mediopredicción

• La longitud de los intervalos aumentan a medida que la edad se distancia de su valor medio (46.1 años)

• La longitud de los intervalos es mucho mayor para el caso de la predicción que para el caso del valor medio.

26

3. Bondad de ajuste del modelo

Comprobación de hipótesis

27 FEGAS

El ajuste a los datos dada por la recta de regresión no estará completamente resuelto si no está acompañada de una medida de su bondad. La media más importante de la bondad de ajuste es el llamado coeficiente de determinación 𝑹𝟐.

𝑹𝟐=porcentaje de explicación de la respuesta a través del ajuste Interpretación: • 𝑹𝟐 toma valores entre 0 y 1 • 𝑹𝟐 próximo a 1: buen ajuste (los datos estarán próximos a la recta) • 𝑹𝟐 próximo a 0: mal ajuste

28 FEGAS

¿Cuándo de puede considerar bueno el valor de 𝑹𝟐 obtenido? La respuesta dependerá del área de aplicación: • En bilogía y ciencias sociales, es habitual que las variables tengan bastante ”ruido”

y las correlaciones no suelen ser muy altas. En estas áreas un valor 𝑅2=0.6 puede ser considerado bueno

• En cambio, en física e ingeniería, cuando los datos vienen de experimentos controlados se espera un valor de 𝑅2 mucho valor y un valor de 𝑅2=0.6 se considerará bajo.

29 FEGAS

De forma general, una regla razonable es decir que la relación es:

• débil: 0 < 𝑅2 <0.25

• moderada: 0.25 ≤ 𝑅2 <0.6

• fuerte: 𝑅2 ≥0.6

En nuestro estudio se obtiene un "buen" valor de 𝑅2=0.64.

• la edad explica el 64% de la variabilidad de la tensión.

30

Verificación de las hipótesis del modelo

FEGAS

Para que un estudio tenga validez será necesario comprobar las hipótesis del modelo:

• linealidad

• normalidad

• variabilidad constante (homocedasticidad)

• ausencia de valores alejados y/o influyentes

Las comprobaciones anteriores se harán mediante el estudio de los residuos del modelo

residuos=respuestas observadas-respuestas predichas

31 FEGAS

20 30 40 50 60 70

120

140

160

180

edad

tensión

residuos

32 FEGAS

El análisis de los residuos se hace gráficamente a través de un gráfico de dispersión • abscisas: respuestas estimadas • ordenadas: residuos Habrá un buen ajuste cuando la nube de puntos no muestre ningún tipo de estructura (hipótesis de linealidad). Además la amplitud de los errores se mantendrá aproximadamente constante (hipótesis de varianza constante).

120 130 140 150 160 170

-30

-20

-10

010

20

Fitted values

Resid

uals

lm(tension ~ edad)

Residuals vs Fitted

7

60

9

Hipótesis de linealidad y variabilidad constante

33

Observaciones atípicas

FEGAS

Gráficos de residuos estudentizados: • abscisas: respuestas estimadas • ordenadas: raíz cuadrada de los

residuos estudentizados En el gráfico se destaca la presencia de posibles valores atípicos

120 130 140 150 160 170

0.0

0.5

1.0

1.5

Fitted values

Sta

ndard

ized r

esid

uals

lm(tension ~ edad)

Scale-Location

7

609

34

Hipótesis de normalidad

FEGAS

-2 -1 0 1 2

-2-1

01

2

Theoretical Quantiles

Sta

ndard

ized r

esid

uals

lm(tension ~ edad)

Normal Q-Q

7

60

9

Para comprobar la normalidad se utilizaran los llamados QQ-plots.

• La hipótesis cumple cuando los puntos del gráfico están cercanos a la línea diagonal.

Además, es conveniente pasar algún test de normalidad a los residuos.

> shapiro.test(modelo$res)

Shapiro-Wilk normality test

data: modelo$res

W = 0.9726, p-value = 0.1339

El p-valor obtenido es elevado y se acepta la hipótesis de normalidad.

35

Observaciones influyentes

FEGAS

Una observación es influyente si al ser eliminada de la muestra se obtiene un modelo ajustado muy diferente al obtenido con la muestra completa. Uno de los criterios para detectar estos valores influyentes se basa en el calculo de la distancia de Cook. • Mide la diferencia de los coeficientes

obtenidos incluyendo dicha observación y sin incluirla.

• En general, un caso con una distancia de Cook superior a 1 debe ser revisado

0 10 20 30 40 50 60 70

0.0

00.0

20.0

40.0

60.0

8

Obs. number

Cook's

dis

tance

lm(tension ~ edad)

Cook's distance

7

24

60

36

5. Estudio multivariante

37

Estudio tensión arterial

FEGAS

Hasta ahora, en el estudio de la tensión se ha considerado únicamente como covariable la edad. Para estudiar de forma conjunta el efecto de la edad y del sexo del paciente se puede utilizar el modelo

tensión = 𝑎0 + 𝑎1edad + 𝑎2sexo + 𝜀 Variables dummy: Nótese la variable sexo es un factor con dos posibles valores: “hombre” y “mujer”. Esta variable es introducida en el modelo anterior utilizando la siguientes codificación:

𝑠𝑒𝑥𝑜∗ = 0 si hombre1 si mujer

Por lo tanto el coeficiente 𝑎2 representa el incremento de la tensión de las mujeres al considerar como referencia a los hombres.

38 FEGAS

Coeficientes significativos

> modelo=lm(tensión~edad+sexo)

> summary(modelo)

Call:

lm(formula = tensión ~ edad + sexo)

Residuals:

Min 1Q Median 3Q Max

-20.72 -3.33 1.25 4.34 21.16

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 110.2844 3.6271 30.41 < 2e-16 ***

edad 0.9566 0.0713 13.41 < 2e-16 ***

sexomujer -13.5363 2.1640 -6.26 3.3e-08 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8.86 on 66 degrees of freedom

Multiple R-squared: 0.777, Adjusted R-squared: 0.77

F-statistic: 115 on 2 and 66 DF, p-value: <2e-16

39 FEGAS

Se ha obtenido el ajuste

tensión =110.28 + 0.96 ∙ edad − 17.86 ∙ sexo Conclusiones: • La edad es un factor de riesgo: la tensión aumenta 0.96 (0.81, 1.09) unidades por año de edad.

• Ser mujer es un factor protector: las mujeres tienen una tensión -13.53

(-17.86, -9.21) unidades más baja que la de los hombres.

40 FEGAS

edad hombres mujeres

20 129.4 (124.7, 134.2) 115.9 (111.0, 120.7)

30 139.0 (135.3, 142.7) 125.4 (121.5, 129.4)

40 148.5 (145.6, 151.5) 135.0 (131.7, 138.4)

50 158.1 (155.3, 160.9) 144.6 (141.2, 147.9)

60 167.7 (164.3, 171.0) 154.1 (150.2, 158.1)

70 177.2 (172.9, 181.6) 163.7 (158.9, 168.5)

En la tabla se muestra la tensión media (IC al 95%) ajustada por edad y sexo.

41 FEGAS

20 30 40 50 60 70

120

140

160

180

edad

tensión

hombres

mujeres

42

6. Resumen

43

Los modelos de regresión lineal sirven para establecer una relación lineal entre:

• Una variable respuesta de interés, y

• Un conjunto de covariables explicativas

Hipótesis del modelo:

• Linealidad

• Normalidad

• Variabilidad constante

• Ausencia de valores atípicos y/o influyentes

44

7. Bibliografía

45 FEGAS

• Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons, 1977. • Julian J. Faraway. Practical Regression and Anova using R.

http://www.maths.bath.ac.uk/~jjf23/book/pra.pdf • Virasakdi Chongsuvivatwong. Analysis of Epidemiological Data Using R and Epicalc.

http://cran.r-project.org/doc/contrib/Epicalc_Book.pdf

Recommended