13
2 Regresión Lineal Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes y un conjunto de factores independientes. Tipos de relaciones: - Relación no lineal - Relación lineal Regresión lineal simple 1 2 1 2 ( , ,..., | , ,..., ) k l f YY Y X X X 3 Regresión Lineal Regresión simple consumo y peso de automóviles Núm. Obs. Peso Consumo (i) kg litros/100 km 1 981 11 2 878 12 3 708 8 4 1138 11 5 1064 13 6 655 6 7 1273 14 8 1485 17 9 1366 18 10 1351 18 11 1635 20 12 900 10 13 888 7 14 766 9 15 981 13 16 729 7 17 1034 12 18 1384 17 19 776 12 20 835 10 21 650 9 22 956 12 23 688 8 24 716 7 25 608 7 26 802 11 27 1578 18 28 688 7 29 1461 17 30 1556 15 0 5 10 15 20 25 500 700 900 1100 1300 1500 1700 Peso (Kg) Consumo (litros/100 Km) 4 Regresión Lineal Modelo i x i y x 1 0 os desconocid parámetros : , , 2 1 0 ) , 0 ( , 2 1 0 N u u x y i i i i 5 Regresión Lineal Hipótesis del modelo Linealidad y i = 0 + 1 x i + u i Normalidad y i |x i N ( 0 + 1 x i , 2 ) Homocedasticidad Var [y i |x i ] = 2 Independencia Cov [y i , y k ] = 0 2 1 0 Parámetros

Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

  • Upload
    others

  • View
    20

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

2Regresión Lineal

Modelo general de regresión

Objetivo: Analizar la relación entre una o varias variables dependientes y un conjunto de factores independientes.

Tipos de relaciones:

- Relación no lineal

- Relación lineal

Regresión lineal simple

1 2 1 2( , ,..., | , ,..., )k lf Y Y Y X X X

3Regresión Lineal

Regresión simpleconsumo y peso de automóviles

Núm. Obs. Peso Consumo(i) kg litros/100 km

1 981 112 878 123 708 84 1138 115 1064 136 655 67 1273 148 1485 179 1366 1810 1351 1811 1635 2012 900 1013 888 714 766 915 981 1316 729 717 1034 1218 1384 1719 776 1220 835 1021 650 922 956 1223 688 824 716 725 608 726 802 1127 1578 1828 688 729 1461 1730 1556 15

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Con

sum

o (li

tros/

100

Km)

4Regresión Lineal

Modelo

ix

iyx10

osdesconocidparámetros:,, 210

),0(, 210 Nuuxy iiii

5Regresión Lineal

Hipótesis del modelo

Linealidadyi = 0+ 1xi + ui

Normalidadyi|xi N ( 0+ 1xi, 2)

HomocedasticidadVar [yi|xi] = 2

IndependenciaCov [yi, yk] = 0

21

0

Parámetros

Page 2: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

6Regresión Lineal

Modelo

),0(, 210 Nuuxy iiii

yi : Variable dependiente

xi : Variable independiente

ui : Parte aleatoria

0

7Regresión Lineal

Recta de regresión

y

ie

iy

x ix

8Regresión Lineal

Recta de regresión

xy 10ˆˆˆ

yPendiente

xy 10ˆˆ

x9Regresión Lineal

Residuos

ResiduoPrevistoValor

ˆˆ

ObservadoValor10 iii exy

iy

ii xy 10ˆˆˆ

ie

ix

Page 3: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

10Regresión Lineal

Estimación

ni i

ni ii

i

ii

xxyyxx

xyx

xy

12

11

10

)())((

)var(),cov(ˆ

ˆˆ

2 20 1

1 1

Mín =Mín ( )n n

i i ii i

e y x

Mínimos cuadrados

n

iiinn xyMax

1

21022/ )(

21

21

exp

Máxima verosimilitud

11Regresión Lineal

Ejemplo: estimaciónNúm. Obs. Peso Consumo Predicción Residuos

(i) kg litros/100 km

1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Con

sum

o (li

tros

/100

Km

)

;0117.0071.0ˆ ii xy 38.2ˆ2Rs

12Regresión Lineal

Ejemplo: Datos de Forbes

Relación entre la presión y la temperatura de ebullición del aguaDurante las décadas de los cuarenta y cincuenta del siglo XIX, el físico escocés J.D. Forbes realizó estudios con los que pretendía determinar la altitud sobre el nivel del mar de cumbres montañosas.

Para realizar este estudio, Forbes tomó medidas de la presión y la temperatura de ebullición del agua en diferentes ubicaciones de los Alpes y Escocia. Las medidas de presión fueron registradas en pulgadas de mercurio. Las medidas de temperatura las registró en grados Fahrenheit.

13Regresión Lineal

Ejemplo: Datos de Forbes

El procedimiento habitual para determinar la altitud de un punto en una cordillera consistía en medir la presión atmosférica en dicha posición y utilizar la relación conocida entre la presión y la altitud. El inconveniente de este procedimiento residía en la dificultad que acarreaba el transporte por lugares montañosos de los frágiles barómetros de la época.

Forbes decidió calcular la presión barométrica a partir de la temperatura de ebullición del agua, que es sencilla de medir.

Page 4: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

14Regresión Lineal

Ejemplo: Datos de Forbes

Temperatura

Pre

sión

190 194 198 202 206 210 21420

22

24

26

28

30

32Temperatura Presión

194.5 20.79194.3 20.79197.9 22.4198.4 22.67199.4 23.15199.9 23.35200.9 23.89201.1 23.99201.4 24.02201.3 24.01203.6 25.14204.6 26.57209.5 28.49208.6 27.76210.7 29.04211.9 29.88212.2 30.06

15Regresión Lineal

Ejemplo: Datos de Forbes

SALIDA DE STATGRAPHICS Plus 5.0Regression Analysis - Linear model: Y = a + b*X

-----------------------------------------------------------------------------

Dependent variable: P

Independent variable: T

-----------------------------------------------------------------------------

Standard T

Parameter Estimate Error Statistic P-Value

-----------------------------------------------------------------------------

Intercept -81.0637 2.05182 -39.5082 0.0000

Slope 0.522892 0.010106 51.7408 0.0000

-----------------------------------------------------------------------------

16Regresión Lineal

Ejemplo: Datos de Forbes

SALIDA DE SPSS 12

Coeficientes a

-81.064 2.052 -39.508 .000

.523 .010 .997 51.741 .000

(Constante)

T

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: Pa.

17Regresión Lineal

Inferencia estadística en el modelo de regresión

Queremos extender los resultados obtenidos para una muestra concreta a resultados más generales aplicables a nuevas observaciones. Esto se conoce como inferenciaestadística.

Para poder hacer inferencia tenemos que pagar un precio, asumir hipótesis distribucionales en el modelo de regresión.

Si asumimos estas hipótesis, podemos obtener la distribución de los estimadores y obtener intervalos de confianza o realizar contrastes de hipótesis.

20 1, ,

Page 5: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

18Regresión Lineal

Propiedades de los estimadores

1 1 1 2 221

ˆn

ii n n

i x

x x y w y w y w yns

2

22

00 1,ˆxs

x

nN

2

2

11 ,ˆxns

N

19Regresión Lineal

Distribución de R2

00

),0(

ˆˆ

222

12

221

2

21010

iii

n

ni i

nni i

i

iiiiii

xeeeu

Nuexyuxy

222

2

21

2ˆ)2(

nR

n

ii sn

e

20Regresión Lineal

Contraste principal de regresión:¿depende y de x?

0:0:

11

10

HH

ix

iy

ix

iy

iii uxy 10 ii uy 0

H0 es falso

x e y están relacionados

H0 es cierto

x e y no están relacionados

21Regresión Lineal

Contraste sobre la pendiente

ii xy 10ˆˆˆ0:

0:

11

10

HH

HorechazaSe;ˆˆ

ˆˆ

)1,0(ˆ

),(ˆ

2/;211

1

21111

2

2

11

n

x

R

n

x

R

x

x

tt

snst

t

snsN

sn

nsN

Page 6: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

22Regresión Lineal

Contraste: ordenada en el origen

0:0:

01

00

HH

ii xy 10ˆˆˆ

HorechazaSe

;1ˆ

ˆ

))1(,(ˆ

2/;20

2

20

0

2

22

00

n

x

R

x

ttsx

ns

t

sx

nN

23Regresión Lineal

Ejemplo: Datos de Forbes

SALIDA DE STATGRAPHICS Plus 5.0Regression Analysis - Linear model: Y = a + b*X

-----------------------------------------------------------------------------

Dependent variable: P

Independent variable: T

-----------------------------------------------------------------------------

Standard T

Parameter Estimate Error Statistic P-Value

-----------------------------------------------------------------------------

Intercept -81.0637 2.05182 -39.5082 0.0000

Slope 0.522892 0.010106 51.7408 0.0000

-----------------------------------------------------------------------------

24Regresión Lineal

Descomposición de la variabilidad en regresión

VNEVEVTiyiyyiyyy

iyiyyiyyy

yiyiyiyyiyiy

e

iyxy

uxy

n

i

n

i

n

ii

i

i

iii

iii

1

2

1

2

1

2

10

10

)ˆ()ˆ()(

sumando)ycuadradoalelevando()ˆ()ˆ()(

)restando()ˆ(ˆ

ˆˆ

ˆˆ

25Regresión Lineal

Coeficiente de determinación R2

n

ii

n

iii

n

ii

yyVT

yyVNE

yyVE

1

2

1

2

1

2

)(

)ˆ(

)ˆ( VNEVEVT

VTVER2

regresorelporexplicadoestáqueVTdeporcentajeelMide

10 2R

221

1

2211 ˆ)(ˆ:)(ˆˆ x

n

iiii nsxxVExxyy

Page 7: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

26Regresión Lineal

Coef. determinación

12R 80.02R

02R50.02R

27Regresión Lineal

Contraste F

0:0:

11

10

HH

ii xy 10ˆˆˆ

ntesindependieson,

ˆ)2(

cierto)esH(Si

22

222

2

21

2

2

o212

VNEVE

sneVNE

VE

nR

ni i

212ˆ2 n,R

Fs

VE)VNE/(n-

VEF

0HrechazaSeFF

28Regresión Lineal

Regresión con Statgraphics

Regression Analysis - Linear model: Y = a + b*X

-----------------------------------------------------------------------------

Dependent variable: P

Independent variable: T

-----------------------------------------------------------------------------

Standard T

Parameter Estimate Error Statistic P-Value

-----------------------------------------------------------------------------

Intercept -81.0637 2.05182 -39.5082 0.0000

Slope 0.522892 0.010106 51.7408 0.0000

-----------------------------------------------------------------------------

29Regresión Lineal

Regresión con Statgraphics

Analysis of Variance

-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value

-----------------------------------------------------------------------------

Model 145.125 1 145.125 2677.11 0.0000

Residual 0.813143 15 0.0542095

-----------------------------------------------------------------------------

Total (Corr.) 145.938 16

Correlation Coefficient = 0.99721

R-squared = 99.4428 percent

R-squared (adjusted for d.f.) = 99.4057 percent

Standard Error of Est. = 0.232829

Page 8: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

30Regresión Lineal

Predicción

hx

hy

Media mh|xh Nueva Observ. yh|xh

hx

hm

hm

hy

hx

31Regresión Lineal

Predicción de la media mh(regresión simple)

hh

hhxm

xNy

10

210 ),(

hx

hm

hx

hy

2

22

21

21

1010

110

)

]var[)])]ˆ

ˆ[)ˆ

(

ˆ(var[

(ˆvar[]var[

]ˆˆ[]

(ˆˆˆ

xh

h

hh

hhhh

hhh

nsxx

n

xxyxxyy

xxyExxyxy

mE

2

2)(1

2,ˆ

xs

xhxnhmNyh

32Regresión Lineal

Predicción de una nueva observación yh (reg. simple)

hh

hh

xmmNy

10

2 ),(hx hx

hy

hh

hhh

hhh

hhh

hhhh

hh

vyye

yEyEeEyye

vmNyxy

22

210

]ˆvar[]var[]~var[0]ˆ[][]~[

ˆ~),(ˆ

ˆˆˆ

))1(,0(~ 2hhh vNe

hm

hy

33Regresión Lineal

Límites de predicción

kk xxy ˆˆˆˆ 110

x

y hhR vsthyhy 1ˆˆ 2/

hhR vsthyhm ˆˆ 2/

Page 9: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

34Regresión Lineal

Hipótesis del modelo

Linealidadyi = 0+ 1xi + ui

Normalidadyi|xi N ( 0+ 1xi, 2)

HomocedasticidadVar [yi|xi] = 2

IndependenciaCov [yi, yk] = 0

35Regresión Lineal

Comprobación de la linealidad y homocedasticidad

Ambas hipótesis se comprueban conjuntamente mediante gráficos de los residuos

Frente a valores previstosEn muchas ocasiones se corrige la falta de linealidad y la heterocedasticidadmediante transformación de las variables.

0 1 1

0 1 1

loglog log

i i i

i i i

y x uy x u

36Regresión Lineal

Hipótesis de normalidad

Herramientas de comprobación:Histograma de residuosGráfico de probabilidad normal (Q-Q plot)Contrastes formales (Kolmogorov-Smirnov)

Ejemplo de coches

Residuos-9 -6 -3 0 3 6 9

0

20

40

60

80

100

120

-6 -4 -2 0 2 4 6

Residuos

0,115

2050809599

99,9

prob

abili

dad

37Regresión Lineal

Residuos - Valores previstos

0

iy

ie

0

iy

ie

0

iy

ieLineal y homocedástico No lineal y homocedástico

Lineal y no homocedástico

0

iy

ie

No lineal y no homocedástico

Page 10: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

38Regresión Lineal

Ejemplo: Datos de Forbes

Diagnosis de los datos de Forbes

Temperatura

Pre

sión

190 194 198 202 206 210 21420

22

24

26

28

30

32

39Regresión Lineal

Ejemplo: Datos de Forbes

Diagnosis de los datos de Forbes

Residual Plot

predicted Presión

resi

dual

20 22 24 26 28 30-0.7

-0.4

-0.1

0.2

0.5

0.8

40Regresión Lineal

Ejemplo: Datos de Forbes

Diagnosis de los datos de Forbes

Residual Plot

predicted Presión

resi

dual

20 22 24 26 28 30-0.7

-0.4

-0.1

0.2

0.5

0.8

Valor anómalo

Relación no lineal

41Regresión Lineal

Ejemplo: Datos de Forbes

Diagnosis de los datos de ForbesProblemas en la diagnosis:

- Existencia de un valor anómalo

- Existencia de relaciones no lineales

Posibles soluciones:

1. Analizar las razones que justifiquen la presencia de ese valor atípico: Si la observación no es representativa de la población eliminarla

2. Si no existen razones para eliminarla: aplicartransformaciones a los datos

Page 11: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

42Regresión Lineal

Tipos de observaciones anómalas

1. Datos atípicos: Son observaciones que no provienen del mismo modelo generador.

2. Datos atípicos influyentes: son observaciones atípicas que afectan a la estimación de los parámetros del modelo.

EJEMPLO

En 1976 los investigadores Allison y Cicchetti realizaron un estudio sobre una serie de especies de mamíferos. Entre los datos que recopilaron se encuentran el peso medio del cuerpo (dado en kilogramos) y el peso medio del cerebro (dado en gramos) de 66 de esas especies. En la siguiente tabla se reproducen los datos recopilados. Se trata de estudiar la posible relación entre estas dos variables.

43Regresión Lineal

Tipos de observaciones anómalas

Plot of Fitted Model

cuerpo

cere

bro

Elefante africano

Elefante asiático

0 2 4 6 8(X 1000)

0

1

2

3

4

5

6(X 1000)

Hombre

44Regresión Lineal

Tipos de observaciones anómalasMultiple Regression Analysis-----------------------------------------------------------------------------Dependent variable: cerebro-----------------------------------------------------------------------------

Standard TParameter Estimate Error Statistic P-Value-----------------------------------------------------------------------------CONSTANT 91.0044 43.5526 2.08953 0.0409cuerpo 0.966496 0.0476629 20.2778 0.0000-----------------------------------------------------------------------------

Analysis of Variance-----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value-----------------------------------------------------------------------------Model 4.60683E7 1 4.60683E7 411.19 0.0000Residual 6.72224E6 60 112037.0-----------------------------------------------------------------------------Total (Corr.) 5.27906E7 61

R-squared = 87.2662 percentR-squared (adjusted for d.f.) = 87.054 percentStandard Error of Est. = 334.72

45Regresión Lineal

Tipos de observaciones anómalas

Plot of Fitted Model

cuerpoce

rebr

o0 2 4 6 8

(X 1000)

0

1

2

3

4

5

6(X 1000)

Page 12: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

46Regresión Lineal

Tipos de observaciones anómalas

Plot of Fitted Model

cuerpo

cere

bro

Hombre

0 2 4 6 8(X 1000)

0

1

2

3

4

5

6(X 1000)

47Regresión Lineal

Tipos de observaciones anómalas

Las observaciones atípicas pueden ser identificadas en el gráfico de los residuos frente a los predichos si se encuentran a más de tres veces la desviación típica residual.

Las observaciones influyentes se identifican observando el cambio que se produce en los parámetros del modelo cuando éstas son eliminadas.

Estadístico de Cook:

influyentees),(x1si)ˆ(2)ˆˆ(

i

2)(

iii

iiii yD

yVaryy

D

48Regresión Lineal

Transformaciones de los datos

Transformaciones Box-Cox:

0silog

0si1

yy

yy

Las transformaciones más importantes son:

yyyy /1,,,log 2

49Regresión Lineal

Tipos de observaciones anómalas

Plot of Fitted Model

log(cuerpo)lo

g(ce

rebr

o)

Elefante africanoElefante asiático

Hombre

-6 -3 0 3 6 9-2

0

2

4

6

8

10

Page 13: Modelo general de regresión Regresión simple · 2006. 3. 13. · Regresión Lineal 2 Modelo general de regresión Objetivo: Analizar la relación entre una o varias variables dependientes

50Regresión Lineal

Tipos de observaciones anómalasMultiple Regression Analysis-----------------------------------------------------------------------------Dependent variable: log(cerebro)-----------------------------------------------------------------------------

Standard TParameter Estimate Error Statistic P-Value-----------------------------------------------------------------------------CONSTANT 2.13479 0.0960434 22.2273 0.0000log(cuerpo) 0.751686 0.0284636 26.4087 0.0000-----------------------------------------------------------------------------

Analysis of Variance-----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value-----------------------------------------------------------------------------Model 336.188 1 336.188 697.42 0.0000Residual 28.9227 60 0.482045-----------------------------------------------------------------------------Total (Corr.) 365.111 61

R-squared = 92.0784 percentR-squared (adjusted for d.f.) = 91.9463 percentStandard Error of Est. = 0.694295

51Regresión Lineal

Tipos de observaciones anómalas

Residual Plot

predicted log(cerebro)

resi

dual

-2 0 2 4 6 8 10-2

-1

0

1

2

52Regresión Lineal

Ejemplo regresión múltiple

Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

Y X1 X2 X3 X4Consumo Cilindrada Potencia Peso Aceleraciónl/100Km cc CV kg segundos

15 4982 150 1144 1216 6391 190 1283 924 5031 200 1458 159 1491 70 651 2111 2294 72 802 1917 5752 153 1384 14... ... ... ... ...

Var. Independienteso regresores

Var. dependienteso respuesta