34
TEORÍA DE LA REGRESION Dr. Salvador Martín Medina Torres Profesor - Investigador Postgrado en Desarrollo Sustentable de Recursos naturales ÁREA DE GESTIÓN DE VIDA SILVESTRE Universidad Autónoma Indígena de México -Unidad Mochicahui Juárez 39, Mochicahui, El Fuerte, Sinaloa. C.P. 81890. Tel. y Fax: (698) 892-06-54 y 892-00-42 1

Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Embed Size (px)

Citation preview

Page 1: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

TEORÍA DE LA

REGRESIONDr. Salvador Martín Medina Torres

Profesor - Investigador

Postgrado en Desarrollo Sustentable de Recursos naturales

ÁREA DE GESTIÓN DE VIDA SILVESTREUniversidad Autónoma Indígena de México -Unidad Mochicahui

Juárez 39, Mochicahui, El Fuerte, Sinaloa. C.P. 81890.

Tel. y Fax: (698) 892-06-54 y 892-00-42

1

Page 2: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

ESTIMACIÓN POR MÍNIMOS

CUADRADOS

EL MODELO DE REGRESIÓN LINEAL SIMPLE UNIVARIANTE

2

Page 3: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

¿Qué productos buscamos en

la regresión?

Parámetros

– o, 1

Predicción

– Crear una función lineal que permita describir

el comportamiento de una variable dependiente

Y en función de una o mas variables

independientes X

3

Page 4: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Procedimientos para estimar

los parámetros

Estimación por mínimos cuadrados

Estimación por máxima verosimilitud

Método del estimador insesgado de varianza

mínima

4

Page 5: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Estimación por mínimos

cuadrados

Es el mas utilizado

Fue desarrollado por Karl Gauss (1777-1855)

La idea es producir estimadores de los parámetros ( o, 1) que hagan mínima la suma de cuadrados de las distancias entre los valores observados Yi, y los valores estimados Ŷi

5

Page 6: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Supuestos del método de

mínimos cuadrados

1. El modelo de regresión es lineal en los parámetros y .

2. Los valores de X son fijos en muestreo repetido.

3. El valor medio de la perturbación i es igual a cero.

4. Homocedasticidad o igual variancia de i.

5. No autocorrelación entre las perturbaciones i.

6. La covariancia entre i y Xi es cero.

7. El número de observaciones n debe ser mayor que el número de parámetros a estimar.

8. Variabilidad en los valores de X.

9. El modelo de regresión está correctamente especificado.

10. No hay relaciones lineales perfectas entre las variables explicativas Xi.

6

Page 7: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Método de los Mínimos

Cuadrados

Error = Y observada o real – Ŷ estimada

El método minimiza la suma de estos errores elevada al

cuadrado, para evitar el valor cero que ocurre cuando se

suman los errores.

n

i

ii

n

i

iiii

XX

YYXX

1

2

11

)(

))((

XY 10

7

Page 8: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Para simplificar lo anterior…

SPXXXXn

i

ii

1

2)(

SPYYYYn

i

ii

1

2)(

n

i

ii

n

i

iiii

XX

YYXX

1

2

11

)(

))(( SPXYYYXXn

i

iiii

1

))(( Covarianza XY

Varianza X

Varianza Y

Se guarda para

después…SPXX

SPXY1

8

Page 9: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Ejemplo práctico:

Suponer que se toma una muestra aleatoria de 10 personas de una población cualquiera, y se registran sus pesos y medidas.

Se busca crear una función matemática que permita predecir el peso (kg), en función de la estatura (cm).– Peso = f(Estatura)

Por tanto, la variable dependiente será el peso, y la variable independiente será la estatura.– Y = peso (kg); X = estatura (cm)

9

Page 10: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Elaborar una memoria de calculo

observaciones estatura (cm) Xi peso (kg) Yi X2i Y2

i XiYi

1 162.00 63.00 26,244 3,969 10,206

2 158.00 52.00 24,964 2,704 8,216

3 167.00 78.00 27,889 6,084 13,026

4 151.00 49.00 22,801 2,401 7,399

5 162.00 71.00 26,244 5,041 11,502

6 168.00 62.00 28,224 3,844 10,416

7 167.00 68.00 27,889 4,624 11,356

8 153.00 48.00 23,409 2,304 7,344

9 152.00 56.00 23,104 3,136 8,512

10 173.00 67.00 29,929 4,489 11,591

1,613.00 614.00 260,697 38,596 99,568

Elementos que necesitamos

Medias 161.30 61.40

iX iY 2

iX2

iY iiYX

Datos de Infante, S. y G. Zárate. 1991. Métodos estadísticos, un enfoque interdisciplinario. Ejemplo 12.1. 465 p.10

Page 11: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Para simplificar la estimación

de

SPXXXXn

i

ii

1

2)(

SPYYYYn

i

ii

1

2)(

SPXYYYXXn

i

iiii

1

))(( Covarianza XY

Varianza X

Varianza Y

Se guarda para

después…

SPXX

SPXY1

n

YXYXSPXY

ii

ii

11

Page 12: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Estimando parámetros

8.52910

)614)(613,1(568,99

n

YXYXSPXY

ii

ii

0187.11.520

8.5291

SPXX

SPXY

91.1023.161)0187.1(4.6110 XY

12

Page 13: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Obteniendo la ecuación de

regresión

iii XXY 0187.191.10210

13

Page 14: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Obteniendo los valores

estimados de Yi

En cada fila (observación), se calculan los

valores estimados para Yi (denotados por

Ŷi), mediante la ecuación de regresión

obtenida, sustituyendo los valores de Xi :

14

32.731730187.191.102

04.581580187.191.102

11.621620187.191.102

1010010

2202

1101

XY

XY

XY

Page 15: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

En la memoria de cálculo…

15

observaciones estatura (cm) Xi peso (kg) Yi X2i Y2

i XiYi Yi estimada

1 162.00 63.00 26,244 3,969 10,206 62.11

2 158.00 52.00 24,964 2,704 8,216 58.04

3 167.00 78.00 27,889 6,084 13,026 67.21

4 151.00 49.00 22,801 2,401 7,399 50.91

5 162.00 71.00 26,244 5,041 11,502 62.11

6 168.00 62.00 28,224 3,844 10,416 68.22

7 167.00 68.00 27,889 4,624 11,356 67.21

8 153.00 48.00 23,409 2,304 7,344 52.95

9 152.00 56.00 23,104 3,136 8,512 51.93

10 173.00 67.00 29,929 4,489 11,591 73.32

1,613.00 614.00 260,697 38,596 99,568

Elementos que necesitamos

Medias 161.30 61.40

iX iY 2

iX2

iYiiYX

Se calcula con la ecuación de regresión obtenida

para cada valor de X

Page 16: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

El gráfico muestra así los valores

reales y los estimados…

16

y = -102.91+1.0187x

-

10.00

20.00

30.00

40.00

50.00

60.00

70.00

80.00

90.00

145.00 150.00 155.00 160.00 165.00 170.00 175.00

peso (kg) Yi

valores estimados

Lineal (peso (kg) Yi)

valores reales

X = Estatura (cm)

Y =

Pes

o (

kg

)

Page 17: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

¿Qué logramos con este

método?

Del número infinito de rectas de regresión

que se pueden generar, hemos generado

aquella cuya suma de cuadrados de las

distancias entre los valores reales y

estimados (Yi - Ŷi), sea la menor de todas…

17

Page 18: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

18

observaciones estatura (cm) Xi peso (kg) Yi X2i Y2

i XiYi Yi estimadaei

(residuales)e2

i

(residuales)

1 162.00 63.00 26,244 3,969 10,206 62.11 0.89 0.79

2 158.00 52.00 24,964 2,704 8,216 58.04 - 6.04 36.46

3 167.00 78.00 27,889 6,084 13,026 67.21 10.79 116.50

4 151.00 49.00 22,801 2,401 7,399 50.91 - 1.91 3.64

5 162.00 71.00 26,244 5,041 11,502 62.11 8.89 78.98

6 168.00 62.00 28,224 3,844 10,416 68.22 - 6.22 38.75

7 167.00 68.00 27,889 4,624 11,356 67.21 0.79 0.63

8 153.00 48.00 23,409 2,304 7,344 52.95 - 4.95 24.46

9 152.00 56.00 23,104 3,136 8,512 51.93 4.07 16.59

10 173.00 67.00 29,929 4,489 11,591 73.32 - 6.32 39.92

1,613.00 614.00 260,697 38,596 99,568 0.00 356.72

Hemos conseguido hacer mínima esta suma…

Page 19: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

INTERPRETACION DE LA

ECUACION DE REGRESION

EL MODELO DE REGRESIÓN LINEAL SIMPLE UNIVARIANTE

19

Page 20: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Interpretación de la ecuación

de regresión estimada

Una vez obtenida la recta estimada el

investigador puede necesitar interpretar los

componentes de la ecuación.

Es frecuente cometer algunos errores.

– Estos son los mas comunes…

20

Page 21: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Interpretación de la estimación

de la ordenada al origen 0

0: se interpreta matemáticamente como el valor que tomará una Ŷi cuando X = 0

Este parámetro no tiene interpretación práctica en muchos problemas.

– En nuestro ejemplo: una persona de 0 cm, no puede pesar -102.91 kg de estatura.

– Sin embargo, este valor es necesario para representar la tendencia que muestran los datos en el espacio de valores observados para la variable independiente.

21

Page 22: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

¿Bajo que condiciones es posible

una interpretación práctica de 0?

Debe ser físicamente posible que X tome el

valor de 0.

Deben tenerse suficientes datos alrededor

del valor X = 0.

– Podemos concluir que es poco razonable tratar

de predecir el comportamiento de Y para

valores imposibles de X.

22

Page 23: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Interpretación del estimador

de la pendiente 1

1, también llamado Coeficiente de Regresión, es de mayor importancia que 0 , ya que ya que nos indica la forma en que están relacionadas X y Y.

Mide cuanto y en que dirección (positiva o negativa) se modifican los valores de Y cuando cambia X.– Ejemplo: en el caso anterior, se dice que por cada 1.0187 kg

de incremento en el peso, se incrementará 1.0 cm de estatura.

– Precaución: una vez mas, esta afirmación solo opera para un cierto intervalo de valores.

• Suponer que el valor mínimo de estatura sea de 1 metro: le correspondería un peso estimado de -1.04 kg, situación naturalmente imposible.

• Para una mejor interpretación de 1, debemos estimar su varianza…

23

Page 24: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Conclusiones

Recordar: un supuesto básico del modelo de regresión, es que para cada valor posible de X, Y es una variable aleatoria con distribución normal cuya media es Y/X

Lo correcto es decir que las medias poblacionales de Y se incrementan (o disminuyen) al aumentar X

Recordar que en realidad trabajamos con estimadores de parámetros desconocidos, y son por tanto, variables aleatorias sobre las que deben hacerse afirmaciones probabilísticas.

24

Page 25: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

PROPIEDADES DE LOS

ESTIMADORES DE MINIMOS

CUADRADOS

EL MODELO DE REGRESIÓN LINEAL SIMPLE UNIVARIANTE

25

Page 26: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Propiedades de los estimadores

de mínimos cuadrados

Los estimadores de la ordenada al origen 0, la pendiente 1 y la recta de regresión ( Y/X) tienen las siguientes distribuciones:

)(;~

22

00SPXXn

XN

i

SPXXN

2

11 ;~

)2;(~0000

010// XYXYXYX

XNY

SPXX

XX

nXY

2

02 )(120

Donde…

26

Page 27: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Como estimador de 2, se utiliza S2e, que se

expresa:

El estimador S2e es insesgado, siempre y cuando el

modelo de línea recta adoptado sea correcto; es decir, que en esas condiciones:

22

.. 12

n

SPXYSPYY

n

ERRORCSSe

22 )( eSE

27

Page 28: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Sustituyendo 2 por S2e, obtenemos

estimadores para las varianzas de 0, 1 y ŶXo:

)(;~

22

00SPXXn

XN

i

SPXXN

2

11 ;~

SPXX

XX

nXY

2

02 )(120

)(

22

2

0 SPXXn

XSS

ie

SPXX

SS e

22

1

SPXX

XX

nSe

YSX

2

02 )(120

28

Page 29: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Ejemplo: estimar varianzas de los

datos analizados

Del caso de las estaturas y pesos:

– Se tenían: SPXY=529.8; SPXX=520.1;

SPYY=896.4; X2i=260,697; X= 161.30

)(;~

22

00SPXXn

XN

i)(124.50

)1.520(10

260697

)(

2222

2

0 SPXXn

X i

SPXXN

2

11 ;~ )(0019.01.520

222

2

1 SPXX

29

Page 30: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Para obtener estimadores de estas varianzas

requerimos estimar a través de S2e:

– Recordar que 1 = 1.0187

587.44210

8.529)0187.1(4.896

212

n

SPXYSPYYSe

30

Page 31: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Ya con el valor de…

Se procede a calcular las varianzas

estimadas de 0 y 1:

587.442

eS

)(

22

2

0 SPXXn

XSS

ie

SPXX

SS e

22

1

879.2234)587.44(124.50)(124.50 2

0847.0)587.44(0019.0)(0019.0 2

31

Page 32: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Finalmente, si se desea estimar la recta para un valor X0 de un valor arbitrario elegido por nosotros (digamos, 100 cm – o 1 metro- ):– Recordar que 0 = -102.91

… la varianza asociada con la estimación anterior es:

kgXYX 04.1)100(0187.1)91.102()( 0101200

325.71.520

)3.161100(

10

1)(12 22

22

02

1200 SPXX

XX

nXY

32

Page 33: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

En tanto que su varianza estimada es:

– Donde:

22

02 62.326)587.44(325.7)(12

0

kgSPXX

XX

nSe

YSX

22 587.44eS

33

Page 34: Teoriaregresionminimoscuadradosver1 2-110127153338-phpapp01

Conclusión: Para un valor hipotético X0 = 100 cm de estatura, el valor

estimado de Ŷxo deberá ser de -1.04 kg, con una varianza estimada de 326.62 kg2, o una desviación estándar de ±18.07 kg (-19.12 a 17.03 kg).

– Es decir, el peso estimado a 100 cm de estatura, deberá estar entre ese intervalo de valores.

De acuerdo a actuales estándares en pediatría, a estaturas aproximadas a 100 cm, se corresponden pesos aproximados a los 17 Kg.– Para comprobarlo, ver enlace en:

http://www.guiainfantil.com/salud/embarazo/tabla_pesos.htm

34