24
MODELO DE REGRESIÓN LINEAL MÚLTIPLE 1 REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS INGRESOS EXPER S ! 1 INGRESOS = ! 1 + ! 2 S + ! 3 EXPER + u Interpretación geométrica de la regresión múltiple, a traves de la modelización de los ingresos en función de los años de estudio, S, y la experiencia, EXPER. El modelo tiene tres dimensiones y el punto de partida para la determinar los ingresos es la ordenada en el origen ! 1 . Este punto surge de aquéllos que no tienen estudios ni experiencia 2 TEMA 3

MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

Embed Size (px)

Citation preview

Page 1: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

MODELO DE REGRESIÓN LINEAL MÚLTIPLE

1

REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS

INGRESOS

EXPER

S

!1

INGRESOS = !1 + !2S + !3EXPER + u

Interpretación geométrica de la regresión múltiple, a traves de la modelización de los ingresos en función de los años de estudio, S, y la experiencia, EXPER.

El modelo tiene tres dimensiones y el punto de partida para la determinar los ingresos es la ordenada en el origen !1. Este punto surge de aquéllos que no tienen estudios ni experiencia 2

TEMA 3

Page 2: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS

INGRESOS

EXPER

El incremento de la educación, cuando la experiencia queda constante está dado por el movimiento hacia la “derecha”: un año de estudios generaría una variación de los ingresos en !2 pesetas, dado el nivel de experiencia.

S

!1

efecto S !1 + !2S

INGRESOS = !1 + !2S + !3EXPER + u

3

efecto EXPER

REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS

S

!1

!1 + !3EXPER

INGRESOS = !1 + !2S + !3EXPER + u

INGRESOS

EXPER

De la misma manera, !3 recoge el incremento de ingreso ante un aumento unitario de la experiencia, dado el nivel de educación, S.

4

Page 3: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

efecto EXPER

efecto S

REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS

S

!1

!1 + !3EXPER

!1 + !2S + !3EXPER

INGRESOS = !1 + !2S + !3EXPER + u

INGRESOS

EXPER

!1 + !2S

efecto conjunto S y EXPER

Distintas combinaciones de S y EXPER dan lugar al hiperplano definido por INGRESOS = !1 + !2S + !3EXPER. Este sería el componente no aleatorio del modelo.

IMPORTANTE: En regresión múltiple, cuando se evalúa el efecto de una variable sobre la

variable dependiente, es necesario discriminar el efecto propio de los efectos de las otras variables.

5

efecto EXPER

efecto S

REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS

S

!1

!1 + !3EXPER

!1 + !2S + !3EXPER

!1 + !2S + !3EXPER + u

INGRESOS

EXPER

efecto conjunto S y EXPER

u

El elemento aleatorio del modelo, u, nace como consecuencia de que las observaciones no coinciden con el hiperplano.

INGRESOS = !1 + !2S + !3EXPER + u

!1 + !2S

6

Page 4: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS

El residuo, ei de la observación i no es más que la diferencia entre la observación actual y la ajustada.

Los parámetros del modelo original son obtenidos por el método de mínimos cuadrados ordinarios, de donde se obtienen los estimadores b1, b2, y b3.

7

! ! - - - = = 2 3 3 2 2 1

2 ) ( i i i i X b X b b Y e SCR

0 1

= b

SCR

"

" 0

2

= b

SCR

" "

0 3

= b

SCR

"

"

REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS

Derivar los estimadores de los parámetros a partir de las condiciones de primer orden que hacen mínima la expresión anterior.

8

Page 5: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS

Obtenemos entonces tres ecuaciones para los tres parámetros. De estas ecuaciones obtenemos los estimadores b1, b2, y b3.

9

REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS

¿Qué sucede si la covarianza entre X2 y X3 es cero? Interpretar ¿En este caso, de qué depende el signo que tome el parámetro?

¿Tiene sentido en economía pensar que la covarianza entre X2 y X3 sea cero? Observar, por tanto, cómo la interrelación entre las distintas variables interactúan entre sí para definir el estimador

¿Qué sucede si en el denominador saco como factor común las varianzas? Hacerlo e interpretar

10

Page 6: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

. reg INGRESOS S EXPER

Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 2, 567) = 39.98 Model | 4745.74965 2 2372.87483 Prob > F = 0.0000 Residual | 33651.2874 567 59.3497133 R-squared = 0.1236 ---------+------------------------------ Adj R-squared = 0.1205 Total | 38397.0371 569 67.4816117 Root MSE = 7.7039

------------------------------------------------------------------------------ INGRESOS | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .7390366 .1606216 4.601 0.000 .4235506 1.054523 EXPER | .1545341 .0429486 3.598 0.000 .0701764 .2388918 _cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095 ------------------------------------------------------------------------------

REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS

Exper S ingresos 15 . 0 74 . 0 62 . 4 ˆ + + - =

11

Page 7: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

RELACIONES MULTIVARIANTES

. reg ingresos S hábil

Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 2, 567) = 39.98 Model | 4745.74965 2 2372.87483 Prob > F = 0.0000 Residual | 33651.2874 567 59.3497133 R-squared = 0.1236 ---------+------------------------------ Adj R-squared = 0.1205 Total | 38397.0371 569 67.4816117 Root MSE = 7.7039

------------------------------------------------------------------------------ ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .7390366 .1606216 4.601 0.000 .4235506 1.054523 hábil | .1545341 .0429486 3.598 0.000 .0701764 .2388918 _cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095 ------------------------------------------------------------------------------

Este resultado surge de hacer la regresión de ingresos, medido en pesetas por hora, frente a años de educación, S, y el resultado de un test de habilidad o aptitud hábil.

Pero supongamos que lo que nos interesa es la relación entre ingresos y S: si observamos únicamente este gráfico para extraer conclusiones, éstas podrían estar equivocadas dado que sabemos que la habilidad afecta al ingreso, pero también a la educación. 12

Relaciones Multivariantes

Existe una relación positiva fuerte entre S y hábil, y también entre hábil e ingresos. Es por ello que mirar únicamente la relación entre S e ingreso podría llevarnos a conclusiones equivocadas.

. correlación S hábil (obs=570) | S hábil --------+------------------ S| 1.0000 hábil | 0.5779 1.0000

13

Page 8: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

. reg ingresos hábil

Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 1, 568) = 56.78 Model | 3489.30726 1 3489.30726 Prob > F = 0.0000 Residual | 34907.7298 568 61.4572708 R-squared = 0.0909 ---------+------------------------------ Adj R-squared = 0.0893 Total | 38397.0371 569 67.4816117 Root MSE = 7.8395

------------------------------------------------------------------------------ ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- hábil | .2687432 .035666 7.535 0.000 .1986898 .3387966 _cons | -.359883 1.818571 -0.198 0.843 -3.931829 3.212063 ------------------------------------------------------------------------------

Relaciones Multivariantes

Para eliminar el efecto de la habilidad, lo que debería hacerse es limpiar de ingresos y S el efecto que se debe a hábil y después graficar ambas variables. Para ello, es necesario regresar, por separado, ingresos y estudios frente a hábil y quedarnos con los residuos de estas regresiones.

14

. reg S hábil

Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 1, 568) = 284.89 Model | 1153.80864 1 1153.80864 Prob > F = 0.0000 Residual | 2300.43873 568 4.05006818 R-squared = 0.3340 ---------+------------------------------ Adj R-squared = 0.3329 Total | 3454.24737 569 6.07073351 Root MSE = 2.0125

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- hábil | .1545378 .0091559 16.879 0.000 .1365543 .1725213 _cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803 ------------------------------------------------------------------------------

Relaciones Multivariantes

15

Page 9: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

Relaciones Multivariantes

Una vez que hemos hecho eso, graficamos los residuos de ambas regresiones. Esta gráfica nos muestra la relación entre el ingreso y S, una vez depurado el efecto de la habilidad. La recta oscura es la regresión entre los residuos y la más clara es la regresión original entre ingresos y estudios.

16

. reg Res-ingresos res-estudios Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 1, 568) = 21.21 Model | 1256.44239 1 1256.44239 Prob > F = 0.0000 Residual | 33651.2873 568 59.2452241 R-squared = 0.0360 ---------+------------------------------ Adj R-squared = 0.0343 Total | 34907.7297 569 61.3492613 Root MSE = 7.6971 ------------------------------------------------------------------------------ Resin | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- RS | .7390366 .1604802 4.605 0.000 .4238296 1.054244 _cons | -5.99e-09 .3223957 0.000 1.000 -.6332333 .6332333 ------------------------------------------------------------------------------

Relaciones Multivariantes

Regresión de los residuos.

¿POR QUÉ LA ESTIMACIÓN DE LA CONSTANTE EN ESTE MODELO ES PRÁCTICAMENTE IGUAL A 0?

17

Page 10: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

. reg Res-ing RS Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 1, 568) = 21.21 Model | 1256.44239 1 1256.44239 Prob > F = 0.0000 Residual | 33651.2873 568 59.2452241 R-squared = 0.0360 ---------+------------------------------ Adj R-squared = 0.0343 Total | 34907.7297 569 61.3492613 Root MSE = 7.6971 ------------------------------------------------------------------------------ Resin | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- RS | .7390366 .1604802 4.605 0.000 .4238296 1.054244 _cons | -5.99e-09 .3223957 0.000 1.000 -.6332333 .6332333 ------------------------------------------------------------------------------

Regresión multiple: ------------------------------------------------------------------------------ ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .7390366 .1606216 4.601 0.000 .4235506 1.054523 exper | .1545341 .0429486 3.598 0.000 .0701764 .2388918 _cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095 ------------------------------------------------------------------------------

Relaciones Multivariantes

Es importante observar que el procedimiento seguido anteriormente da lugar al mismo estimador que la regresión multiple. ¿Entonces, cuál es la interpretación del estimador del coeficiente? 18

EJERCICIO

Vamos a descomponer el estimador:

para demostrar que este estimador surge de la regresión entre los residuos obtenidos de regresar Y frente X3, frente a los residuos obtenidos de regresar X2 frente X3

19

Page 11: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

2 , 2

2 2

2 3 2

2 1

1

) ( Var Varianza poblacional

X X

u b r X n

b -

! = = !

!

PRECISIÓN DE LOS ESTIMADORES

Observar que la varianza se compone de dos elementos:

El primero es idéntico al caso de regresión simple: depende de la varianza de la perturbación, del número de observaciones en la muestra y de la varianza de la variable explicativa de interés.

El segundo componente está relacionado con la correlación que existe entre las dos variables explicativas del modelo: observar que cuanto mayor sea la correlación entre estas dos variables, mayor será la varianza del estimador.

Cuanto mayor sea la correlación entre las dos variables explicativas, más difícil será discriminar entre el efecto que dichas variables producen en la Y y, por lo tanto, menos precisa será la estimación. 20

2 , 2

2 2

2 3 2

2 1

1

) ( Var Varianza poblacional

X X

u b r X n

b -

! = = !

!

2 , 2

2

2 3 2 1

1

) ( Var X X

u

r X n b

- ! =

! Desviación típica

PRECISIÓN DE LOS ESTIMADORES

21

Page 12: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

Veremos ahora un ejemplo utilizando dos muestras de salarios: una, de trabajadores sindicalizados, cuyo salario ha sido fijado a través de negociación colectiva y otra de trabajadores no sindicalizados.

El objetivo es analizar las diferencias en la precisión de la estimación de los parámetros de ambas muestras, tratando de discernir las causas de estas diferencias

22

. reg SALARIOS S HABIL (NO SINDICALIZADO)

Source | SS df MS Number of obs = 507 ---------+------------------------------ F( 2, 504) = 40.31 Model | 4966.96516 2 2483.48258 Prob > F = 0.0000 Residual | 31052.2066 504 61.6115211 R-squared = 0.1379 ---------+------------------------------ Adj R-squared = 0.1345 Total | 36019.1718 506 71.184134 Root MSE = 7.8493

------------------------------------------------------------------------------ SALARIOS | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .8891909 .1741617 5.106 0.000 .5470186 1.231363 HABIL | .1398727 .0461806 3.029 0.003 .0491425 .2306029 _cons | -6.100961 2.15968 -2.825 0.005 -10.34404 -1.857877 ------------------------------------------------------------------------------

Precisión de los estimadores

RESPONDER: ¿El signo del estimador del parámetro de HABIL es el esperable ? ¿Es significativo el efecto de HABIL en el salario? ¿Hay rendimientos constantes a escala en HABIL y S?¿qué significa esto y cómo lo constrastaría? ¿El modelo ajusta bien?

23

Page 13: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

. reg SALARIOS S HABIL (SINDICALIZADO)

Source | SS df MS Number of obs = 63 ---------+------------------------------ F( 2, 60) = 2.58 Model | 172.902083 2 86.4510417 Prob > F = 0.0844 Residual | 2012.88504 60 33.5480841 R-squared = 0.0791 ---------+------------------------------ Adj R-squared = 0.0484 Total | 2185.78713 62 35.2546311 Root MSE = 5.7921

------------------------------------------------------------------------------ SALARIOS | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | -.3872787 .3530145 -1.097 0.277 -1.093413 .3188555 HABIL | .2309133 .1019211 2.266 0.027 .0270407 .4347858 _cons | 8.291716 4.869209 1.703 0.094 -1.448152 18.03158 ------------------------------------------------------------------------------

Precisión de los estimadores

24

Descomposición del error standard de S

Componente su n Var(S) rS, HABIL s.e.

No-sindic 0.1742

Sindic 0.3530

Factor

No-sindic

Sindic

Precisión de los estimadores

Descompondremos la desviación típica.

25

Page 14: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

. reg SALARIOS S HABIL (NO SINDICALIZADO)

Source | SS df MS Number of obs = 507 ---------+------------------------------ F( 2, 504) = 40.31 Model | 4966.96516 2 2483.48258 Prob > F = 0.0000 Residual | 31052.2066 504 61.6115211 R-squared = 0.1379 ---------+------------------------------ Adj R-squared = 0.1345 Total | 36019.1718 506 71.184134 Root MSE = 7.8493

------------------------------------------------------------------------------ SALARIOS | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .8891909 .1741617 5.106 0.000 .5470186 1.231363 HABIL | .1398727 .0461806 3.029 0.003 .0491425 .2306029 _cons | -6.100961 2.15968 -2.825 0.005 -10.34404 -1.857877 ------------------------------------------------------------------------------

Precisión de los estimadores

Por tanto, SCR/(n-k) es 61.6115, por lo que, la raíz cuadrada es 7.8493.

SCR k n

s u - =

1 2

26

. reg SALARIOS S HABIL (SINDICALIZADO)

Source | SS df MS Number of obs = 63 ---------+------------------------------ F( 2, 60) = 2.58 Model | 172.902083 2 86.4510417 Prob > F = 0.0844 Residual | 2012.88504 60 33.5480841 R-squared = 0.0791 ---------+------------------------------ Adj R-squared = 0.0484 Total | 2185.78713 62 35.2546311 Root MSE = 5.7921

------------------------------------------------------------------------------ SALARIOS | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | -.3872787 .3530145 -1.097 0.277 -1.093413 .3188555 HABIL | .2309133 .1019211 2.266 0.027 .0270407 .4347858 _cons | 8.291716 4.869209 1.703 0.094 -1.448152 18.03158 ------------------------------------------------------------------------------

Precisión de los estimadores

De la misma manera, calculamos para la muestra de trabajadores sindicalizados 33.54808, con raíz cuadrada 5.7921. El número de observaciones es 63.

27

Page 15: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

Descomposición del error standard de S

Componente su n Var(S) rS, HABIL s.e.

No-sindic 7.8493 507 6.0645 0.1742

Sindic 5.7921 63 6.0136 0.3530

Factor

No-sindic

Sindic

Precisión de los estimadores

La varianza de S se calcula a partir de los datos de la muestra para cada una de las submuestras

28

. cor S HABIL (NO SINDICALIZADO) (obs=507)

| S HABIL --------+------------------ S| 1.0000 HABIL | 0.5826 1.0000

. cor S HABIL (SINDICALIZADO) (obs=63)

| S HABIL --------+------------------ S| 1.0000 HABIL | 0.5380 1.0000

Precisión de los estimadores

Se calcula el coeficiente de correlación.

29

Page 16: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

Descomposición del error standard de S

Componente su n Var(S) rS, HABIL s.e.

No-sindic 7.8493 507 6.0645 0.5826 0.1742

Sindic 5.7921 63 6.0136 0.5380 0.3530

Factor product

No-sindic 7.8493 0.0444 0.4061 1.2304 0.1741

Sindic 5.7921 0.1260 0.4078 1.1863 0.3531

Precisión de los estimadores

30

2 , 2

2 2

2 3 2

2 1

1

) ( Var Varianza poblacional

X X

u b r X n

b -

! = = !

!

¿Qué ocurriría si la correlación entre las variables explicativas fuese perfecta (es decir, igual a 1 o -1? .... MULTICOLINEALIDAD

31

Page 17: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

CONTRASTE F DE BONDAD DEL AJUSTE

0 al menos un :

0 ... :

1

2 0

!

= = =

!

! !

H

H k

Observar: - hay k-1 variables explicativas - la hipótesis nula se pregunta si estas variables explican la variabilidad de la variable dependiente. PREGUNTA ¿Cómo interpreta la hipótesis nula?

32

CONTRASTE F DE BONDAD DEL AJUSTE

0 al menos un :

0 ... :

1

2 0

!

= = =

!

! !

H

H k

) ( ) 1 (

) 1 (

) (

) 1 (

) (

) 1 ( ) , 1 (

2

2

k n R

k R

k n SCT

SCR

k SCT

SCE

k n SCR

k SCE k n k F

- -

- =

-

-

=

-

- = - -

33

Page 18: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 3, 566) = 110.83 Model | 1278.24153 3 426.080508 Prob > F = 0.0000 Residual | 2176.00584 566 3.84453329 R-squared = 0.3700 ---------+------------------------------ Adj R-squared = 0.3667 Total | 3454.24737 569 6.07073351 Root MSE = 1.9607

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SM | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214 ------------------------------------------------------------------------------

CONTRASTE F DE BONDAD DEL AJUSTE

34

CONTRASTE F DE BONDAD DEL AJUSTE

1 SCR

2 SCR

Otra utilización del contraste de bondad de ajuste: analizar la capacidad predictiva de un subconjunto de variables explicativas

35

Page 19: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

CONTRASTE F DE BONDAD DEL AJUSTE

0 y o 0 o 0 :

0 :

4 3 4 3 1

4 3 0

! ! !

= =

! ! ! !

! !

H

H

1 SCR

2 SCR

36

CONTRASTE F DE BONDAD DEL AJUSTE

1 SCR

2 SCR

F(coste, gl ) = mejora coste

remanente no explicado

gl

Mejora: es la reducción de la suma de los cuadrados residuales cuando agregamos las nuevas variables explicativas. Coste: es la disminución de grados de libertad por añadir nuevas variables. En este caso es igual al número de variables explicativas añadidas, dado que éste es el número de parámetros a estimar adicionales. Los grados de libertad pasarían de n-2 a n-4 cuando X3 y X4 se agregan Remanente no explicado: la suma de los cuadrados residuales en la estimación después de introducir las nuevas variables gl: grados de libertad que quedan después de realizar los cambios

0 y o 0 o 0 :

0 :

4 3 4 3 1

4 3 0

! ! !

= =

! ! ! !

! !

H

H

37

Page 20: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

. reg S ASVABC

Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 1, 568) = 284.89 Model | 1153.80864 1 1153.80864 Prob > F = 0.0000 Residual | 2300.43873 568 4.05006818 R-squared = 0.3340 ---------+------------------------------ Adj R-squared = 0.3329 Total | 3454.24737 569 6.07073351 Root MSE = 2.0125

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213 _cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803 ------------------------------------------------------------------------------

CONTRASTE F DE BONDAD DEL AJUSTE

38

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 3, 566) = 110.83 Model | 1278.24153 3 426.080508 Prob > F = 0.0000 Residual | 2176.00584 566 3.84453329 R-squared = 0.3700 ---------+------------------------------ Adj R-squared = 0.3667 Total | 3454.24737 569 6.07073351 Root MSE = 1.9607

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SM | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214 ------------------------------------------------------------------------------

CONTRASTE F DE BONDAD DEL AJUSTE

39

Page 21: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

CONTRASTE F DE BONDAD DEL AJUSTE

1 SCR

2 SCR

F(coste, gl ) = mejora coste

remanente no explicado

gl

18 . 16 566 / 0 . 2176

2 / ) 0 . 2176 4 . 2300 (

) 4 570 (

2 ) ( ) 4 570 , 2 (

2

2 1 = -

= -

- = - SCR

SCR SCR F =16.18

32 . 7 ) 120 , 2 ( crit,0.1% = F

0 y o 0 o 0 :

0 :

4 3 4 3 1

4 3 0

! ! !

= =

! ! ! !

! !

H

H

40

CONTRASTE F DE BONDAD DEL AJUSTE

1 SCR

2 SCR

Para concluir este análisis del contraste de bondad de ajuste, haremos una reinterpretación del contraste t: básicamente, este contraste t es equivalente al contraste F cuando se agrega una sola variable al modelo.

Es decir, el contraste t mide la capacidad explicativa de una variable, dadas todas las demás. Ahora lo veremos.

41

Page 22: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

CONTRASTE F DE BONDAD DEL AJUSTE

1 SCR

2 SCR

F(coste, d.f. ) = mejora coste

remanente no explicado

gl

Suponga que el modelo original es Y en función de X2 y X3, y que el modelo revisado es aquel en el que se incluye X4 .

42

. reg S ASVABC SM

Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 2, 567) = 156.81 Model | 1230.2039 2 615.101949 Prob > F = 0.0000 Residual | 2224.04347 567 3.92247526 R-squared = 0.3561 ---------+------------------------------ Adj R-squared = 0.3539 Total | 3454.24737 569 6.07073351 Root MSE = 1.9805

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556 SM | .154783 .0350728 4.413 0.000 .0858946 .2236715 _cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475 ------------------------------------------------------------------------------

CONTRASTE F DE BONDAD DEL AJUSTE

43

Page 23: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 3, 566) = 110.83 Model | 1278.24153 3 426.080508 Prob > F = 0.0000 Residual | 2176.00584 566 3.84453329 R-squared = 0.3700 ---------+------------------------------ Adj R-squared = 0.3667 Total | 3454.24737 569 6.07073351 Root MSE = 1.9607

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SM | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214 ------------------------------------------------------------------------------

CONTRASTE F DE BONDAD DEL AJUSTE

44

CONTRASTE F DE BONDAD DEL AJUSTE

1 SCR

2 SCR

F(coste, d.f. ) = mejora coste

remanente no explicado

gl

49 . 12 566 / 0 . 2176

1 / ) 0 . 2176 0 . 2224 (

) 4 570 (

1 ) ( ) 4 570 , 1 (

2

2 1 = -

= -

- = - SCR

SCR SCR F

¿Qué pasa con el contraste t de dos colas?

Observación importante: siempre que agregamos variables disminuye la suma de los cuadrados de los residuos ¿Qué pasa entonces con el R-cuadrado cuando agregamos variables? 45

Page 24: MODELO DE REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 3, 566) = 110.83 Model | 1278.24153 3 426.080508 Prob > F = 0.0000 Residual | 2176.00584 566 3.84453329 R-squared = 0.3700 ---------+------------------------------ Adj R-squared = 0.3667 Total | 3454.24737 569 6.07073351 Root MSE = 1.9607

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SM | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214 ------------------------------------------------------------------------------

CONTRASTE F DE BONDAD DEL AJUSTE

Este resultado muestra que el contraste t es un test sobre la importancia marginal de una variable, después de que todas las otras variables fueran incluidas en la ecuación. Si la correlación de esta nueva variable con las otras ya incluidas fuera muy alta, entonces su poder explicativo sería muy bajo y probablemente no rechazaríamos la hipótesis nula.

46

. reg S ASVABC SM SF

Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 3, 566) = 110.83 Model | 1278.24153 3 426.080508 Prob > F = 0.0000 Residual | 2176.00584 566 3.84453329 R-squared = 0.3700 ---------+------------------------------ Adj R-squared = 0.3667 Total | 3454.24737 569 6.07073351 Root MSE = 1.9607

------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SM | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214 ------------------------------------------------------------------------------

CONTRASTE F DE BONDAD DEL AJUSTE

Si la correlación entre todas las variables incluidas fuera alta, cada variable tendría un efecto explicativo marginal muy pequeño, por lo que su t sería bajo. Sin embargo, es posible que en conjunto, el modelo explique bien y por lo tanto, el valor del contraste F fuera relevante.

47