23
PRUEBA DE FALTA DE AJUSTE (Lack-of-fit Test) Fortino Vela Peón [email protected] Octubre, 2011

FALTA DE AJUSTE PRUEBA - … · F. VELA Ho: la relación es lineal vs H1: la relación no es lineal La prueba requiere observaciones repetidas en al menos uno de los niveles de X

Embed Size (px)

Citation preview

PRUEBA DE FALTA DE AJUSTE(Lack-of-fit Test)

Fortino Vela Peó[email protected]

Octubre, 2011

F. VELA

Introducción� Un supuesto básico del modelo es la existencia

de una relación lineal entre la variable dependiente y los regresores .

� Dos formas de verificar esta suposición son:

1. Mediante la elaboración del diagrama de dispersión;

2. Graficar a los residuales (estandarizados) vs el valor de la variable de respuesta ajustada, así como vs los predictores.

ex-ante

ex-post

F. VELA

Prueba de falta de ajuste� Esta diseñada para evaluar si una relación

curvilineal podría ajustar mejor a los datos que un modelo lineal .

� Para ello la SCE se descompone en dos partes :

1. El componente de error puro; y2. El componente de falta de ajuste.

� Estos dos componentes son utilizados para construir un estadístico de prueba F particularcon el fin de contrastar la hipótesis siguiente:

F. VELA

Ho: la relación es lineal vs H1: la relación no es lineal

� La prueba requiere observaciones repetidasen al menos uno de los niveles de X.

� Las observaciones de X e Y son independientes y se encuentran normalmente distribuidas.

� La distribuciones de Y tienen la misma varianza .

F. VELA

Ho: la relación es lineal vs H 1: la relación no es lineal

Rechazar Ho ssi

� La regla de decisión esta dada por:α

cnkcFF −−> ,*

dondec= # de niveles distintos de Xp= # de variables en la ecuación de regresiónn= # de observaciones

( )( )FRF

FFR

glglSCE

glSCESCEF

−⋅⋅−=*

SCER=suma de cuadrados del error del modelo reducido.

SCEF= suma de cuadrados del error del modelo completo.

glR= grados de libertad del modelo reducido.

glF= grados de libertad del modelo completo.

F. VELA

( )( )cnnSCPE

cnSCPESCEF

−−−⋅−⋅−=∴

()2)(*

( )∑∑ −==j i

jijF YYSCPESCE 2j=1,2,…,c (niveles de X)

( )∑∑ −==j i

ijijR YYSCESCE2ˆ

)( knglR −=

)( cnglF −=

=SCPE

Observe que

Suma de cuadrados del error puro (en inglés SSPE)

F. VELA

( )( ) MSPE

MSLF

cn

SSEcnn

SSPESSE

cnnSSPE

cnSSPESCEF =

−−−−

=−−−⋅−⋅−=

)(

)()2(()2

)(*

SSEPSCER =

� Es común encontrar la siguiente notación:

SSESCE =

se define entonces

SSEPSSESSLF +=

donde=SSLF suma de cuadrados de falta de ajuste

observe

F. VELA

Ejemplo

Una empresa dedicada a comercializar productos de belleza utiliza los servicios de telemarketing para promover a sus mercancías.

El gerente de la División de Mercadeo de la compañía de telemarketing esta interesado en conocer el tiempo que utilizan sus empleados en una llamada para realizar sus tareas.

Para ello recolecta el número de meses (meses) que lleva en la compañía el operador y el número de llamadas telefónicas (llamadas) realizadas al día para 20 de sus empleados.

F. VELA

| meses llamadas | |------------------| 1. | 10 18 | 2. | 10 19 | 3. | 11 22 | 4. | 14 23 | 5. | 15 25 | |------------------| 6. | 17 28 | 7. | 18 29 | 8. | 20 29 | 9. | 20 31 | 10. | 21 31 | |------------------| 11. | 22 33 | 12. | 22 32 | 13. | 24 31 | 14. | 25 32 | 15. | 25 32 | |------------------| 16. | 25 33 | 17. | 25 31 | 18. | 28 33 | 19. | 29 33 | 20. | 30 34 | +------------------+

F. VELA

El promedio de llamadas al día para los 20 empleados seleccionados es de 28.95.

El gerente sospecha que pudiera haber algún tipo de relación entre la antigüedad en el trabajo y el número de llamadas, dado que el empleado puede ir especializándose.

Se plantea entonces el siguiente modelo:

umesesllamadas ++= 21 ββ

F. VELA

1520

2530

35lla

mad

as

10 15 20 25 30meses

F. VELA

reg llamadas meses Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 1, 18) = 124.41 Model | 397.445862 1 397.445862 Prob > F = 0.0000 Residual | 57.504138 18 3.19467433 R-squared = 0.8736 -------------+------------------------------ Adj R-squared = 0.8666 Total | 454.95 19 23.9447368 Root MSE = 1.7874 ------------------------------------------------------------------------------ llamadas | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- meses | .7435148 .0666598 11.15 0.000 .6034678 .8835619 _cons | 13.67077 1.426971 9.58 0.000 10.67281 16.66872 ------------------------------------------------------------------------------

F. VELA

predict yhat predict r, res predict res, rstandard list llamadas yhat r res +---------------------------------------------+ | llamadas yhat r reses | |---------------------------------------------| 1. | 18 21.10592 -3.105918 -1.948687 | 2. | 19 21.10592 -2.105918 -1.321276 | 3. | 22 21.84943 .1505668 .0928491 | 4. | 23 24.07998 -1.079978 -.6403641 | 5. | 25 24.82349 .1765074 .1036832 | |---------------------------------------------| 6. | 28 26.31052 1.689478 .9788621 | 7. | 29 27.05404 1.945963 1.122372 | 8. | 29 28.54107 .4589332 .2634939 | 9. | 31 28.54107 2.458933 1.411783 | 10. | 31 29.28458 1.715418 .9848256 | |---------------------------------------------| 11. | 33 30.0281 2.971904 1.708555 | 12. | 32 30.0281 1.971903 1.133653 | 13. | 31 31.51513 -.5151262 -.2983019 | 14. | 32 32.25864 -.2586411 -.1506646 | 15. | 32 32.25864 -.2586411 -.1506646 | |---------------------------------------------| 16. | 33 32.25864 .7413589 .4318593 | 17. | 31 32.25864 -1.258641 -.7331886 | 18. | 33 34.48919 -1.489186 -.8918217 | 19. | 33 35.2327 -2.2327 -1.354356 | 20. | 34 35.97622 -1.976215 -1.216709 | +---------------------------------------------+

F. VELA

-2-1

01

2S

tand

ardi

zed

resi

dual

s

20 25 30 35Fitted values

F. VELA

-4-2

02

4R

esi

dua

ls

20 25 30 35F itted values

F. VELA

-4-2

02

4R

esi

dua

ls

10 15 20 25 30meses

F. VELA

PRUEBA DE FALTA DE AJUSTE

F. VELA

Construcción de F *

� Arreglo de datos

2222 )3434(...)2222()5.1819()5.1810( −++−+−+−== SSPESCEF

j=1 j=2 j=3 j=4 j=5 j=6 j=7 j=8 j=9 j=10 j=11 j=12 j=13 j=14Replicas 10 11 14 15 17 18 20 21 22 24 25 28 29 30

i=1 18 22 23 25 28 29 29 31 33 31 32 33 33 34i=2 19 31 32 32i=3 33i=3 31

Media 18.5 22 23 25 28 29 30 31 32.5 31 32 33 33 34

X

F. VELA

� Calculo SCEF (también denominado SSPE)

5== SSPESCEF

57.504138== SCESCE R

)1420( −=Fgl

( )1420()220 −−−=Rgl

j=1 j=2 j=3 j=4 j=5 j=6 j=7 j=8 j=9 j=10 j=11 j=12 j=13 j=14Replicas 10 11 14 15 17 18 20 21 22 24 25 28 29 30

i=1 0.25 0 0 0 0 0 1 0 0.25 0 0 0 0 0i=2 0.25 1 0.25 0 i=3 1i=3 1

Sumas 0.5 0 0 0 0 0 2 0 0.5 0 2 0 0 0

X

20=n14=c2=k

F. VELA

Prueba de falta de ajuste

Ho: la relación es lineal vs H1: la relación no es lineal

Rechazar Ho ssi

α=0.05:

αcnkcFF −−> ,

00.42504.5 >∴

( )( )[ ] 5.2504

5(12)52.504(6)

1420()2205)1420(557.504* ==

−−−⋅−⋅−=F

00.405.0*6,12 =Fdonde

Se rechaza H 0 lo que implica que la relación no es lineal

F. VELA

Prueba de falta de ajuste en Stata

reg llamadas meses Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 1, 18) = 124.41 Model | 397.445862 1 397.445862 Prob > F = 0.0000 Residual | 57.504138 18 3.19467433 R-squared = 0.8736 -------------+------------------------------ Adj R-squared = 0.8666 Total | 454.95 19 23.9447368 Root MSE = 1.7874 ------------------------------------------------------------------------------ llamadas | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- meses | .7435148 .0666598 11.15 0.000 .6034678 .8835619 _cons | 13.67077 1.426971 9.58 0.000 10.67281 16.66872 ------------------------------------------------------------------------------

findit maxr2

F. VELA

Se rechaza H 0 lo que implica que la relación no es lineal (con αααα= 0.05 y 0.10)

maxr2 maximum R-square = 0.9890 relative R-square = 0.8833 actual adjusted R-square = 0.8666 relative adjusted R-square = 0.8768 SSLF (df) = 52.504138 (12) MSLF = 4.3753448 SSPE (df) = 5 (6) MSPE = .83333333 F (dfn, dfd) for lack-of-fit test (MSLF/MSPE) = 5.2504 (12,6) prob > F = 0.0264 number of covariate patterns = 14 as ratio of observations = 0.700

F. VELA

Bibliografía

Kutner, Michael H. et. al. (2005). Applied Linear Statistical Models, 5ª ed., McGraw Hill, Singapore (pp. 119-124).