Aplicacin de Regresiones Mltiple
Claudia Surez G.
Curso: Mtodos Cuantitativos Profesor Pal Castillo B.
Tarea 3EndesaAplicacin de Regresiones MltipleMaestra en Finanzas
Pregunta 1: Modelo para explicar el Precio al que se han vendido las viviendas de la muestra Housing.wf1
a. Comience resumiendo la informacin muestral relativa a cada variable: valores mnimo y mximo, rango de variacin, aspecto de la distribucin de frecuencias, naturaleza de la variable (discreta/continua)
A fin de obtener la informacin solicitada por cada variable (12 en total), se ingresa a la variable y en la pestaa View se selecciona Descriptive Statistics & Tests/Histogram and Stats.
Precio:
Variable continua
Tamao en pies cuadrados:
Variable continua
Nmero de dormitorios:
Variable Discreta
Nmero de baos:
Variable Discreta
Nmero de depsitos:
Variable Discreta
Con acceso directo a avenida (1 s):
Variable Discreta
Con cuarto recreacional (1 s):
Variable Discreta
Con stano amoblado (1 s):
Variable Discreta
Con agua caliente y calefaccin (1 s):
Variable Discreta
Con aire acondicionado (1 s):
Variable Discreta
Nmero de garajes:
Variable Discreta
Localizacin en vecindario preferido de la ciudad (1 s):
Variable Discreta
b. Contine examinando el grado de relacin entre variables explicativas: Es comn la informacin que aportan cada dos de ellas? Para saberlo, si las dos variables son continuas, utilice un grfico scatter
Grfico scatter para las variables Precio y tamao de la propiedad que son las dos variables continuas.Se seleccionan las dos variables y se abren as a group. Luego en View/Graph seleccionar scatter. El resultado muestra cierta correlacin positiva entre ambas variables.
Asimismo, antes de construir el modelo, hemos creado otros grficos scatter-matrix (an cuando son con variables discretas), a fin de determinar si a primera vista, el precio se ve influenciado por dichas variables. Debajo de cada cuadro, se consigna nuestra primera impresin con las siguientes leyendas:
+Pareciera haber correlacin positiva
?No sabemos si hay correlacin
-Pareciera no haber correlacin
++?++?
-??-+-
c. Modelo
A fin de determinar el modelo, se han ido agregando las variables, una a una, con el propsito de ver cmo varan: el PValue, el R2, el R2 Ajustado y los criterios de informacin Akaike y Schwarz. A continuacin se muestra el Excel con los resultados parciales. A partir del Modelo 10 se retir la variable bedrooms debido a su elevado P Value y a partir del Modelo 12 se retir la constante por tener un P Value elevado, superior a 2.5%.
Con los resultados obtenidos, se eligi el Modelo 13 como el modelo que mejor explica la variable Precio. En dicho Modelo, los P Value son de 0% o cercanos al 0%, el R2 Ajustado es el ms alto y los criterios de informacin son ms bajos respecto de los otros 12 modelos.
Resultados de los 13 modelos
R20.2870770.3702690.3978560.428190.455390.56110.606150.61910.627960.626120.631020.671250.67123
R2 Ajustado0.2857660.367950.3945230.423960.450350.556210.601020.613430.621720.620550.624820.665110.66571
N de Modelo12345678910111213
c 34,136.19 5,612.60 -3,617.45 -1395.981423.46-6689.95-6265.01-5485.13-6447.45-2932.61-3140.47-497.34*
lotsize 6.60 6.05 5.42 5.004754.330933.850063.923173.798773.895843.943773.96963.595873.57247
bedrooms 10,567.35 10,927.11 10581.19969.015534.242522.42378.921814.1*
driveway 13,320.81 11281.99664.089803.617221.916794.336575.926151.436198.26259.626097.97
prefarea1141411534.811453.91166810737.49522.499579.339859.789431.789463.48
garagepl5528.264508.84954.445083.075020.895131.274968.554355.324372.53
bathrms18934.916313.815689.715138.515723.415488.114924.214819
stories7389.597465.428407.638970.148961.127128.87079.34
recroom8151.155598.715525.35583.164440.414474
fullbase6036.366426.396364.695846.515788.58
gashw8991.3212949.412944.5
airco12605.912639.4
Akaike22.8900322.7696122.7284822.680522.635422.423222.318622.288822.26922.270222.260722.148922.1453
Schwarz22.9057922.7932522.7622.719922.682722.478422.381722.359822.347822.341122.339522.235622.2241
*Pvalue>5%
Resultados del Modelo 13:
Dependent Variable: PRICE
Method: Least Squares
Date: 03/06/15 Time: 22:11
Sample: 1 546
Included observations: 546
VariableCoefficientStd. Errort-StatisticProb.
LOTSIZE3.5724710.32473411.001220.0000
DRIVEWAY6097.9741826.0983.3393470.0009
PREFAREA9463.4771661.2165.6967180.0000
GARAGEPL4372.531833.62345.2452120.0000
BATHRMS14818.991331.79411.127090.0000
STORIES7079.335822.34858.6086800.0000
RECROOM4474.0011892.3932.3642020.0184
FULLBASE5788.5831540.7123.7570830.0002
GASHW12944.523220.0584.0199650.0001
AIRCO12639.411545.5058.1781750.0000
R-squared0.671229Mean dependent var68121.60
Adjusted R-squared0.665709S.D. dependent var26702.67
S.E. of regression15438.93Akaike info criterion22.14532
Sum squared resid1.28E+11Schwarz criterion22.22412
Log likelihood-6035.671Hannan-Quinn criter.22.17612
Durbin-Watson stat1.600803
Pregunta 2: Modelo que explique el logaritmo del precio utilizando el logaritmo de la parcela
Dependent Variable: LOG(PRICE)
Method: Least Squares
Date: 03/06/15 Time: 22:20
Sample: 1 546
Included observations: 546
VariableCoefficientStd. Errort-StatisticProb.
C6.4685320.27674123.373960.0000
LOG(LOTSIZE)0.5421790.03265016.605730.0000
R-squared0.336383Mean dependent var11.05896
Adjusted R-squared0.335163S.D. dependent var0.371985
S.E. of regression0.303307Akaike info criterion0.455515
Sum squared resid50.04544Schwarz criterion0.471276
Log likelihood-122.3557Hannan-Quinn criter.0.461676
F-statistic275.7503Durbin-Watson stat1.085913
Prob(F-statistic)0.000000
Para la segunda parte, podra haberse aadido las dems variables en este modelo de logaritmos, pero no entran con logaritmo, ah tener en cuenta que los resultados se interpretan diferente.
Pregunta 3: Mejor Modelo en base a los criterios de informacin y de calidad de residuoa
El mejor modelo en base a los criterios de informacin es el Modelo 13 de la pregunta N1, tal como resulta de la Tabla en Excel denominada Resultados de los 13 modelos.En cuanto al mejor modelo en base a la calidad de residuo, pasamos a examinar los residuos del Modelo 13 y a verificar que cumplan con los siguientes criterios: (i) que sean normales y (ii) que no sean heterocedsticos. Dado que no estamos ante datos de series de tiempo sino de corte transversal, no vamos a analizar si se presenta el problema de autocorrelacin. (Esto de que la autocorrelacin solo se analiza en series de tiempo lo tena anotado de la prctica con Sergio, pero el profesor ha dicho que s se puede verificar si hay correlacin serial incluso en datos de corte transversal). Para ello utilizaremos los tests de residuos en Eviews.
a. Residuos
No hay residuos significativos.
b. Test de Normalidad
Cmo se corrige esto?La falta de normalidad podra obedecer a: (i) no haber usado el modelo logaritmo en las otras variables (ii) heterocedatiscidad; (iii) correlacin serial o (iv) por valores extremos. Aplicando las correcciones, debera mejorar, hay que volver a comprobar. Para eliminar valore extremos, se usan dummies.
c. Test de Heterocedasticidad
Heteroskedasticity Test: White
F-statistic6.171092Prob. F(10,535)0.0000
Obs*R-squared56.46647Prob. Chi-Square(10)0.0000
Scaled explained SS135.0265Prob. Chi-Square(10)0.0000
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 03/06/15 Time: 22:42
Sample: 1 546
Included observations: 546
VariableCoefficientStd. Errort-StatisticProb.
C8325072.637159060.1306590.8961
LOTSIZE^21.6605470.7862872.1118830.0352
DRIVEWAY^28576676.650774540.1317920.8952
PREFAREA^28081829.538569390.1500610.8808
GARAGEPL^257643848118926814.8470020.0000
BATHRMS^220640180135504391.5232110.1283
STORIES^2-65168.276048661.-0.0107740.9914
RECROOM^24936833.613141440.0805170.9359
FULLBASE^282008036510969261.6049500.1091
GASHW^22.01E+081.04E+081.9393750.0530
AIRCO^251880379501985721.0335030.3018
R-squared0.103418Mean dependent var2.34E+08
Adjusted R-squared0.086660S.D. dependent var5.22E+08
S.E. of regression4.99E+08Akaike info criterion42.91256
Sum squared resid1.33E+20Schwarz criterion42.99925
Log likelihood-11704.13Hannan-Quinn criter.42.94645
F-statistic6.171092Durbin-Watson stat1.954034
Prob(F-statistic)0.000000
En este caso, los P Value son 0 y debemos rechazar la hiptesis nula, lo que significa que debemos rechazar que hay homocedasticidad y, por lo tanto hay heterocedasticidad. Dicha heterocedasticidad puede ser explicada por la variable garajes.
Para corregir el modelo, en Estimate, en la pestaa Options modificar el Coefficient covariance matrix por White. Estos son los resultados:
Dependent Variable: PRICE
Method: Least Squares
Date: 03/06/15 Time: 22:58
Sample: 1 546
Included observations: 546
White heteroskedasticity-consistent standard errors & covariance
VariableCoefficientStd. Errort-StatisticProb.
LOTSIZE3.5724710.3641229.8111810.0000
DRIVEWAY6097.9741590.3273.8344160.0001
PREFAREA9463.4771886.9995.0150930.0000
GARAGEPL4372.531970.03764.5075890.0000
BATHRMS14818.991655.8428.9495220.0000
STORIES7079.335806.85258.7740150.0000
RECROOM4474.0012119.5212.1108550.0352
FULLBASE5788.5831737.6023.3313630.0009
GASHW12944.524305.0723.0068070.0028
AIRCO12639.411629.4587.7568210.0000
R-squared0.671229Mean dependent var68121.60
Adjusted R-squared0.665709S.D. dependent var26702.67
S.E. of regression15438.93Akaike info criterion22.14532
Sum squared resid1.28E+11Schwarz criterion22.22412
Log likelihood-6035.671Hannan-Quinn criter.22.17612
Durbin-Watson stat1.600803
Los nuevos resultados del modelo, determinan que deba excluirse la variable Cuarto Recreacional, al tener un P Value superior a 2.5%. Los nuevos resultados ajustado son:
Dependent Variable: PRICE
Method: Least Squares
Date: 03/06/15 Time: 23:04
Sample: 1 546
Included observations: 546
White heteroskedasticity-consistent standard errors & covariance
VariableCoefficientStd. Errort-StatisticProb.
LOTSIZE3.6140960.3676799.8294730.0000
DRIVEWAY6062.9381591.5983.8093390.0002
PREFAREA9670.9891871.2745.1681320.0000
GARAGEPL4303.557974.10584.4179560.0000
BATHRMS14835.661653.2068.9738730.0000
STORIES7130.428814.75838.7515870.0000
FULLBASE7024.2401674.3844.1951180.0000
GASHW12942.934273.2793.0288060.0026
AIRCO12956.661659.8267.8060350.0000
R-squared0.667801Mean dependent var68121.60
Adjusted R-squared0.662852S.D. dependent var26702.67
S.E. of regression15504.76Akaike info criterion22.15203
Sum squared resid1.29E+11Schwarz criterion22.22295
Log likelihood-6038.504Hannan-Quinn criter.22.17975
Durbin-Watson stat1.587278
Debe anotarse que este Modelo 14 que corrige la calidad del error, tiene un R2 y un R2 Ajustado, ligeramente ms bajo que el Modelo 13, en tanto que un Akaike ligeramente ms alto. No importa si el R2 ajustado baja un poco y un criterio de informacin aumenta ligeramente. Hay que sopesar eso con los PValues de las variables explicativas.
Pregunta 4: 3 opciones para que un comprador acceda a viviendas de hasta USD 75,000
Considerando los resultados del Modelo 14, se ponderan las ofertas de viviendas que se pueden conseguir por aproximadamente USD 75,000 y estos son los resultados:
Posibles compradores
N de Modelo14c1c2c3
c
lotsize3.614096380049006700
bedrooms
driveway6062.938010
prefarea9670.989001
garagepl4303.557121
bathrms14835.66222
stories7130.428200
recroom
fullbase7024.24001
gashw12942.93010
airco12956.66100
PRECIO 74,925.96 74,993.37 74,884.55
El nmero de dormitorios puede ser variable y puede o no tener cuarto de recreacin.
Ahora bien, acudiendo a la data real, es posible encontrar las ofertas por el valor de USD 75,000, siendo estos los resultados:
En mi modelo corr las cifras reales y me daban precios mayores que USD 75,000. El profesor dijo que eso no necesariamente significaba que el modelo estaba mal, salvo que la diferencia sea muy exagerada. Podra significar que en realidad los valores a los que se podan vender las casas eran ms altos que lo que en realidad se vendan.
Pregunta 5: Tabla de 12 viviendas y precios estimados
Datos para 12 Viviendas
N de Modelo14V1V2V3V4V5V6V7V8V9V10V11V12
c
lotsize3.614096500051005202530654125520563157435858597560956217
bedrooms
driveway6062.938010101010101
prefarea9670.989010101010101
garagepl4303.557222222222222
bathrms14835.66222222222222
stories7130.428101010101010
recroom
fullbase7024.24111111111111
gashw12942.93111111111111
airco12956.66111111111111
PRECIO 96,403 105,368 97,133 106,113 97,893 106,887 98,683 107,693 99,505 108,532 100,361 109,405
7Tarea 3: Aplicacin de Regresin Mltiple| MTODOS CUANTITATIVOS