16
1

Modelo de Regresion Lineal Multiple

Embed Size (px)

DESCRIPTION

resumen del mrlm

Citation preview

Page 1: Modelo de Regresion Lineal Multiple

1

Page 2: Modelo de Regresion Lineal Multiple

2

Dedico este trabajo a mis señores padres que trabajan arduamente todos los día para darme una enseña superior.

Page 3: Modelo de Regresion Lineal Multiple

CARATULA ……………………………………………………………………………………………………………………. 1

DEDICATORIA……………………………………………………………………………………………………………….. 2

ÍNDICE…………………………………………………………………………………………………………………………… 3

INTRODUCCION…………….……………………………………………………………………………………………… 4

OBJETIVOS …………………………………………….…………………………………………………………………….. 4

MARCO TEORICO………………………….……………………………………………………………………………… 4

CASO PRACTICO ……………………………………………………………….…………………………………………. 7

BIBLIOGRAFIA ……………………………………………………………………………………………………………… 8

3

INDICE

Page 4: Modelo de Regresion Lineal Multiple

En el capítulo anterior se ha estudiado el modelo de regresión lineal simple, donde

se analizaba la influencia de una variable explicativa X en los valores que toma

otra variable denominada dependiente (Y). En la regresión lineal múltiple vamos a

utilizar más de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar

más información en la construcción del modelo y, consecuentemente, realizar

estimaciones más precisas. Al tener más de una variable explicativa (no se debe

de emplear el término independiente) surgirán algunas diferencias con el modelo

de regresión lineal simple. Una cuestión de gran interés será responder a la

siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, …, xk,

cuáles son las que más influyen en la variable dependiente Y. En definitiva, y al

igual que en regresión lineal simple, vamos a considerar que los valores de la

variable dependiente Y han sido generados por una combinación lineal de los

valores de una o más variables explicativas y un término aleatorio: y b b x b x b x u

= 0 + 1 ⋅ 1 + 2 ⋅ 2 + ... + k ⋅ k + Los coeficientes son elegidos de forma que la suma

de cuadrados entre los valores observados y los pronosticados sea mínima, es

decir, que se va a minimizar la varianza residual. Esta ecuación recibe el nombre

de hiperplano, pues cuando tenemos dos variables explicativas, en vez de recta

de regresión tenemos un plano:

Con tres variables explicativas tendríamos un espacio de tres dimensiones, y así sucesivamente.

4

INTRODUCCIÓ

Page 5: Modelo de Regresion Lineal Multiple

Vamos a ir introduciendo los elementos de este análisis a través de un sencillo ejemplo.

Consideramos una muestra de personas como la que sigue a continuación:

En base a estos datos, vamos a construir un modelo para predecir el peso de una persona (Y). Esto equivale a estudiar la relación existente entre este conjunto de variables y la variable peso (Y).

En primer lugar tenemos que la variable dependiente es el peso; y las variables que vamos a utilizar para predecir el peso reciben el nombre de variables independientes o explicativas.

En la práctica deberemos de elegir cuidadosamente qué variables vamos a considerar como explicativas. Algunos criterios que deben de cumplir serán los siguientes: �

•Tener sentido numérico. �

•No deberá de haber variables repetidas o redundantes �

•Las variables introducidas en el modelo deberán de tener una cierta justificación teórica. �

•La relación entre variables explicativas en el modelo y casos debe de ser como mínimo de 1 a 10. �

•La relación de las variables explicativas con la variable dependiente debe de ser lineal, es decir, proporcional.

5

OBJETIVOS

Page 6: Modelo de Regresion Lineal Multiple

• Conocer la estructura del MRLM.

• Familiarizarse con las hipótesis básicas del MRLM y entender su importancia.

• Conocer los métodos de estimación del MRLM, el método de mínimos cuadrados ordinarios (MCO) y el de máxima verosimilitud (MV).

• Introducirse en el uso de Minitab para estimar el MRLM mediante el MCO.

• Saber cuantificar e interpretar bondad del ajuste del modelo.

• Evaluar la contribución de cada variable exógena en explicar el comportamiento de la variable endógena; contrastar la significación individual de un parámetro y la global del modelo.

• En base de la estimación de MRLM, realizar predicciones puntuales y por intervalo de la variable endógena.

Aparte de estar iniciado en el uso del paquete estadístico Minitab, resulta muy conveniente haber leído con profundidad los siguientes math-blocks relacionados con Estadística:

• Intervalos de confianza y contraste de hipótesis para 1 y 2 poblaciones

• Análisis de regresión y correlación lineal

• Correlación y regresión lineal múltiple

Hipótesis del modelo de regresión lineal múltiple (MRLM) Mediante un modelo de regresión lineal múltiple (MRLM) tratamos de explicar el comportamiento de una determinada variable que denominaremos variable a explicar, variable endógena o variable dependiente, (y representaremos con la letra Y) en función de un conjunto de k variables explicativas X1, X2, ..., Xk mediante una relación de dependencia lineal (suponiendo X1 = 1): Y = β 1 + β 2 ⋅ X 2 +... + β k ⋅ X k +U siendo U el término de perturbación o error Para determinar el modelo anterior, es necesario hallar (estimar) el valor de los coeficientes β1, β2, ..., βk. La linealidad en parámetros posibilita la interpretación correcta de los parámetros del modelo. Los parámetros miden la intensidad media de los efectos de las variables explicativas

6

MARCO

Page 7: Modelo de Regresion Lineal Multiple

sobre la variable a explicar y se obtienen al tomar las derivadas parciales de la variable a explicar respecto a cada una de as variables explicativas: j k X Y j j ; = 1,..., ∂ ∂ β = . Nuestro objetivo es asignar valores numéricos a los parámetros β1, β2, ..., βk. Es decir, trataremos de estimar el modelo de manera que, los valores ajustados de la variable endógena resulten tan próximos a los valores realmente observados como sea posible. A fin de poder determinar las propiedades de los estimadores obtenidos al aplicar distintos métodos de estimación y realizar diferentes contrastes, hemos de especificar un conjunto de hipótesis sobre el MRLM que hemos formulado. Existen tres grupos de hipótesis siguientes: las hipótesis sobre el término de perturbación, las hipótesis sobre las variables explicativas, y las hipótesis sobre los parámetros del modelo.

Hipótesis sobre el término de perturbación: Para una muestra de n observaciones (cada observación estará formada por una tupla con los valores de X2, X3, ..., Xk y el valor de Y asociado), tendremos el siguiente sistema de n ecuaciones lineales:

O, en forma matricial: Y = X⋅B + U, donde:

En estas condiciones, las hipótesis del MRLM se resumen en la esfericidad del término de perturbación, i.e.:

a) El valor esperado de la perturbación es cero: b) Homoscedasticidad: todos los términos de perturbación tienen la misma

varianza (varianza constante): c) Por tanto, todos los términos de la diagonal principal de la matriz de

varianzas y covarianzas serán iguales:

7

Page 8: Modelo de Regresion Lineal Multiple

a) No Auto correlación: los errores son independientes unos de otros, i.e.: la matriz de varianzas y covarianzas es una matriz diagonal (fuera de la diagonal principal todo son ceros):

Observar que, bajo las hipótesis de Homoscedasticidad y no auto correlación, la matriz de varianzas y covarianzas tendrá la forma siguiente:

b) El error o perturbación sigue una distribución normal, i.e.:

Hipótesis sobre las variables explicativas:

a) Las variables explicativas son fijas o deterministas.

b) Las variables explicativas están no correlacionadas con la perturbación aleatoria.

c) Las variables explicativas no presentan relación lineal exacta entre si.

d) Además, supondremos que las variables explicativas son medidas sin error.

e) En el modelo no se excluyen las variables relevantes y que tampoco no se incluyen las variables irrelevantes, a la hora de explicar el comportamiento de la variable endógena.

Hipótesis sobre los parámetros del modelo: a) La única hipótesis que haremos acerca de los parámetros del modelo es la hipótesis de permanencia estructural, lo cual quiere decir que los parámetros poblacionales, βj , se mantienen constantes a lo largo de toda la muestra.

Estimación del MRLM Estimar el modelo equivale asignar valores numéricos a los parámetros desconocidos β1, β2, ..., βk, a partir de la información muestral

8

Page 9: Modelo de Regresion Lineal Multiple

disponible de las variables observables del modelo. Únicamente consideraremos dos métodos de estimación: • El método de mínimos cuadrados ordinarios (MCO) • El método de máxima verosimilitud (MV) Estimación por mínimos cuadrados ordinarios: Sea un modelo en forma matricial Y = X B + U. Supongamos que el⋅ modelo ha sido estimado, obteniéndose Ŷ, vector de valores de la variable dependiente implicado por el modelo. La diferencia entre los valores observados y los valores estimados, e = Y − Yˆ = Y − X Bˆ , la denominaremos vector de⋅ residuos. Ahora bien, nuestro problema consiste en minimizar la suma de los cuadrados de residuos, e’e con respecto del vector de parámetros estimados, B. De este problema de optimización se deduce la siguiente expresión de mínimos

cuadrados ordinarios del MRLM [7]:

Cuya varianza viene dada por:

Además, el estimador MCO de la varianza del término de perturbación es:

Donde n es el número de observaciones y k es el número de elementos del vector B. Bajo la hipótesis de perturbaciones esféricas, el estimador MCO del vector B cumple una serie de propiedades que le convierten en un insesgado (el valor esperado del estimador coincide con el valor real del parámetro), eficiente (de varianza mínima), y consistente.

Además, bajo la hipótesis de esfericidad, el estimador MCO de la varianza del término de error, 2 ˆσ u , es también insesgado. Estimación por máxima verosimilitud: El método de estimación por MCO consiste en asignar valores numéricos a los parámetros desconocidos de manera que la suma cuadrática de errores sea mínima y sólo requiere que la matriz X’X sea invertible. A continuación veremos un método de estimación alternativo, el método de máxima verosimilitud. El método de máxima verosimilitud (MV), en cambio, propone como un estimador el valor que maximiza la probabilidad de obtener la muestra ya disponible. El método MV se basa, prácticamente, en la distribución que sigue el término de error. A tales efectos, se suele suponer que las perturbaciones aleatorias se distribuyen con una distribución Normal que, además de cumplir las propiedades de una muestra grande, es una aproximación cómoda y fácil de tratar. El modelo que utilizaremos es Y = X⋅B + U, y supondremos que el término aleatorio sigue la distribución Normal con la siguiente función de densidad:

9

Page 10: Modelo de Regresion Lineal Multiple

Maximizar la probabilidad de obtener la muestra ya disponible equivale maximizar la función de densidad conjunta del vector aleatorio, u. Para ello, hemos de suponer Homoscedasticidad y ausencia de auto correlación. Por tanto, la expresión de la función de densidad conjunta es la siguiente:

Como U sigue una distribución Normal Multivariante de orden k, la variable Y, al ser una combinación lineal de las perturbaciones aleatorias, también se distribuirá con una distribución Normal Multivariante. Así pues, para que la función de densidad conjunta sea una función de verosimilitud, el vector aleatorio U ha de expresarse en función del vector Y, es decir:

Se trata, por tanto, de maximizar la función de verosimilitud. Como la expresión anterior resulta complicada, aplicaremos una transformación monótona; en concreto, una función logarítmica:

Derivando la función de verosimilitud con respecto de B y σ 2 , e igualando las derivadas a cero, obtenemos los resultados:

Cuya varianza es la siguiente:

Además, el estimador MCO de la varianza del término de perturbación es:

Donde n es el número de observaciones y k es el número de elementos del vector B. Observamos que el estimador de MV de B coincide con el MCO, con lo que

10

Page 11: Modelo de Regresion Lineal Multiple

tendrá las mismas propiedades: será lineal, insesgado, óptimo y consistente. Es fácil ver que el estimador de MV de σ 2, en cambio, resulta diferente del MCO y no es insesgado aunque sí es asintóticamente insesgado. Medidas de la bondad del� ajuste Las estimaciones por MCO y MV que hemos realizado todavía no nos permiten evaluar la calidad de ajuste del modelo. Para ello, de aquí a delante iremos viendo las medidas de bondad de ajuste. Comenzaremos por la suma de los cuadrados de errores, SCE, que puede expresarse de varias formas:

11

Page 12: Modelo de Regresion Lineal Multiple

Uno desea estimar los gastos de la Población Peruana, en base a la información que proporcionan las variables regresoras X1 = Ingresos Corrientes X2 = Gastos Corrientes de la población Peruana. Para ello se recoge una muestra que comienza con el año 2001 hasta el año 2015 en datos estadísticos reales, y para los siguientes años se tomara datos estadísticos proyectados en el año de 2016 hasta 2018 y cuyos resultados se aprecian en la tablas siguiente: (Datos estadísticos sacados de INEI PERU 2001 – 2018)

12

APLICACIÓN EN POLITICA FISCAL

Variables entradas/eliminadasModelo Variables

introducidas

Variables

eliminadas

Método

1 GASTOSNOFINA

NCIEROS,

INGRESOSCORR

IENTESb

. Intro

a. Variable dependiente: TAMAÑO

b. Todas las variables solicitadas introducidas.

Resumen del modeloModel

o

R R cuadrado R cuadrado

ajustado

Error

estándar de

la estimación

1 ,984a ,969 ,964 334544,186

a. Predictores: (Constante), GASTOSNOFINANCIEROS,

INGRESOSCORRIENTES

Page 13: Modelo de Regresion Lineal Multiple

http://www.udc.es/dep/mate/estadistica2/secprac_5_2.html

http://portal.uned.es/pls/portal/docs/PAGE/UNED_MAIN/LAUNIVERSIDAD/VICERRECTORADOS/INVESTIGACION/O.T.R.I/OFERTAS%20TECNOLOGICAS/DMAC/DOCUMENTOS%20Y%20TUTORIALES/REGRESION_LINEAL_MULTIPLE_3.PDF

http://www.uoc.edu/in3/emath/docs/T01_Reg_Lineal_Multiple.pdf

13

CONCLUSION

ANOVAModelo Suma de

cuadrados

gl Media

cuadrática

F Sig.

1 Regresión 51619908720

007,260

2 25809954360

003,630

230,611 ,00

0bp’ñññññññ

ñññññññññññ

ññññññññ

Residuo 16787971831

03,689

15 11191981220

6,913

Total 53298705903

110,945

17

a. Variable dependiente: TAMAÑO

b. Predictores: (Constante), GASTOSNOFINANCIEROS, INGRESOSCORRIENTES

CoeficientesModelo Coeficientes no estandarizados Coeficientes

estandarizado

s

t Sig.

B Error estándar Beta

1 (Constante) 25777448,41

5

185548,624 138,926 ,000

INGRESOSCORRIENTES 34,162 12,058 ,852 2,833 ,013

GASTOSNOFINANCIERO

S

5,276 11,897 ,133 ,444 ,664

a. Variable dependiente: TAMAÑO