27
U N I V E R S I D A D D E SAN MARTIN DE PORRES FACULTAD DE CIENCIAS ADMINISTRATIVAS Y RECURSOS HUMANOS ADMINISTRACION DE NEG. INTERNACIONALES TEMA : GUIA BASICA DE REGRESION LINEAL MULTIPLE CURSO : GERENCIA DE IMPORTACIONES PROFESOR : LUIS PORRAS SOSA

Guia Basica Para Regresion Lineal Multiple

Embed Size (px)

Citation preview

U N I V E R S I D A D D E

SAN MARTIN DE PORRES

FACULTAD DE CIENCIAS ADMINISTRATIVAS Y RECURSOS HUMANOS

ADMINISTRACION DE NEG. INTERNACIONALES

TEMA : GUIA BASICA DE REGRESION LINEAL MULTIPLE

CURSO : GERENCIA DE IMPORTACIONES

PROFESOR : LUIS PORRAS SOSA

INTRODUCCION

A continuación, presentamos la “Guía Básica de Regresion Lineal múltiple” para la resolución de ejercicios y casos por medio de la técnica estadística de predicción, Regresion Múltiple. Esta guía esta diseñada de tal manera que permite un rápido aprendizaje del alumno, logrando que cualquier individuo que tenga poco o ningún conocimiento en esta materia pueda entenderla fácilmente y sin ninguna complicación.

Aprender métodos estadísticos como la Regresion lineal Múltiple nos sirve de mucho como administradores pues nos brinda una herramienta de predicción muy utilizada por los investigadores para estudiar la posible relación entre varias variables independientes (predictoras o explicativas) y otra variable dependiente (criterio, explicada o respuesta).

La presente guía didáctica nos muestra un caso sobre el cual aplicaremos la metodología de regresion lineal múltiple, aquí se indica paso por paso lo que el alumno debe hacer para resolver correctamente dicho caso que no esta muy lejos de presentarse en la vida real y en nuestro campo laboral. Es por eso, que el manejo adecuado de este tipo de técnicas estadísticas es fundamental en nuestro desarrollo profesional.

Sin más preámbulos presentamos esta “Guía básica de Regresion Lineal múltiple” que esperamos sea del agrado del lector pues nos ha costado esfuerzo y dedicación llevarlo acabo.

REGRESION LINEAL MULTIPLE

CASO: PRENDAS Y ACCESORIOS DE BABY ALPACA

La empresa exportadora CUSCOSTORES dedicada a la fabricación y comercialización de prendas de vestir y accesorios hechos de baby alpaca, tiene actualmente un serio problema de suministro de fibra natural de alpaca (este hecho esta causando serias dificultades a esta empresa que tiene más pedidos de los que puede atender). El gerente general convoco una junta de urgencia con todos los gerentes de área (producción, logística, mercadotecnia etc.) para poder determinar cuales son los principales factores que afectan el suministro de fibra de alpaca la cual es proporcionada por los criadores alpaqueros de Junin. Después, de un exhaustivo análisis llegaron a determinar los siguientes factores influyentes: Demanda de baby alpaca por mercados internacionales, número de empresas del mismo rubro, número de camélidos criados en la zona de Junín, precio de la fibra natural de alpaca, Inversión en el sector de camélidos que esta relacionado directamente con la calidad de la fibra. A continuación, mostramos los datos obtenidos de estas variables en los periodos de 1990 al 2009:

AÑOS

CANTIDAD DE

FIBRA DE ALPACA

(toneladas)

DEMANDA DE BABY ALPACA(miles

toneladas)

NUMERO DE EMPRESAS(unidades)

PRECIO DE FIBRA

NATURAL DE ALPACA

X kg(soles)

NUMERO DE CAMELIDOS

(miles de unidades)

INVERSION EN SECTOR CAMELIDOS

(millones S/.)

1990 10.450 17.850 10 14.50 132.970 42.4501991 10.455 17.450 10 14.50 132.990 43.6701992 10.456 18.200 11 14.55 133.100 43.5601993 11.000 18.345 12 14.55 132.980 45.0001994 10.992 18.670 15 14.95 132.700 44.9871995 11.101 19.300 15 14.60 133.200 44.9901996 11.140 19.260 16 14.60 133.270 45.0011997 11.018 19.450 20 14.90 131.900 44.6701998 11.580 19.933 22 14.65 132.680 45.1021999 11.820 20.300 22 14.65 133.100 45.2302000 12.340 20.002 27 14.57 134.200 45.7622001 12.202 20.420 28 14.56 133.870 44.6702002 12.456 21.010 35 14.56 133.940 45.0982003 12.667 21.308 37 14.55 134.020 45.8922004 12.980 21.670 39 14.60 134.872 45.9022005 12.993 22.000 42 14.55 134.502 46.1202006 13.000 22.103 47 14.50 135.780 47.5002007 12.988 22.930 49 15.00 133.233 45.0952008 12.930 23.104 55 15.15 133.050 45.0002009 12.840 23.500 62 15.92 132.090 45.120

Con estos datos se construirá un modelo de regresion lineal múltiple para determinar la relación que existe entre el problema de suministro de fibra natural de alpaca y las otras variables independientes. En este caso trataremos de conocer si realmente alguna de estas cinco variables explica la magnitud de la variación razonable en la variable dependiente.

A continuación, mostramos como desarrollar este caso a través del programa Excel (Microsoft office)

¿Cómo configurar Análisis de datos en mi computadora?

1. Dar un click sobre con el botón derecho del mouse. Luego dar un click sobre “Personalizar barra de herramientas de acceso rápido….” con el botón izquierdo del mouse.

RECOMENDACIONES:

Para la realización de este caso, se utilizará el programa Excel del office 2007, en el cual debe estar configurado análisis de datos.

En análisis de datos encontraremos la función Regresion la cual se requerirá para resolver este caso.

2. Aparecerá una ventana con opciones de Excel, debemos clickear “complementos” con el botón izquierdo del mouse.

3. A continuación, aparecerá otra ventana de “complementos disponibles”. Debemos seleccionar “Herramientas para análisis” y aceptar.

Luego, Click izquierdo sobre “Herramientas para análisis”

Después, Click izquierdo sobre “ir”

Click izquierdo sobre “Aceptar”

4. Después de esto, debemos esperar un poco para que se configure la función análisis de Datos en el programa de Excel. Luego, podremos empezar a desarrollar nuestro caso PRENDAS Y ACCESORIOS DE BABY ALPACA

¿Cómo empiezo a desarrollar el caso propuesto?

1. Lo primero que debemos hacer es contar con toda la información que requerimos. Debemos tener datos de la variable dependiente (CANTIDAD DEFIBRA DE ALPACA) y de las variables independientes (DEMANDA DE BABY ALPACA, NÚMERO DE EMPRESAS DEL MISMO RUBRO, NÚMERO DE CAMÉLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA, INVERSIÓN EN EL SECTOR DE CAMÉLIDOS) que van a tratar de explicar nuestro modelo.

Click izquierdo sobre “Análisis de datos”

2. Luego, aparecerá una ventana de “Análisis de datos”, debemos Clickear la función “regresion” y aceptar.

3. A continuación, aparecerá una ventana de “Regresion”, en donde deberemos seleccionar los datos de todas nuestras variables. En la parte Rango Y de entrada debemos seleccionar los datos de nuestra variable dependiente Y (CANTIDAD DE FIBRA DE ALPACA).

Click izquierdo sobre “Función Regresion” y luego “Aceptar”

4. De la misma manera en la parte Rango X de entrada seleccionaremos todos los datos de nuestras variables independientes (DEMANDA DE BABY ALPACA, NÚMERO DE EMPRESAS DEL MISMO RUBRO, NÚMERO DE CAMÉLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA, INVERSIÓN EN EL SECTOR DE CAMÉLIDOS).

10. A continuación mostramos los resultados obtenidos a través del análisis de regresion:

bo = -10.44072181 b1 = 0.386855638 b2 = 0.012797219

b3 = - 0.442265404 b4 = 0.12540536 1 b5 = 0.085558379

11. A continuación tenemos que construir nuestra ecuación de la regresión múltiple en base a los coeficientes que hemos obtenidos del Excel, la cual va ser construido de la siguiente manera.

Y = -10.44072181 + 0.386855638 X1 + 0.012797219 X2 - 0.442265404 X3

+ 0.125405361 X4 + 0.085558379 X5

12. una vez que construimos nuestra ecuación de regresión múltiple con los datos que nos proporciona el Excel, tenemos que hacer una Prueba global para poder determinar si nuestro modelo sirve o no sirve, es decir si nuestras variables independientes (DEMANDA DE BABY ALPACA, NÚMERO DE EMPRESAS DEL MISMO RUBRO, NÚMERO DE CAMÉLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA E INVERSIÓN EN EL SECTOR DE CAMÉLIDOS pueden explicar a nuestra variable respuesta cantidad de fibra de alpaca. Esta prueba no especifica que variable independiente explica a la variable dependiente, puede ser uno, dos, tres o todas, lo que se busca como se menciono anteriormente es que el modelo sirva. Para esto tenemos que hacer una prueba global que se va realizar a través del análisis de varianza.

13. En el análisis de varianza vamos a explicar primero los grados de libertad

14. A continuación, explicaremos como el Excel haya el promedio de los cuadrados tanto de la regresión como de los residuos

El grado de libertad de la regresión es “K” que es el número de variables independientes en este caso son 5 como (DEMANDA DE BABY ALPACA, NÚMERO DE EMPRESAS DEL MISMO RUBRO, NÚMERO DE CAMÉLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA E INVERSIÓN EN EL SECTOR DE CAMÉLIDOS.

El grado de libertad del residuo es de la Formula GL = N – K -1, donde N es el número de observaciones que en este caso es 20, K es el número de variables independientes, lo que restado a -1 resulta 14 que sumado a los grados de libertad de la regresión es 19.

15. Una vez que se ha visto como se ha determinado el promedio de cuadrados tanto de la regresión como para los residuos se va explicar como resulta el F calculado (a través de Excel), que en este caso resulta 80.34. Pero antes de explicar el F calculado vamos a dar los pasos que se siguen en forma teórica para determinar la validez de este modelo.

1. Formulación de hipótesis

H0: b1 = b2 = b3 =b4 =b5 = 0

Ha: b1 ¹ b2 ¹ b3 ¹ b4 ¹ b5¹ 0

2. Determinación del nivel de significacióna = 0,10

3. Selección de la prueba estadística:

Fc = 3.454972369 = 80.3499358

0.042999068

El Promedio de los cuadrados de la regresión resulta de dividir la Suma de cuadrados de la regresión entre los Grados de libertad de la regresión. (De la misma manera es con el promedio cuadrado de los residuos).

Si se acepta la hipótesis planteada, significa que ninguno de los factores (X1, X2, X3, X4 y X5) son relevantes para explicar los cambios en Y.

Para que el modelo sea válido se tiene que rechazar la H0 (Hipótesis planteada) y aceptar la Ha (Hipótesis alternante) que significa que al menos una de las variables independientes explican a la variable respuesta.

Se realiza a partir del

Análisis de Varianza

de la Regresión y tiene como objeto

Fc=CM e Re gresión

CM e Re siduos

16. El F calculado (de Excel) es el punto más importante del análisis de varianza, ya que me va determinar si mi modelo sirve o no sirve, pero para determinar esto tengo que compararlo con el F de tabla. A continuación se va explicar como hallar el F de tabla.

Se coloca el cursor en cualquier celda libre para obtener el F de tabla y compararlo con el F calculado.

Click izquierdo en Fx y nos va salir el siguiente cuadro

En seleccionar una categoría dar click en Estadísticas y en seleccionar una función dar click en DISTR.F.INV y luego dar click en Aceptar.

= 0,05

(1 - 0,95

2αF

17. A continuación, podemos observar un cuadro de argumento de función donde en probabilidad colocaremos 0.05 que es mi nivel de significancia. Si bien es cierto que mi nivel de significancia es 0.1 por tratarse de una distribución que no es normal el a que es 0,10 se divide entre 2 por la forma de distribución que podemos observar en la siguiente figura.

18. Una vez determinado el F de tabla, se compara con el F calculado por Excel. Como en este caso el F calculado es mayor que el F de tabla podemos afirmar que nuestro modelo es válido, es decir que al menos una de las variables independientes explica a la variable respuesta cantidad de fibra de alpaca

Una vez que se ha completado los datos dar click en Aceptar.

Se compara el F de tabla con el F calculado

19. Otra manera de determinar si el modelo es válido es comparando el Nivel de significancia con el Valor crítico de F. Si el valor crítico de F es menor que el nivel de significancia entonces el modelo es válido, es decir que al menos uno de las variables independientes explican a la variable dependiente cantidad de Fibra de Alpaca como es en este caso.

Antes de pasar a la Prueba individual podemos concluir que de la Prueba global, se obtuvo un valor Fc > Ft y a/2 > p-valor por lo tanto se rechaza la hipótesis planteada, se acepta la hipótesis alternativa a un nivel de significación de 0,10. La prueba resultó ser significativa. Hay evidencia muestral suficiente para rechazar la hipótesis planteada (hipótesis nula) Probablemente al menos uno de los factores seleccionados (DEMANDA DE BABY ALPACA, NÚMERO DE EMPRESAS DEL MISMO RUBRO, NÚMERO DE CAMÉLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA E INVERSIÓN EN EL SECTOR DE CAMÉLIDOS) explican el comportamiento de la cantidad de fibra de alpaca.

20. Una vez que se ha determinado la validez del modelo, se va realizar una Prueba Individual para poder saber cual de las variables independientes explican mejor a mi variable respuesta cantidad de fibra de alpaca. Para esto se va realizar la Prueba estadística T que se va analizar en el siguiente cuadro.

Se compara el Nivel de significancia con el Valor crítico de F.

Se coloca el cursor en cualquier celda libre para obtener el T de tabla y compararlo con el T calculado (por Excel).

Click izquierdo en fx y nos va salir el siguiente cuadro

En seleccionar una categoría dar click en Estadísticas y en seleccionar una función dar click en DISTR.T.INV y luego dar click en Aceptar.

21. A continuación, podemos observar un cuadro de Argumento de función donde en Probabilidad colocaremos 0.1 que es mi nivel de significancia. En el estadístico T la distribución es normal por esa razón mi nivel de significancia es 0.1 como se muestra en el cuadro. Los grados de libertad son de los residuos que es 14.

22. Una vez determinado el T de tabla, se compara con cada uno de los T calculados (estadístico T) por Excel.

Una vez que se ha completado los datos dar click en Aceptar.

Este resultado es el T de tabla

Para determinar que variable independiente explica mejor a mi variable respuesta cantidad de fibra de alpaca se compara el T de tabla con cada uno de los T calculados por Excel. Si el T calculado es mayor al T de tabla entonces esa variable explica a la variable respuesta, pero si el T calculado es menor al T de tabla eso quiere decir que no hay relación entre la variable independiente con la variable respuesta (cantidad de fibra de alpaca). En el caso, la única T calculada que es mayor al T de tabla es 2.394313948 que corresponde a la variable independiente “DEMANDA DE BABY ALPACA”, por lo que podemos concluir que es la única variable que explica a la cantidad de fibra de alpaca.

23. Otra manera de determinar que variable explica mejor a mi variable respuesta, es comparando el Nivel de Significancia con la Probabilidad. Si la Probabilidad es menor que el Nivel de significancia entonces la variable independiente explica a mi variable respuesta.

Podemos observar que la Probabilidad de la demanda de baby alpaca es la única que es menor al Nivel de significancia, por lo que es la única variable independiente que explica a la variable dependiente (cantidad de fibra de alpaca).

24. La variable X1 será considerada en el modelo de regresión múltiple. El nuevo modelo, determinado por la prueba individual será:

Y = b0 + b1 * X1 (Demanda de baby alpaca)

Con estos datos se construirá un nuevo modelo de regresión lineal múltiple para determinar la relación que existe entre el problema de Suministro de fibra natural de Alpaca y la Demanda de fibra de alpaca.

AÑOSCANTIDAD DE

FIBRA DE ALPACA (Toneladas)

DEMANDA DE BABY ALPACA (miles

toneladas)1990 10.45 17.851991 10.455 17.451992 10.456 18.21993 11 18.3451994 10.992 18.671995 11.101 19.31996 11.14 19.261997 11.018 19.451998 11.58 19.9331999 11.82 20.32000 12.34 20.0022001 12.202 20.422002 12.456 21.012003 12.667 21.3082004 12.98 21.672005 12.993 222006 13 22.1032007 12.988 22.932008 12.93 23.1042009 12.84 23.5

¿Cómo empiezo a desarrollar el nuevo modelo propuesto?

25. Luego, aparecerá una ventana de “Análisis de datos”, debemos Clickear la función “regresión” y aceptar.

26. A continuación, aparecerá una ventana de “Regresión”, en donde deberemos seleccionar los datos de las dos variables. En la parte Rango Y de entrada debemos seleccionar los datos de nuestra variable dependiente (CANTIDAD DE FIBRA DE ALPACA).

Una vez que tenemos los datos de las dos variables en Excel damos Click izquierdo sobre “Análisis de datos”

Click izquierdo sobre

27. De la misma manera en la parte Rango X de entrada seleccionaremos todos los datos de la variable independiente (DEMANDA DE BABY ALPACA).

Click izquierdo sobre

28. A continuación mostramos los resultados obtenidos a través del análisis de regresión:

Click izquierdo sobre “Rótulos” ya que los seleccionamos junto con los datos.

Verificar que se tenga un nivel de confianza de 95% (es decir solo 0.5% de error).

Si queremos que los resultados salgan en una nueva celda, click izquierdo sobre “Rango de salida”

Si queremos ver residuos click izquierdo sobre “Residuos” y “grafico de residuales”

Por ultimo, Click izquierdo sobre “Aceptar”

Nuestro nuevo modelo de regresión lineal es Y = 1.607876727 + 0.504542632 * X1

29. Luego, se va hacer la Prueba “R” del primer análisis de regresión con todas las variables independientes (DEMANDA DE BABY ALPACA, NÚMERO DE EMPRESAS DEL MISMO RUBRO, NÚMERO DE CAMÉLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA E INVERSIÓN EN EL SECTOR DE CAMÉLIDOS

bo = 1.607876727 b1 = 0.504542632

La Correlación múltiple es del 98.30%, podemos afirmar que las variables independientes se encuentran asociadas en forma directa de una manera muy fuerte.

El R cuadrado ajustado indica que mis variables independientes explican en un 95.42% a mi variable cantidad de fibra de alpaca.

30. Para finalizar este caso se va realizar la Prueba “R” de la variable cantidad de fibra de alpaca con la variable independiente Demanda de baby alpaca.

31. Con la ecuación hallada podríamos realizar pronósticos, mas no es recomendable ya que la verdadera finalidad de la Regresion lineal Múltiple es la predicción de respuestas a partir de variables explicativas.

BIBLIOGRAFIA:

LEVIN, Richard y Rubin David S., Estadística para administración y economía, séptima edición, Pearson educación, Mexico, 2004, pag. 565-595

MONTGOMERY, Douglas C., Peck Elizabeth A., Vining G. Geoffrey., Introducción al Análisis de Regresión lineal, Continental, Mexico, 2005, 588 paginas.

La Correlación múltiple es del 94.40%, podemos afirmar que las Demanda de baby alpaca se encuentra asociada de una manera muy fuerte con la variable dependiente Cantidad de fibra de alpaca

El R cuadrado ajustado indica que el 88.50% de los cambios en la variable dependiente “Cantidad de fibra de alpaca” son explicados por la variable independiente Demanda de baby alpaca. Una sola variable explica el 88.5% de la variable respuesta, lo cual es mejor que el 95.42 % que fue explicado por las cuatro variables independientes que vimos en la anterior prueba “R”.