View
229
Download
2
Category
Preview:
Citation preview
Universidad Católica del Norte Escuela de Negocios Mineros Magister en Gestión Minera
Análisis de Datos y Métodos Cuantitativos para la D.T.
VI versión MGM
Antofagasta, Junio de 2013
Profesor: Fernando Vial
Análisis de Regresión y de Correlación Múltiple
Capítulo 14
OBJETIVOS
1. Describir la relación entre algunas variables independientes y la variable dependiente utilizando análisis de regresión múltiple.
2. Calcular e interpretar el error estándar de un estimación, el coeficiente de determinación múltiple, y el coeficiente de determinación múltiple ajustado.
3. Conducir una prueba de hipótesis para determinar si los coeficientes de regresión difieren de cero.
4. Conducir una prueba de hipótesis acerca de cada coeficiente de regresión. 5. Utilizar análisis residual para evaluar los supuestos del análisis de regresión
simple. 6. Evaluar los efectos de variables independientes correlacionadas. 7. Utilizar y entender variables independientes cualitativas. 8. Comprender e interpretar el método de regresión por etapas. 9. Comprender e interpretar la interacción posible entre variables
independientes.
Regresión Lineal Múltiple – Resultados de Minitab para el Ejemplo de Salsberry Realty
a
b3
b1
b2
La Ecuación de Regresión Múltiple– Interpretando los Coeficientes de Regresión y Aplicando el Modelo para Estimación
Interpretando los Coeficientes de Regresión El coeficiente de regresión para la temperatura
exterior media, X1, es 4.583. El coeficiente es negativo – a medida que la temperatura exterior se incrementa, el costo de calefaccionar la vivienda se reduce. Por manteniendo las otras variables constantes, se espera que el costo mensual de calefacción se incremente en $4.583 .
La variable de aislación del ático, X2, también
exhibe una relación negativa (coeficiente negativo). A mayor aislación en el ático, menor es el costo de calefaccionar la vivienda. Por cada pulgada adicional de aislación, el costo de calefaccionar la vivienda declina en $14.83 por mes.
La variable de antigüedad del calefactor muestra
una relación directa. Con un calefactor antiguo, el costo de calefacción se incrementa. Por cada año adicional de antigüedad de la caldera, se espera que el costo de calefacción se incremente en $6.10 por mes.
Aplicando el Modelo de Estimación
Cuál es el costo estimado de calefacción para una vivienda si la temperatura media exterior son 30 grados, se tienen 5 pulgadas de aislación en el ático y el calefactor tiene 10 años de antigüedad?
Minitab
Variación Explicada
Variación No explicada
Ecuación de Regresión
Estimación del error estándar Coeficiente de Determinación
F Calculado
Coeficiente de Determinación Multiple (r2)
Coeficiente de Determinación Múltiple 1. Simbolizado por R2. 2. Va desde 0 a 1. 3. No puede asumir valores negativos. 4. Fácil de interpretar. R2 Ajustado 1. El número de variables independientes en
una regresión múltiple incrementa el valor del coeficiente de determinación.
2. Si el número de variables, k, y el tamaño muestral, n, son iguales, el coeficiente de determinación es 1.0.
3. Para balancear el efecto que tiene el número de variables independientes en el coeficiente de determinación múltiple, se utiliza el R2 ajustado.
Evaluando los Coeficientes de Regresión Individuales (βi = 0)
• La prueba de hipótesis es como sigue:
H0: βi = 0
H1: βi ≠ 0
Rechazar H0 if t > t/2,n-k-1 or t < -t/2,n-k-1
• La prueba estadística es la distribución t con
• n-(k+1) grados de libertad. La fórmula para calcular el estadístico de prueba es:
• Esta prueba es utilizada para determinar qué variables independientes tienen coeficientes de regresión diferentes de cero.
• Las variables que poseen coeficientes de regresión cero usualmente son descartadas del análisis.
Rechace H0 si:
t > ta /2,n-k-1 t < -ta /2,n-k-1
bi - 0
sbi
> ta /2,n-k-1 bi - 0
sbi
< -ta /2,n-k-1
bi - 0
sbi
> t.05/2,20-3-1 bi - 0
sbi
< -t.05/2,20-3-1
bi - 0
sbi
> t.025,16 bi - 0
sbi
< -t.025,16
bi - 0
sbi
> 2.120 bi - 0
sbi
< -2.120
-2.120 2.120
Calculando los t para las pendientes
Computed t -2.120 2.120
-5.93 (Temp)
-3.119 (Insulation)
1.521 (Age)
Conclusión:
La variable AGE no posee una pendiente
significativamente diferente de 0, pero las variables
TEMP e INSULATION tienen pendientes que son
significativamente diferentes de 0
Reestime un nuevo modelo sin la variable AGE
Nuevo de Modelo de Regresión sin la Variable “Antigüedad” – Minitab
-2.110 2.110
-7.34 (Temp)
-2.98 Insulation
Conclusión:
A un 0.05 de significancia, las pendientes (coeficientes) las variables TEMP e INSULATION
Del modelo de regresión lineal de 2 variables son significativamente diferentes de 0.
Evaluando los Supuestos de la Regresión Múltiple
1. Existe una relación lineal. Existe una relación de línea recta entre la variable dependiente y el conjunto de variables independientes.
2. La variación en los residuos es la misma tanto para valores pequeños o grandes del Y estimado. En otras palabras, los residuos no están relacionados con la magnitud de Y.
3. Los residuos siguen una distribución de probabilidad normal.
4. Las variables independientes no deben estar correlacionadas. Debemos seleccionar un conjunto de variables que no estén correlacionadas.
5. Los residuos son independientes. Este supuesto es usualmente violado cuando las variables dependen del tiempo.
Un residuo es la diferencia entre el valor real de Y y el valor predicho de Y.
Multicolinealidad
• La Multicolinealidad existe cuando La variables independientes (X’s) están correlacionadas.
• Los Efectos de la Multicolinealidad en el
Modelo:
1. Una variable independiente que se asume como un predictor importante puede terminar teniendo un coeficiente de regresión no significativo.
2. Un coeficiente de regresión que debería tener un signo positivo termina apareciendo como negativo, o vice versa.
3. Cuando una variable independiente is adicionada o removida, se produce un cambio drástico en los valores de los coeficientes de regresión restantes.
• Cuando, las variables independientes e encuentran correlacionadas esto no afecta la capacidad de la ecuación de regresión para predecir la variable dependiente (Y).
Una regla general es que si la correlación entre dos variables independientes se encuentra entre -0.70 y 0.70 probablemente no hay problema en utilizar ambas variables independientes.
Una prueba más precisa es utilizar el factor de inflación de varianza (VIF).
Un VIF > 10 es insatisfactorio. Remueva la variable independiente del análisis.
El valor de VIF se calcula como sigue:
El término R2j se refiere al coeficiente
de determinación, donde la variable independiente seleccionada es utilizada como variable dependiente y el resto de las variables independientes son utilizadas como variables independientes.
21
1
jRVIF
Multicolinealidad – Ejemplo
Observe los datos de la tabla, estos relacionan los costos de calefacción con variables independientes como la temperatura externa, la cantidad de aislante, y la antigüedad del calefactor.
Existe un problema con la multicolinealidad? Encuentre e interprete el factor de inflación
de varianza para cada variable independiente.
El valor del VIF de 1.32 es menor que el valor del límite superior de 10. Esto indica que la variable independiente temperatura no se encuentra fuertemente correlacionada con otras variables.
Variables Cualitativas - Ejemplo
Frecuentemente queremos utilizar en el análisis variables medidas en escalas nominales—tales como género, si la casa posee piscina o no, o si el equipo es local o visita. Estás se conocen como variables cualitativas.
Para usar una variable cualitativa en el análisis de regresión, utilizaremos el esquema de las variables dummy en las cuales una de las posibles condiciones se codifica como 0 y la otra como 1.
EJEMPLO
Suponga en el ejemplo de Salsberry Realty que se adiciona la variable independiente “garage”. A los hogares sin un garage se les asigna 0; a los hogares con garage se les asigna 1.
Sin garage
Con garage
Modelos de Regresión con Interacción
• Suponga que estudiamos la pérdida de peso y asuma, como la literatura actual sugiere, la dieta y el ejercicio se encuentran relacionados. La variable dependiente es la cantidad de cambio en el paso y las variables independientes son: la dieta (si o no) y el ejercicio (ninguno, moderado, significativo). Estamos interesados en investigar si aquellas personas que mantuvieron su dieta y ejercicio incrementaron significativamente el promedio de reducción de positivo?
• En el análisis de regresión la interacción puede
incluirse como una variable independiente separada. Una variable de interacción puede construirse multiplicando una variable independiente con otra, con esto se crea una nueva variable independiente. Un ejemplo es:
• Recuerde el ejemplo del costo de calefacción. Existe una interacción entre la temperatura exterior y la cantidad de aislante? Si ambas variables se incrementan, es el efecto en los costos de calefacción mayor que la suma de ahorros derivados de temperaturas mayores y de los ahorros de mayor aislación separadamente?
.
Universidad Católica del Norte Escuela de Negocios Mineros Magister en Gestión Minera
Análisis de Datos y Métodos Cuantitativos para la D.T.
VI versión MGM
Antofagasta, Junio de 2013
Profesor: Fernando Vial
Recommended