8/21/12
1
Regresión lineal múltiple Cátedra de Diseño de Experimentos Escuela de Ingeniería Industrial Universidad de Costa Rica
Agenda
1. Introducción al análisis de regresión múltiple
2. Análisis de regresión con software
3. Elección de las variables del modelo
4. Caso de estudio
5. Asignación de tarea
6. Revisión de casos de estudio
8/21/12
2
Análisis Multivariante
En un sentido amplio se refiere a todos los métodos estadísticos que analizan simultáneamente medidas múltiples de cada individuo u objeto de investigación.
Es el conjunto de técnicas estadísticas de análisis de datos
Regresión lineal múltiple
8/21/12
3
Regresión lineal múltiple
Es el método de análisis más apropiado cuando el problema del investigador incluye una única variable métrica dependiente que se supone está relacionada con una o más variables métricas independientes.
El objetivo es predecir los cambios en la variable dependiente en respuesta a cambios en varias de las variables independientes.
Regresión lineal múltiple
Los métodos estadísticos (estocásticos) de predicción y optimización
Conocidos de manera genérica cómo Análisis de respuesta superficial.
La regresión múltiple es uno de ellos.
8/21/12
4
Variables independie
ntes
Ponderaciones
Valor teórico
Análisis multivariante
Valor teórico
Donde las wi son las ponderaciones de cada variable, que reflejan la influencia de cada una de ellas sobre el valor teórico en su conjunto.
Regresión lineal múltiple
8/21/12
5
Regresión lineal múltiple
Regresión lineal múltiple
Dado este problema se busca minimizar las distancias verticales (y) desde cada uno de los puntos hasta el plano de mejor ajuste.
Se aplica el método de mínimos cuadrados para obtener las estimaciones de los coeficientes B0, B1 y B2 en el caso que tengamos dos variables independientes.
En este caso la ecuación que se requeriría minimizar es:
yi ! !0 +!1xi1 +!2xi2( )"# $%2&
8/21/12
6
Regresión lineal múltiple
De esta ecuación se obtiene:
y = nb0 + b1 x1 + b2 x2!!!x1y = b0 x1 + b1 x1
2 + b2 x1x2!!!!x2y = b0 x2 + b1 x1x2 + b2 x2
2!!!!
¿De qué estamos hablando?
Ejemplo
Los siguientes datos se refieren al número de torceduras requeridas para romper una barra hecha con una cierta aleación forjada y a los porcentajes de dos elementos aleantes presentes en el metal:
8/21/12
7
# Torceduras (y) % elemento A (x1) % elemento B (x2)
41 1 5
49 2 5
69 3 5
65 4 5
40 1 10
50 2 10
58 3 10
57 4 10
31 1 15
36 2 15
44 3 15
57 4 15
19 1 20
31 2 20
33 3 20
43 4 20
Con estos datos podemos calcular:
x1 = 40!
x2 = 200!
x12 =120!
x1x2 = 500!
x22 = 3000!
y = 723!x1y =1963!x2y = 8210!
8/21/12
8
723=15b0 + 40b1 + 200b21963= 40b0 +120b1 + 500b28210 = 200b0 + 500b1 +3000b2
y = 46, 4+ 7, 78x1 !1,65x2
Si se necesita conocer cuántas torceduras se requieren para
romper una de las barras cuando el porcentaje del
elemento x1 es 2,5 y el porcentaje del elemento x2 es 12
y = 46, 4+ 7, 78(2, 5)!1,65(12)= 46.0
8/21/12
9
¿Recuerdan los supuestos del modelo?
Normalidad
Independencia
Misma varianza
De igual manera se prueba con los residuos
¿Qué pasaría con software? Análisis de salida del software
8/21/12
10
Caso de estudio
Durante cierta cirugía el médico puede requerir bajar la presión arterial del paciente por medio de la aplicación de cierta droga. Después de finalizada la cirugía, regresar la presión arterial del paciente a la normalidad depende de la dosis de droga administrada y el promedio de presión sistólica que el paciente mostró durante la operación.
La administración del hospital y los médicos desean estudiar la relación entre la dosis de una nueva droga, el promedio de presión sistólica durante la operación y el tiempo que toma la presión arterial del paciente en regresar a la normalidad, una vez que ha cesado la aplicación de la droga.
Regresión múltiple (Minitab)
Los estudiantes a esta altura de la carrera ya están familiarizados con el software y el ingreso de datos
El resultado se obtiene con la siguiente ruta: Minitab Stat Regression
Un ejemplo de salida del software se presenta a continuación
8/21/12
11
Veamos los resultados
1. La ecuación de regresión.
2. Existe regresión. El valor F es 7.36 y es significante a 0.002.
8/21/12
12
Veamos los resultados
3. Existe relación entre la variable dependiente e independientes.
4. El valor T nos dice también cual de las variables regresoras tiene mayor efecto sobre la variable respuesta. En este caso la dosis.
Veamos los resultados
3. El modelo de regresión múltiple explica el 22,5 % de la variación en el tiempo de recuperación de los pacientes
4. Además existen algunos de los datos recopilados sobre los que deberíamos prestar atención pues están muy alejados de los patrones esperados
8/21/12
13
Comprobación de supuestos
Otros análisis importantes
R2 y R2 ajustado R2 es el mismo valor estudiado en la regresión lineal
simple, conocido cómo Coeficiente de correlación
R2 ajustado, se basa en una ecuación dónde el coeficiente de regresión se ajusta para incluir la ponderación relacionada a la cantidad de muestras y variables independientes en el modelo.
Se debe tener cuidado con el rango de acción. R2 pronosticado
8/21/12
14
Otros análisis importantes
EL Factor de inflación de la varianza (VIF) Explica cuanto de error estándar (Se Coef) de una
variable independientes puede ser explicado por su interrelación con otras variables independientes
Se solicita su cálculo independientemente.
No aplica a la constante
El valor VIF nunca puede ser menor que 1
Si el valor VIF es grande (Mayor que 10) tenemos un problema de colinealidad.
Con un problema de colinealidad se debería optar por trabajar con subgrupos: Stepwise Regression y Best Subsets Regression
Elección de las variables del modelo
8/21/12
15
Elección de variables predictoras
Los problemas de investigación, generalmente asocian muchas variables a la solución de un problema
Generalmente resulta muy difícil, sino imposible estudiarlas todas. Por esta razón debe de realizarse una elección.
Los métodos para realizar esta elección son: Análisis progresivo de regresión
Análisis de mejores subconjuntos
Problemas por elección de malos regresores
Existe cuatro posibles salidas de un análisis de regresión: i. El modelo de regresión esta “Especificado
correctamente”
ii. El modelo de regresión está “Sub especificado”
iii. El modelo de regresión tiene una o más “Variables extrañas”
iv. El modelo de regresión esta “Sobre especificado”
8/21/12
16
Las posibles salidas
Modelo de regresión estimado correctamente
La ecuación contiene todos los predictores relevantes y solamente los relevantes. No hay predictores del modelo perdidos, redundantes o extraños.
Coeficientes de regresión, predicciones de respuesta y cálculo de error insesgados.
Este es el resultado que queremos obtener.
Las posibles salidas
Modelo de regresión sub especificado
Cuando a la ecuación le falta uno o más predictores importantes.
Quizás el peor escenario.
Los predictores están sesgados.
El error de estimación sobre estimado
En la vida real no tenemos como distinguir estos sesgos.
8/21/12
17
Las posibles salidas
Modelo de regresión contiene variables extrañas
Las variables extrañas no están ligadas a la variable respuesta ni
a ninguna otra variable preditora.
Buena noticia: la estimación de parámetros y de respuesta, así
como el MSE son insesgados.
La mala noticia, perdemos grados de libertada para el MSE.
Con menos grado se libertad, nuestros intervalos de confianza
son más anchos y las pruebas de hipótesis son menos potentes.
Las posibles salidas
Modelo de regresión sobre especificado
Cuando a la ecuación tiene una o más variables redundantes
La estimación de parámetros y de respuesta, así como el MSE son insesgados.
Problemas de multicolinealidad.
Errores estándar de coeficientes de regresión están inflados
No debería utilizarse para asignar los efectos específicos de los predictores
8/21/12
18
Recomendaciones para construcción del modelo
1. Identifique adecuadamente su objetivo de análisis u investigación
2. Identifique todos los posibles candidatos de predictores.
3. Use procedimientos de selección de predictores para encontrar el balance entre modelos sub especificados y modelos con variables extrañas o redundantes.
4. Ajuste adecuadamente el modelo (detalles de residuales, interacciones, escalas, etc).
Análisis progresivo de regresión Stepwise regression
8/21/12
19
Para esto necesitamos
8/21/12
20
Ejemplo
Investigadores están interesados en conocer cómo la composición química del cemento afecta la evolución del calor durante el endurecimiento del cemento. La variable respuesta “y” es: Evolución del calor en calorías durante el calentamiento del cemento, en una base por gramo. Y las posibles variables regresoras son:
X1= % de aluminio tri calcio
X2 = % de Silicato tri calcio
X3 = % de Aluminio ferrita tri calcio
X4= % de Silicato bi calcio
En una matriz de diagramas de dispersión se puede apreciar:
8/21/12
21
El procedimiento
Recordemos: Empezamos sin predictores y los agregamos y retiramos basados en los resultados parciales de la prueba F, es decir, los resultados de la prueba T de los parámetros
que son obtenidos hasta el momento. Nos detenemos cuando no es justificables eliminar o agregar
predictores.
Inicio del procedimiento
Se debe definir un nivel de significancia para decidir cual variable debe entrar en el modelo, a este valor se le llamará “Alfa para entrar” , αE
Se debe definir un “Alfa para salir” también.
Muchos softwares estadísticos, incluido minitab, tienen configurados estos niveles de significancia en 0,15.
8/21/12
22
Paso 1
Calcule la regresión de manera independiente de cada predictor (xn) con respecto a la variable respuesta (y).
De los predictores que tengan un valor P de la prueba T más pequeño que 0.15, escoja al menor para incluirlo en el modelo progresivo.
Si ninguno es más pequeño que 0.15, deténgase.
Paso 2
Supongamos que x1 fue la variable regresora más pequeña de aquellas con el valor P menor que 0,15 en el paso 1. Es decir el mejor predictor.
Ajuste cada pareja posibles de predictores utilizando x1, es decir: x1 y x2; x1 y x3; …. x1 y xp-1.
La pareja de predictores que tengan un valor P de la prueba T más pequeño que 0.15, escoja al menor para incluirlo en el modelo progresivo.
Si ninguno es más pequeño que 0.15, deténgase, el modelo con un predictor obtenido en el paso 1 es su modelo final.
8/21/12
23
Paso 2. Continuación
Supongamos que x2 fue el mejor segundo predictor y superó el valor p para ingresar en el modelo.
Se debe verificar si la inclusión del predictor x2 afecta de alguna manera al predictor x1.
Es decir, si el valor P para la prueba T de x1 es más grande que 0,15, entonces debe removerse x1
Paso 3
Supongamos que x1y x2 están dentro de un modelo progresivo de dos predictores.
Ajuste cada uno de los modelos de tres variables predictoras restantes, es decir: x1, x2, y x3; x1, x2, y x4; x1,x2, y x5; … x1,x2 y xp-1.
De los tríos de predictores que tengan un valor P de la prueba T más pequeño que 0.15, escoja al menor para incluirlo en el modelo progresivo.
Si ninguno es más pequeño que 0.15, deténgase, el modelo con un predictor obtenido en el paso 1 es su modelo final.
8/21/12
24
Paso 3. Continuación
Supongamos que x3 fue el mejor tercer predictor y superó el valor p para ingresar en el modelo.
Se debe verificar si la inclusión del predictor x3 afecta de alguna manera a los predictores x1 y x2.
Es decir, si el valor P para la prueba T de x1 o x2 es más grande que 0,15, entonces debe removerse x1 o x2.
Fin del procedimiento
Se continua el procedimiento descrito hasta que el agregar una variable predictora no haga cumplir el valor de ingreso.
8/21/12
25
Ejemplo
Retomamos el ejemplo de los cementos explicado anteriormente
Se ajusta los valores de nivel de significancia de entrada y salida en el modelo en 0,15.
Se calculan las regresiones de cada variable predictora independientemente.
Ejemplo
8/21/12
26
Ejemplo. Paso 2
X2 no es elegible.
X1 y x4 están empatadas
cómo efecto de Minitab. El valor p más pequeño
corresponde a x1.
Ejemplo. Paso 2
Cómo ya se tenía un predictor, se debe verificar su nivel de significancia.
Cómo este nivel de significancia es 0.001, ambas variables se mantienen en el modelo.
Se continua al paso 3.
8/21/12
27
Ejemplo. Paso 3
Ejemplo. Paso 3
Cuando el predictor x2 ingresa en el modelo, el valor P de x4 aumenta a 0,205.
Por esta razón el predictor x4 debe salir del modelo.
8/21/12
28
Ejemplo. Paso 4
Esta sería la salida
de Minitab de este proceso
8/21/12
29
Consideraciones finales
El último modelo obtenido, no es necesariamente el óptimo
Aunque el procedimiento no da un único modelo final, generalmente hay varios modelos igual de buenos.
El procedimiento por si solo no tiene conocimiento a cerca de los predictores, estos deben ser agregados por alguien que conozca el proceso.
Regresión de los mejores subconjuntos Best Subsets regression
8/21/12
30
Consideraciones generales
La idea general es elegir un subconjunto de predictores que cumpla de la mejor manera el objetivo propuesto. (El mayor
“r2” o el menor SME)
Se debe tener cuidado de incluir todos los predictores
posibles
El proceso. Paso 1
Identifique los modelos derivados de las posibles combinaciones de todos los regresores.
Puede ser un número muy grande de combinaciones, supongamos un ejemplo de 3 regresores, obtendremos 8 posibilidades. Un modelo sin predictores Tres modelos con un predictor Tres modelos con dos predictores Un modelo con los tres predictores
Si hay n posibles predictores, existen 2n posibles modelos
8/21/12
31
El proceso. Paso 2
Elija el modelo que cumpla mejor el criterio objetivo
Los criterios objetivos pueden ser Mayor r2
Mayor r2 ajustada
Menor SME
Si se cambia el criterio, la elección puede cambiar.
Se pueden elegir varios modelos en este punto.
El proceso. Paso 3
Elija el modelo adecuado.
Con los modelos obtenidos en el paso anterior, realice análisis para elegir el que mejor ajusta a sus necesidades: Análisis de residuos
Predicción
Regresores
Permita responder la pregunta de investigación
8/21/12
32
Ejemplo
Retomemos el ejemplo del cemento.
Si utilizamos por ejemplo R2, cada vez que agreguemos una variable se obtendrá un mejor valor, sin embargo nos ayudará a definir cuándo no vale la pena agregar más variables.
Se analiza la respuesta de minitab
Número de
variables
Cuáles variables
8/21/12
33
Caso de estudio Bienvenidos a la U
Regresión lineal múltiple Cátedra de Diseño de Experimentos Escuela de Ingeniería Industrial Universidad de Costa Rica