Upload
ngonguyet
View
229
Download
1
Embed Size (px)
Citation preview
ANÁLISIS DE REGRESIÓN
ANALISIS DE REGRESION LINEAL
La Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la variable independiente (x) variable de predicción.En muchos problemas hay dos o más variables inherentemente relacionadas, y es necesario explorar la naturaleza de esta relación. El análisis de regresión puede emplearse por ejemplo para construir un modelo que exprese el rendimiento como una función de la temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un nivel determinado de temperatura. También puede emplearse con propósitos de optimización o control del proceso.
Comenzaremos con el caso más sencillo, la predicción de una variable (y) a partir de otra variable (x).
REGRESIÓN LINEAL SIMPLE
Para las situaciones siguientes establezca cual es la variable dependiente y cual es la independiente.
a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de sus salarios mensuales.Solución: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por un maestro, y la variable independiente o variable de predicción es el salario anual del docente.
b) El gerente de un restaurante quiere estimar el número de clientes que puede esperar cierta noche a partir del número de reservaciones para cenar recibidas hasta las 5:00 PMSolución: El número de clientes es la variable de respuesta, el número de reservaciones es la variable independiente.
Supuestos para el modelo de regresión lineal1
1. Para cada valor de x, la variable aleatoria se distribuye normalmente.2. Para cada valor de x, la media o valor esperado de es 0; esto es, .3. Para cada valor de x, la varianza de es la constante (llamada varianza del error).4. Los valores del término de error son independientes.5. Para un valor fijo de x, la distribución muestral de y es normal, porque sus valores dependen
de los de .
6. Para un valor fijo x, es posible predecir el valor de y.7. Para un valor fijo x, es posible estimar el valor promedio de y
Página 1
ANÁLISIS DE REGRESIÓN
1
Ejemplo 1:La revista Motor Trend presenta con frecuencia datos de rendimiento para automóviles, que compara el tamaño del motor en pulgadas cúbicas de desplazamiento (pcd) y las millas por galón (mpg) estimadas para ocho modelos representativos de automóviles subcompactos modelo 1984.
Graficando los datos de la tabla en el “diagrama de dispersión” podemos observar la colección de los ocho pares de datos (x,y) como muestra de una población de pares, donde las medidas pulgadas cúbicas de desplazamiento (pcd) “x” pueden tomar cualquier valor en el rango de valores que se extiende de 85 a 122. Para cada pcd posible hay muchos millajes asociados con ella. Por ejemplo para un tamaño del motor de 97 hay un gran número de millajes asociados, uno por cada coche cuyo tamaño sea 97 pcd. Asumamos que existe una relación lineal para la población de pares de datos de pcd y mpg. (Se entiende por relación lineal cuando la variable y tiene una tendencia a crecer o decrecer, cuando la variable x aumenta).
1 Estadística, Richard C.Weimer, CECSA, Segunda edición, 2000
Página 2
coches compactos tamaño del motor (pcd) x millas/galón (mpg), yChevrolet Cavalier 121 30Datsun Nissan Stanza 120 31Dodge Omni 97 34Ford Escort 98 27Mazda 626 122 29Plymouth Horizon 97 34Renault Alliance/Encore 85 38Toyota Corolla 122 32
ANÁLISIS DE REGRESIÓN
Usamos el modelo probabilístico siguiente para explicar el comportamiento de los millajes para las ocho medidas de tamaño de motor, este se llama modelo de regresión lineal, y expresa la relación lineal entre tamaño de motor (x) y millas por galón (y).
Modelo de regresión lineal
Donde y = variable dependiente
ordenada al origen = pendiente
x = variable independiente = Error aleatorio
La expresión se denomina componente determinística del modelo de regresión lineal. La muestra de pares de datos se usará para estimar los parámetros de la componente determinística. La diferencia principal entre un modelo pobabilístico y uno determinístico es la inclusión de un término de error aleatorio en el modelo probabilístico. En el ejemplo los diferentes rendimientos para un mismo tamaño de motor se atribuyen al término de error en el modelo de regresión.
Cálculo de la ecuación de regresión
También es llamada ecuación de predicción de mínimos cuadrados. La ecuación de regresión estimada es:
Donde:Valor predicho de para un valor particular de x.
b0 = Estimador puntual de .(ordenada al origen)b1= Estimador puntual de (pendiente)
Para el cálculo de b0 y b1 se utilizamos las siguientes fórmulas:
Página 3
ANÁLISIS DE REGRESIÓN
Donde:SS = suma de cuadradosb1 = pendienteb0 = ordenada al origenn = número de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el cálculo de las fórmulas.
Calculando b0 y b1 tenemos:SSx = 1575.50SSy = 82.88SSxy = -212.25b1 = -0.13472b0 = 46.39099
La ecuación de predicción de mínimos cuadrados es: =>
Página 4
Gráfica de la ecuación de regresión
y =46.391 -0.1347x
0
10
20
30
40
50
0 50 100 150
Variable X
Y
Y
Lineal (Y)
coches compactos tamaño del motor (pcd) x millas/galón (mpg), y x^2 y^2 xyChevrolet Cavalier 121 30 14641 900 3630Datsun Nissan Stanza 120 31 14400 961 3720Dodge Omni 97 34 9409 1156 3298Ford Escort 98 27 9604 729 2646Mazda 626 122 29 14884 841 3538Plymouth Horizon 97 34 9409 1156 3298Renault Alliance/Encore 85 38 7225 1444 3230Toyota Corolla 122 32 14884 1024 3904SUMAS 862 255 94456 8211 27264Media 107.75 31.875
ANÁLISIS DE REGRESIÓN
Error
Los errores se denominan frecuentemente residuales. Podemos observar en la gráfica de regresión los errores indicados por segmentos verticales.
Página 5
¿Qué tan normales son los residuales?
¿Residuales individuales -tendencias; o separados?
Histograma -¿curva de campana?
Ignórese para grupos pequeños de información
(<30)
¿Aleatorio alrededor de
cero, sin tendencias?Buscar las inconsistencias
mayoresBuscar las inconsistencias
mayores
Diagnóstico del Modelo de ResidualesGráfica Normal de Residuales Tabla de Residuales
Histograma de Residuales Residuales vs. Ajustes
Marcador Normal Número de Observación
Ajuste
Frec
uenc
ia
151050-5-10-15-20-25
3
2
1
0
1050
50403020100
-10-20-30-40-50
X=0.000
3.0SL=43.26
-3.0SL=-43.26
550500450
20
10
0
-10
-20
210-1-2
20
10
0
-10
-20
151050-5-10-15-20-25
3
2
1
0
1050
50403020100
-10-20-30-40-50
X=0.000
3.0SL=43.26
-3.0SL=-43.26
550500450
20
10
0
-10
-20
210-1-2
20
10
0
-10
-20
Res
idua
lR
esid
ual
Res
idua
l
ANÁLISIS DE REGRESIÓN
Al usar el criterio de mínimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos, podemos obtener el valor mínimo para la suma de cuadrados del error (SSE)
A la varianza de los errores e se le llama varianza residual siendo denotada por , se encuentra dividiendo SSE entre n-2
La raíz cuadrada positiva de la varianza residual se llama error estándar de estimación y se denota por Se.
Aplicando las fórmulas en obtenemos la suma de cuadrados del error, la varianza residual y el error estándar de la estimación:
SSE = 82.88-(-0.13472)(-212.25) =54.2849
Se = 3.007
Ejemplo 2: Una firma de renta de coches recabó los datos adjuntos sobre los costos de mantenimiento y, y las millas recorridas x para siete de sus automóviles.
Encuentre:
a) Una estimación puntual para .b) Una estimación puntual para c) Una estimación puntual para la varianza del error .d) Una estimación puntual para el costo promedio del mantenimiento de un coche con 36,000
millas recorridas.e) Prediga el costo para un coche con 29,000 millas recorridas.
Página 7
Automóvil Millas recorridas x Costos de manteni-en miles miento y (dólares)
A 55 299B 27 160C 36 215D 42 255E 65 350F 48 275G 29 207
Automóvil x y x^2 y^2 xyA 55 299 3025 89401 16445B 27 160 729 25600 4320C 36 215 1296 46225 7740D 42 255 1764 65025 10710E 65 350 4225 122500 22750F 48 275 2304 75625 13200G 29 207 841 42849 6003
Suma 302 1761 14184 467225 81168Media 43.14 251.57
ANÁLISIS DE REGRESIÓN
SSx = 1154.86SSy = 24207.71SSxy = 5193.43b1 = 4.4970b0 =57.5567SSE = 852.70
= 170.54y = 57.5567 + 4.497x
a) b0 =57.5567b) b1 = 4.4970c) = 170.54d) 57.5567 + 4.497(36) = 219.44 usde) 57.5567 + 4.497(29) = 187.96 usd
Inferencias sobre el modelo de regresión lineal.
Para usar la ecuación de regresión , con propósitos de predicción, queremos estar
razonablemente seguros de que la pendiente de la ecuación de regresión
no es cero. Ya que si , entonces para cualquier valor de x, sería idéntica a , como se muestra en la figura. Siendo este el caso el modelo no sería apropiado.
Con el propósito de determinar si la pendiente de la regresión poblacional es diferente de cero, separemos SSy en dos componentes, SSE y SSR.Tenemos la siguiente relación:SSy = SSE + SSR
Donde:SSE = Suma de cuadrados del errorSSR = Suma de cuadrados de la regresión
SSE = SSy-b1SSxy
SSR = b1SSy
Página 8
ANÁLISIS DE REGRESIÓN
Prueba de hipótesis utilizando la distribución FSi fuera cierta , el estadístico F serviría como estadístico de prueba: F está definido como:
Con gl = (1,n-2), se puede usar el estadístico F para determinar si es diferente de cero. Si la pendiente de la ecuación de regresión poblacional es diferente de cero, entonces la ecuación se puede usar con propósitos de predicción.
Ejemplo 3: Para los datos del ejemplo 1 haga una prueba para determinar si , usando
En el ejemplo 1 y 2 obtuvimos los siguientes valores:SSxy = -212.25b1 = -0.13472
La suma de cuadrados para la regresión SSR se calcula mediante:SSR = b1SSxy = (-212.25)(-0.1347) =28.5901
Hallamos el estadístico de prueba F:
=
Se encuentra el valor crítico F0.05(1,6) = 5.99. Como F = 3.16<5.99, no rechazamos . Concluimos que la ecuación no debe usarse con propósitos
de predicción, y no tenemos evidencia que apoye que el modelo lineal es correcto para nuestros datos.
Prueba de hipótesis utilizando la distribución t
Otra manera de realizar la prueba de hipótesis es usando la distribución t.
El estadístico de prueba es:
, donde gl = n-2
Ejemplo 4: Usando los datos del ejemplo 1, haga una prueba para determinar si usando la prueba de t y .
Página 9
ANÁLISIS DE REGRESIÓN
=
Los valores críticos para gl = 6 son . Como –t.025 < t no rechazamos . Por tanto no tenemos evidencia que sugiera que el modelo lineal es apropiado para nuestros datos.
Análisis de correlación
Establece si existe una relación entre las variables y responde a la pregunta,”¿Qué tan evidente es esta relación?".La correlación es una prueba fácil y rápida para eliminar factores que no influyen en la predicción, para una respuesta dada. Coeficiente de Correlación de Pearson
Es una medida de la fuerza de la relación lineal entre dos variables x y y. Es un número entre -1 y 1 Un valor positivo indica que cuando una variable aumenta, la otra variable aumenta Un valor negativo indica que cuando una variable aumenta, la otra disminuye Si las dos variables no están relacionadas, el coeficiente de correlación se aproxima a 0.
El coeficiente de correlación r se calcula mediante la siguiente fórmula:
Página 10
ANÁLISIS DE REGRESIÓN
Ejemplo 5: En un esfuerzo por determinar la relación entre el pago anual de los empleados y el número de faltas al trabajo por causa de enfermedad, una corporación grande estudió los registros personales de una muestra de doce empleados. Los datos pareados aparecen en la siguiente tabla.
Página 11
Pago anualEmpleado (miles de dólares) Inasistencias
1 15.7 42 17.2 33 13.8 64 24.2 55 15 36 12.7 127 13.8 58 18.7 19 10.8 12
10 11.8 1111 25.4 212 17.2 4
Correlación PositivaEvidente
0
5
10
15
20
25
0 5 10 15 20 25
X
YCorrelación Negativa
Evidente
0
5
10
15
20
25
0 5 10 15 20 25
X
Y
CorrelaciónPositiva
0
5
10
15
20
25
0 5 10 15 20 25
X
Y
CorrelaciónNegativa
0
5
10
15
20
25
0 5 10 15 20 25
X
Y
Sin Correlación
10
15
20
25
5 10 15 20 25
XY
0
5
0
Correlación PositivaEvidente
0
5
10
15
20
25
0 5 10 15 20 25
X
YCorrelación Negativa
Evidente
0
5
10
15
20
25
0 5 10 15 20 25
X
Y
CorrelaciónPositiva
0
5
10
15
20
25
0 5 10 15 20 25
X
Y
CorrelaciónNegativa
0
5
10
15
20
25
0 5 10 15 20 25
X
Y
Sin Correlación
10
15
20
25
5 10 15 20 25
XY
0
5
0
ANÁLISIS DE REGRESIÓN
Determine el coeficiente de correlación e interprete el resultado.
SSxy = -130.06667SSx = 230.569167SSy = 164.666667
= -0.6675
En el diagrama de dispersión observamos que al aumentar x, y disminuye, por lo cual la correlación es negativa. Comparando el coeficiente de correlación calculado, con la tabla de correlaciones observamos que .66 > .58, por lo cual la correlación entre las variables es fuerte.
Página 12
Empleado x y x^2 y^2 xy1 15.7 4 246.49 16 62.82 17.2 3 295.84 9 51.63 13.8 6 190.44 36 82.84 24.2 5 585.64 25 121.05 15 3 225.00 9 45.06 12.7 12 161.29 144 152.47 13.8 5 190.44 25 69.08 18.7 1 349.69 1 18.79 10.8 12 116.64 144 129.6
10 11.8 11 139.24 121 129.811 25.4 2 645.16 4 50.812 17.2 4 295.84 16 68.8
SUMATORIA 196.3 68 3441.71 550 982.3
Diagrama de dispersión
02468
101214
0 5 10 15 20 25 30
Pago anual (miles usd)
Inas
iste
ncia
s
Serie1
Lineal (Serie1)
ANÁLISIS DE REGRESIÓN
Regresión lineal en ExcelMediante el uso de análisis de datos resolveremos el Ejemplo 1.Seleccione: herramientas > análisis de datos > regresión En la ventana seleccione el rango de entrada para X y Y, el rango de salida y seleccione la opción: gráfico de residuales y curva de regresión ajustada.
Página 13
ANÁLISIS DE REGRESIÓN
Página 15
ANÁLISIS DE REGRESIÓN
Análisis de resultados de la tabla de Excel:
Analizando los resultados de Excel, tenemos los siguiente:
En la sección Estadísticas de la regresión vemos que el coeficiente de correlación = .5873 comparando este valor con la tabla de correlaciones observamos que el valor .5873 < .71 lo cual indica una relación débil entre las variables. En la gráfica “de regresión ajustada” observamos que la correlación es negativa ya que al aumentar X, Y disminuye; Cabe mencionar que el coeficiente de correlación calculado por el sistema siempre es positivo, por lo cual debemos basarnos la gráfica de regresión para determinar el signo.
Ecuación de la regresión: Para obtener la ecuación de regresión usamos los coeficientes de los renglones Intercepción y variable X1, estos son 46.3909 y – 0.1347 respectivamente, siendo la ecuación de regresión: y = 46.3909- 0.1347X1.
Análisis de Varianza: La tabla muestra la suma de cuadrados de la regresión SSR = 28.5901, la suma de cuadrados de los residuos o error SSE = 54.2806, El promedio de los cuadrados de la regresión que es la varianza residual = 9.0468 . El sistema calcula
el valor de F dividiendo SSR/ como ya se trato anteriormente. El valor crítico F es menor que el valor F (0.125< 3.16), por lo que no tenemos evidencia para rechazar la H0:
, en consecuencia el modelo de regresión no es apropiado.
Análisis de residuos: muestra los pronósticos y residuos para cada observación, así como el gráfico de residuales, en el cual observamos inconsistencias ya que la mayoría de los puntos se encuentran en la región positiva.
ANÁLISIS DE REGRESIÓN MULTIPLE
Página 17
ANÁLISIS DE REGRESIÓN
En ocasiones la información de una variable independiente no es suficiente, por ejemplo en el caso de los autos compactos además de tener la variable del tamaño del motor, podríamos tener otras variables, que nos permitan tener mayor información como por ejemplo el peso del coche, el tipo de recorrido, el tamaño de las llantas, estos factores también influyen sobre la razón del consumo de gasolina.Cuando se usa más de una variable independiente para predecir los valores de una variable dependiente, el proceso se llama análisis de regresión múltiple, incluye el uso de ecuaciones lineales y no lineales, en este estudio nos ocuparemos de las ecuaciones de regresión lineales.
Ejemplo 6 Muchos programas de estudios premédicos usan los promedios de las calificaciones del MCAT de los estudiantes egresados como un indicador de la calidad de sus programas. Las variables que se sabe influencian esos promedios del MCAT(y) son: la combinación de las calificaciones del SAT en matemáticas y en oratoria (x1) y el GPA (x2) de los prospectos a médicos. La tabla muestra las medidas de x1, x2 y y de seis estudiantes que han cursado un programa de premedicina y que han presentado el MCAT
Con esta información podemos encontrar una ecuación lineal que nos permita predecir el promedio de calificaciones del MCAT para un estudiante si se conocen su GPA y su calificación combinada del SAT.La ecuación lineal para los datos del ejemplo tiene la forma Es posible encontrar los valores de b0, b1, y b2 usando el método de mínimos cuadrados, al igual que en el método de regresión lineal simple. El método en este caso requiere resolver tres ecuaciones lineales con tres incógnitas, estas ecuaciones, conocidas como ecuaciones normales, son:
Página 18
Calificación Calificación pro-Estudiante SAT (X1) GPA (X2) medio del MCAT (Y)
1 1200 3.8 12.42 1350 3.4 13.33 1000 2.9 9.24 1250 3.3 10.65 1425 3.9 13.26 1340 3.1 11.2
ANÁLISIS DE REGRESIÓN
La siguiente tabla organiza los cálculos para obtener las ecuaciones:
Las ecuaciones normales para este ejemplo son:
Resolviendo el sistema de ecuaciones lineales obtenemos:
b0 = -2.537, b1=0.005425, b2 = 2.161.
La ecuación de regresión es:
Suma de cuadrados
La suma total de cuadrados SST, se descompone en dos componentes: suma de cuadrados para la regresión, y suma de cuadrados del error.
SST = SSR + SSE La suma de cuadrados para la regresión es aquella parte de la suma total de cuadrados que se atribuye a las variables independientes. Mientras que la suma de cuadrados del error es aquella porción de la suma de cuadrados total y que no se debe a las variables independientes, por ello se llama suma de cuadrados del error.
Grados de libertad para la regresión:
donde:k = número de variables independientes
Cálculo de cuadrados medios:
Página 19
X1 X2 Y X1^2 X2^2 X1X2 X1Y X2Y1200 3.8 12.4 1440000 14.44 4560 14880 47.121350 3.4 13.3 1822500 11.56 4590 17955 45.221000 2.9 9.2 1000000 8.41 2900 9200 26.681250 3.3 10.6 1562500 10.89 4125 13250 34.981425 3.9 13.2 2030625 15.21 5557.5 18810 51.481340 3.1 11.2 1795600 9.61 4154 15008 34.727565 20.4 69.9 9651225 70.12 25886.5 89103 240.2
ANÁLISIS DE REGRESIÓN
Donde:MSR= Cuadrado medio de la regresiónMSE= Cuadrado medio del error.
Prueba de hipótesis
Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba F.Para los datos del ejemplo las hipótesis son:
El valor del estadístico F se encuentra dividiendo MSR entre MSE.
Buscando el valor crítico para =7.71.Como 7.71 > 7.20 no podemos rechazar H0, lo cual nos indica que podría ser arriesgado utilizar la ecuación de regresión con propósitos predictivos.
Coeficiente de determinación múltiple
Utilizando los datos del ejemplo:
Esto significa que aproximadamente el 83% de la variación en el promedio de las calificaciones se atribuye a la variación de las variables independientes y solamente el 17% de la variación de la variable dependiente no se atribuye a eso.
Regresión múltiple en Minitab
Página 20
ANÁLISIS DE REGRESIÓN
Ejemplo 7 La tabla enlista el consumo de combustible en millas por galón bajo condiciones normales de manejo, los pesos de los coches en libras y la capacidad del motor en cc para seis coches deportivos modelo 1990.
a) Determine una ecuación de regresión para predecir el promedio de consumo de combustible usando la capacidad del motor y el peso, y calcule el coeficiente de determinación R2.
Una vez capturados los datos de las variables en Minitab seleccionamos STAT>REGRESIÓN>REGRESIÓN y se presenta la siguiente pantalla
Seleccionamos la variable de respuesta (response) que corresponde a la Columna 3 C3, y las variables de predicción (predictors): C1 y C2.
Página 21
ANÁLISIS DE REGRESIÓN
Damos Clic en el Icono Graphs, y en la opción gráficos de residuos “residual plots” dejamos la opción que el sistema da por de fault: “Regular”. y seleccionamos la opción residual vs. fits y normal plot of residuals. También existen otras opciones de gráficos que podemos usar en caso de ser necesario.
Página 22
ANÁLISIS DE REGRESIÓN
En la opción Resultados “Results” seleccionamos el circulo: Regresión equation....
Damos clic en ok.
Regression AnalysisThe regression equation isC3 = 10,9 - 0,00050 C1 + 0,00270 C2
Predictor Coef StDev T PConstant 10,91 12,90 0,85 0,460C1 -0,000496 0,001329 -0,37 0,734C2 0,002702 0,004982 0,54 0,625
S = 2,805 R-Sq = 9,1% R-Sq(adj) = 0,0%
Analysis of Variance
Source DF SS MS F PRegression 2 2,368 1,184 0,15 0,866Residual Error 3 23,605 7,868Total 5 25,973
Analizando los resultados tenemos:
De la tabla resultante podemos determinar que la ecuación de Regresión es Y = 10.9 – 0.00050X1+.00270X2Donde X1 representa el tamaño del motor (capacidad) y X2 el peso del coche, Y representa el rendimiento predicho para el consumo del combustible.El coeficiente de determinación R-Sq o R2 es 9.1% y esto indica que el 9.1% de la variación en el consumo de combustible se atribuye a la capacidad y al peso. El 90.9% no se atribuye a estas variables.
Página 23
ANÁLISIS DE REGRESIÓN
Examinando el valor del estadístico F(F=0.15), que es significativo al nivel P = 0.866 concluimos que el modelo no es adecuado para fines de predicciòn en un nivel
Analizando los gráficos anteriores, podemos observar en el grafico de probabilidad que las observaciones aparentan ser normales. Sin embargo en el gráfico de residuales observamos una tendencia ya que la mayoría de los puntos se encuentran a bajo del cero.
Página 24
43210-1-2
1
0
-1
Nor
mal
Sco
re
Residual
Normal Probability Plot of the Residuals(response is C3)
191817
4
3
2
1
0
-1
-2
Fitted Value
Res
idua
l
Residuals Versus the Fitted Values(response is C3)