Universidad de la Sierra
Ingeniería industrial en productividad y
calidad
Métodos numéricos
Manual de regresiones
Profesor:
Alejandro Vega Granillo.
Estudiantes:
María Jesús Quijada Frisby.
Jesús Manuel Banda Bojórquez.
Grupo:
Ingeniería Industrial 2-5.
05 de diciembre de 2011
Contenido INTRODUCCION .................................................................................................... 1
REGRESION LINEAL SIMPLE ............................................................................... 5
Ejemplo de regresión lineal simple. ..................................................................... 7
Regresión Polinómica............................................................................................ 22
Ejemplo de regresión Polinómica. ..................................................................... 23
RECESIÓN EXPONENCIAL ................................................................................. 42
Ejemplo de regresión exponencial ..................................................................... 44
REGRESIÓN LINEAL MÚLTIPLE ......................................................................... 52
Ejemplo de regresión lineal múltiple .................................................................. 54
CONCLUSIÓN ...................................................................................................... 66
1
INTRODUCCION
El objetivo de un análisis de Regresión es investigar la relación estadística que
existe entre una variable dependiente (Y) y una o más variables independientes
(X1, X2, X3,…. Xn). Para poder realizar esta investigación, se debe postular una
relación funcional entre las variables. Debido a su simplicidad analítica, la forma
funcional que más se utiliza en la práctica es la Regresión Lineal.
Consideremos datos que relacionen dos variables; por ejemplo en economía, el
precio constatado del metro cuadrado de la nueva vivienda en distintas fechas, o
en física la medida simultanea de la intensidad y del potencial en un circuito
eléctrico.
La dependencia a la que hacemos referencia es relacionar matemáticas y no
necesariamente de causalidad. Así, para un mismo número de unidades
producidas para existir niveles de costo, que varían de empresa a empresa.
Este Manual está enfocado a realizar los diferentes tipos de Regresiones como
son:
Regresión Lineal Simple
Regresión Polinómica
Regresión Exponencial
Regresión Lineal Múltiple
Mediante las técnicas de regresión de una variable Y sobre una variable X,
buscamos una función que sea una buena aproximación de una nube de puntos
(Xi, Yi), mediante una curva del tipo para ello hemos de asegurarnos de
que la diferencia entre los valores sea tan pequeña como sea posible.
Mediante las técnicas de regresión inventamos una variable como función de
otra variable X (o viceversa),
2
Esto es lo que denominamos relación funcional. El criterio para construir , tal
como mencionamos anteriormente, es que la diferencia entre Y e , sea pequeña.
Esta fórmula es utilizada para obtener el margen de error, el cual agregamos en la
tabla de datos, que se mostrará en las páginas posteriores.
El término que hemos denominado error debe ser tan pequeño como sea posible.
El objetivo será buscar la función (también denominada modelo de regresión)
que lo minimice.
Figura: Diferentes nubes de puntos y modelos de regresión para ellas.
3
La interpretación del coeficiente de correlación puede ilustrarse mediante los
siguientes gráficos.
4
5
REGRESION LINEAL SIMPLE
Se dispone de una muestra de observaciones formadas por pares de variables:
(x1, y1), (x2, y2), .., (xn, yn)
X Y
5 8
9 15
12 22
15 28
17 33
Es posible representar estas observaciones mediante un gráfico de dispersión.
Debido a su simplicidad analítica, la forma funcional que más se utiliza en la
práctica es relación lineal. Cuando solo existe una variable independiente, esto se
0
5
10
15
20
25
30
35
4 6 8 10 12 14 16 18
Co
sto
en
mile
s d
e $
(Y)
# de trabajadores (X)
Diagrama de Dispersión
El objetivo de un análisis de regresión es
investigar la relación estadística que existe
entre una variable dependiente (Y) y una o
más variables dependientes (X1, X2, X3…Xn),
en la cual debe de haber una relación
funcional entre las variables.
MUESTRA
X dependiente
Y independiente.
6
reduce a una línea recta, tomando en cuenta la nube de puntos que arroja el
diagrama de dispersión, este tiene que tener una similitud a un alinea recta:
Ŷ= a + bXi + ϵ Dónde:
Los coeficientes a y b son los parámetros que definen la posición e inclinación de
la recta, donde Ŷ representa el valor Y calculado por recta. El parámetro a es
conocido como “el origen”, indicando la posición el Y cuando X es igual 0.El
parámetro b es conocido como la “pendiente”, nos indica cuanto aumenta Y por
cada unidad de X.
Objetivo:
Su principal propósito de la regresión lineal es:
Determinar la relación de dependencia que tiene una variable respecto a
otra.
Ajustar la distribución de frecuencia de una línea, es decir, determinar la
forma de la línea de regresión.
Hacer un pronóstico deseado.
Hacer interpolaciones.
Tener control sobre las variables.
Establecer causas y efectos.
En este capítulo nos centraremos en encontrar los parámetro (a y b) para poderlos
sustituir en la función Ŷ.
7
Ejemplo de regresión lineal simple.
Obtención de datos.
Operador X Y
1 5 8
2 9 15
3 12 22
4 15 28
5 17 33
Realizar el diagrama de dispersión para verificar que tipo de regresión
utilizáremos.
En una fábrica de plásticos se piensa contratar a unos operadores que serán asignados
a un línea de producción nueva y desea saber qué cantidad contratar simultáneamente
para obtener mejores beneficios.
X= # de trabajadores
Y= Costo en mimes de $
1
2
Primero seleccionas los datos de X y Y después vas a la pestaña
de insertar y donde este el ícono de dispersión como el que se
muestra en la figura das clic.
8
Es muy importante que
selecciones la correcta y
siempre tomaremos la
opción que se te marca
Te posicionas sobre cualquiera
de los ejes y le das clic
secundario y te vas a la opción
que dice dar formato a eje.
Posteriormente te saldrá una ventana como la que se te muestra a continuación en
la que puedes cambiar donde dice fija a una cantidad donde queden dentro los
puntos de la gráfica y la haga más grande como lo vas a ver.
9
Puedes hacerle más cambios, agregarle título al gráfico y hasta cambiarle
los colores y todo lo que quieras hacerle para que esté bonita lo
encontraras en tu barra de diseño, presentación y formato-
Realizar la corrida numérica para la obtención de los datos que nos piden las
formulas.
0
5
10
15
20
25
30
35
4 6 8 10 12 14 16 18
Co
sto
en
mile
s d
e $
(Y
)
# de trabajadores (X)
Diagrama de Dispersión
𝒃 𝒙𝒊 𝒚𝒊
𝒙𝒊 𝒚𝒊𝒏
𝒙𝒊 𝟐
𝒙𝒊 𝟐
𝒏
𝒂
𝒚𝒊𝒏
𝒃 𝒙𝒊𝒏
3
Multiplicamos lo que es X*Y
10
Se eleva al cuadrado la X (X2)
Elevar Y al cuadrado (Y2)
Con ayuda del mouse colocamos en posicion indicada y arrastrar hacia
abajo para colocar las formulas correspondientes al resto de las filas.
11
Con ayuda del mouse en
posición se arrastra hacia
un lado obteniendo así la
sumatoria de las demás
columnas.
En el ultimo renglo se le agregara lo que es la sumatoria de todos los datos
por columnas.
Realizar los calculos correspondientes para (a y b) los cuales son los siguientes.
4
Calculando (b)
12
Calculando (a)
Nota: No olvides nombrar
las celdas de a y b para
facilitar de esta manera la
introducción en la formula.
Se coloca el nombre que le quieres dar a la
celda y le das entre. Podrás usar la celda
cuando quieras solamente poniendo el nombre
que le asignaste.
13
Ya calculado a y b podemos calcular lo que es Ŷ.
Calculo del error y error2.
6
5
Con el mouse
arrastrando así
abajo obtendremos
los resultados.
14
Con el mouse arrastrando
así la dirección de las
flecha, obtendremos los
resultados.
Nota: No se te olvide
nombrar la celda como
SSE porque es muy
utilizado.
𝑺𝑺𝑬 𝒆𝒊𝟐
SSE es igual a la sumatoria de todos los errores elevado al cuadrado.
15
Para completar la primera parte de regresion lineal simple debemos realizar otros
calculosque son los siguientes e interpretar R2:
Otros cálculos
Syy
R2
Sxy
Sxx
7
𝑺𝒙𝒚 𝒙𝒊𝒚𝒊 𝒙𝒊 𝒚𝒊
𝒏 𝑺𝒙𝒙 𝒙𝒊
𝟐 𝒙𝒊
𝟐
𝒏
𝜎 𝟐 𝑺𝑺𝑬
𝒏 𝟐
𝑹𝟐 𝟏 𝑺𝑺𝑬
𝑺𝒚𝒚
𝑺𝒚𝒚 𝒚𝒊𝟐
𝒚𝒊 𝟐
𝒏
Syy
SSE
��𝟐
16
Sxy
Sxx
R2
La variable de respuesta Y tiene un 99.67% de confianza con respecto a la variable regresara X
17
Agregar la línea de tendencia.
Como ya sabemos cómo insertar un diagrama de dispersión seguiremos con lo
que es agregar la línea de tendencia. Primeramente daremos clic derecho en
cualquier punto de dispersión apareciendo el siguiente recuadro.
8
Selecciona la opción de
agregar línea de tendencia.
Seleccionas el tipo de regresión
que estanos utilizando y de esta
manera se plasmara lo que es
la línea.
Esto es para si quieres comprobar
los cálculos que hemos hecho
anteriormente.
18
Pronósticos.
Algunos Valores
X Y
Si contrato 8 13.6842105 Es el costo de
contratar a tal # trabajadores
Con una cantidad de $100 mil se puede cont. 49 trabajadores.
49.34453782 100 Si tengo $100 mil
cuanto puedo contratar
9
�� 2.0877𝑥 3.0175 Te preguntaras como fue que obtuvimos
estos resultados la forma en cual lo
obtuvimos fue cambiando las variables
descosidas en la función por los valores y
realizando los cálculos.
𝑥 �� + 3.0175
2.0877
19
ANÁLISIS DE VARIANZA (ANOVA) 95%
H0=EL MODELO NO ES SIGNIFICATIVO (CONVENIENTE)
H1=EL MODELO SI ES SIGNIFICATIVO (CONVENIENTE)
HIPÓTESIS
Fuente de Variación
Suma de cuadrados
Grados de libertad Media cuadrática F Calc.
Regresión SSR= 397.5018 1 gl 1 MCR= 397.5018 918.5514
Error SSE= 1.298246 n-2 gl 3 MCE= 0.432749
Total Syy= 398.8 n-1 4
Ftab= 10.12796
𝑆𝑆𝑅 𝑆𝑦𝑦 𝑆𝑆𝐸 𝑀𝐶𝑅
𝑆𝑆𝑅
1 𝑀𝐶𝐸
𝑆𝑆𝐸
𝑛 2 𝐹𝐶𝑎𝑙𝑐
𝑀𝐶𝑅
𝑀𝐶𝐸
Región de
aceptación
DISTRIBUCION F DE FISCHER
Decisión: Como la FCalc
cayó en la
RR aceptamos H1 lo cual significa
que el R.L.S si es significativo.
10.12 918.55
20
Ftabla
Para el análisis de ANOVA, la tabla se calcula, con el motivo de saber si alguno de
los valores que obtuvimos es estadísticamente significativo.
El resultado obtenido al realizar la TABLA (FCalc y Ftabla) es para hacer una
comprobación de a y b. Si cae la Fcalc en la región de rechazó quiere decir el
modelo si es conveniente y es exactamente lo que queremos cuando planteamos
las pruebas de hipótesis. Si cae la Fcalc en la región de aceptación lo cual no es
conveniente, probablemente los datos no se ajusten al modelo o son muy pocos
datos asiendo la Ftabla muy grande los cual se recomienda tomar más datos.
Región de
aceptación
DISTRIBUCION F DE FISCHER
Decisión: Como la FCalc
cayó en la
RR aceptamos H1 lo cual significa
que el R.L.S si es significativo.
10.12 918.55
21
22
Regresión Polinómica
Algunos fenómenos resultan ser mejor representados por un polinomio y aunque a veces
puede no ser particularmente "natural", es decir, aquella que expresa una relación de causa
y efecto entre las variables; sin embargo, es tan flexible y tan fácilmente manejable en
forma matemática, que resulta de gran utilidad.
Las ecuaciones normales son:
Los puntos suspensivos sugieren la posibilidad de expandir las formulas siguiendo
el mismo patrón.
𝑎𝑛 + 𝑏 𝑋 + 𝑐 𝑋2 + 𝑑 𝑋3 + ⋯ 𝑌
𝑎 𝑋 + 𝑏 𝑋2 + 𝑐 𝑋3 + 𝑑 𝑋4 + ⋯ 𝑋𝑌
𝑎 𝑋2 + 𝑏 𝑋3 + 𝑐 𝑋4 + 𝑑 𝑋5 +… 𝑋2𝑌
𝑎 𝑋3 + 𝑏 𝑋4 + 𝑐 𝑋5 + 𝑑 𝑋6 + ⋯ 𝑋3𝑌
550
600
650
700
750
800
850
900
280 285 290 295 300 305 310 315 320
23
Ejemplo de regresión Polinómica.
Obtención de datos.
DATOS
Temperatura de curado (°F)
CORTE DE UN COMPUESTO
DE HULE
x y
1 280 770
2 284 800
3 292 840
4 295 810
5 298 735
6 305 640
7 308 590
8 315 560
Realizar el diagrama de dispersión.
550
600
650
700
750
800
850
900
280 285 290 295 300 305 310 315 320
resi
sten
cia
al c
ort
e (P
SI)
temperatura de curado
Diagrama de dispersión
n= 8
k= 3
1
Donde n es el número de datos y k es el
grado del polinomio
2
24
Si observamos los puntos del diagrama podemos identificar un patrón en forma
curva. Recordando el curso de matemáticas uno se puede deducir que es una
función cubica.
Utilizando las ecuaciones normales realizaremos las siguientes operaciones.
Calculo de las sumatorias
𝑎𝑛 + 𝑏 𝑋 + 𝑐 𝑋2 + 𝑑 𝑋3 + ⋯ 𝑌
𝑎 𝑋 + 𝑏 𝑋2 + 𝑐 𝑋3 + 𝑑 𝑋4 + ⋯ 𝑋𝑌
𝑎 𝑋2 + 𝑏 𝑋3 + 𝑐 𝑋4 + 𝑑 𝑋5 +… 𝑋2𝑌
𝑎 𝑋3 + 𝑏 𝑋4 + 𝑐 𝑋5 + 𝑑 𝑋6 + ⋯ 𝑋3𝑌
Este es el grado del
polinomio y para saber
cuántas sumatoria vamos a
agregar es multiplicar k x 2
3
4
Primeramente elevamos las X a las potencias del 2 al 6
con sus respectivas sumatorias. Se elevan hasta 6 porque
es un polinomio de tercer grado.
Ya realizados los cálculos con el mouse arrastramos las formulas.
25
Seleccionamos y con el mouse
arrastramos con la finalidad de
colocar las formulas en las demás
celdas.
Seleccionamos y con el mouse arrastramos en la dirección de la
flecha con la finalidad de colocar las formulas en las demás
celdas.
Después multiplicamos cada una de las X elevadas con la Y, también elevamos al
cuadrado a Y y le realizamos sus respectivas sumatorias. 5
El siguiente paso es realizar todas las sumatorias de la corrida numérica
para posteriormente usarlas en las ecuaciones normales. 6
26
MATRIZ (A) DE COEFICIENTE.
8 2377 707263 210737971
2377 707263 210737971 62879830819
707263 210737971 62879830819 1.87881E+13
210737971 62879830819 1.87881E+13 5.62148E+15
Introducir los datos en la matriz A de coeficientes que se obtiene con la tabla de las ecuaciones normales, para poder complementar la tabla de equivalencias y sumatorias:
7
𝑎𝑛 + 𝑏 𝑋 + 𝑐 𝑋2 + 𝑑 𝑋3 + ⋯ 𝑌
𝑎 𝑋 + 𝑏 𝑋2 + 𝑐 𝑋3 + 𝑑 𝑋4 + ⋯ 𝑋𝑌
𝑎 𝑋2 + 𝑏 𝑋3 + 𝑐 𝑋4 + 𝑑 𝑋5 +… 𝑋2𝑌
𝑎 𝑋3 + 𝑏 𝑋4 + 𝑐 𝑋5 + 𝑑 𝑋6 + ⋯ 𝑋3𝑌
8 Procedemos a realizar el siguiente cálculo el cual es invertir la matriz (A)
Le damos clic para obtener las
diferentes fórmulas que tiene Excel
Nos aparecerá esta tabla en
la cual buscamos la función
MINVERSA
27
MATRIZ (A) DE COEFICIENTE.
8 2377 707263 210737971
2377 707263 210737971 62879830819
707263 210737971 62879830819 1.87881E+13
210737971 62879830819 1.87881E+13 5.62148E+15
En caso de que no apareciera esta función también puedes buscarla en:
Buscamos aquí en
matemáticas y
trigonométricas.
Posteriormente aparece la siguiente imagen en tu pantalla.
Da clic en
este icono
Seleccionamos la matriz a
invertir y nos aparecerá el
rango
28
Donde se obtiene el primer valor de la matriz A inversa
Para obtener los demás valores de la matriz inversa se selecciona de qué tamaño
es la matriz.
Una vez ya seleccionada se usa la combinación de las teclas F2, Shift+Ctrl+Enter
simultáneamente para obtener los demás valores de esta matriz.
Introducir los datos en la matriz B de coeficientes que se obtiene con los
resultados de la tabla de las ecuaciones normales (ƩY´s), para poder
complementar la tabla de equivalencias y sumatorias:
9
29
Le damos clic para
obtener las diferentes
fórmulas que tiene
Excel
Nos aparecerá
esta tabla en la
cual buscamos la
función MIMULT
Después se procede a hacer la matriz de B resultados, también llamada matriz x
de incógnitas con los siguientes pasos:
Después de esto, nos aparecerá lo siguiente:
Seleccionamos
este icono
Seleccionamos la matriz que vamos a multiplicar y nos aparecerá el rango
10
30
Donde se obtiene el primer valor de la matriz A inversa
Para obtener los demás valores de la matriz inversa se selecciona de qué tamaño
es la matriz.
Una vez ya seleccionada se usa la combinación de las teclas F2+Ctrl+Enter
simultáneamente para obtener los demás valores matriz de Resultado, la cual nos
proporciona los valores de a, b, c y d.
Ya obtenida la matriz de incógnitas se prosigue a completar la tabla principal
obteniendo la , los errores y los errores al cuadrado .
Damos clic en
Matriz 2
Seleccionamos la matriz B
que vamos a multiplicar por
la Matriz A-1
y nos aparecerá
el rango
31
Para sacar la se de con la siguiente fórmula:
+ + 2 + 3
En Excel insertamos la fórmula de la siguiente manera:
Con el mouse arrastrar hacia abajo para terminar de llenar la tabla.
Para los 𝑒2 nada más los errores
que se calcularon anteriormente se
elevan al cuadrado.
Los errores se obtienen con la siguiente
11
12
32
Seleccionamos el
Rango de X e Y.
A la celda de la suma de los errores al cuadrado se le nombra como SSE.
El Diagrama de Dispersión Polinómica revela que estos datos pueden ser modelados mediante un polinomio de tercer grado
+ + + Se realiza diagrama de Dispersión con los valores X (días de inoculación) e Y
(cantidad de bacterias).
Pasos a seguir:
33
Aparece el siguiente recuadro ya con la línea de puntos formados, donde se le
puede dar formato a como mejor le parezca con respecto a los datos.
550
600
650
700
750
800
850
900
280 290 300 310 320
resi
sten
cia
al c
ort
e (P
SI)
temperatura de curado
REGRESION POLINOMICA DE TERCER GRADO.
Hacemos clic en la
pestaña de insertar
Después
seleccionamos el
gráfico de dispersión
Ya escogemos el
diseño de mas nos
guste
34
Seguidamente se agrega la línea de tendencia con clic secundario del mouse
como aparece en la imagen.
En este apartado se escoge la función Polinómica para que la línea de tendencia
aparezca en el diagrama de dispersión como se muestra.
35
El formato aparecerá de la siguiente manera con la línea de tendencia, y se puede
dar color al gusto en la parte superior de la hoja de cálculo de la pestaña inicio en
el siguiente apartado.
INTERPRETACIÓN DEL GRAFICO POLINOMIAL
En este diagrama podemos observar que todos los puntos están sobre la línea
Polinómica, esto significa que ésta Regresión es la más confiable.
y = 0.0313x3 - 28.295x2 + 8500.5x - 848900 R² = 0.9794
550
600
650
700
750
800
850
900
280 285 290 295 300 305 310 315 320
resi
ste
nci
a a
l co
rte
(PSI
)
temperatura de curado
REGRESION POLINOMICA DE TERCER GRADO.
36
Realice los siguientes pronósticos del modelo: pronostique la resistencia
para una temperatura de 350 ° F.
Para poder obtener Y, necesitamos de darle valores a X para tabular y poder
obtener una aproximación de Y.
Una vez tabulados estos valores se procede lo siguiente:
y= 3580.769743
Le damos los
siguientes
valores a la
1
Para obtener el valor de Y se usa la fórmula
del polinomio 𝑌 𝑎 + 𝑏𝑥 + 𝑐𝑥2 + 𝑑𝑥3
2
Nos arroja el valor de Y
3
=a+b*350+cc*350^2+d*350^3
A una temperatura de 350 encontramos un corte de
huele de 3580.76
37
Para encontrar el valor Aproxime la temperatura (mediante interpolación)
requerida para tener una resistencia al corte de solo 250 psi hacemos lo siguiente:
Se abrirá una ventana después de hacer clic en el paso 3, está es:
Seleccionamos la
pestaña de Datos 1
Damos clic en este
icono, Análisis Y si 2
Clic aquí en:
Buscar
3
Esta celda se
deja igual, ojo
pues es la
celda del valor
Y
4
38
Se prosigue a calcular el SYY y el que nos servirán para los próximos cálculos y para determinar que tanto porcentaje nos indica la variable
regresora X a la variable de respuesta Y, y se interpreta .
2 1
R2= 0.979440037
2 2
syy= 80496.875
Tecleamos el valor que
queremos obtener en
este caso es 250 psi
5
Aquí
tenemos el
resultado
Seleccionas la celda donde
quieras que aparezca el
resultado.
6
39
Después calcula el análisis de Varianza (ANOVA) para la polinomial
siguiendo las fórmulas que se tienen en la tabla ANOVA.
F. variación.
Suma de cuadrados.
grados de libertad
media cuadrática.
F. calculada.
Regresión 78841.8622 3 26280.62073 63.51762519
Error. 1655.012803 4 413.7532009 TOTAL 80496.875 7
Para la F tablas se usa la fórmula: =INV.F.CD(0.05,3,4) la cual indica el nivel de
confianza, los grados de libertad y n-k-1 que también son grados de libertad.
Seguidamente se realiza la gráfica F de Fisher donde ilustre donde caen los valores de F calculada y de F tablas y las zonas de aceptación y de rechazo.
Esta es F.CAL
ESTA ES F.TABLA.
40
Y por último se toma la decisión con respecto al análisis de ANOVA.
Decisión:
Debido a que la F calculada del análisis ANOVA es mayor que la F tablas, cae en la
región de rechazo, entonces rechazamos H0, lo cual el Modelo de Regresión
Polinómica es significativa.
Hipótesis.
H0 El modelo es significativo.
H₁ El modelo no es significativo.
Interpretación:
Como rechazamos H0, concluimos que el Modelo de Regresión Polinómica es
Conveniente.
41
42
RECESIÓN EXPONENCIAL
El análisis de regresión exponencial permite conocer la relación de dos variables
entre las cuales se presume una relación exponencial. Es decir, una relación que
puede representarse con la ecuación de la línea recta Y = bemx. Se requiere
conocer un conjunto de daos pareados (valores de X y Y) que son datos empíricos
de las dos variables X y Y.
En el modelo de regresión exponencial x (t)=cemt, donde c y m son los parámetros,
podemos tomar logaritmo natural en ambos lados para obtener:
+
+
Sustituyendo ln x (t) = y (t) y ln = b, obtenemos el modelo lineal para el cual ya
señalamos los optimizadores de los parámetros:
+
El modelo exponencial: x (t) = c1ec2t+c3, introduce el parámetro c3 para considerar
asíntotas diferentes a cero (c30). Este parámetro no permite convertir el modelo en
uno lineal ni en uno cuadrático.
Podemos hallar ecuaciones con c1, c2 y c3 por medio del método de cuadrados
mínimos pero no es posible hallar fórmulas explícitas para estos parámetros a
partir de estas ecuaciones.
El objetivo de la regresión exponencial es explicar (o predecir) la variable Y a
través de 1 covariable X:
+
43
Para ajustar el modelo se puede reducir a una simple regresión lineal:
Si la relación (X, Y) es exponencial, entonces (X, Ln (Y)) es lineal:
+ +
Dónde:
Obtenemos los estimadores mínimo-cuadráticos de .
Entonces.
44
Ejemplo de regresión exponencial
Los días siguientes se refieren al crecimiento de una colonia de bacterias en un
cultivo:
X = Días de inoculación
Y = Cantidad de Bacterias (en miles)
x y
1 95
2 137
3 224
4 424
5 640
Realizaremos el diagrama de dispersión para verificar si se trata de un crecimiento
exponencial, aunque sabemos de antemano que cualquier crecimiento biológico
es muy bien representado por este tipo de regresión.
Como podemos observar se puede representar
como una función exponencial y cuadrática pero
por lo antes mencionado es mucho más seguro que
su R2 se mas grande, se recomienda realizar los
dos modelos y determinar cuál es el mejor.
0
100
200
300
400
500
600
700
0 1 2 3 4 5 6
Can
tid
ad d
e B
acte
rias
Días de inoculación
Diagrama De Dispersión
1
En esta sección omitiremos el
paso de cómo se realiza por el
motivo de que en los casos
anteriores ya lo vimos
adquiriendo los conocimientos
necesarios.
45
Las variables X y Y, en cuyo caso interesa ajustar a la nube de puntos obtenido
del diagrama su función es de tipo:
De manera que se tiene que hacer una transformación lineal para facilitar los
cálculos, tomando logaritmos neperianos, se convierte el polinomio en una
cuestión de regresión lineal. Es decir tomando la forma:
+
Para poder realizar los cálculos en las fórmulas que tenemos para a y b para el
caso lineal tenemos que hacer unas pequeñas modificaciones.
2
2
Dónde:
Para poder realizar el cálculo de tenemos que devolver a la función de su forma
lineal a la original
Dónde:
46
Corrida numérica
Después de haber hecho los cálculos indicados en los recuadros azules
arrastramos con el mouse las formulas.
Calculada la primer sumatoria arrastramos para calcular las demás para poder
realizar los cálculos.
2
47
Cálculos.
Nota: cada cálculo es recomendado nombrarlo.
3
48
=EXP(a)
Calculamos las operaciones
indicadas en azul y
arrastramos las formulas
con ayuda del mouse
SSE
𝑅2 1 𝑆𝑆𝐸
𝑆𝑦𝑦
Ya estando hechos todos estos
cálculos lo que sigue es
calcular R2, es igual que para
cualquier modelo de regresión
así como su interpretación.
R2=0.9934
49
Agregar la línea de tendencia
Este procedimiento es igual para cualquier modelo de regresión (los que puede
manejar Excel) y es una forma de comprobar los cálculos que realizamos.
Como se puede observar la line de tendencia se ajusta muy bien a la nube de
puntos lo cual indica que es muy buena regresión. Si checamos nuestros valores
de alfa y beta con muy parecidos a los que arroja Excel pero donde si hay una
ligera variación es en la R2.
De igual forma como en las anteriores regresiones los pronósticos para y es
cuestión de sustituir el dato y para x es hacer un despeje simple como el en caso
lineal o con el análisis y si como en el caso de la regresión Polinómica.
(
)
y = 54.373e0.4945x R² = 0.9924
0
100
200
300
400
500
600
700
0 1 2 3 4 5 6
Can
tid
ad d
e B
acte
rias
Días de inoculación
Diagrama De Dispersión
4
50
ANÁLISIS DE VARIANZA (ANOVA) 95%
H0=EL MODELO NO ES SIGNIFICATIVO (CONVENIENTE)
H1=EL MODELO SI ES SIGNIFICATIVO (CONVENIENTE)
HIPÓTESIS
Fuente de Variación
Suma de cuadrados Grados de
libertad Media cuadrática F Calc.
Regresión SSR= 203921.58 1 gl 1 MCR= 203921.581 455.040379
Error SSE= 1344.4186 n -2 gl 3 MCE= 448.13953
Total Syy= 205266 n-1 4
Ftab= 10.12796449
Como pudo observar en el análisis de los cálculos y las hipótesis han sido igual a
la excepción de los grados de libertad solamente con el caso de regresión
Polinómica.
𝑆𝑆𝑅 𝑆𝑦𝑦 𝑆𝑆𝐸 𝑀𝐶𝑅
𝑆𝑆𝑅
1 𝑀𝐶𝐸
𝑆𝑆𝐸
𝑛 2 𝐹𝐶𝑎𝑙𝑐
𝑀𝐶𝑅
𝑀𝐶𝐸
Región de
aceptación
DISTRIBUCION F DE FISCHER
Decisión: Como la FCalc
cayó en
la RR aceptamos H1 lo cual
significa que el R.L.S si es significativo.
10.12 455.04
51
52
REGRESIÓN LINEAL MÚLTIPLE
Anteriormente se ha estudiado el modelo de regresión lineal simple y regresión
Polinómica, donde se analizaba la influencia de una variable explicativa X en los
valores que toma otra variable denominada dependiente (Y).
En la regresión lineal múltiple vamos a utilizar más de una variable explicativa;
esto nos va a ofrecer la ventaja de utilizar más información en la construcción del
modelo y, consecuentemente, realizar estimaciones más precisas.
Al tener más de una variable explicativa (no se debe de emplear el término
independiente) surgirán algunas diferencias con el modelo de regresión lineal
simple.
Una cuestión de gran interés será responder a la siguiente pregunta: de un vasto
conjunto de variables explicativas: x1, x2,…, xk, cuáles son las que más influyen en
la variable dependiente Y.
En definitiva, y al igual que en regresión lineal simple, vamos a considerar que los
valores de la variable dependiente Y han sido generados por una combinación
lineal de los valores de una o más variables explicativas y un término aleatorio:
+ + 2 2 + ⋯+
Dónde:
2 …
El procedimiento para determinar las es de tipo matricial.
Matriz X Matriz y
(
1111
.
.
.
.
2
.
.
.
.
3
.
.
.
.
.
.
.
. )
(
.... )
Dónde: ( . ) son los datos de cada X.
El recuadro negro es añadido un 1 en cada fila por que representa a β0.
53
La fórmula para hacer esta regresión.
Pasos para hacer el desarrollo de la fórmula a pasos.
1.- Multiplicar
2.- Invertir la matriz arrojada por la operación 1 (Matriz de covarianza)
3.- Multiplicar
4.- Multiplicar la matriz de covarianza por esta última.
Es muy recomendable utilizar estos pasos en ese orden para facilitar la prueba de
Hipótesis, además Excel no puede hacer todos los cálculos al mismo tiempo.
Anteriormente no había sido necesario hacer una prueba de hipótesis en las otras
regresiones porque tan solo bastaba con el analizas de ANOVA.
54
Ejemplo de regresión lineal múltiple
Se piensa que la potencia eléctrica consumida por una planta química está
relacionada con la temperatura ambiente promedio (x1), el número de días del mes
(x2), la pureza promedio del producto (x3), y las toneladas de producto producidas
(x4). Los datos correspondientes al año pasado son los siguientes:
Datos Y (k
Watts) x1 (°F) X2 (día) X3 (%) X4 (ton)
1 240 25 24 91 100
2 236 31 21 90 95
3 290 45 24 88 110
4 274 60 25 87 88
5 301 65 25 91 84
6 316 72 26 94 99
7 300 80 25 87 97
8 296 84 25 86 96
9 267 75 24 88 110
10 276 60 25 91 105
11 288 50 25 90 100
12 261 38 23 89 98
55
Seleccionamos la matriz X le damos copiar, te posicionas en donde quieres
colocar la matriz XT que quiere decir que vamos a transponer todos los valores y
(Excel tiene una opción que lo hace automáticamente) das clic derecho pegado
especial y seleccionamos transponer tal como lo mostramos a continuación.
Es la opción de
transponer
56
El siguiente paso es multiplicar la matriz XT por la matriz X hay que tener mucho
cuidado con el orden de las matrices, la forma de multiplicarlo es de la siguiente
forma:
Consiste en colocarse en la
celda en la que vamos a
colocar la matriz y nos
vamos a insertar la función. 1
2
Nos va a aparecer el siguiente
recuadro en el cual daremos clic
la pestaña para seleccionar la
opción de Matemáticas y
trigonométricas después hay que
buscar MMULT, damos en
aceptar.
Después de esto aparecerá el
siguiente recuadro:
57
Hay que seleccionar los
parámetros de la nueva matriz
haciendo un análisis matricial.
Después tenemos que
presionar F2, Shift + Control +
Enter.
58
De igual forma como en los pasos anteriores hay que posicionarse donde
queremos insertar la matriz de covarianza, para insertar la función de hacemos los
mismos pasos pero en esta ocasión vamos a buscar MINVERSA, lo siguiente que
hay que hacer es dar en aceptar y nos arrojara el siguiente recuadro.
59
Así nos arrojara el resultado que estamos buscando y para aparecer los demás
términos tenemos que hacer lo mismo que anteriormente tenemos que presionar
F2, Shift + Control + Enter ya con las celdas seleccionadas.
Para tener una mejor perspectiva de esta matriz ya que los datos de esta serán
utilizados más adelante aconsejamos hacer lo siguiente:
Marcamos la columna de la matriz identidad y los nombramos para facilitar los
cálculos.
Lo que asemos a continuación es multiplicar XT * y de la misma forma como lo
hicimos por primera vez.
60
Por ultimo tenemos que multiplicar las últimas dos matices y de esta forma
encontraremos todas las β
NOTA: NO SE TE OLVIDE NOMBRAR LOS PARÁMETROS.
Una vez ya hecho esto ya estamos listos para terminar la corrida numérica.
Completamos
arrastrando las
formulas.
Hacemos las sumatorias y
nombramos a SSE en su lugar
habitual para realizar los
cálculos que se muestran
enseguida.
61
Ahora podemos hacer pronósticos:
Como podemos notar el cálculo es fácil pero lo que nos debe intrigar es si este es
estadísticamente confiable. Como unos expertos en regresiones no nos quedamos
con un solo el R2 y procedemos a realizar el análisis de ANOVA.
El análisis de ANOVA en este caso nos indica que alguna de las β que obtuvimos
es estadísticamente diferente pero no nos dice cuales, por esta razón le
presentaremos una forma de saber cuáles β no son significativa y por lo tanto su X
correspondiente también, esto quiere decir que en el modelo no influye.
Como el R2
es del 74.64% se
puede decir que la regresión
es aceptable.
Nota: Las R2 no van a ser
muy grandes en esos casos ya
entre un 85% se considera
muy buena.
62
ANÁLISIS DE VARIANZA (ANOVA) 95%
H0=EL MODELO NO ES SIGNIFICATIVO (CONVENIENTE)
H1=EL MODELO SI ES SIGNIFICATIVO (CONVENIENTE)
HIPÓTESIS
Fuente de Variación
Suma de cuadrados
Grados de libertad
Media cuadrática F Calc.
Regresión SSR= 4968.29 k 4 MCR= 1242.07247 5.150896199
Error SSE= 1687.96 n-k-1 7 MCE= 241.137158
Total Syy= 6656.25 n-1 11
Ftab= 4.120311727
𝑆𝑆𝑅 𝑆𝑦𝑦 𝑆𝑆𝐸 𝑀𝐶𝑅
𝑆𝑆𝑅
1 𝑀𝐶𝐸
𝑆𝑆𝐸
𝑛 2 𝐹𝐶𝑎𝑙𝑐
𝑀𝐶𝑅
𝑀𝐶𝐸
Región de
aceptación
DISTRIBUCION F DE FISCHER
Decisión: Como la FCalc
cayó en
la RR aceptamos H1 lo cual
significa que el R.L.S si es significativo.
4.1203 5.1508
63
Como la prueba de hipótesis se debe hacer para todas las β será muy tedioso
nosotros le mostraremos una forma en la cual es más fácil detectar cuales no
pueden ser significativas una de estas es tomar las β más chicas.
Los pasos para realizar la prueba de hipótesis:
Donde Ttablas =INV.T.2C(0.05,(n-k-1))
PRUEBA DE HIPÓTESIS 95%
Probabilidad Grados de
libertad
64
𝜎 𝟐 𝑺𝑺𝑬
𝒏 𝒌 𝟏
65
Se entiende Intervalo de confianza a una manera más fácil e igual de confiable
que una prueba de hipótesis, ya que te arroja cual beta se puede considerar, o se
debe de eliminar en este proceso.
66
CONCLUSIÓN
Después de analizar los diferentes tipos de regresiones, nos damos cuenta que
son de gran utilidad, para poder obtener resultados confiables que serán de gran
utilidad, para formular modelos que nos ayudaran a comprender procesos de
cualquier tipo de tal forma que tengamos un control sobre él.
El resultado de lo que se obtiene en las diferentes regresiones sobre las variables
no garantizan seguir este patrón durante mucho tiempo, dado a que no
conocemos cuantas variables influyen en realidad en el problema o proceso.
Llegando a la conclusión de que si se recoge información con frecuencia y se
monitorea esos son una buena arma para una empresa en la cual la permitirá
hacer las cosas oportunamente.
Recommended