Upload
aleta-camejo
View
272
Download
0
Embed Size (px)
Citation preview
0
1
2
3
4
5
6
0 1 2 3
1Y
2Y3Y
DERIVADO DE LOS COEFICIENTES DE REGRESIÓN LINEAL
YXbbY
uXY
21
21
ˆ :line Fitted
:model True
X
Esta sequencia muestra cómo los coeficientes de regresión para un modelo de regresión lineal simple son derivados, al utilizar el criterio de mínimos cuadrados (least squares criterion OLS, for ordinary least squares).
1
0
1
2
3
4
5
6
0 1 2 3
1Y
2Y3Y
YXbbY
uXY
21
21
ˆ :line Fitted
:model True
X
Comenzaremos con un ejemplo númerico con sólo tres obervaciones: (1,3), (2,5), y (3,6).
2
0
1
2
3
4
5
6
0 1 2 3
1Y
2Y3Y
211̂ bbY 212 2ˆ bbY
213 3ˆ bbY Y
b2b1
XbbY
uXY
21
21
ˆ :line Fitted
:model True
X
Al escribir la regresión ajustada comoY = b1 + b2X, determinaremos los valores de b1 y b2 que minimizan el RSS, es decir, la sumatoria del cuadrado de los residuales.
3
^
0
1
2
3
4
5
6
0 1 2 3
1Y
2Y3Y
211̂ bbY 212 2ˆ bbY
213 3ˆ bbY
Dada la elección de b1 y b2, los residuales son los siguientes.
Y
b2b1
21333
21222
21111
36ˆ
25ˆ
3ˆ
bbYYe
bbYYe
bbYYe
4
XbbY
uXY
21
21
ˆ :line Fitted
:model True
X
ANÁLISIS DE REGRESIÓN SIMPLE
212122
21
212122
21
212122
21
212122
21
221
221
221
23
22
21
12622814370
63612936
42010425
2669
)36()25()3(
bbbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbbeeeRSS
La sumatoria del cuadrado de los residuales es, por lo tanto, la que se muestra arriba.
5
21333
21222
21111
36ˆ
25ˆ
3ˆ
bbYYe
bbYYe
bbYYe
212122
21
212122
21
212122
21
212122
21
221
221
221
23
22
21
12622814370
63612936
42010425
2669
)36()25()3(
bbbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbbeeeRSS
Los cuadráticos han sido desarrollados.
6
212122
21
212122
21
212122
21
212122
21
221
221
221
23
22
21
12622814370
63612936
42010425
2669
)36()25()3(
bbbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbbeeeRSS
La ecuación ha sido simplicada al juntar los términos similares.
7
212122
21
212122
21
212122
21
212122
21
221
221
221
23
22
21
12622814370
63612936
42010425
2669
)36()25()3(
bbbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbbeeeRSS
0281260 211
bb
bRSS
06228120 212
bb
bRSS
Para un mínimo, las derivada parciales de RSS respecto a b1 y b2 deben ser cero. (También debemos checar las condiciones de segundo orden).
8
212122
21
212122
21
212122
21
212122
21
221
221
221
23
22
21
12622814370
63612936
42010425
2669
)36()25()3(
bbbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbbeeeRSS
Las condiciones de primer orden nos dan dos ecuaciones con dos incognitas.
9
0281260 211
bb
bRSS
06228120 212
bb
bRSS
0281260 211
bb
bRSS
06228120 212
bb
bRSS
50.1,67.1 21 bb
Al resolver el sistema de ecuaciones, encontramos que RSS es minimizado cuando b1 y b2 son iguales a 1.67 y 1.50, respectivamente.
10
212122
21
212122
21
212122
21
212122
21
221
221
221
23
22
21
12622814370
63612936
42010425
2669
)36()25()3(
bbbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbbeeeRSS
0
1
2
3
4
5
6
0 1 2 3
1Y
2Y3Y
211̂ bbY 212 2ˆ bbY
213 3ˆ bbY
DERIVIDO DE COEFICIENTES DE REGRESIÓN LINEAL
Y
b2b1
XbbY
uXY
21
21
ˆ :line Fitted
:model True
X
Arriba encontraremos, nuevamente, el diagrama de dispersión.
11
0
1
2
3
4
5
6
0 1 2 3
1Y
2Y3Y
17.31̂ Y67.4ˆ
2 Y
17.6ˆ3 YYXY
uXY
50.167.1ˆ :line Fitted
:model True 21
X
La línea de ajuste y los valores ajustados de Y son los que se muestran en la gráfica.
12
1.501.67
XXnX1
Y
XbbY
uXY
21
21
ˆ :line Fitted
:model True
1Y
nY
Ahora aplicaremos el mismo método para un caso general con n observaciones.
13
XXnX1
Y
b1
XbbY
uXY
21
21
ˆ :line Fitted
:model True
1211̂ XbbY
1Y
b2
nY
nn XbbY 21ˆ
Dada nuestra elección de b1 y b2, obtendremos una línea de ajuste como se muestra en el diagrama.
14
XXnX1
Y
b1
XbbY
uXY
21
21
ˆ :line Fitted
:model True
nnnnn XbbYYYe
XbbYYYe
21
1211111
ˆ
.....
ˆ
1211̂ XbbY
1Y
b2
nY
1e
nn XbbY 21ˆ
Se define el residual de la primera obervación.
15
De la misma manera, definimos los residuales de las obervaciones restantes.
XXnX1
Y
b1
XbbY
uXY
21
21
ˆ :line Fitted
:model True
nnnnn XbbYYYe
XbbYYYe
21
1211111
ˆ
.....
ˆ
1211̂ XbbY
1Y
b2
nY
1e
nenn XbbY 21
ˆ
16
iiiiii
nnnnnn
nnn
XbbYXbYbXbnbY
XbbYXbYbXbbY
XbbYXbYbXbbY
XbbYXbbYeeRSS
212122
221
2
212122
221
2
1211121121
22
21
21
221
21211
221
222
222
...
222
)(...)(...
212122
21
212122
21
212122
21
212122
21
221
221
221
23
22
21
12622814370
63612936
42010425
2669
)36()25()3(
bbbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbbeeeRSS
La RSS,la sumatoria del cuadrado de los residuales, es definida para el caso general. Los datos de ejemplo númerico se muestran para una comparación .
17
iiiiii
nnnnnn
nnn
XbbYXbYbXbnbY
XbbYXbYbXbbY
XbbYXbYbXbbY
XbbYXbbYeeRSS
212122
221
2
212122
221
2
1211121121
22
21
21
221
21211
221
222
222
...
222
)(...)(...
212122
21
212122
21
212122
21
212122
21
221
221
221
23
22
21
12622814370
63612936
42010425
2669
)36()25()3(
bbbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbbeeeRSS
Los cuadráticos son desarrollados.
18
iiiiii
nnnnnn
nnn
XbbYXbYbXbnbY
XbbYXbYbXbbY
XbbYXbYbXbbY
XbbYXbbYeeRSS
212122
221
2
212122
221
2
1211121121
22
21
21
221
21211
221
222
222
...
222
)(...)(...
Se juntan los términos similares.
19
212122
21
212122
21
212122
21
212122
21
221
221
221
23
22
21
12622814370
63612936
42010425
2669
)36()25()3(
bbbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbbeeeRSS
iiiiii XbbYXbYbXbnbYRSS 212122
221
2 222
212122
21 12622814370 bbbbbbRSS
0281260 211
bb
bRSS
06228120 212
bb
bRSS
50.1,67.1 21 bb
Notese que en esta ecuación las observaciones de X y Y son sólo datos que determinan los coeficientes en la ecuación de la RSS.
20
iiiiii XbbYXbYbXbnbYRSS 212122
221
2 222
212122
21 12622814370 bbbbbbRSS
0281260 211
bb
bRSS
06228120 212
bb
bRSS
50.1,67.1 21 bb
La elección de variables en la ecuación son b1 y b2. Esto puede parecer un poco extraño porque en los cursos introductorios de cálculo b1 y b2 son usualmente constantes y X y Y son variables.
21
iiiiii XbbYXbYbXbnbYRSS 212122
221
2 222
212122
21 12622814370 bbbbbbRSS
0281260 211
bb
bRSS
06228120 212
bb
bRSS
50.1,67.1 21 bb
Sin embargo, si tienes alguna duda, compara lo que estamos haciendo en el caso general con lo hecho en el ejemplo numérico.
22
iiiiii XbbYXbYbXbnbYRSS 212122
221
2 222
212122
21 12622814370 bbbbbbRSS
0281260 211
bb
bRSS
06228120 212
bb
bRSS
50.1,67.1 21 bb
La primera derivada respecto a b1.
23
02220 211
ii XbYnbbRSS
iiiiii XbbYXbYbXbnbYRSS 212122
221
2 222
212122
21 12622814370 bbbbbbRSS
0281260 211
bb
bRSS
06228120 212
bb
bRSS
50.1,67.1 21 bb
Con una simple manipulación, obtenemos una expresión simplicada de b1.
24
02220 211
ii XbYnbbRSS
ii XbYnb 21 XbYb 21
La primera derivada respecto a b2.
25
iiiiii XbbYXbYbXbnbYRSS 212122
221
2 222
212122
21 12622814370 bbbbbbRSS
0281260 211
bb
bRSS
06228120 212
bb
bRSS
50.1,67.1 21 bb
02220 211
ii XbYnbbRSS
ii XbYnb 21 XbYb 21
02220 12
22
iiii XbYXXbbRSS
ANÁLISIS DE RESGRESIÓN LINEAL
02220 12
22
iiii XbYXXbbRSS
012
2 iiii XbYXXb
iiiiii XbbYXbYbXbnbYRSS 212122
221
2 222
Dividir sobre 2.
26
02220 211
ii XbYnbbRSS
ii XbYnb 21 XbYb 21
02220 12
22
iiii XbYXXbbRSS
012
2 iiii XbYXXb
0)( 22
2 iiii XXbYYXXb
Ahora subtituimos b1 al utilizar la expresión obtenida para ello y como resultado obtenemos una ecuación que contiene solamente a b2.
27
iiiiii XbbYXbYbXbnbYRSS 212122
221
2 222
02220 211
ii XbYnbbRSS
ii XbYnb 21 XbYb 21
02220 12
22
iiii XbYXXbbRSS
02220 12
22
iiii XbYXXbbRSS
012
2 iiii XbYXXb
0)( 22
2 iiii XXbYYXXb
0)( 22
2 XnXbYYXXb iii
La definición de la media muestral ha sido utlizada.
28
n
XX i
XnX i
02220 12
22
iiii XbYXXbbRSS
012
2 iiii XbYXXb
0)( 22
2 iiii XXbYYXXb
0)( 22
2 XnXbYYXXb iii
022
22 XnbYXnYXXb iii
Los últimos dos términos han sido desarrollados.
29
02220 12
22
iiii XbYXXbbRSS
012
2 iiii XbYXXb
0)( 22
2 iiii XXbYYXXb
0)( 22
2 XnXbYYXXb iii
022
22 XnbYXnYXXb iii
Los términos que no involucran a b2 han sido tranferidos al lado derecho.
30
02220 12
22
iiii XbYXXbbRSS
YXnYXXnXb iii 222
Para crear espacio, la ecuación ha sido colocada en la parte superior de la diapositiva.
31
YXnYXXnXb iii 222
YXnYXXnXb iii 222
SIMPLE REGRESSION ANALYSIS
Ahora, obtenemos una expresión para b2.
32
YXnYXXnXb iii 222
222 XnX
YXnYXb
i
ii
En la práctica debemos utilizar una expresión alternativa. A continuación, demostraremos que son equivalentes.
33
YXnYXXnXb iii 222
222 XnX
YXnYXb
i
ii
22
XX
YYXXb
i
ii
Al expandir el numerador, obtenemos los términos mostrados.
34
YXnYXXnXb iii 222
222 XnX
YXnYXb
i
ii
22
XX
YYXXb
i
ii
YXnYX
YXnYnXXnYYX
YXnYXXYYX
YXYXYXYXYYXX
ii
ii
iiii
iiiiii
En el segundo término el valor medio de Y (mean value of Y) es un facotr común. En el tercero, el valor medio de X es un facotr común. El último término es el mismo para todas las i.
35
YXnYXXnXb iii 222
222 XnX
YXnYXb
i
ii
22
XX
YYXXb
i
ii
YXnYX
YXnYnXXnYYX
YXnYXXYYX
YXYXYXYXYYXX
ii
ii
iiii
iiiiii
Utilizamos la definición de la media muestral para simplificar la expresión.
36
YXnYXXnXb iii 222
222 XnX
YXnYXb
i
ii
22
XX
YYXXb
i
ii
YXnYX
YXnYnXXnYYX
YXnYXXYYX
YXYXYXYXYYXX
ii
ii
iiii
iiiiii
n
XX i
XnX i
Por lo tanto, hemos demostrado que los numeradores de ambas expresiones son iguales.
37
YXnYXXnXb iii 222
222 XnX
YXnYXb
i
ii
22
XX
YYXXb
i
ii
YXnYX
YXnYnXXnYYX
YXnYXXYYX
YXYXYXYXYYXX
ii
ii
iiii
iiiiii
El denominador es matematicamente un caso especial del numerador, al remplazar Y por X. Por lo tanto, las expresiones son equivalentes.
38
YXnYXXnXb iii 222
222 XnX
YXnYXb
i
ii
22
XX
YYXXb
i
ii
YXnYXYYXX iiii 222 XnXXX ii
DERIVADO DE LOS COEFICIENTES DE REGRESIÓN LINEAL
XXnX1
Y
b1
XbbY
uXY
21
21
ˆ :line Fitted
:model True
1211̂ XbbY
1Y
b2
nY
nn XbbY 21ˆ
El diagrama de dispersión se muestra nuevamente. Resumiremos lo que hemos hecho hasta ahora. Formulamos una hipótesis que indica que el modelo verdadero es similar al que se muestra en la gráfica, y obtuvimos algunos datos y ajustamos una línea.
39
DERIVADO DE LOS COEFICIENTES DE REGRESIÓN LINEAL
XXnX1
Y
b1
XbbY
uXY
21
21
ˆ :line Fitted
:model True
1211̂ XbbY
1Y
b2
nY
nn XbbY 21ˆ
XbYb 21
Eleguimos los parametros de la líne de ajuste para lograr minimizar la suma del cuadrado de los residuales. Como resultado, derivamosla ecuación para b1 y b2.
40
22
XX
YYXXb
i
ii
Copyright Christopher Dougherty 1999–2006. This slideshow may be freely copied for personal use.
17.06.06