View
222
Download
0
Category
Preview:
Citation preview
Maestría en TransporteEstadística
Concepto
• Se busca establecer una relación que indique que la media de una población dada depende de una variable X (o varias...), y que la relación es lineal...
0 1 1, , ,[ | ] ...i i i p i p iE Y X X X
Suposiciones
• Variable Y (dependiente) continua.• Relación lineal en los parámetros.• Observaciones independientes y muestreadas aleatoriamente.
• Existencia de incertidumbre en la relación Y -> X (existencia de errores).
• Errores de esperanza nula y varianza constante.
• Errores no correlacionados.• Errores no correlacionados con X.• Errores aproximadamente normales.
Suposiciones II
0 ,1
2
, ,
2
1.
2. 0
3.
4. , 0
5. , 0;
6. ~ (0, )
p
i j j i ij
i
i
i j
i j i
i
Y X
E
V
Cov
Cov X j
N
Violaciones a los supuestos
• Fallas a la Normalidad• Existencia de correlación en las regresoras
• Heterocedasticidad• Existencia de correlación• Errores en la especificación de modelos.
Mas sobre Regresiones
• Bondad de Ajuste, un poco mas allá...• ¿Que son “outliers”? ¿Como detectarlos? ¿Como actuar?
• Fallas a la homocedasticidad• Fallas a la falta de correlación serial• Fallas a la falta de normalidad
Un poco mas de bondad (de ajuste)...
Prueba F
• Se trata probar acerca de la bondad de modelos competidores
• Primero se estima el modelo completo – El mejor modelo que se disponga– Todas las regresoras
• Luego se estima un modelo restringido– es un modelo al que se han quitado variables– Puede ser un modelo en el que, incluso se han quitado TODAS las regresoras y se deja sólo el término constante...
Prueba F (II)
• La lógica de la prueba es comparar la variablidad de los errores en el modelo completo vs la variabilidad en el modelo reducido.
• Se comparan las sumas de cuadrados de los errores de ambos modelos SSEfull y SSEred
0 1 2
1
: ... 0
: 0;
k k p
i
H
H al menosun k i p
Prueba F
• EL estadístico calculado tiene distribución F con– dfr-dff grados de libertad en el numerador
– dff grados de libertad en el denominador
• Donde• dfr = n-pr
• dff = n-pf
• n es el número de observaciones• pf es número de parámetros en el modelo completo (full)• pr es el número de parámetros en el modelo restringido
*
r f
r f
f
f
SSE SSE
df dfF
SSE
df
(1 ; ; )r f fF df df df
Prueba F
• ¿y si se excluyen todas los parámetros beta?
• SSEr=2(n-1)
• dfr=n-1
• La prueba F sólo es válida para modelos “anidados”, esto es donde en uno de ellos se excluye una o mas regresoras respecto al otro.
Criterios de Información
• Para comparar entre modelos en general (con distintas regresoras) se usan los Criterios de información.
• Conceptualmente los CI (o IC en inglés):– dan cuenta de la variabilidad de los errores, cuanto menos variabilidad mejor,
– dan cuenta de la cantidad de variables regresoras incluidas, cuanto menos mejor (criterio de parsimonia). De manera que penalízan cuando se incluyen mas regresoras...
Criterios de Información
• Los criterios se comparan seleccionando el modelo que resulte en un valor menor (menor variabilidad de los errores)
• k número de parámetros estimados• n número de observaciones• l log de la verosimilitud
Criterios de Información
• Ejemplo: definición alternativa de AIC• (bajo normalidad)
• Ejercicio: mostrar que las expresiones son iguales
2( ) 2 /AIC Ln k n
¿Quién no quiere ser singular? ¿quién no quiere ser tratado especialmente? ¿quién no quiere que su participación tenga real
influencia?Todos somos...
Outliers
Outliers
• Conocidas como Observaciones Aberrantes• Son observaciones atípicas de mucha influencia en la pendiente de la recta.
y = 0.709x + 1.8163
0
5
10
15
20
0 5 10 15
y = 0.4395x + 3.3436
0
5
10
15
20
0 5 10 15
Outliers
• Influencia a causa de alejamiento en el eje de las y
• A causa de alejamiento en el eje (los ejes) de las x
• A causa de alejamiento en ambos sentidos
• La influencia en los parámetros es el cuadrado de la distancia.
Outliers
• Matriz “Hat” sombrero• (notación maticial)• Parámetros estimados
• Valores Ajustados
• (proyección)
• H es la matriz “hat”
1' 'B X X X Y
1ˆ ; ' 'Y HY H X X X X
1ˆ 'Y XB X X X XY
Outliers
• Entonces, los valores ajustados son combinación lineal de la muestra (los observados)
• Además
• donde e son residuos e I es la matriz identidad
• (ejercicio, mostrar esto)
2( ) ( )Var e I H
Outliers
• donde hii es el i-ésimo elemento de la matriz diagonal de H.
• Se puede demostrar que
2( ) (1 )i iiVar e h
1
0 1;jj
n
jjj
h j
h p
Outliers
• Cuando mas grande es hii, mas pequeño es Var(ei), mas influencia tiene en determinar la recta. Valores de alto hii tienen menores residuos.
• El “leverage” hii es grande cuando supera el doble del promedio de todos los leverage.
• Ejercicio ¿cuál es este promedio?
Outliers
• Distancia de Cook• Cuantifica el impacto de remover una observación de la estimación sobre los parámetros.
2 2( )
2 2
ˆ1
1(1 )
j j ij i ii
iiiii
y ye h
Dh ppS S h
2
2 21
i iii
ii
e hD
pS h
Outliers
• La distancia depende del residuo en “i” y del leverage en “i”. Si cualquiera es elevado Di será grande respecto al resto de las observaciones.
Outliers
• Acciones• Revisar el modelo
– (¿variables indicadoras? ¿otras variables regresoras?)
• Revisar las observaciones – ¿no corresponde a errores o diferente metodología de recolección?
• Revisar los instrumentos de medida• Revisar manipulación previa de los datos
Outliers
• Acciones (II)• Es recomendable identificar y explicar las observaciones aberrantes.
• Quitarlas puede llevar a críticas por “tratar de ajustar los datos al modelo y no a la inversa”
• Si se comprueba un error justificable, quitarlas.
HeterocedasticidadLos mínimos cuadrados son
un poco pesados...
OLS Ordinary Least Squareso MCO
• Notación matricial: minúsculas indican vectores, mayúsculas indican matrices (incluso en letras griegas). Los escalares se denotan igual que vectores
y X
1 11 21 10
2 12 22 21
21 2
1
1
... ... ... ... ...
1n n n n
y x x
y x x
y x x
2
( ) 0
( ')
E
E I
OLS
• Adicionalmente, normalidad de los errores
2(0, )nN I
1
0
00
...
0n
2
22
2
0 ... 0
0 ... 0
... ... ... ...
0 0 ...
I
OLS
• Ecuaciones normales (p ecuaciones para p incognitas)
• (hemos cambiado la notación para los estimadores de B a “Beta Sombrero”
'q
1
2ˆ0 ( ' ) '
...
n
q
X X X y
q
OLS
• Si (X’X) no es singular...
• Y asumiendo normalidad de los errores se puede obtener la distribución de los beta^ que resultan se normales. Se aplican pruebas t, etc...
1ˆ ( ' ) 'X X X y
Generalized Least Squares GLS
• También conocidos como estimadores de Aitken.
Generalized Least Squares GLS
• También conocidos como estimadores de Aitken.
y X
1 11 21 10
2 12 22 21
21 2
1
1
... ... ... ... ...
1n n n n
y x x
y x x
y x x
2
( ) 0
( ')
E
E V
GLS
• siempre que V sea simétrica y definida positiva |V|>0.
2 2 211 12 1
2 2 22 21 22 2
2 2 21 2
...
...
... ... ... ...
...
n
n
n n nn
v v v
v v vV
v v v
GLS
• Si se usa una matriz triangular tal P’P=V-1 (la matriz V-1 ha sido descompuesta. Se denomina descomposición de Choleki). Resulta que...
1 1
1 1
'
' ' '
' ' ' ' '
'
'
P PV I
P PVP P P P
P P PVP P P P P P
PVP P P P P I
PVP I
GLS
• Supóngase la siguiente transformación
• Ejercicio, hallar la distribución de eta
• Ejercicio, hallar la expresión de beta^ en función de las variables originales
* *
Py PX P
y X
* * 1 * *ˆ ( ' ) 'X X X y
GLS
• Inconveniente, necesitamos conocer V!!• Las aplicaciones de GLS son diversas entre ellas los WLS Weighted Least Squares o Mínimos Cuadrados Pesados, una de las posibles soluciones para la heterocedasticidad, cuando existen réplicas o cuasi réplicas...
Mínimos Cuadrados Pesados
• Se pueden construir mejores estimadores si se acepta que existe heterocedasticidad.
• Si se sabe que cada observación tiene una varianza distinta...
• Nótese que aún existe no correlación entre errores de observaciones distintas
21
22
2
0 0
0 0( ')
0
0 0 0 n
E
( ) 0i jE
Mínimos Cuadrados Pesados
• Para algún valor arbitrario de 2 se puede escribir...
• Voila!! Todo está solucionado (si conociéramos las varianzas de cada observación!!!)
• Entonces – (a) puede hacerse una suposición “de fé” sobre la variación de la varianza, algo similar a decir “los errores son normales” es una suposición previa.
– (b) si existen réplicas se pueden calcular las varianzas para cada observación i
2( ')E V
Mínimos Cuadrados Pesados
• Existe tres réplicas X1, tres réplicas X2 y cuatro réplicas X3
21
21
21
22
22
22
23
23
23
23
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
V
Mínimos Cuadrados Pesados
1
1
1
2
2
2
3
3
3
3
1ˆ
1ˆ
1ˆ
1ˆ
1ˆ
1ˆ
1ˆ
1ˆ
1ˆ
1ˆ
P
Mínimos Cuadrados Pesados
• En una regresión simple, todo resulta en que
• regresión OLS con dos variables y sin ordenada al origen
• A los efectos del cálculo
* * *0 1 0 0, 1 1,
1;i i i
i i i ii i i i
y xy x x
0 1
1ˆ ˆ ˆ ˆi i i
i i i i
y x
Mínimos Cuadrados Pesados
• Las ecuaciones normales implican que se debe aplicar pesos 1/2.
• Ejercicio mostrar las validez de las siguientes expresiones
2
0 1
20 1
1
ˆ ˆ
ˆ ˆ
ii
i i i i i
i i i i i i i
w
w y w w x
w x y w x w x
Mínimos Cuadrados Pesados
• Dado que las varianzas son estimadas algunos autores (Ej:Kmenta) proponen calcular iterativamente.– Se calcula una regresión OLS y se estiman los residuos de las réplicas. Se determinan las varianzas de.
– Se calcula una regresión WLS y se estiman los residuos de las réplicas. Se determinan las varianzas de los errores de las réplicas.
– Se itera hasta obtener convergencia de varianzas (igualdad de varianzas entre réplicas!!)
Mínimos Cuadrados Pesados
• Similares cuestiones surgen cuando la variable respuesta es un promedio de varias observaciones
• yi es promedio de ni observaciones y como tal su varianza es
• Ejercicio, hallar la expresión de V
2
( ) ( )i ii
Var y Varn
Mínimos Cuadrados Pesados
• Es necesario tener consideraciones especiales a la hora de realizar predicciones respecto a bandas de predicción y bandas de predicción individual.
Mínimos Cuadrados Pesados
WLS
0
10
20
30
40
50
60
0 10 20 30 40 50
OLS
0
10
20
30
40
50
60
0 10 20 30 40 50
Autocorrelación(ya no se me ocurre nada
que decir...)
Autocorrelación
• Se aplica cuando las observaciones son obtenidas a través del tiempo.
• Observación de los residuos– agrupamiento de amplitud
• Durbin Watson, modelo
• Ejercicio, verificar que
0 1
1
21( ) 0; ( ) ; ( ) 0; 1
t t t
t t t
t t t t
y x
E V E
1( ) 0t tE
Autocorrelación
• Ejercicio ¿Que efectos tiene sobre los estimadores de una regresión lineal simple, el hecho que no sea nulo?– Verificar si los estimadores son insesgados – Verificar el efecto en la varianza de los estimadores OLS.
• ¿Porqué no ?– Estudio de Series de Tiempo Box y Jenkins– Aproximación AR(1) es buena en muchos casos!!
1 2( , ,..., )t t t t pf
Autocorrelación
• es positivo!
• Residuo
• Región crítica– si d<dl se rechaza H0
– si d>du no se rechaza H0
– si du<d<dl no es concluyente
0 : 0; 1: 0H H
212
2
1
n
t tt
n
tt
e ed
e
ˆt t te y y
Autocorrelación
Autocorrelación
• De igual forma se puede tratar para <0, pero se calcula 4-d con igual región crítica.
• El estadístico d está limitado por 0 y por 4, si es cercano a 2 no se rechaza la hipótesis.
plim 2(1 )
lim 2 1 1n
d
P d
Autocorrelación
• Existen transformaciones para usar OLS. El estudio de series de tiempo es mas general
• Si rho fuese conocido puede aplicarse GLS. Una posibilidad es estimar rho sobre residuos de una primera estimación OLS.
10
21
0
n
t ttn
tt
e er
e
Autocorrelación
• La estimación vía Máxima Verosimilitud• Autocorrelación con datos trimestrales • Autocorrelación con datos mensuales
Recommended