XXX REUNION DE ESTUDIOS REGIONALES
Barcelona/ 18-19/ Noviembre 2004
Observaciones atípicas en regresiones de corte transversal†.
Jesús Mur
Departamento de Análisis Económico Universidad de Zaragoza. Gran Vía, 2-4. (50005) Zaragoza. e-mail: [email protected]
Resumen
La fiabilidad de los resultados obtenidos de una aplicación econométrica depende, en gran
medida, de la calidad de la información muestral. Esta afirmación resulta válida con carácter general
aunque adquiere una importancia capital en un contexto espacial, en el que los datos están
contaminados por múltiples irregularidades.
El objetivo genérico del trabajo es examinar los problemas causados por la presencia de
observaciones atípicas en regresiones de corte transversal. Es conocido que la robustez de los
estimadores (sean LS, MV o de otro tipo) se diluye conforme aumenta la inestabilidad en la muestra.
Sin embargo, su presencia también resulta útil para romper relaciones de colinealidad y para informar
sobre zonas del espacio muestral mal representadas. El impacto de este tipo de observaciones sobre los
contrastes de especificación habituales en aplicaciones de naturaleza espacial es desconocido, por lo
que el trabajo se centra en esta cuestión. Se obtienen, en primer lugar, una serie de resultados analíticos
que permiten identificar las distorsiones creadas por los atípicos en estos contrastes. Esta evidencia se
ratifica finalmente mediante un ejercicio de Monte Carlo.
† Agradecimientos : Este trabajo ha sido posible gracias al apoyo financiero brindado por el proyecto SEC 2002-02350 del Ministerio de Ciencia y Tecnología del Reino de España. El autor agradece igualmente la inestimable colaboración de Ana Ángulo.
1
1- Introducción
La presencia de observaciones atípicas es causa de inquietud e incertidumbre para los
económetras. Inquietud porque revela cierta debilidad de los datos lo cual erosiona la confianza en los
resultados finales. También incertidumbre porque cualquier decisión que se tome al respecto puede
acabar generando efectos indeseados. No es de extrañar, en consecuencia, la atención que al tópico se
le ha dedicado en este ámbito. Los trabajos de Hawkins (1980), Chatterjee y Hadi (1988), Belsley
(1991) y Barnett y Lewis (1994) constituyen algunas referencias esenciales. La literatura sobre el tema
ha crecido en los últimos años, tanto en volumen como en especificidad, a medida que se ha
generalizado el uso de series de alta frecuencia. Los trabajos de Chang et al. (1988), Tsay (1988),
Perron (1989) o Peña (1990) son pioneros en de esta línea, que ocupa un lugar preferente en el
moderno análisis de series temporales.
Esta situación contrasta con la existente en el ámbito de la econometría espacial. En primer
lugar porque los datos espaciales son proclives a la generación de observaciones anómalas
(heterogeneidad, inestabilidad, irregularidad,... son términos usados aquí con frecuencia). Sin embargo,
las referencias dedicadas explícitamente al tópico son escasas (los trabajos de Wartenberg, 1989, y de
Haining, 1994 y 1995, son una excepción). No obstante, esta problemática se ha madurado más en el
ámbito específico de la estadística espacial (Cressie, 1993).
Para fijar ideas, debe indicarse que los atípicos no son necesariamente malos. Por el contrario,
en lo esencial resulta fácil coincidir con Shekhar et al (2002) cuando afirman que ‘0utliers have been
informally defined as observations which appear to be inconsistent with the remainder of a set of data,
or which deviate so much from other observations so as to arouse suspicions that they were generated
by a different mechanism. The identification of outliers can lead to the discovery of unexpected
knowledge and has a number of practical applications in (different) areas' (pp. 451-452). Es decir,
estos puntos serán dañinos solo cuando escapen al control del analista. Su presencia contaminará la
restante información muestral, distorsionando el funcionamiento de los instrumentos de inferencia
habituales. Si, por el contrario, estas observaciones se detectan y aíslan convenientemente, pueden ser
fuente de información muy valiosa puesto que provienen de zonas del espacio muestral
insuficientemente representadas.
2- Observaciones atípicas en modelos econométricos de corte transversal
Momentáneamente, el trabajo se limita a intentar evaluar el impacto que estos puntos atípicos
tienen sobre los estadísticos de subespecifícación empleados habitualmente en modelos econométricos
de corte transversal (ver Florax y de Graaff, 2004). Esto es, sobre los estadísticos I de Moran, LM-
ERR, LM-EL y KR, relativos al análisis de dependencia espacial en la perturbación, junto al LM -LAG
2
y al LM-LE cuyo objetivo se centra en analizar la estructura dinámica de la ecuación. A los anteriores
se va añadir también el contraste SARMA cuya hipótesis nula es conjunta (estructura estática en la
ecuación y un término de error ruido blanco). Con respecto al objetivo concreto de este trabajo, es
importante reseñar que los siete contrastes mencionados se construyen en tomo a los residuos de la
estimación LS. Dado que estos residuos acusan la presencia de atípicos, esa misma sensibilidad tiene
que manifestarse, en todo o en parte, en los estadísticos mencionados.
El impacto de este tipo de puntos depende de las propias dimensiones de la anomalía, a lo cual
debe añadirse, en este caso, su posición geográfica y la estructura de dependencias transversales
existente en los datos. Para apreciarlo con más claridad, podemos proceder con el siguiente modelo que
incorpora un atípico:
2s
y X d u
0 s r; u~N(0; )d
1 s r
= β + π + ≠ = σ =
(1)
La anomalía se origina porque hay un desplazamiento en la media de la observación r y tiene
tamaño π. Si se omite este hecho para plantear una ecuación lineal estándar: y=Xβ+v, se habrá
cometido un error de especificación en el que la parte no controlada por la ecuación es v=u+πd. La
estructura de este último elemento responde a un error por omisión de variables relevantes en la parte
sistemática, al que se le añade el término aleatorio habitual. Las consecuencias son conocidas: los
estimadores LS tienen un sesgo y la distribución de los residuos deja de estar centrada en cero, aunque
mantienen la matriz de covarianzas:
[ ][ ]
[ ][ ]
[ ][ ]
[ ]
11
12
2 r2
ˆE X'dX 'Xˆ X ' yX 'Xy X d u X v
ˆV X'XE v dv d u
ˆE v Md mV v I ˆv̂ y X MvˆV v M
−−
−
β = β + π β = →= β + π + = β + β = σ = π ⇒ = π + → = π == σ = − β = → = σ
(2)
siendo M la matriz ( ) 1I X X ' X X '− − ; el vector Md=mr se corresponde con la columna r-ésima de la
matriz M. La peculiaridad que se va introducir es una perturbación con cierta estructura de dependencia
espacial (SAR ó SMA), o bien la presencia de elementos dinámicos explícitos en la ecuación principal.
En el caso de dependencia residual con estructura SAR, las ecuaciones de referencia serán:
3
[ ][ ] [ ]
1 * *SAR
2 1 1* *SAR
y X vy X vv Wv u v uI W v d
u d; iidN(0, ) ; dI W I Wv d
−
− −
= β + = β + = ρ + ⇒ = = + π−ρ = ε + π ε ∼ σ = ε =−ρ −ρ
(3)
A diferencia de lo que ocurre en el caso de (2), el desplazamiento en la media afectará a todos
los términos de error en una cuantía variable ( *SARdπ ; esto es, la r-ésima columna de la matriz
[ ] 1I W −−ρ multiplicada por π). El error de especificación, consecuencia del atípico en la observación r,
resultará en unos estimadores LS sesgados:
[ ] [ ]1 1 *SAR
ˆ ˆX ' y E X 'X'X X'X d− − β = ⇒ β = β + π (4)
Los residuos LS no estarán centrados en cero, aunque mantendrán la matriz de covarianzas:
[ ][ ] [ ]
*SAR
22
ˆE v Mdˆv̂ y X MvˆV v M MI W −
= π= − β = → = −ρσ
(5)
Si en la perturbación domina una estructura media móvil, los resultados son similares. Los
estimadores LS son sesgados y el vector de residuos también experimenta un desplazamiento:
[ ] [ ]1 1 *SMAˆ ˆX ' y E X 'X 'X X ' X d
− − β = ⇒ β = β + π (6)
[ ][ ] [ ]
*SMA
22
ˆE v Mdˆv̂ y X MvˆV v M MI W
= π= − β = → = −θσ
(7)
siendo ρ el parámetro del proceso y [ ]*SMA I W dd = − ρ . El impacto del atípico se encuentra más
localizado, por cuando el vector *SMAd se corresponde con la columna r-ésima de la matriz SMA [I-
ρW]. Por último, en el caso de autocorrelación espacial sustantiva el impacto del atípico alcanzará a
todas las observaciones:
[ ] ( ) [ ][ ] [ ]
1 1
2 1 1*SAR
y X dI W I Wy Wy X v
v d; iidN(0, ) XI W I Wd
− −
− −
= β + π + ε =−ρ −ρ= ρ + β + ⇒ = ε + π ε ∼ σ β + π + ε= −ρ −ρ
(8)
El sesgo de los estimadores LS se acentúa, al igual que el desplazamiento en el momento de
primer orden de los residuos:
[ ] ( )1 1 *SAR
ˆE X ' I W XX'X d− − β = −ρ β + π (9)
4
[ ] ( )[ ] [ ]
1 *SAR
22
ˆE v M I W X Mdˆv̂ y X MyˆV v M MI W
−
−
= −ρ β + π= − β = → = −ρ σ
(10)
No resulta fácil concretar el impacto de estos errores sobre los contrastes de subespecificación
que se han seleccionado. El contraste I de Moran sufre un desplazamiento, de signo y cuantía
indeterminada, que afecta al momento de primer orden1. Ahora, el nuevo valor esperado, bajo la
hipótesis nula de incorrelación en la perturbación y asumiendo una anomalía como la de (1), pasa a ser:
[ ]( )0
2 2 'r r
2 2H0 rr
trMW WR m mE IR k (1 )pS
+σ π= − + −σ π (11)
siendo prr el elemento r-ésimo de la diagonal principal de la matriz P=X(X’X)-1X’, el cual mide el
grado de apalancamiento de la observación asociada. Este elemento se encuentra acotado: 0≤prr≤1 por
lo que siempre se cumplirá que: 2rr(1 ) 0p− ≥π . Sin embargo, el impacto en el numerado es incierto
puesto que la forma cuadrática 'r rWm m es indefinida. Las consecuencias sobre los momentos de
segundo orden son todavía más vagas.
Los Multiplicadores de Lagrange también sufren ajustes de cierta consideración. Por ejemplo, la
estimación ML del modelo de (3), introduciendo un error explícito de falta de identificación de un
punto atípico en la observación r-ésima, conduce al vector gradiente:
( )( )
( ) ( )( ) ( )1 1
2
22
l
X 'B ' dl l 1g d ' W d trWB B
d ' dRl2 2
− −
∂ ∂β π + ε ∂ ∂ γ = = = π + ε π + ε − ∂γ ∂ρ σ π + ε π + ε ∂ − + σ ∂σ
(12)
siendo l la log-verosimilitud, γ el vector [β,ρ,σ2]’ y B la matriz [I-ρW]. Su valor esperado bajo la
hipótesis nula de incorrelación (Ho: ρ=0) no será cero:
( )0
'r
: 0 2 2H
2 2
X'd xE g 0 0
2 2
ρ=
π πγ = =
σ σ π π σ σ
(13)
siendo xr el vector (1xk) de observaciones de las explicativas correspondientes al punto contaminado.
5
La presencia del atípico, como puede observarse, no tiene mayor incidencia sobre el valor esperado
del segundo elemento del gradiente, correspondiente a la estimación ML de π, que sigue siendo cero.
La matriz hessiana, nuevamente bajo el supuesto de incorrelación deja de ser diagonal por bloques:
( )
( )
0
'r2
22 2
0 r2: 0H 2
r2 2 2
X ' X 2 X'Wd x
l 1H E 2 d ' W ' X 2 0S s'
R 20 1x
R2
ρ=
ππ
σ ∂ γ = − = π +σ π ∂γ∂γ σ π π+ σ σ σ
(14)
siendo sr el elemento r-ésimo de la diagonal principal de W’W (si esta matriz es de tipo binario, sr se
corresponde con el número de contractos de la región contaminada).
En circunstancias generales, estos resultados serán desconocidos por el analista el cual se
limitará a actuar de la forma acostumbrada. En concreto, para contrastar la hipótesis nula de que la
perturbación es un ruido blanco (H0:ρ=0) frente a la alternativa de dependencia espacial genérica
(HA :ρ ≠0), el contraste LM-ERR que se especificará será el habitual:
[ ] [ ]1A Aˆ ˆ ˆg( ) ' ( ) g( )LM ERR H
− = γ γ γ− (15)
El superíndice A índica que se trata de una aproximación al estadístico, o matriz, relevante en
cada caso. Sin embargo, la estructura del Multiplicador de Lagrange que debería haberse utilizado es la
siguiente:
[ ] [ ] [ ]1 2
asˆ ˆ ˆ ˆˆLM ERR g( ) Eg( ) ' g( ) Eg( ) (1)H( ) −− = γ − γ γ − γ ∼γ χ (16)
Para poder relacionar ambos estadísticos (LM-ERR y LM-ERRA) es necesario descomponer la
matriz Hessiana de (14) en:
( )'r2
2 2 2A B0 r2 2
2
r2 2 4
0 2 X'Wd xX ' X 0 0
1 1H( ) ( ) ( ) 0 2 0 2 d ' W ' X 0S sH HR0 0 0x
2
π π σ γ = γ + γ = + π σ π σ σ σ π π σ σ σ
(17)
Introduciendo la última expresión en el Multiplicador de (16) se obtiene:
1 [ ]
0H 0
R trMWE I
R kS
= −
en circunstancias normales.
6
[ ] [ ] [ ]
[ ] ( ) [ ]
( ) ( ) [ ] [ ]
( )
1
1A *
1 1A A *
1A
ˆ ˆ ˆ ˆˆLM ERR g( ) Eg( ) ' g( ) Eg( )H( )
ˆ ˆ ˆ ˆ ˆ ˆg( ) Eg( ) ' ( ) ( ) g( ) Eg( )H H
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆg( ) ' ( ) g( ) Eg( ) ' ( ) Eg( ) g( ) Eg( ) ' ( ) g( ) Eg( )H H H
ˆ ˆ ˆg( ) ' ( ) g( )H
−
−
− −
−
− = γ − γ γ − γ =γ
= γ − γ γ − γ γ − γ =
= γ γ γ − γ γ γ − γ − γ γ γ − γ =
= γ γ γ − −1 2lmerr lmerr
(18)
siendo ( ) ( ) ( ) ( ))ˆ(H)ˆ(H)ˆ(H)ˆ(H)ˆ(H AB 1A 1A 111* γ
γ+γγ=γ −−− −− . En definitiva, la relación buscada es:
( ) 1A Aˆ ˆ ˆg( ) ' ( ) g( ) LM ERRLM ERR H−
= γ γ γ = − + +− 1 2lmerr lmerr (19)
El término lmerr1 converge, con R grande, a una constante positiva:
( ){ } 21 2 2Arr rr2
R Rˆ ˆ ˆplim Eg( ) ' ( ) Eg( ) plim 0p pH
2R
−
→∞ →∞
πγ γ γ = + = ≥π π σ
(20)
Por otro lado, el término lmerr2 es una forma cuadrática de un vector aleatorio, el cual cumple
un TCL bien definido, ( ) ( ) ( )D 1R g Eg N 0;H − γ − γ → γ
, sobre una matriz genérica, )ˆ(H* γ . La
distribución de probabilidad de la forma cuadrática no es estándar, y se corresponde con la de una suma
de variables chi-cuadrado mutuamente independientes, con pesos λj:
[ ] [ ] R* 2jj 1 jˆ ˆ ˆ ˆ ˆg( ) Eg( ) ' ( ) g( ) Eg( )H z== γ − γ γ γ − γ = ∑ λ2lmerr (21)
Las variables aleatorias zj se distribuyen de acuerdo a una ley normal N(0,1) y los elementos
{λj, j=1, 2, ...R} son las raíces características de la matriz ( ) ( ) ( )*L ' LHγ γ γ , siendo ( )L γ la matriz
que factoriza la matriz de información de (14): ( ) ( ) ( )H L L 'γ = γ γ (Kendall y Stuart, 1977).
Las consecuencias sobre el estadístico LM-LAG pueden seguirse utilizando el modelo de (8)
como punto de referencia. El vector gradiente correspondiente a esta especificación será:
( )[ ]
( )( ) ( )
12
22
l
X ' dl l 1g y ' W ' d trWB
d ' dRl2 2
−
∂ ∂β π + ε ∂ ∂ γ = = = π + ε − ∂γ ∂ρ σ π + ε π + ε ∂ − + σ ∂σ
(22)
Debe recordarse que, ahora, ρ es el parámetro que acompaña al retardo de la variable endógena
en la ecuación principal del modelo; B sigue siendo la matriz [I- ρW]. El valor esperado del gradiente
7
de (22), bajo el supuesto de estructura estática (H0: ρ=0), vuelve a ser diferente de cero:
( )0
'r
: 0 2H
2
xE g 'X'Wd
2
ρ=
π
γ = β σ π
σ
(23)
La estructura de la matriz de información, bajo la hipótesis nula, es de tipo general:
( )
( ) ( )
( ) ( )
0
'r2
22
2 22 2r 0: 0H
2
r2 2 2 2
X'X X ' W X d x
' X ' X 2 dWl 1H E X d ' W ' X 'X'Wd' 2s S
R 2d ' W ' X 1x
R2
ρ=
π β + π σ β β + π + π ∂ γ = − = β + π β ∂γ∂γ σ σ+ +π σ π π π β + σ σ σ σ
(24)
siendo W2=W’W. Esta matriz hessiana admite una descomposición similar a la utilizada en el caso del
LM-ERR de (17) de modo que:
( )
A B
'r2
2 2
2 22 20 r
2r2 2 2 4
H( ) ( ) ( )H H
0 X'Wd xX ' X X'WX 0
' X ' X 2 ' X ' d1 W W'X 'W'X 0 d ' W ' X 'X'Wd2 S s
R0 0 d 'W'Xx
2
γ = γ + γ =
π π β σ β β + πβ + π β + π β σ σ σ π
π π π β σ σ σ σ
(25)
El último resultado permite desarrollar el estadístico LM-LAG como:
[ ] [ ] [ ]
( ) ( ) [ ] [ ]
( )
1
1 1A A *
1A
ˆ ˆ ˆ ˆˆLM LAG g( ) Eg( ) ' g( ) Eg( )H( )
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆg( ) ' ( ) g( ) Eg( ) ' ( ) Eg( ) g( ) Eg( ) ' ( ) g( ) Eg( )H H H
ˆ ˆ ˆg( ) ' ( ) g( )H
−
− −
−
− = γ − γ γ − γ =γ
= γ γ γ − γ γ γ − γ − γ γ γ − γ =
= γ γ γ − −1 2lmlag lmlag
(26)
La matriz H*(γ) mantiene formalmente la misma estructura que la ya utilizada en el caso
anterior, basta con actualizar el contenido de las matrices de base ( )A ˆ( )H γ y ( )B ˆ( )H γ , por lo que
podemos escribir:
( ) 1A Aˆ ˆ ˆg( ) ' ( ) g( ) LM LAGLM LAG H−
= γ γ γ = − + +− 1 2lmlag lmlag (27)
8
El término lmlag1 converge, con R, a una constante positiva:
( ){ }[ ] ( ) [ ] ( )
1A
R
2 2 22 22 2r rrr rr4 4
R
ˆ ˆ ˆplim Eg( ) ' ( ) Eg( )H
plim V d 'WX V d 'WXp pp p2R
−
→∞
→∞
γ γ γ =
π π π + ρ − β + = + ρ − β σ σ σ σ
(28)
siendo V[ρ] el límite de convergencia de la varianza del estimador ML del parámetro ρ :
[ ]1
2'X'W'MWX
V−
β βρ =
σ y pr la columna r-ésima de la matriz P. El comportamiento del término
lmlag2 resulta más impreciso, aunque puede mantenerse (adaptado) el resultado de (21):
[ ] [ ] R* 2jj 1 jˆ ˆ ˆ ˆ ˆg( ) Eg( ) ' ( ) g( ) Eg( )H z== γ − γ γ γ − γ = ∑ λ2lmlag (29)
Las variables zj siguen siendo variables normales unitarias N(0,1) y los pesos {λj, j=1, 2, ...R}
son las raíces caracterís ticas de ( ) ( ) ( )*L ' LHγ γ γ , siendo ( )L γ la matriz que factoriza la matriz de
información de la expresión de (24).
Para concluir esta discusión dedicada a los Multiplicadores de Lagrange resta por considerar el
caso del contraste SARMA. La hipótesis nula es conjunta (la ecuación principal es estática y la
perturbación es un ruido blanco), por lo que el modelo de referencia debe ser más general que los
considerados hasta ahora:
2
y Wy X vv Wv u
u d; iidN(0, )
= ρ + β += θ + = ε + π ε ∼ σ
(30)
No existen mayores sorpresas en los resultados relativos al gradiente:
( )
[ ]( )
( ) ( )( ) ( )
( )0
'r
1
2 21 1 H
22
2
l
xX'D' dl'X'Wdy'WD' d trWBl 1
g E g 0l d ' W d trWD D
d ' dR 2l 2 2
−
− −
∂ ∂β π + ε ∂
β π + ε −∂ π∂ρ γ = = = ⇒ γ = ∂γ ∂ π + ε π + ε −σ σπ ∂θ π + ε π + ε σ − +∂ σ ∂σ
(31)
siendo B=[I-ρW] y D=[I-θW]. Nuevamente la presencia del atípico no tiene incidencia en el término
del gradiente asociado al estimador ML de θ, cuyo valor esperado continua siendo cero. La estructura
de la matriz hessiana de este caso es compleja, incluso bajo la hipótesis de no interacción espacial:
9
( )
( ) ( )
( ) ( )
0
2
: 0H
'r2
2 2
22 22 2r 0r 0
2 22 2
0 r2 2r 0
r2 2
lH E
'
X ' X X ' W X d 2 X'Wd x
' X ' X 2 d 2( d ' XW 1WX d 'W'X 2 d 'W'X)2 s Ss S1
2( d ' XW2 d ' W ' X 2 0S s)s S
12 ' Xx
ρ=θ=
∂γ = − = ∂γ∂γ
πβ + π πσ
β β + π + π β − β + π π β + σ+ π σ +π σ
= π β −σ π +σ π
+ π σ
ππβ
σ σ
2
2 2R 2
'Wd 0 1R2
π + σ σ
(32)
En cualquier caso, la matriz puede descomponerse en la suma de otras dos matrices, tal y como
ya se ha hecho en otras ocasiones:
2
020
0 0
2
'A B r22
2 2
22 2r r
2
X ' X X'WX 0 0
'X' XW'X 'W'X 2 0S2 S
0 2 2 0S SR0 0 0
2
1 0 X'Wd 2 X'Wd xH( ) ( ) ( )H H
2 'X' d 2 'X ' d 2W Wd'W'X 'X'Wd
s 2 s
2 'X '2 d 'W'X
β
β β + β σ + σ
ππ πγ = γ + γ =
σσ πβ + πβ − π π β
σ π − π +
πβπ 2
r2r
2r2 2 4
(33)
dW0s
2 s
2d 'W 'X 0x
− π
− π π π π β σ σ σ
El estadístico SARMA puede desarrollarse finalmente como:
[ ] [ ] [ ]
( ) ( ) [ ] [ ]
( )
1
1 1A A *
1A
ˆ ˆ ˆ ˆˆSARMA g( ) Eg( ) ' g( ) Eg( )H( )
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆg( ) ' ( ) g( ) Eg( ) ' ( ) Eg( ) g( ) Eg( ) ' ( ) g( ) Eg( )H H H
ˆ ˆ ˆg( ) ' ( ) g( )H
−
− −
−
= γ − γ γ − γ =γ
= γ γ γ − γ γ γ − γ − γ γ γ − γ =
= γ γ γ − −1 2sarma sarma
(34)
La estructura de la matriz H*(γ), y la de las matrices constitutivas A ˆ( )H γ y B ˆ( )H γ es
conocida. El estadístico SARMA, erróneamente especificado al no captar la anomalía de la observación
10
r-ésima, se corresponde con:
( ) 1A Aˆ ˆ ˆg( ) ' ( ) g( ) SARMASARMA H−
= γ γ γ = + +1 2sarma sarma (35)
El término sarma1, debido a que el valor esperado del elemento del gradiente vinculado a θ es
cero, tiene el mismo límite de convergencia que el correspondiente a lmlag1:
( ){ }[ ] ( ) [ ] ( )
1A
R R R
2 2 22 22 2r rrr rr4 4
R
ˆ ˆ ˆplim plim plim Eg( ) ' ( ) Eg( )H
plim V d 'WX V d 'WXp pp p2R
−
→∞ →∞ →∞
→∞
= = γ γ γ =
π π π + ρ − β + = + ρ − β σ σ σ σ
1 1lmlagsarma
(36)
El término sarma2 vuelve a ser una forma cuadrática de un vector de normales estandarizadas
sobre una matriz diagonal con elementos {λj, j=1, 2, ...R}, de modo que:
[ ] [ ] R* 2jj 1 jˆ ˆ ˆ ˆ ˆg( ) Eg( ) ' ( ) g( ) Eg( )H z== γ − γ γ γ − γ = ∑ λ2sarma (37)
Estos pesos {λj, j=1, 2, ...R} coinciden con las raíces características de la
matriz ( ) ( ) ( )*L ' LHγ γ γ , siendo ( )L γ la matriz que factoriza la matriz de información de (32).
3.- Resultados de Monte Carlo
En la sección anterior se ha discutido el impacto esperado que un punto anómalo sobre los
contrastes de subespecificación utilizados más a menudo. Los resultados obtenidos permiten afirmar
que la presencia de estos puntos dificulta el normal funcionamiento de esos estadísticos. En concreto,
se ha comprobado que el nivel de significación de los contrastes se ve afectado en todos los casos,
introduciendo un sesgo predominantemente a la baja. Es razonable suponer que esos mismos efectos se
extenderán también a la función de potencia de los contrastes, aunque la resolución analítica de esta
propuesta parece intratable en estos momentos. En tales circunstancias, entendemos que un ejercicio de
Monte Cario resulta muy recomendable.
Debe tenerse en cuenta que el problema de las observaciones atípicas en modelos
econométricos de corte transversal tiene muchas vertientes (número de atípicos, posición geográfica,
dispersión, estructura de dependencias existente, etc.), por lo que sería necesario desarrollar un
ejercicio de gran envergadura para poder acotar todas sus implicaciones. En este sentido, los resultados
que se van a presentar son limitados puesto que cubren solo unas pocas cuestiones de interés. A pesar
de esta limitación, son suficientes para ratificar la relevancia del problema, sobre todo en un contexto
de muestras pequeñas.
Reflejando la discusión planteada en la sección anterior, en el ejercicio se han simulado dos
tipos de modelos: estático con estructura de dependencia residual o bien dinámico con perturbación
11
ruido blanco. El modelo simulado en el caso estático tiene una composición simple:
R,....,2,1r;vxy rr110r =+β+β= (38)
El término de error vr responde a los diferentes casos planteaos, SAR o SMA, incluyendo
atípicos:
2
y X vv Wv u
u d; iidN(0, )ε
= β + = ρ + = ε + π ε ∼ σ
ESTRUCTURA SAR
2
y X vv u Wu
u d; iidN(0, )ε
= β + = − ρ = ε + π ε ∼ σ
ESTRUCTURA SMA
(39)
donde 2εσ se ha mantenido igual a 1. El término d se corresponde con la variable ficticia usada en (1) y
π es un parámetro que define el atípico. Los parámetros β j (j=0,1) se han hecho igual a 2 (lo cual
asegura un coeficiente de determinación medio en la regresión de 0.80 aproximadamente).
Se han definido tres sistemas de regiones, utilizando cuadrículas regulares, de tamaños 25, 100
y 225. La matriz W se ha especificado de tipo normalizado. Únicamente se han simulado valores
positivos en el parámetro ρ, comprendidos entre 0 y 0.99. Con respecto al atípico, se han ensayado
distintas combinaciones referentes a la localización y al tamaño. Por el momento, solo se han
contemplado dos posibles ubicaciones para la anomalía, periférica o central. La primera supone
intervenir en las regiones 25, 100 ó 225, dependiendo del sistema simulado, mientras que en la segunda
se han alterado las observaciones 13, 45 ó 112. Por último, el tamaño del atípico se ha hecho depender
de la dispersión del vector de perturbaciones ε obtenido. En concreto, si denotamos la desviación típica
de este vector por ˆ εσ , el parámetro π se ha hecho igual a 0 (no hay anomalía), 2.5ˆ εσ (la anomalía es
pequeña), 5ˆ εσ (la anomalía es relevante) ó 7.5 ˆ εσ (la anomalía es muy grande). Para simplificar la
exposición, solo vamos a presentar los resultados correspondientes al caso de un atípico grande (π es
igual 7.5 ˆ εσ ) con una posición central.
Por otro lado, el modelo dinámico se concreta en:
2
y Wy X v
u d; iidN(0, )ε
= ρ + β +
= ε + π ε ∼ σ
ESTRUCTURA DINÁMICA
(40)
y se han mantenido las especificaciones ya comentadas sobre los diferentes elementos.
Los principales resultados acumulados se resumen en la Tabla 1, dedicada al nivel de
significación empírico de los contrastes, y en las Figuras 1 a 7 donde se presenta la potencia estimada
para esos mismos contrastes en los diferentes casos contemplados en la simulación.
12
Los resultados reflejados en la Tabla 1 no encierran sorpresas. Como se ha dicho, la
presencia de una observación atípica en la muestra tiene efectos perniciosos sobre el tamaño de los
contrastes, especialmente cuando la dimensión de la muestra es reducida y la anomalía significativa. La
influencia del atípico es evidente en muestras de tamaño 25. Los recortes en el nivel de significación
empírico son de gran importancia, de manera que este último cae con frecuencia por debajo del 1.0%
en respuesta a la anomalía (el teórico es el usual del 5.0%). El contraste KR parece ser el más robusto
mientras que los distintos Multiplicadores de Lagrange (singularmente los robustos, LM-EL y LM-LE)
tienen una fuerte sensibilidad. La situación se repite cuando se utilizan muestras de tamaño 100. El
impacto sigue siendo apreciable por cuanto la distorsión creada por el atípico reduce a la mitad,
aproximadamente, el tamaño de los contrastes. Finalmente, la existencia de la anomalía pasa
desapercibida en una muestra con 225 observaciones.
TABLA 1: Tamaño empírico para un nivel de significación del 5%.(*)
R = 25 R = 100 R = 225
Sin atípicos 1 atípico Sin atípicos 1 atípico Sin atípicos 1 atípico I de Moran 0.034 0.009 0.043 0.029 0.050 0.047 LM-ERR 0.044 0.014 0.049 0.030 0.048 0.049 LM-EL 0.044 0.027 0.054 0.024 0.052 0.050 KR 0.061 0.033 0.050 0.035 0.050 0.051 LM-LAG 0.068 0.033 0.047 0.025 0.061 0.061 LM-LE 0.070 0.017 0.054 0.024 0.063 0.065 SARMA 0.053 0.007 0.048 0.021 0.052 0.057
(*)El intervalo de confianza para p (probabilidad de rechazar la hipótesis nula), con 1000 réplicas, es 0.036 < p < 0.064.
Los resultados más sobresalientes obtenidos para la función de potencia estimada en los
diferentes casos contemplados en el ejercicio se presentan en forma de gráfico en las Figuras 1 a 7 (los
detalles pueden obtenerse directamente del autor).
Algunos aspectos de estos gráficos ya eran bien conocidos con anterioridad. La debilidad de los
contrastes de dependencia espacial en un contexto de muestras pequeñas es uno de ellos. Otro es el
empeoramiento en el funcionamiento de todos los contrastes cuando en la hipótesis alternativa se
simula un proceso media móvil. Tampoco es una novedad la aparente superioridad del contraste I de
Moran para detectar procesos de dependencia en la perturbación, ni tampoco las carencias del contraste
KR, sobre todo en estructuras SMA (Florax y de Graaff, 2004). Las Figuras ponen de manifiesto,
igualmente, el comportamiento poco selectivo de los estadísticos tradicionales, los cuales acusan una
fuerte sensibilidad a todo tipo procesos de dependencia espacial, (esto es, que afecten solo a la
perturbación o al retardo de la variable explicada en la ecuación principal). Esta es la razón de ser de
los Multiplicadores de Lagrange robustos (LM-EL y LM-LE). Es evidente que su comportamiento
tiende a discriminar en función de la naturaleza del proceso de dependencias existente, a costa de
13
asumir ciertas pérdidas de potencia. No obstante, estas pérdidas son inapreciables cuando el tamaño
de la muestra es elevado.
La principal novedad de estos resultados es que ratifican la incidencia de las observaciones
atípicas en el funcionamiento de estos contrastes de subespecificación. El impacto se concreta, en todos
los casos, en una pérdida de potencia. Las caídas son más significativas cuando la muestra utilizada es
de pequeño tamaño y, especialmente, cuando el proceso simulado en la hipótesis alternativa es de tipo
SMA. En tales circunstancias, los contrastes KR y LM-EL no alcanzan el porcentaje de rechazos
mínimo del 50% ni siquiera utilizando coeficientes de autocorrelación superiores a 0.90 (ver Figuras 3
y 4). Por otra parte, el contraste KR parece ser el más robusto a la presencia de atípicos cuando la
estructura de dependencias es de tipo SAR (residual o sustantiva).
Las distorsiones creadas por las anomalías en los datos tienen menos envergadura cuando se
difunden mediante un proceso de dependencia sustantiva en la ecuación. En este caso, tal como se
aprecia en las Figuras 5, 6 y 7, la pérdida de potencia observada en los diferentes contrastes parece
reducirse. El estadístico LM-LAG es el que funciona mejor en esta situación, aunque esa superioridad
se diluye conforme se incrementa la muestra. De este forma, con un tamaño muestral de 225
observaciones las diferencias entre este estadístico y el LM-LE (robusto a errores de especificación de
la hipótesis alternativa) son inapreciables tanto en potencia como con respecto a la forma de la función
de potencia.
Por último, otro aspecto que conviene subrayar es que, si bien es evidente que la incidencia de
las observaciones anómalas se diluye conforme el tamaño muestral aumenta, todavía se perciben ciertas
disfunciones en el funcionamiento de estos estadísticos utilizando una muestra de tamaño 225. En este
último caso, debe tenerse en cuenta que solo se ha intervenido un punto a pesar de aumentar
considerablemente el tamaño muestral, lo cual no parece muy razonable en circunstancias reales. Por el
contrario, a medida que aumenta la información muestral, la probabilidad de contar con un número
mayor de observaciones atípicas también crece. Esta argumentación es muy sugerente pero desborda
los objetivos del presente trabajo. En cualquier caso, es uno de los aspectos que forma parte de la
agenda de investigación futura.
FIGURAS 1 a 7
4.-Conclusiones y reflexiones finales
El objetivo de este trabajo era el de examinar la influencia de las observaciones atípicas sobre
los contrastes de subespecifícación empleados más a menudo en un contexto de modelización espacial.
Esta cuestión se ha discutido con mucho detalle en el ámbito de la econometría de series temporales, y
ocupa un lugar prominente en el moderno análisis de series temporales.
14
La aproximación analítica resuelta en la sección segunda, aunque incompleta, permite
afirmar que las distribuciones probabilísticas correspondientes a los estadísticos analizados acusan el
impacto de las observaciones atípicas. Estas distribuciones tienden, en general, a desplazarse hacia la
derecha en el espacio de probabilidad, en una cuantía que depende del tamaño de la anomalía y del
grado de apalancamiento correspondiente a las observaciones de las explicativas. La peor situación
combina un gran tamaño en la anomalía con un fuerte apalancamiento en las exógenas, lo cual se
corresponde con una observación que es atípica tanto en el espacio X como en el vector y. Debe
recordarse que un apalancamiento elevado implica que la observación tiende a apoderarse del plano de
regresión muestral forzándolo, en el límite, a que pase por sus inmediaciones. En consecuencia, el
residuo asociado será despreciable (primer error: el residuo debería ser importante para alertar sobre la
anomalía) a costa de distorsionar el contenido informativo suministrado por las restantes observaciones
(segundo error: la malla de dependencias espaciales se distorsiona).
La simulación resuelta en la sección tercera ha servido para corroborar algunas impresiones que
parecían obvias antes de llevar a cabo este estudio. Era previsible que el impacto de las observaciones
atípicas mantuviera una relación inversa con el tamaño de la muestra. Tampoco puede calificarse de
sorpresa el que se repita la misma relación con respecto a la intensidad de la dependencia espacial
existente. Sin embargo, también se han observado resultados inesperados. Por ejemplo, el hecho de que
las anomalías en los datos tengan menor incidencia cuando se difundan mediante procesos de
dependencia espacial sustantiva es uno de ellos. La distinta sensibilidad mostrada por los diferentes
estadísticos es otro aspecto a significar, incluido el comportamiento aparentemente más robusto del
contraste KR ( si se hace abstracción del caso SMA).
Por último, queremos insistir en que este trabajo no es más que una primera aproximación al
problema de los atípicos en modelos econométricos de corte transversal. Aquí se ha contemplado un
número limitado de combinaciones con las cuales se han podido subrayar algunas conclusiones de
interés. No obstante, los casos que restan por contemplar (número creciente de atípicos, distintas
posiciones geográficas, dispersión variable de estos puntos, etc.) parecen incluso más interesantes.
Todos ellos forman parte del programa de investigación a desarrollar como continuación del trabajo
que ahora se presenta.
15
Referencias
Anselin, L. y R. Florax (1995): Small Sample Properties of Tests for Spatial Dependence in Regression
Models. En L. Anselin y R. Florax (eds.): New Directions in Spatial Economeirics (pp. 21-74).
Berlin: Springer.
Barnett, V y T. Lewis (1994): Outliers in Statistical Data, 3ª edi.. New York: Wiley.
Belsley, D. (1991): Conditioning Diagnostics. New York: Wiley.
Chang, I., G. Tiao y C. Chen (1988): Estimation of Time Series Parameters in the Presence of Outliers.
Technometrics, 3, 193-204.
Chatterjee, S. y A. Hadi (1988): Sensitivity Analysis in Linear Regression. New York: Wiley.
Cressie, N. (1993): Statistics for Spatial Data. New York: Wiley.
Florax, R. y T. de Graaff (2004, forthcoming): The Performance of Diagnostics Tests for Spatial
Dependence in Linear Regression Models: A Meta-Analysis of Simulation Studies. En L. Anselin,
R. Florax y S. Rey (eds.) Advances in Spatial Econometrics: Methodology, Tools and Applications.
Berlin: Springer
Haining, R. (1994): Diagnostics for Econometric Modeling in Spatial Econometrics. Journal of
Regional Science, 34, 325-341.
Haining, R. (1995): Data Problems in Spatial Econometric Modeling. En L. Anselin y R. Florax (eds):
New Directions in Spatial Econometrics (pp 156-171). Berlin: Springer.
Hawkins, D. (1980): Identification of Outliers. Londres: Chapman and Hall.
Kendall, M. y A. Stuart (1977): The Advanced Theory of Statistics, 4ª edic. Londres: Charles Griffin.
Peña, D. (1990): Influential Observations in Time Series. Journal of Business & Economic Statistics, 8,
235-241.
Perron, P. (1989): The Great Crash, the Oil Price Shock and the Unit Root Hypothesis. Econometrica,
57, 1361-1401.
Shekhar. S., C. Lu y P. Zhang (2002): Detecting graph-based spatial outliers. Inteligent Data Analysis,
6, 451-468.
Tsay, R. (1988): Outliers, Level Shifts and Variance Changes in Time Series. Journal of Forecasting,
7,1-20.
Wartenberg, D. (1989): Exploratory Spatial Analysis: Outliers, Leverage Points and Influence
Functions. En D. Griffith (ed.): Spatial Statistics: Past, Present and Future. Monograph no 12 (pp.
133-156). Institute of Mathematical Geography. Syracuse: Syracuse University.
16
Figura 1: Tamaño y potencia del contraste I de Moran en presencia de atípicos. Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=25
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=100
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.800
0.900
1.000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=225
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER
17
Figura 2: Tamaño y potencia del contraste LM -ERR en presencia de atípicos. Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=25
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=100
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.800
0.900
1.000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=225
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER
18
Figura 3: Tamaño y potencia del contraste KR en presencia de atípicos. Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=25
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=100
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.800
0.900
1.000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=225
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER
19
Figura 4: Tamaño y potencia del contraste LM -EL en presencia de atípicos. Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=25
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=100
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.800
0.900
1.000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=225
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER
20
Figura 5: Tamaño y potencia del contraste LM -LAG en presencia de atípicos. Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=25
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia re sidual. Proceso SMA Dependencia sustantiva.
R=100
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.800
0.900
1.000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=225
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER
21
Figura 6: Tamaño y potencia del contraste LM -LE en presencia de atípicos. Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=25
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=100
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.800
0.900
1.000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=225
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER
22
Figura 7: Tamaño y potencia del contraste SARMA en presencia de atípicos. Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=25
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=100
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.800
0.900
1.000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER Dependencia residual. Proceso SAR Dependencia residual. Proceso SMA Dependencia sustantiva.
R=225
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER 0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
1 OUTLIER NO OUTLIER