43
Datos atpicos y estimacin robusta en regresin lineal Ricardo A. Maronna Universidad de La Plata y U.B.A

Datos atípicos y estimación robusta en regresión lineal

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Datos atípicos y estimación robusta en regresión lineal

Datos atípicos y estimación robusta enregresión lineal

Ricardo A. Maronna

Universidad de La Plata y U.B.A

Page 2: Datos atípicos y estimación robusta en regresión lineal

1 El modelo lineal

Modelo lineal con datos (X;y) con X 2 Rn�p; y 2 Rn:

y = X� + e;

donde

� � 2Rp es el vector de parametros desconocidos,

� e 2 Rn es un vector aleatorio con elementos ei independientes e identi-camente distribuidos (i.i.d.) con distribucion F; con media 0 y varianza�2:

Page 3: Datos atípicos y estimación robusta en regresión lineal

Llamaremos xi =�xi1; :::; xip

�a las �las de X:

El método clásico de estimación en el modelo lineal es el de mínimos cuadrados(MC).

Sea r (�) el vector de residuos correspondientes a un candidato �; con elemen-tos ri (�):

r (�) = y �X�:

Entonces el estimador de MC b� se de�ne comokr (�)k2 =

nXi=1

ri (�)2=min

Page 4: Datos atípicos y estimación robusta en regresión lineal

El estimador cumple las ecuaciones normales

X b� = nXi=1

ri� b��xi = 0:

En el caso de estimación de posición (p = 1; xi = 1; i = 1; :::; n) b� es elpromedio y:

Page 5: Datos atípicos y estimación robusta en regresión lineal

2 El efecto de los valores atípicos

Se sabe que una pequeña proporción de observaciones atípicas (�outliers�)pueden alterar drásticamente los resultados de la estimación.

Ejemplo simulado: regresión simple.

yi = 2 + xi + ei; xi = 1; :::; 20; ei � N (0; 1)

Estimadores de MC con su desvío estimado:

b�1 = 1:463 (0:457); b�2 = 1:035 (0:038)Divido los dos últimos yi por 0.6, y MC resultab�1 = 3:100 (1:105); b�2 = 0:794 (0:092)

Page 6: Datos atípicos y estimación robusta en regresión lineal

Se ve que un 10% de outliers modi�ca los estimadores e �in�a� sus desvíosestimados.

5 10 15 20

510

1520

x

y1

Ajuste de MC sin los outliers (azul) y con ellos (rojo)

Page 7: Datos atípicos y estimación robusta en regresión lineal

Existen numerosos métodos (�diagnósticos�) para detectar outliers.

Están basados en variaciones de MC y proporcionan al usuario una base numéricao grá�ca para decidir qué observaciones considerar como atípicas.

Usualmente estas observaciones son eliminadas y el estimador recalculado.

Esto puede llevar a descubrir nuevos puntos sospechosos...

Page 8: Datos atípicos y estimación robusta en regresión lineal

3 Algunos diagnósticos simples

Primero la notación. Sea b� el estimador MC. El vector de valores ajustados esby = X b� = Hy

donde H es la �hat matrix�

H = X�X0X

��1X:

El vector de residuos es

r = y�by:Los elementos diagonales de H; h1; :::; hn 2 (0; 1) se llaman �valores depalanca� (�leverage values�).

Page 9: Datos atípicos y estimación robusta en regresión lineal

Un hi cerca de 1 indica un punto �in�uyente�. La in�uencia puede ser parabien (si es �bueno�) o para mal (si es un outlier).

Tres diagnósticos sencillos:

1. El grá�co de cuantiles normales �QQ plot�

Se gra�can los ri ordenados vs. los cuantiles de la normal standard.

2. El grá�co de residuos vs. valores ajustados

Este grá�co es mejor que el de ri vs yi:

Page 10: Datos atípicos y estimación robusta en regresión lineal

3. Los residuos �leave-one-out�(o �PRESS statistic�o �Cross Validation (CV)residuals�)

Sea b��i el estimador de MC calculado sin (xi; yi) : Entonces el residuo de�leave-one-out� es r�i = yi � x0i b��iSe puede mostrar que

r�i =ri

1� hi:

Los r�i dan más información sobre los outliers que los ri: Si hay un solo outlier,lo detectan.

Pero si hay varios, pueden fallar (�masking�). Ya se verá...

En el ejemplo:

Page 11: Datos atípicos y estimación robusta en regresión lineal

­2 ­1 0 1 2

­40

24

Normal Q­Q Plot

Theoretical Quantiles

Sam

ple 

Qua

ntile

s

­2 ­1 0 1 2

­100

050

Normal Q­Q Plot

Theoretical Quantiles

Sam

ple 

Qua

ntile

s

Residuos (arriba) y residuos CV (abajo)

Page 12: Datos atípicos y estimación robusta en regresión lineal

Pese a su utilidad, estos métodos tienen algunos inconvenientes:

� La eliminación requiere una decisión subjetiva (salvo que se cuente coninformación externa suplementaria). ¿Cuándo es un dato lo �bastanteatípico�para ser eliminado?

� El usuario o el autor de losdatos puede pensar que �las observacionesdeberían hablar por sí mismas�, y por lo tanto resistirse a su eliminación.

� Hay un riesgo de eliminar observaciones �buenas�, lo que lleva a subestimarla variabilidad.

Page 13: Datos atípicos y estimación robusta en regresión lineal

� Como los resultados dependen de las decisiones subjetivas del usuario, esdifícil determinar el comportamiento estadístico del procedimiento com-pleto.

Page 14: Datos atípicos y estimación robusta en regresión lineal

4 Estimación robusta

El enfoque de la estimación robusta apunta a desarrollar estimadores que nosean afectados por los outliers.

Se desea que estos estimadores posean dos propiedades:

� e�ciencia: si todos los datos son �buenos�, el estimador debe parecerse aMC

� robustez: si hay una pequeña proporción de outliers, el estimador debeparecerse a MC sin los outliers.

Page 15: Datos atípicos y estimación robusta en regresión lineal

Ambas propiedades pueden de�nirse con precisión y cuanti�carse (se omitendetalles).

Un enfoque fructífero para combinar ambos objetivos es el los �M-estimadores�(generalizaciones de Máxima Verosimilitud), que minimizan una función de losresiduos distinta de la cuadrática:

nXi=1

�(ri (�)) = min

donde � es una �función de pérdida�adecuada.

Notemos que MC corresponde a � (t) = t2:

Page 16: Datos atípicos y estimación robusta en regresión lineal

Un estimador más antiguo que MC es el L1 (�Least Absolute Deviations�.LAD) con � (t) = jtj:

En el caso de posición b� es la mediana med (y) :En el ejemplo anterior, el estimador L1 dan

b�1 = 2:737; b�2 = 0:928;cerca de los �verdaderos��1 = 2; �2 = 1:

Page 17: Datos atípicos y estimación robusta en regresión lineal

5 10 15 20

510

1520

x

y1

Ejemplo anterior más el ajuste L1 (negro)

Se ve que L1 es sólo afectado ligeramente por los outliers.

Existen algoritmos muy ràpidos para calcular L1:

Page 18: Datos atípicos y estimación robusta en regresión lineal

Entonces; ¿por qué no usar siempre L1?

Una razón: porque es poco e�ciente. Su e�ciencia es � 0:64:

O sea que si los datos son �buenos�uno está aprovechando aproximadamente2/3 de ellos.

Page 19: Datos atípicos y estimación robusta en regresión lineal

Lo que se desea es

�ALTA EFICIENCIA y ALTA ROBUSTEZ�

Esto se puede alcanzar con una � (t) �suave�que sea aproximadamente cuadráticapara t cerca de 0, pero que crezca más lentamente que t2 para t grande.

Con una � suave: derivando la de�nición del M-estimador resultan las �ecua-ciones de estimación�

nXi=1

(ri)xi = 0; con = �0:

En las ecuaciones normales de MC es (t) = t: Para L1 es (t) = sign (t)

Page 20: Datos atípicos y estimación robusta en regresión lineal

La � de Huber (1964) es un intermedio entre MC y L1:

�k(x) =

(x2 si jxj � k

2k jxj � k2 si jxj > k

con derivada

k(x) =

(x si jxj � k

sgn(x)k si jxj > k:

donde la constante k se elige para regular la e�ciencia.

Casos límites: k !1 da MC y k ! 0 da L1:

Page 21: Datos atípicos y estimación robusta en regresión lineal

x

rho

­3 ­2 ­1 0 1 2 3

0.0

1.0

2.0

3.0

­k k

x

psi

­3 ­2 ­1 0 1 2 3

­1.0

0.0

0.5

1.0

­k k

� y de Huber

Aquí se ve la �negociación�del estimador de Huber.

Page 22: Datos atípicos y estimación robusta en regresión lineal

Los M-estimadores con no decreciente (y por lo tanto � convexa) son llama-dos �monótonos�.

Tienen evidentes ventajas computacionales.

Page 23: Datos atípicos y estimación robusta en regresión lineal

5 Cálculo del M-estimador

Sea W (t) = (t) =t; la �función de peso�. Sea wi =W (ri) :

Entonces las ecuaciones de estimación pueden escribirse como

nXi=1

wirixi =nXi=1

wixi�yi � x0i�

�= 0;

o sea, ¡las ecuaciones normales de MC, con pesos!

Page 24: Datos atípicos y estimación robusta en regresión lineal

Esto sugiere un método iterativo para calcular el estimador: partiendo de un �inicial,

� calcular los ri;

� con ellos los wi;

� de ahí un nuevo � (MC ponderados),... etc.

El algoritmo (�Iterative Reweighted Least Squares (IRWLS)�) converge rápi-damente a un minimo local.

La � de Huber es convexa, por lo cual la solución es única.

Page 25: Datos atípicos y estimación robusta en regresión lineal

El punto de partida sólo afecta el número de iteraciones, pero no el resultado.

Lo mejor es usar L1 como punto de partida.

Page 26: Datos atípicos y estimación robusta en regresión lineal

En realidad falta un elemento: el estimador debe ser equivariante por escala:si reemplazo y por 10y; debo tener b� 10 b�:Para eso se amplía la de�nición:

nXi=1

�rib��= min;

donde b� es una escala que se estima previamente.Sea b�L1 el estimador L1: Entonces b� es una escala robusta de sus residuos:

b� = 1:481mediana ����r � b�L1�����donde el factor 1.481 se pone para obtener consistencia en el caso normal.

Page 27: Datos atípicos y estimación robusta en regresión lineal

6 Los datos con �alto leverage�(o �alta in�uen-

cia�)

Parecería que está todo bien, pero....

Retomamos el ejemplo inicial.

A las 20 xi originales les agregamos -30, -20, 50; y a las yi agregamos 0, 5, 20.

Calculamos MC y L1:

Page 28: Datos atípicos y estimación robusta en regresión lineal

­20 0 20 40

05

1015

20

x2

y2

Alto leverage: MC (rojo) y L1 (negro)

Aquí vemos la in�uencia nefasta de los xi �grandes� (�high leverage points�).

Esto ocurre con todos los M-estimadores monótonos.

Page 29: Datos atípicos y estimación robusta en regresión lineal

La razón es que en las ecuaciones de estimación

nXi=1

(ri)xi = 0

la in�uencia de los residuos grandes está controlada (por ser acotada) perola de las xi �grandes�no.

Page 30: Datos atípicos y estimación robusta en regresión lineal

Los diagnósticos tampoco muestran nada:

­2 ­1 0 1 2

­6­2

24

6

Normal Q­Q Plot

Theoretical Quantiles

Sam

ple 

Qua

ntile

s

­2 ­1 0 1 2

­100

050

100

Normal Q­Q Plot

Theoretical Quantiles

Sam

ple 

Qua

ntile

s

Residuos (arriba) y residuos CV (abajo)

Page 31: Datos atípicos y estimación robusta en regresión lineal

La mejor solución: usar una � acotada, lo que implica (t) �redescendiente�(tendiendo a 0 para t!1).

Puede probarse que el estimador resultante es resistente a outliers de �altoleverage�.

Page 32: Datos atípicos y estimación robusta en regresión lineal

Un estimador muy usado: �Bisquare� (o �biweight�) de Tukey.

�(x) =

8<: 1�h1� (x=k)2

i3si jxj � k

1 si jxj > k

con derivada

(x) = x

"1�

�x

k

�2#2I(jxj � k):

y función de peso

W (x) =

"1�

�x

k

�2#2I(jxj � k)

donde I (A) es el indicador de A:

Page 33: Datos atípicos y estimación robusta en regresión lineal

x

rho

­6 ­4 ­2 0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

x

psi

­6 ­4 ­2 0 2 4 6

­0.2

0.0

0.2

� y del estimador bisquare

Page 34: Datos atípicos y estimación robusta en regresión lineal

x

weig

ht

­3 ­2 ­1 0 1 2 3

0.5

0.6

0.7

0.8

0.9

1.0

Huber

x

weig

ht

­6 ­4 ­2 0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

bisquare

Funciones de peso W de Huber y bisquare

Page 35: Datos atípicos y estimación robusta en regresión lineal

Pero las buenas propiedades del estimador valen para el mínimo absoluto, yéste es imposible de calcular (el problema no es convexo).

Se necesita un estimador inicial para las iteraciones del IRWLS, y para la b�:Tiene que ser robusto. Si se parte de MC, el resultado puede ser casi tan malocomo MC.

Page 36: Datos atípicos y estimación robusta en regresión lineal

7 MM-estimadores (Yohai 1987)

Se necesita un estimador inicial b�ini robusto (pero no necesariamente e�ciente).Con sus residuos se calcula b�:Se ejecuta IRWLS partiendo de b�ini:Se prueba que el resultado es tan bueno como si se obtuviera el minimo absoluto.

Page 37: Datos atípicos y estimación robusta en regresión lineal

­20 0 20 40

05

1015

20

x2

y2

Alto leverage: ajuste MM

Se ve que MM no es afectado para nada por los tres outliers.

Page 38: Datos atípicos y estimación robusta en regresión lineal

8 El estimador inicial para MM

Hace falta un estimador que no requiera una escala.

Solución: minimizar una escala robusta S de los residuos

S (r (�)) = min

Lo más obvio es tomar la mediana: S (r) = med (jrj) (�Least Median ofSquares�) (Rousseeuw 1984).

Pero es demasiado ine�ciente (e�ciencia asintótica =0).

Page 39: Datos atípicos y estimación robusta en regresión lineal

M-estimador de escala: S (r) es solución de

nXi=1

�riS

�= �;

donde � = 0:5 y � puede ser la � bisquare.

Si � (t) = t2 y � = 1 resulta

S (r) =

vuut1n

nXi=1

r2i

Estos son los llamados S-estimadores (Rousseeuw y Yohai 1984).

Page 40: Datos atípicos y estimación robusta en regresión lineal

El S-estimador inicial b�ini también implica un problema no convexo por lo quenecesita un punto de partida �no demasiado malo�.

Durante mucho tiempo se usaron métodos basados en submuestras.

Lentos para p grande, y aleatorios.

Actualmente: método determinista rápido Peña y Yohai 1999).

Page 41: Datos atípicos y estimación robusta en regresión lineal

9 Implementación

El estimador resultante puede depender mucho de los detalles de su imple-mentación.

En R: usar la función lmRob del paquete robust disponible en CRAN.

NO usar la función lmrob del paquete robustbase: no es con�able.

Page 42: Datos atípicos y estimación robusta en regresión lineal

Referencias

Maronna, R.A., Martin, R.D. y Yohai, V.J (2006). Robust Statistics: Theoryand Methods. John Wiley and Sons, New York.

Peñaa, D. y Yohai, V.J. (1999). A fast procedure for outlier diagnostics in largeregression problems. J.A.S.A., 94, , 434�445.

Rousseeuw, P.J. (1984). Least median of squares regression. J.A.S.A. , 79,871-880.

Rousseeuw, P.J. y Yohai, V.J. (1984). Robust regression by means of S-estimators, En Robust and Nonlinear Time Series, J. Franke, W. Härdle andR. D. Martin (eds.). Lectures Notes in Statistics 26, 256�272, Springer Verlag,New York.

Page 43: Datos atípicos y estimación robusta en regresión lineal

Yohai, V.J. (1987). High breakdown-point and high e¢ ciency robust estimatesfor regression. Ann. Statist., 15, 642�656.