28
Analisis Estadístico de Datos Climáticos Análisis de componentes principales

Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Analisis Estadístico de Datos Climáticos

Análisis de componentes principales

Page 2: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Analisis de componentes principales

Se usa para encontrar un numero relativamente pequeño de variables nuevas que contengan la mayor cantidad de info posible del conjunto de datos original sin redundancia.

Puede ser usado para explorar la estructura de la variabilidad de un conjunto de datos en forma objetiva y analizar relaciones entre variables diferentes.

Page 3: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

¿Que hace el ACP? En forma suscinta, el ACP encuentra un conjunto de

funciones ortogonales empiricas para representar una serie de datos X(x,y,t) como

los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los EOF son ortogonales en el espacio.

los PC(t) son los componentes principales que muestran como ha variado cada estructura espacial en el tiempo. Los PC son ortogonales en el tiempo.

X x , y ,t =∑m=1

MPCm t . EOFm x , y

Page 4: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

¿Como se obtienen los componentes principales?

Los PC(t) se obtienen proyectando la matriz original de datos X sobre las funciones empiricas ortogonales

El autovalor asociado m es proporcional a

la varianza “explicada” por ese componente principal.

PCm=XEOFm m=1...M

Page 5: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Esquema del Analisis de Componentes principales aplicado a datos de TSM.

Page 6: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Ejemplo: ACP de precipitacion en Sudamerica Sea ANOM la matriz de anomalias de precip sobre

Sudamerica desde enero de 1979 hasta diciembre de 2006.

ANOM (336x28x24) ANOM=ANOM(:,:); (336x672) (matriz de

anomalias)

C=cov(ANOM); %Matriz de covarianza (672x672)

[E,L]=eig(C); %Calcula autovectores y autovalores

son 672.

varianza=diag(L)/trace(L); % dims: 672x1

PC=anom*E; % Componentes ppales

Dimensiones: PC (336 x 672), E (672 x 672)

Page 7: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

plot(varianza,'*')

11%

8%

6%

Page 8: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

(PC,EOF) más importantes

PC1=PC(:,end); EOF1=E(:,end); PC2=PC(:,end-1); EOF2=E(:,end-1); PC3=PC(:,end-2); EOF3=E(:,end-2);

Se verifica ortogonalidad en tiempo para las PC y espacio para EOF:

PC1'*PC2 =0 EOF1'*EOF2=0

PC1'*PC3 =0 EOF1'*EOF3=0

PC2'*PC3 =0 EOF2'*EOF3=0

Page 9: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Se verifica que autovectores tienen modulo =1:

EOF1'*EOF1=1

EOF2'*EOF2=1

EOF3'*EOF3=1 La varianza de los PC es el autovalor

asociado a cada EOF.

var(PC1)= L(end,end)

var(PC2)= L(end-1,end-1)

var(PC3)= L(end-2,end-2)

Page 10: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

PC1

EOF1

11% de la varianza total

Page 11: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

PC2 8% de la varianza total

EOF2

Page 12: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

PC3 6% de la varianza total

EOF3

Page 13: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Interpretación

Guarda con las interpretaciones! Los (PC,EOF) son calculados para

maximizar varianza manteniendo ortogonalidad entre ellos y no para tener sentido físico.

Muchas veces se denomina a los EOFs como “modos de variabilidad” dándoles un significado físico.

Los (PC,EOFs) dependen de la región considerada.

Page 14: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

ACP sobre la matriz de correlación

A veces se realiza el ACP sobre la matriz de correlacion.

Los (PC, EOF) obtenidos son diferentes que usando la matriz de covarianza.

La decision de usar la matriz de correlacion o de covarianza depende de cómo queremos pesar las diferentes variables

la matriz de covarianza da mas peso a aquellas variables que tienen mayor varianza

en la matriz de correlacion todas las variables tienen igual peso, y solo la estructura importa.

Page 15: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

La matriz de correlación debe usarse en los siguientes casos: la matriz de datos contiene variables con

diferentes unidades. Por ejemplo: datos de temperatura, presion,

humedad medidos en una estación. la diferencia entre varianza para distintas

variables es muy grande y distorciona los EOFs encontrados.

Page 16: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Forma de presentar los (PC,EOF)

La forma mas simple es graficar los EOFs tal cual fueron calculados. Este método no dice nada sobre que representa la amplitud

Mapas de regresión: Normalizar el PC de tal forma que tenga desviacion estandard =1 y luego hacer la regresión lineal de los datos originales (anomalias) con respecto al PC.

El mapa resultante tendra la estructura del EOF asociado al PC y la amplitud tendrá unidades de los datos originales.

También podemos hacer la regresión de otras variables con respecto al PC, lo cual dará el patrón de anomalias asociado al (EOF,PC)

Ej. Usar PC1 de SST y hacer mapas de SST, PSM.

Page 17: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Mapas de correlacion

Hacer la correlacion entre la variable original y su PC en cada punto.

El mapa resultante muestra el EOF como mapa de correlacion, el cual se puede usar para calcular significancias estadisticas.

Este mapa no tiene unidades.

La mejor forma es combinar los mapas de regresion con correlacion.

Page 18: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Truncamiento Recordemos que usando los (PC,EOF) es

posible reconstruir la matrix de anomalias original.

Si consideramos sólo P<M (PC,EOFs) reconstruimos parcialmente la matrix original

En clima sólo unos (PC,EOF) dan mucha informacion. Pero cuantos tomamos?

X x , y ,t =∑m=1

MPCm t . EOFm x , y

X x , y ,t ≈∑m=1

PPCm t .EOFm x , y

Page 19: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

¿Cómo truncamos?

No existe una forma única.

La forma mas sencilla es tomar un numero de (PC,EOF) de tal forma que juntos represente un % de varianza a elección (>70% ?)

Métodos gráficos

Separación cualitativa entre

partes del plot (P=3)

Page 20: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Regla de North et al

El error de muestreo de un autovalor es (2/N)1/2. Si este error es comparable o mayor que el espacio entre y su vecino, entonces el error de muestreo del EOF asociado a es comparable al EOF vecino. Por lo tanto los dos EOFs no se pueden separar y estos EOFs son combinacion lineal de los EOFs verdaderos.

N es el número de grados de libertad.

Page 21: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

De acuerdo a North et al sólo el 1er EOF está bien definido.

Page 22: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Rotación de EOFs

Es deseable interpretar fisicamente los EOFs. No obstante la condicion de ortogonalidad de los EOFs lo hace problemático.

A su vez, la ortogonalidad tambien induce a que los EOFs tengan amplitud diferente de cero en casi todo el dominio.

La rotacion de EOFs “relaja” la condicion de ortogonalidad y permite tener estructuras mas localizadas en el espacio que son mas fáciles de interpretar.

Page 23: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Para hacer la rotación de EOFs es necesario primero calcular los EOFs. Luego: nos quedamos con algunos EOFs (P<M) rotamos estos EOFs para formar nuevos

REOFs basados en algún criterio. el criterio para hacer la rotación se basa

usualmente en medir la “simplicidad” de la estructura del nuevo REOF.

una estructura es “simple” cuando es localizada, es decir cuando el REOF esta fromado por +-1s y 0s.

Page 24: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

La rotación se escribe matemáticamente como la multiplicacion de un subconjunto de EOFs originales por una matriz T:

La matriz [T] se elije de acuerdo al criterio de “simplicidad”.

La rotación mas común es la varimax, en la cual [T] está determinada eligiendo sus elementos para maximizar la suma de las varianzas de los elementos al cuadrado del vector rotado

[REOFs ]KxP=[EOFs ]KxP[T ]PxP

e

Page 25: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Ejemplo: Variabilidad de TSM en el Atlantico tropical

Page 26: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Análisis de componentes principales de varios campos

Es posible construir una matriz de datos X que incluya mas de 1 campo. Por ej: temperatura y presión en una grilla.

Si tenemos L variables, la matriz de datos será de (nxKL).

Dado que las variables tienen unidades diferentes se debe usar la matriz de correlación.

Page 27: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

En este caso queda:

Page 28: Análisis de componentes principalesmeteo.fisica.edu.uy/Materias/Analisis_Estadistico...los EOF(x,y) son los autovectores de la matriz de covarianza y son estructuras espaciales. Los

Usando descomposicion en valores singulares

Si X' es la matriz de anomalías nxK, entonces

1n−1

X'=LRt

Las columnas deL son propocionalesa los PC los elementos

cumplen

k2=k

Las columnas de R sonlos autovectores de lamatriz de covarianza=EOFs

En Matlab: [L,O,R]=svd(X/(n-1));