45
Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Embed Size (px)

Citation preview

Page 1: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Técnicas numéricas para el procesamiento de datos reales

Antonio Turiel

Instituto de Ciencias del Mar de Barcelona

Page 2: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Sumario• Introducción

• Caracterización probabilística básica: el histograma

• Cálculo de los momentos de una distribución

• Estudio de las correlaciones a dos puntos

• Análisis espectral

• Análisis en componentes principales (PCA)

• Inferencia Markoviana

• Wavelets

Page 3: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

IntroducciónRequisitos básicos para este taller:

• Sólida formación de Matemáticas y Probabilidad

• Nociones de programación

Todos los ejemplos mostrados en este taller han sido obtenidos usando programas C cuyo código fuente está a la disposición de los estudiantes.

¿Por qué se necesita programación en el análisis de datos?

El análisis de datos se basa en la aplicación repetitiva de reglas de cálculo (generales o deducidas de modelos)

Page 4: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

1.- Desempaquetarlos

¿Cómo usar los programas?

Page 5: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

¿Cómo usar los programas?

2.- Cambiamos de directorio y compilamos

Page 6: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

¿Cómo usar los programas?

3.- Ejecutamos el programa y verificamos el resultado

Page 7: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

¿Por qué se hacen análisis de tipo estadístico?

Porque se pretende inferir principios universales, no dependientes de realizaciones particulares

¿Deterministao

aleatorio?

Page 8: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Caracterización probabilística básica: el histograma

Aproximación empírica a la función de densidad de probabilidad

Muestreo:

Buscamos el máximo y mínimo empíricos de esa variable

Dividimos el rango total en B cajas, de ancho:

Page 9: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Los lados de las cajas son de la forma:

Los puntos centrales de cada caja son de la forma:

o sea,

Page 10: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Eventos por caja:

Probabilidad estimada:

Si N, Ni son suficientemente grandes:

Page 11: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Ejemplo

Page 12: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Histograma B = 100

Page 13: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Problemas típicos: Si la distribución es muy curtótica

Histograma de la derivada

Page 14: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Solución: Truncar el rango estudiado

Criterio k :

con

Page 15: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

31

… aunque se ha de tener cuidado de no cortar demasiado

Page 16: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Otro problema es el muestreo limitado de las colas

Criterio de significación sencillo:

Page 17: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Cálculo de los momentos de una distribución

Los momentos determinan propiedades de la distribución

Media:

Varianza:

Sesgo:

Curtosis:

Si los momentos enteros positivos no divergen demasiado rápido, el conjunto de todos los define

Page 18: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Estimación empírica:

En la práctica, es imposible obtener estimaciones precisas para p≥3

Teorema:

Análogamente,

Pero, obviamente:

Page 19: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Realmente, ¿es tan grave este problema?

Densidad de momento p:

Densidad empírica de momento p:

Page 20: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Densidades empíricas

p=1p=2p=3p=4

Estimar p=3 requiere millones de datos; p=4 miles de millones

Page 21: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Estudio de las correlaciones a dos puntos

Estadística de orden 2, pero distribuida espacialmente.

Correlación a dos puntos:

Si hay estacionariedad espacial (invariancia de traslación)

En este caso, la correlación coincide con la autocorrelación

Page 22: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Se puede simplificar el cálculo usando transformadas de Fourier

donde la transformada de Fourier se calcula:

Sobre datos numéricos, se puede usar la FFT

La inversa es igual, cambiando el signo

Page 23: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Inconveniente: la transformada de Fourier numérica es, en realidad, una serie de Fourier

donde la unidad de frecuencia es:

Las series son periódicas (aliasing).

Page 24: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

La segunda mitad de los índices representan frecuencias negativas: si entonces con

La transformada de Fourier discreta de la autocorrelación discreta es el cuadrado del módulo de la transformada.

El aliasing ha de ser tratado correctamente

Función de autocorrelación discreta:

Page 25: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

1.- Se extiende la secuencia xn con igual número de ceros:

2.- Se define la máscara de los datos:

Page 26: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

3.- Se calculan las autocorrelaciones vía FFT:

4.- Se estima la autocorrelación contínua:

Page 27: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Correlación a dos puntos de la señal de ejemplo

Page 28: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Correlación a dos puntos de las derivadas

Page 29: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Correlación de los valores absolutos de las derivadas

Page 30: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Análisis espectralGeneralmente el análisis de la autocorrelación se aborda directa en el espacio de Fourier:

Page 31: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Análisis de componentes principales (PCA)

Varias series temporales:

Page 32: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Modelo lineal: Existen M causas independientes, que se combinan linealmente para formar las series observadas.

¿Cómo se extraen las causas? Decorrelando. Fijamos

Matriz de correlación:

Page 33: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Diagonalizando:

Se aplica a los datos para extraer las componentes principales

Page 34: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Datos originales:

Page 35: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Derivadas:

Page 36: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Inferencia MarkovianaSólo estudiaremos el grado de dependencia mutua.

Cantidad de información compartida o información mutua:

Entropía o cantidad de información:

Page 37: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Datos originales:

Page 38: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Derivadas:

Extremos empíricosCriterio 3

Page 39: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Wavelets¿Qué es una wavelet?

Una wavelet (wave particle) es una función oscilatoria elemental y localizada.

Page 40: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

¿Para qué sirve una wavelet?

Las wavelet tienen dos aplicaciones principales:

• Análisis• Representación

Las wavelets están muy bien adaptadas para estudiar sistemas sin escala definida, aunque también son útiles en otras situaciones.

Page 41: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

¿Cómo se usan las wavelets?

Las proyecciones de wavelet corren sobre todas las posiciones y escalas de observación

Esc

ala

Posición

Por medio de proyecciones de wavelet

Page 42: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Se pueden reconstruir las señales a partir de sus proyecciones de wavelet

Pero tal representación en wavelets es extremadamente redundante (una serie 1D se vuelve una función 2D, una imagen 2D se convierte 3D, etc)

…si la wavelet es admisible

Por ello se buscan subselecciones de escalas y posiciones más eficientes. Paradigma: caso diádico

Representación:

Page 43: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Análisis:

Caracterización de propiedades locales de una señal

A cada punto de la señal q se le asigna un exponente h invariante de escala: el exponente de singularidad

Donde es una wavelet sobre la que se proyecta la señal

Paradigma: Análisis de singularidades

Page 44: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

Imagen SST Pathfinder (Cabo Hatteras, 8 de Mayo, 2000)

Exponentes de singularidad asociados

El análisis de singularidades sirve para detectar estructuras, independientemente de la escala y la amplitud

Page 45: Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona

¡GRACIAS POR SU ATENCIÓN!