Descripción de Contenidos con Wavelets Jaime Gaviria

Preview:

Citation preview

Descripción de Contenidos con Wavelets

Jaime Gaviria

Introducción

Uso de Coeficientes Wavelets para la descripción de contenido del audio

Se debe aplicar una técnica óptima para la extracción de contenidos de modo que:

– Se obtenga una información precisa de contenidos que pueda diferenciar de un contenido a otro parecido

– Que no se tenga una información demasiado detallada de tal forma que no se pueda identificar algo que no este en la muestra original

Escenario

Se cuenta con 2 piezas de audio– La primera es el movimiento 4 Sonata 1 grabado

por N. Milstein, que representa la entrada de audio del usuario que hace la petición para identificar

– La segunda es la misma pieza grabada por Y. Menuhin la cual se encuentra grabada y permitirá la identificación

Escenario

Dos Posibles Soluciones

En la búsqueda de una solución, se encontraron dos alternativas que no son las óptimas pero deben ser tomadas en cuenta:– Descriptor de Envolvente Wavelet Gaussiano– Análisis Wavelet Estadístico para descripción de

contenidos

Descriptor de Envolvente Wavelet Gaussiano

El contenido de audio es representado en el dominio wavelet por varios patrones. Estos patrones se ven bastante parecidos incluso para nuestras interpretaciones del escenario

Descriptor de Envolvente Wavelet Gaussiano

Se estima la energía promedio de los coeficientes tomando segmentos de N muestras

Se estima un valor de umbral con el método que se considere más apropiado

Descriptor de Envolvente Wavelet Gaussiano

Se estiman los valores superiores e inferiores de los patrones de energia wavelet, a partir de los cuales se obtienen las funciones numéricas de modo que se pueda estimar el grado de correlación entre ambos y poder hacer la identificación de la pieza.

Problemas

La medida de correlación puede no se lo que se espera a pesar del “parecido” de las señales

Es necesaria la sincronización Función NO suave Poco Compacta Cálculos numéricos grandes

Usando Curvas Gaussianas

Para describir la función se usa una curva gaussiana

ai es la amplitud, pi la posición, y wi el ancho del pico Gaussiano i

Usando Curvas Gaussianas

Usando Curvas Gaussianas

Usando Curvas Gaussianas

Usando Curvas Gaussianas

Permite mejores cálculos, reduce la cantidad de datos

Los picos son similares con alta correlación El ancho de los picos NO presenta alta correlación. Si se estima un número inferior de picos, el

reconocimiento no será bueno. A pesar de sus bondades, no es lo suficientemente

bueno para la descripción de contenido de audio.

Análisis Wavelet Estadístico para descripción de contenidos

Se busca similaridad entre coeficientes wavelets a través de sumas estadísticas

Se trabaja en base a constelaciones de señal de audio

Herramientas de suma de datos estadísticos

Medida de escala de frecuencia

Una nueva medida de dispersión wavelets

Las anteriores técnicas primero obtenían carácterísticas de cada escala, a las cuales luego se les buscaban similaridades.

Con esta técnica se busca hacer una medida de dispersión clasificada

Los coeficientes wavelets son ordenados en orden ascendente, se guardan los índices y se crean histogramas para cada escala

Matriz clasificadora de dispersión wavelet

Permite la extracción de características especiales

Histogramas de dispersión “rankeados”

Vectores de dispersión

Se obtienen los n vectores por cada archivo de audio

A partir de los vectores se construye una matriz de n x m donde m depende del número de escalas y la técnica de reducción usada

Reducción de dimensión de la medida de dispersión

Solo un porcentaje de las barras de histograma de “rank” son mantenidas

Se borran los datos de rank mas bajos y mas altos ya que de algún modo representan los coeficientes wavelets mas pequeños

Indicador de rendimiento de la medida de dispersión

Vectores descriptores de contenido de 2 piezas ejecutadas por 4 diferentes personas

Indicadores de rendimiento