35
Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para sistemas de diálogo hablado multidominio Reunión Valencia – 24 y 25 de noviembre de 2011 Javier Macías Guarasa Departamento de Electrónica – Universidad de Alcalá email: [email protected]

Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

Embed Size (px)

Citation preview

Page 1: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual

SD-TEAM UAHTecnologías de fusión sensorial audio-visual para

sistemas de diálogo hablado multidominioReunión Valencia – 24 y 25 de noviembre de 2011

Javier Macías GuarasaDepartamento de Electrónica – Universidad de Alcalá

email: [email protected]

Page 2: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

2 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Índice Introducción Revisión de tareas UAH en curso

Descripción técnica: Localización de locutores activos usando

técnicas de compressive sensing Mejoras en seguimiento de posición de

articulaciones basada en vídeo Estimación de pose y movimiento de manos en

tareas de inferencia psicológica

Page 3: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

3 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

IntroducciónPresupuesto, personal, objetivo

Presupuesto:

Personal:

Sistemas robustos de detección, localización, seguimiento y estimación de pose multimodal de múltiples locutores en espacios inteligentes: fusión sensorial

Marta Marrón Romera José Luis Martín Sánchez Javier Macías Guarasa

UPV 9 7 90.000,00 € 56.800,00 € 146.800,00 € 151.000,00 € 103% 7.190,48 € UPM 7 6,5 57.000,00 € 86.000,00 € 143.000,00 € 80.000,00 € 56% 4.102,56 € UAH 3 2 17.250,00 € 27.053,00 € 44.303,00 € 22.000,00 € 50% 3.666,67 €

#inv EDPs Personal Ejecución Total Total Total

UPV 9 7 90.000,00 € 56.800,00 € 146.800,00 € 151.000,00 € 103% 7.190,48 € UPM 7 6,5 57.000,00 € 86.000,00 € 143.000,00 € 80.000,00 € 56% 4.102,56 €

Concedido % Concedido INDICADOR COSTE ANUAL REAL

Solicitado

Page 4: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

4 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Tareas en cursoM24-M36: Repaso general

M Tarea Nombre de la tarea T1 T2 T3 T4 T1 T2 T3 T4 T1 T2 T3 T4

M1 X X X X X X X X X X X

T1.1 T1.1Tecnologías para el tratamiento de entradas multimodales

X X X X X X X

T1.3 T1.3Tecnologías para la autoevaluación e integración en el proceso de aprendizaje

X X X X X X X X

M2 X X X X X X X X X

T2.1 T2.1Tecnologías para la obtención automática de información de la tarea y del usuario

X X X X X X X X

M3 X X X X X X X X

T3.2 T3.2 Integración de la multimodalidad X X X X X

M4 X X X X X X X X X X X X

T4.1 T4.1Desarrollo software de la arquitectura e integración de componentes

X X X X X X X X X

T4.2 T4.2Sistemas de diálogo dinámicos para el acceso a servicios desde el hogar

X X X X X X

du

lo 2 Tecnologías para la interacción y cooperación

du

lo 4

du

lo 3 Arquitectura

Aplicaciones y demostradores

Tecnologías para la detección de entorno, la autoevaluación y el aprendizaje autónomo

du

lo 1

NÚMERO DE MES

Primer año Segundo año Tercer año

Page 5: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

5 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Tareas en cursoMódulo 1

M1. Tecnologías para la detección de entorno, la autoevaluación y el aprendizaje autónomo: T1.1. Tecnologías para el tratamiento de

entradas multimodales (M1-M27) Localización audio, vídeo, audio+vídeo Nuevo: Estimación de pose + movimiento

manos T1.3. Tecnologías para la autoevaluación e

integración en el proceso de aprendizaje (M4-M33) Medidas fiabilidad estimación localización

Page 6: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

6 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Tareas en cursoMódulos 2 y 3 M2. Tecnologías para la interacción y cooperación:

T2.1 Tecnologías para la obtención automática de información de la tarea y del usuario (M1-M30) Identificación del estado emocional de los locutores:

Análisis de viabilidad del uso de información visual para identificación del usuario y su estado emocional (capturas vídeo buena resolución).

Nuevo: Estimación de movimiento de manos para inferencia psicológica

Pendiente evaluación con capturas de SEV: No se abordará

M3. Arquitectura T3.2 Integración de la multimodalidad (M9-M30)

Pendiente consorcio (definición metodología integración y sincronización)

Page 7: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

7 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Tareas en cursoMódulo 4 M4. Aplicaciones y demostradores

T4.1 Desarrollo SW de la arquitectura e integración de componentes (M1-M33) Pendiente: implementación módulos suministro

secuencias vídeo e identificación de gestos T4.2 Sistemas de diálogo dinámicos para el acceso a servicios

desde el hogar (M13-M36) Planificación y equipamiento de la instalación de captura y

procesamiento de audio y vídeo multicanal para su integración en el espacio inteligente de demostración del grupo de la UAH

Generación de demostradores de seguimiento audio (disponible para evaluación proyecto), vídeo (disponible para evaluación proyecto) y fusión (disponibles dos prototipos para evaluación proyecto)

Pendiente: Integración con demostrador control equipos multimedia

Page 8: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

8 de 34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Planteamiento: Problema de estimación de posición de un

número reducido de locutores en un espacio puede caracterizarse como un problema resoluble con técnicas de compressive sensing

Evaluaremos su rendimiento en competencia con la mejor técnica disponible: SRP-PHAT

Objetivo: Usar técnicas alternativas

de estimación de posición basadas en compressive sensing

José Velasco, Daniel Pizarro,Javier Macías

Page 9: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

SRP-PHAT: Basado en la estimación de la potencia acústica

analizada en un conjunto discreto de puntos del espacio

Posición del hablante Posición de máximo SRP

Page 10: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

SRP-PHAT: Estimación genera soluciones que se organizan

en hipérbolas generadas por cada par de micros para cada fuente activa

Ventajas: Procesado Sencillo Preciso

Desventajas: Difícil distinguir múltiple hablantes Análisis local:

No aprovecha la redundancia espacial que caracteriza al problema

Page 11: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Nuevo método: Espacio generativo de SRP

Page 12: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Nuevo método: Espacio generativo de SRP

Page 13: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Nuevo método: Espacio generativo de SRP Idea subyacente:

Cada fuente activa genera tantas hipérbolas como pares de micros

Objetivo: Tratar de explicar la imagen como un conjunto de hipérbolas

¿Cómo?

Page 14: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Antecedentes: El desarrollo de

Fourier trata de explicar una señal a partir de sumas de sinusoidales

Misma idea para wavelets, …

Todas ellas representaciones lineales:

Y=A·X

Page 15: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Modelo:

Page 16: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Consideraciones: El vector posición del

hablante (X) toma valor no nulo en las posiciones donde existe un locutor

En una situación real la mayor parte del espacio está desocupado

Esto es equivalente a exigir que el vector X sea 'Sparse', es decir, pocos elementos no nulos.

Page 17: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Objetivo: Encontrar vector X “lo más sparse posible” que

consiga

Equivalente a minimizar la siguiente función de coste:

Costoso computacionalmente (np-hard).

02Xλ+M·XY

XY M·medido

Page 18: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Aproximación:

Solución similar Problema convexo Existen algoritmos eficientes Ampliamente utilizado en Compressive Sensing

12Xλ+M·XY

Page 19: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Resultados del problema juguete:

Page 20: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Resultados del problema juguete:

Page 21: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Resultados del problema real: AV16.3 secuencia 01

Page 22: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Resultados del problema real: AV16.3 secuencia 01

Page 23: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Resultados del problema real: AV16.3 secuencia 01

Page 24: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaLocalización basada en compressive sensing

Resultados del problema real: AV16.3 secuencia 01

Page 25: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaMejoras en seguimiento articulaciones usando vídeo

Objetivos: Capturar movimiento de múltiples personas sin

equipamiento MOCAP Propuesta:

- HumanEva I & IIHumanEva I & II- Estándar de la comunidadEstándar de la comunidad- 4 sujetos4 sujetos- Posición 3D de las articulacionesPosición 3D de las articulaciones- Secuencias de entrenamiento y de Secuencias de entrenamiento y de testtest

- GPLVMGPLVM

- 46D -> 3D46D -> 3D

Álvaro MarcosMarta MarrónDaniel Pizarro

Page 26: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaMejoras en seguimiento articulaciones usando vídeo

Seguimiento en espacio reducido:

Page 27: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaMejoras en seguimiento articulaciones usando vídeo

Seguimiento en espacio reducido: Cuánta información hace falta

Page 28: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaMejoras en seguimiento articulaciones usando vídeo

Resultados:

Page 29: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaEstimación de movimiento para inferencia psicológica

Work in collaboration with IDIAP Database:

Single camera Long sequences

(around 15 minutes each) Constraints:

1 person Only torso Static background

Objective: We will try to find out if it is possible

to reconstruct the whole upper body in monocular sequences

This information could be used in psicological inference studies (emotional state, intended attitude)

Álvaro MarcosMarta MarrónDaniel Pizarro

Page 30: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaEstimación de movimiento para inferencia psicológica Idea:

Extremities of the human body show more movement along a video sequence than the rest of the body.

Face localization is possible with state of the art algorithms

A priori information about human motion is available via dataset training data

Hand properties: Along a sequence, they move quicker and in different

directions than the average whole body speed vector They are usually skin colored, but the face also is Assuming a static background, hands will be part of the

foreground data Combining all this information, we build a probability

function for the hands

Page 31: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaEstimación de movimiento para inferencia psicológica

Optimization algorithm: We have the whole sequence since the beginning We should take advantage of that: use an optimization

algorithm to avoid local minima and solve tracking errors.

We propose Ant Colony Optimization. “Ant” agents: like in nature, they look for the quickest

route in a problem. They drop pheromone in their path The best path will have lots of phermone. Until now, only applied to discrete problems. We have to define a distance measure: the higher the

probability of a pixel, and the nearer that pixel is, the shorter the distance.

Page 32: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaEstimación de movimiento para inferencia psicológica

Dealing with the database: Encode via PCA or other dimensionality

reduction algorithm the dynamics of the human movement

The more information about different movements there are, the better

With the help of psychologists, we have defined the most relevant movements in our job interview situation

With the help of a range sensor (Kinect) we obtained the information of the joint movements in 3D

Page 33: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaEstimación de movimiento para inferencia psicológica

Training:

Page 34: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaEstimación de movimiento para inferencia psicológica

Hands probability function:

Page 35: Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para

SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011

Descripción técnicaEstimación de movimiento para inferencia psicológica

Ant colony optimization: