View
222
Download
0
Category
Preview:
Citation preview
1
Indexado y Exploración de Vídeo
Jesús Cid SueiroUniversidad Carlos III de Madrid
Curso de Doctorado: Procesado MultimediaUniversidad Carlos III de Madrid
Abril 2003
Indexado de Video
1. Introducción2. Indexado de Video3. Navegación sobre vídeo.
2
Análisis por Contenidos de Documentos Multimedia
Motivación“So in only a few years, we will be able to save everything (no information will have to be thrown out) and the typical piece of information will never be looked at by a human being”
Extracción automática del contenido de un documento Multimedia
Indexación: Indispensable para garantizar un acceso y recuperación eficientesGeneración de resúmenes: Indispensable para exploración y navegación
Aplicaciones
ProducciónGestión de archivos audiovisualesVídeo bajo demandaSelección y filtrado para personalizaciónPresentaciones, actas de reunionesVigilancia ...
3
Tipos de vídeosVideos
Programas de televisiónNoticias, deportes, documentales, coloquios (“talk-shows”)
PelículasDramas, comedias, misterios
Registros de reunionesConferencia, Video-teleconferencia, Trabajo en grupo
OtrosCámaras de vigilanciaGrabaciones personales
Cada tipo de vídeo tiene su propio “lenguaje audiovisual”.
Bases de Datos de Video
Peticiones:De un vídeo específico:
“Muéstrame “Mujeres al borde de un ataque de nervios””
De un segmento de vídeo:“Busca todos los videos en los queJohn Wayne aparece con una pistola” Requiere:
Identificar las películas en la que John Wayne aparece con una pistolaIdentificar los segmentos dentro de esas películas, en los que John Wayne aparece con una pistola
4
Información en vídeo
ImagenLa interpretación automática de imágenes es una disciplina todavía poco desarrolladaSegmentación y clasificación en imágenes:
Brillo, contrasteTexturaFormas (presencia o ausencia de objetos predefinidos)
Audio Más sencillo que el vídeoA veces es el que determina las escenasVoz: identificación temática
TextoSubtítulos, títulos de crédito, etc
Estructura temporalPuede ser muy informativa del género del vídeo.
Estructura del Video
Estructura temporalCambios de escenaCambios de plano
Cortes, desvanecimientos, transparencias...
Movimiento de cámaraPanorámico, Zoom, cambio de perspectiva.
Movimiento de objetosTraslación, rotación
Estructura de la imagenObjetos
Posiciones absolutasPosiciones relativas
...
5
Indexado de Video
1. Introducción2. Indexado de Vídeo3. Navegación sobre vídeo.
Indexación
Indexar: añadir metadatos.Metadatos: datos que describen a los datos.
Tipos:Por el actor:
ManualAutomática
Por el tipo de documento:De textoDe vozDe audioDe imágenesDe vídeo
6
Indexación de video
1. Segmentación (“video parsing”):Por escenas (unidades temáticas): demasiado difícil
Detección de cambios de escena, desvanecimientos
Por planos (unidades con coherencia audiovisual): demasiado fina
Detección de movimientos de cámaraDetección de objetos en movimiento
2. Extracción de contenidos e indexado Alto nivel: demasiado difícilBajo nivel
3. Anotación
...
Segmentación por planos (“Shot Detection, SD”)
Actualmente, las técnicas de segmentación de vídeo suelen limitarse a segmentación por planosAlgoritmos
Locales: comparación entre píxeles o bloquesGlobales: comparación de histogramas
PrestacionesTiempo real sobre PC’s actualesLejos de un 100% de tasa de detección
7
Cambios de plano
Una clasificación enhttp://www.ee.princeton.edu/~robjoyce/research/transitions/
Ejemplos:
Cambios abruptos
Detección (básica) de cambios abruptos:Medida de diferencia entre planos:
Suma de diferencias píxel a píxel. Diferencia del histograma de color
Debe ser tolerante con el movimiento de objetos
SDi = Σj|Hi(j)-Hi+1(j)|donde i es el número del cuadro y j el nivel de gris
Modificación del histograma de color
SDi = Σj((Hi(j)-Hi+1(j))2 / Hi+1(j))
Test χ 2
Selección de un umbral apropiado: es un aspecto críticoEj: la media de las diferencias cuadro a cuadro + un pequeño valor de tolerancia.
8
Cambios graduales
Detección de cambios graduales:Tipos:
Desvanecimientos, encadenados, cortinas, …Técnica básica:
Dos umbrales:Tb : umbral de cambio abrupto de planoTs : umbral de cambio de plano gradual (potencial)
Sea d la medida de diferencia entre planos. SiSi d < Ts no hay cambioSi Tb < d cambio abruptoSi Ts < d < Tb acumula diferencias
» Si diferencia acumulada > Tb cambio gradual
También hay técnicas basadas en waveletsLos cambios graduales son muy difíciles de detectar
Falsa detección de planosCambios de iluminación
Normalización de imágenes antes de la detección de planos
1. Normalización: Ri’ = Ri / Sqrt( ΣiRi2 ), Gi’ = …, Bi’ = …
2. Cromaticidad1) ri’ = Ri’ / (Ri’ + Gi’ + Bi’)2) gi’ = Ri’ / (Ri’ + Gi’ + Bi’)
3. Histograma combinado de r y g : CHI (Chromaticity histogram image)
4. Reduce histograma combinado a 16x165. Calcula la 2D DCT6. Selecciona 36 valores significativos de la DCT7. Calcula distancias con esos valores
9
Otros detectores de planos
Supresión de movimientoIdealmente, la distancia cuadro a cuadro debe ser
Próxima a cero si hay poca variación entre planosMucho más grande cuando hay cambios de plano
Sin embargo, dentro de un plano puede haber:Movimiento de objetos, de cámaras, y otros cambios.Hay que filtrar para eliminar estos efectos
Suelen basarse en detección de bordes
Movimiento de objetos
Detección:1. Conjetura objetos
Mediante segmentación basada en color y textura
2. Examina cambios de píxel cuadro a cuadro3. Clasifica el movimiento
TraslaciónRotaciónCreación o destrucciónExpansión o compresiónFusión o división
10
Movimientos de cámara
Detección:1. Técnicas de flujo óptico: Análisis global
cuadro a cuadro de cambios en píxeles.2. Clasifica los patrones resultantes
Tendencia central Zoom outDestrucción equilibrada del exterior Zoom inDestrucción selectiva del exterior PanorámicaRotación y traslación acopladas (entre objetos)
Cambio de perspectiva
Estructura de cambios de plano
Detección:1. Crea un histograma de
color para cada imagen2. Segmenta en las
discontinuidades (cortes)3. Agrupa histogramas
representativos de cada plano
Identifica cortes de retorno a un plano anterior
4. Construye un grafo de transiciones temporales etiquetadas entre planos.
P1
P2
P6
P3
P4
P5 P7
11
SD en vídeo comprimido (I)
Compresión de video
Cuadros I, P y B
Transformada2D
Q
Q-1
TransformadaInversa 2D
CodificadorV(k,l)
U(m,n)
CuantificadorAdaptativo
Predicción
Canal
Compensaciónde Movimiento
I BB B P B BPB II BB B P B BPB I
SD en vídeo comprimido (II)
Trabajan sobre DCT y Vectores de Movimiento (VM)DCT
Imágenes ILos coeficientes DC de la DCT son suficientes
Comparación histogramas CD-DCT eficaz y eficientePoca resolución temporal (dos imágenes I)
VMImágenes P y BExhiben grandes discontinuidades en los cambios de planoMuchos macro bloques I cambio de plano
PrestacionesSimilares a los que trabajan sobre vídeo originalEvitamos la decodificación
12
Clasificación de planos
La estructura de cambios de plano está correlacionada con el género del vídeo.
Refleja las convenciones editoriales.
Algunas sub-estructuras son informativasCortes publicitarios frecuentes.Cortes periódicos entre los participantes en coloquiosCortes amplio-estrecho en programas deportivos.
Características de refuerzo en imágenes:Cabeza y hombros, tamaño de objetos, etc
Procesado Multi-modal
El video raramente aparece aislado:Pista de sonidoTítulos de créditoSubtítulos
Redundancia, pero también sinergia.Alguna información aparece solamente en una de las modalidades
El análisis de imágenes complementa el análisis de vídeo
Detección de carasReconocimiento de caracteres.
13
Subtítulos
Diseñados para personas con limitaciones auditivasEstán débilmente sincronizados con el vídeo
Presentación en diferido: Simultaneidad con el videoPresentación en directo: Retardos significativos
Problemas frecuentes:Dos tipos
Texto perdidoErrores significativos
La corrección automática puede producir sinsentidos
Subtítulos
Diseñados para personas con limitaciones auditivasEstán débilmente sincronizados con el vídeo
Presentación en directo: Retardos significativos(No es el caso en diferido)
Problemas frecuentes (directo):Dos tipos
Texto perdidoErrores significativos
La corrección automática puede producirsinsentidos
14
Alineando subtítulos
Voz y subtítulos son redundantes, pero:Cada uno contiene diferentes tipos de erroresCada uno proporciona información única.
La fusión puede mejorar la recuperación:Comienza con un alineamiento temporal groseroSincroniza en los puntos de coincidencia
El reconocimiento de voz proporciona ajuste temporal exacto
Utiliza las palabras de ambos como base para la recuperación
Aprende cómo ponderarlas a partir de datos de entrenamiento
Títulos de crédito
Los títulos de crédito pueden ser muy útilesNombres de locutoresNombres de eventosTítulos de programas, …
Su extracción puede ser un retoBaja resoluciónFondo variable
Algunos factores juegan a favor:Son absolutamente estables sobre múltiples cuadrosPosiciones y orientaciones estándar
15
Segmentación de la narración
La segmentación precisa mejora la utilidadDemasiado fina es contra-naturalDemasiado larga pierde efectividad
Hay pistas para la segmentación múltiple(multimodal)
Cambio de género en la estructura plano a planoCambios de vocabulario en los textosAparición de títulos de créditoSintonías
Video OCR
Detección de áreas de textoBusca regiones horizontales, largas y delgadasIntegra regiones detectadas a lo largo de varios cuadros
Realza el texto extraídoMejora de contraste, Interpolación“Thinning”
OCR (Optical Character Recognition)Adaptado a la fuente, si se conoce
16
Reconocimiento de caras
Segmentación de imágenes basada en la formaCara, hombros y pelo proporcionan pistas fuertes.
Seguimiento por varias imágenesMediante técnicas de flujo óptico
Selecciona la vista frontal más directaBasada en la posición de hombros y mejillas, por ejemplo
Extracción de características“Autocaras”: produce vectores de 16 elementos
Compara similitudes con caras de referencia.
Recuperación basada en la identidad
Reconocimiento de caras e identificación de locutores
Explotan información habitualmente disponible……pero requieren datos de entrenamiento
Los títulos de crédito suelen dar pistas útilesAunque confusas si hay errores OCR o ortografía múltiple
Subtítulos y recuperación de voz también ayudan…
…si se usan heurísticos específicos del géneroPor ej., los locutores suelen presentar previamente a los participantes
17
Eventos en vídeo
Aparición (de un objeto en la escena)
Desaparición (de un objeto de la escena)
Entrada (de un objeto móvil en la escena)
Salida (de un objeto móvil de la escena)
Deposito (de un objeto inanimado en la escena)
Eliminación (de un objeto inanimado de la escena)
Movimiento (de un objeto que estaba en reposo)
Reposo (de un objeto que estaba en movimiento)
Depositario (un objeto móvil añade un objeto inanimado a la escena)
Supresor (un objeto móvil elimina un objeto inanimado de la escena)
Anotación de objetos de vídeo
Appearance 1. Head of track2. Indegree(V) > 0
1. Head of track2. Indegree(V) = 0
1. Head of track2. Indegree(V) = 1
1. Head of track2. Indegree(V) = 0
Adjacent to V-object with deposit tag
Adjacent from V-object with removal tag
1. Tail of stationary stem2. Head of moving stem1. Tail of moving stem2. Head of stationary stem
Disappearance
Entrance
Exit
Deposit
Removal
(Depositor)
(Remover)
Motion
Rest
1. Tail of track2. Outdegree(V) > 01. Head of track2. Indegree(V) = 01. Tail of track2. Outdegree(V) = 0
1. Tail of track2. Outdegree(V) = 0
1. Tail of track2. Outdegree(V) = 0
1. Tail of track2. Outdegree(V) = 1
Moving Stationary Unknown
V-object motion state
18
Ejemplo de anotación
F0 F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13 F14
Entrada Entrada
EntradaSalida
Salida
SalidaDepositario/depósito Eliminación/supresor
Movimiento Reposo Aparición Desaparición
Text Detection
Camera Motion
Face Detection
Scene Changes
WordRelevance
Audio Level
Integración de tecnologías
19
Indexado de Video
1. Introducción2. Indexado de Vídeo3. Navegación sobre vídeo.
Interfaces para selección de video
Cada minuto de video contiene 1,800 cuadrosSe necesita “compactar”
Técnicas de compactaciónExtractos:
selección de cuadros o planos representativos
Resúmenes:de múltiples cuadros
Técnicas de representación:“Storyboard” Exposición de diapositivasPelícula completa...
20
Extracción de cuadros clave
El primer cuadro de un plano es fácil de seleccionar
…pero puede no ser la mejor elección
Pistas específicas del género pueden ayudarFlujo óptico mínimo: imagen estática
Es un recurso narrativo del director para enfatizar
Detección de caras para entrevistasPresencia de títulos de crédito
Esto puede producir demasiados cuadrosLa agrupación de histogramas de color puede revelar duplicados.
Resumen automático (I)
21
Resumen de Imágenes Fijas
Mosaico:Imágenes compuestas que capturan varias escenas y expresan un sentido espacial, temporal y/o de movimientoExplota metáforas familiares
Exposición temporal, exposición múltiple...
Resumen automático (III)
Mosaico
22
Resumen automático (IV)
Micon (Motion Icon)
Representación sencilla de fronteras entre planos.Operaciones:
ExploraciónExtracción de cuadros (“slicing”)Extracción de un “sub-micon”
Storyboards y Diapositivas
Presentación de diapositivas(Dinámico)
1
Imagen 2
Imagen 3,etc.
Cuadro mostrado: 1
1 2 3
5
4
7
109
Storyboard(Estático)
6 8
11 12
23
Storyboards
Disposición espacial de imágenes fijasLineal: describe la evolución temporal
Representaciones solapadas permiten mayor densidad
Grafos: permiten describir la estructura del videoPero dificulta la captura de relaciones temporales
Es una forma natural de equilibrar la visión panorámica con el detalle
Son fácilmente navegables a cualquier nivel de detalle
Compromiso entre detalle y complejidadLimitación del tamaño y resolución de la imagen
Story board
20 minutos de vídeo en 6 segundos...Enlaza todos los planos al mismo tiempoEl usuario puede centrarse (y seleccionar) planos de interés.
25
Diapositivas
Repaso a través de imágenes fijasA la tasa seleccionada por el usuario
Conserva espacio en pantallaPero es difícil procesar varios videos simultáneamente
Posibles variacionesTiempos de vida sensibles al contextoTransiciones entre cuadros alternativas (cortes, transparencias, …)
Estático vs. dinámico
26
Extracción de fragmentoscompletos
Planos, unidos por cortes: “trailers” Es la técnica utilizada en promocionespublicitarias
Es difícil construir un extracto coherenteConstrucción a mano
Bases de Datos
Bases de videos:Digital Video Retrieval
http://www.itl.nist.gov/iaui/894.02/projects/dvColección de vídeos digitales
The Open Video Projecthttp://www.open-video.org/Repositorio de 1644 segmentos de vídeos digitales
Internet Moving Images Archive
http://www.archive.org/moviesColección de 956 vídeos MPEG-2
Bases de imágenesThe USC-SIPI Image Database
http://sipi.usc.edu/services/database/Database.htmlBase de Imágenes TIFF
Content based Image Retrieval
http://www.cs.washington.edu/research/imagedatabase/groundtruthImágenes jpg.
Computer Vision Laboratoryhttp:www.ien.it/iengf/is/vislib.htmlImágenes en formato .dat (?)
• La mayoría son de libre acceso
Recommended