Upload
hetal
View
61
Download
1
Embed Size (px)
DESCRIPTION
Procesamiento de señales de voz. La comunicación oral. ¿Qué es la voz?. Onda de sonido (onda de presión) Producida por el aparato fonador Utilizada para comunicación (para transmisión de mensajes). Cuestiones varias:. ¿Qué relación hay entre los fonemas y la señal de voz? - PowerPoint PPT Presentation
Citation preview
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR1
Procesamiento de señales de voz
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR2
La comunicación oral
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR3
¿Qué es la voz?
• Onda de sonido (onda de presión)
• Producida por el aparato fonador
• Utilizada para comunicación (para transmisión de mensajes)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR4
Cuestiones varias:
• ¿Qué relación hay entre los fonemas y la señal de voz?• ¿Y entre otras características y la señal de voz?• ¿Cómo podemos analizar las características de la voz?• ¿Cómo se manifiesta una patología de la voz en la
señal?• ¿Cómo podemos ajustar un sistema de ayuda a la
audición para optimizar la comprensión de la voz?• ¿Cómo podemos interpretar un error en la producción
de un fonema?• ¿Cómo podemos interpretar un error en detección o
identificación de fonemas?
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR5
Procesamiento de voz
• Análisis de voz• Codificación y comprensión de voz• Síntesis de voz• Reconocimiento automático de voz• Reconocimiento y verificación de
locutores• Detección de patologías• Diseño de ayudas para la audición
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR6
¿Qué es la voz?
• Producción de la voz
• Percepción de la voz
• Procesamiento de señales
Dificultades al intentar relacionar la señal con las características
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR7
Problemas del procesamiento de voz
• Variabilidad– Intra-locutor (estado salud / ánimo, velocidad)– Inter-locutor– Adquisición
• Continuidad: concatenación y coarticulación• Información contenida en la señal de voz muy
redundante• Multi-interactividad entre niveles:
– Nivel fonético– Características suprasegmentales– Nivel semántico: contexto – suplencia mental
• Ruido: perturbación + efecto Lombard
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR8
• Variabilidad de las señales de voz
• 40 ms correspondientes al fonema /a/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR9
Modelos de producción de voz
• Órganos de producción de voz– Cavidades infraglóticas– Cavidad laríngea (cuerdas vocales)– Cavidades supraglóticas
Provisión de aireGeneración de la “onda glotal”Filtrado de la onda glotal (diversificación
fonética)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR10
Modelo acústico de producción de voz
• Onda acústica: onda de presión en el aire con c = 350 m/s
• Longitud de onda = c / f– Para 100 Hz, = 3.5 m– Para 4 kHz, = 8.75 cm
• Producción de sonido:– Fonemas sonoros: vibración cuerdas vocales– Fonemas sordos: flujo turbulento– Fonemas oclusivos: obstrucción + apertura
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR11
• Paredes no rígidas:– Pérdidas onda acústica
• Forma y sección del tracto vocal varía en el tiempo:– Se producen entre 5 y 20 fonemas por segundo
• Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar
Modelo acústico de producción de voz (II)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR12
Simplificaciones
• Tracto vocal tubo rígido descrito por la “función de área” A(x,t)
• Como > radio del tubo, aproximación de onda plana – (El problema de contorno tridimensional se puede
reducir a un problema unidimensional)
• Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR13
Función de área
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR14
Ecuaciones de onda
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR15
Condiciones de contorno• Glotis: vibración cuerdas vocales• Labios: p(L)=0• Onda proporcional a u(L)
Solución de las ecuaciones de onda• A se puede suponer constante en el tiempo
(condición de quasi-estacionariedad)• Para A(x) sencilla, soluciones analíticas• Para A(x) compleja, métodos numéricos• Medidas de A(x): Rx, TAC, RMN, articulógraf.
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR16
Pérdidas por elasticidad
• mw masa/unid.long;• bw cte. amortiguación• kw cte. recuperación elástica
• Solución para:• L = 17.5 cm• A = cte = 5.0 cm2
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR17
u(L,f) / uG(f)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR18
Formantes
• Formantes: resonancias del tracto vocal
• Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz
• El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR19
Pérdidas por radiación de onda
• p(L) = 0 no es cierto• Impedancia acústica Z• Impedancia para abertura circular
de radio a en plano infinito
• El filtrado del tracto vocal considerando las perdidas por radiación es distinto:• Caída para altas frecuencias• 6 dB / década
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR20
u(L,f) / uG(f)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR21
Solución numérica para función de área correspondiente a fonema /a/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR22
Acoplamiento del tracto nasal
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR23
Modelo acústico de producción de voz
• Excitación– Fonemas sonoros– Fonemas sordos– Fonemas oclusivos
• Filtrado por tracto vocal / nasal– Formantes (1 por kHz)– Caída 6 dB/década
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR24
Modelo digital de producción de voz
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR25
Características de la voz
• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación
• Formantes:– Cavidad buco-nasal– Envolvente espectral
• Energía: presión de aire• Evolución en el tiempo de los parámetros
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR26
Características de la voz
• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación
• Formantes:– Cavidad buco-nasal– Envolvente espectral
• Energía: presión de aire• Evolución en el tiempo de los parámetros
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR27
Clasificación de los fonemas(desde el punto de vista de la producción)
• Actividad de cuerdas vocales– Vocales– Consonantes sonoras– Consonantes sordas
• Modo de articulación– Vocales– Consonantes
• Lugar de articulación– Vocales– Consonantes
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR28
Clasificación de vocales
• Modo de articulación (formante 1)– Cerradas (i,u)– Medias (e,o)– Abiertas (a)
• Lugar de articulación (formante 2)– Anteriores (i,e)– Centrales (a)– Posteriores (o,u)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR29
Formantes 1º y 2º en vocales
500
1000
1500
2000
2500
3000
200 300 400 500 600 700 800 900 1000
fre
q. 2
o fo
rma
nte
(H
z)
freq. 1er formante (Hz)
/a//o//u/
/i/ /e/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR30
Modo de articulación (cons.)
• Oclusivas (b,d,g,p,t,k)
• Fricativas (s,f,z,x,y)
• Africadas (ch)
• Nasales (m,n,ñ)
• Líquidas:– Laterales (l, ll)– Vibrantes (r, R)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR31
Lugar de articulación (cons.)
• Bilabiales (b,p,m)
• Labiodentales (f)
• Linguodentales (t,d)
• Linguointerdentales (z)
• Linguoalveolares (s,n,l,r,R)
• Linguopalatales (y,ch,ñ,ll)
• Linguovelares (k,g,x)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR32
Fonemas del español
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR33
Análisis de señales de voz
• Conceptos de procesado de señales– Transformada de Fourier– Componentes de frecuencia– Espectro de potencia– Filtrado– Ventanas– Muestreo– Espectrogramas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR34
Transformada de Fourier
• Transformada (FT): – Cambio de representación– Misma información (otra representación)– Existe transformada inversa (FT-1)– Transforma señal compleja en señal
compleja:
Re(z)
Im(z)
x
yr
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR35
Espectro de potencia (1)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR36
Espectro de potencia (2)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR37
Descomposición en componentes freq.
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR38
Linealidad de la Transformada de Fourier
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR39
Linealidad de la Transformada de Fourier
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR40
Filtrado
• Caracterización del filtro:– Tiempo: respuesta impulsiva– Frecuencia: función de transferencia (o
respuesta en frecuencia)
filtroexcitación señal filtrada
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR41
Filtrado en el tiempo: convolución
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR42
Filtrado en frecuencia: multiplicación
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR43
Ventanas (multiplicación en tiempo)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR44
Ventanas (multiplicación en tiempo)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR45
Transformada de un tren de pulsos
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR46
Transformada de señal periódica
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR47
Muestreo de señales: T. de muestreo
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR48
Transformada Fourier: Resumen
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR49
DFT y FFT
• Transformada discreta de Fourier (DFT)• Transformada rápida de Fourier (FFT)
• Señales discretas (muestreadas)• Ventana (resolución espectral)• N muestras en t => N muestras en f• FFT: Muy utilizada en procesamiento
digital de señales
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR50
La señal de voz
/sal/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR51
La señal de voz
/s/ /a/ /l/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR52
Estacionariedad de la voz
• La señal de voz es “estacionaria a trozos”– Durante la pronunciación de un fonema es quasi-
estacionaria– Velocidad cambios tracto vocal– Velocidad cambios cuerdas vocales
– Estacionaria durante 20 – 40 ms– Velocidad de pronunciación: 5-20 fonemas / seg– Análisis de “trozos de voz estacionarios”:
ventanas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR53
Análisis con ventanas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR54
Análisis con ventanas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR55
Espectro de las vocales
/a/
/e/
/a/ cerrada
/i/
/o/
/u/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR56
Espectro de las vocales
/a/
/e/
/a/ cerrada
/i/
/o/
/u/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR57
Formantes 1º y 2º en vocales
500
1000
1500
2000
2500
3000
200 300 400 500 600 700 800 900 1000
fre
q. 2
o fo
rma
nte
(H
z)
freq. 1er formante (Hz)
/a//o//u/
/i/ /e/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR58
Espectro de consonantes sonoras
/l/
/R/
/y/
/m/
/n/
/ñ/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR59
Espectro de consonantes fricativas
/s/
/ss/
/sh/
/z/
/f/
/j/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR60
Fonemas no estacionarios
• Fonemas estacionarios:– vocales: /a/ /e/ /i/ /o/ /u/– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/
• Fonemas no estacionarios:– Plosivas sordas: /p/ /t/ /k/– Plosivas sonoras: /b/ /d/ /g/– Otras consonantes: /ch/ /r/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR61
Espectrograma (representación tiempo - frecuencia)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR62
Espectrograma (representación tiempo - frecuencia)
m b o i a kom p r a R p a n
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR63
Ventana en el espectrograma: 64ms / 8 ms
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR64
Información relevante de la señal de voz:
• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes
Información espectral de tiempo corto
• Información complementaria:– Tono fundamental– Estructura fina del espectro
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR65
Cómo funciona el oído
• Extrae información de la señal de audio.
• Envía la información al cerebro en forma de estímulos nerviosos.
• El implante coclear trata de imitar el mecanismo de conversión del sonido en potenciales de acción.
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR66
Características del oído humano
• Configuración de la cóclea:6.000 células ciliadas internas40.000 terminaciones nerviosasRepolarización: 2 ms (400 - 500 disparos/seg)Conexión sináptica: sin interacción entre
canales
• Capacidad de un oído entrenado:– Resolución espectral: 1/9 tono– Resolución temporal: 400 - 500 Hz– Resolución de intensidad: 1 dB
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR67
Capacidad del oído humano
• Resolución en frecuencia: 1/9 tono:– fo - 1.013*fo 450 Hz - 456 Hz– rango de frecuencia: 20 Hz - 20.000 Hz
• Resolución en el tiempo:– limitado por tiempo relajación de células ciliadas y
terminaciones nerviosas (~400 disparos por seg.)
• Resolución en intensidad:– Mejor de 1 dB
• Mecanismos de adaptación.