Procesamiento de la voz
Diego Milone
Leandro Vignolo
Muestreo y Procesamiento Digital
Ingeniería Informática FICH-UNL
18 de mayo de 2011
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Organización de la clase
Aparato fonador y oído
Generalidades del aparato fonador
Fuentes y modi�cadores del sonido de la voz
Generalidades del oído
Percepción del sonido
Organización estructural del habla
Niveles de la estructura
Análisis por tramos
Procesamiento homomór�co
De�nición de los coe�cientes cepstrales
Procesamiento homomór�co de la voz
Estimación de F0
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Organización de la clase
Aparato fonador y oído
Generalidades del aparato fonador
Fuentes y modi�cadores del sonido de la voz
Generalidades del oído
Percepción del sonido
Organización estructural del habla
Niveles de la estructura
Análisis por tramos
Procesamiento homomór�co
De�nición de los coe�cientes cepstrales
Procesamiento homomór�co de la voz
Estimación de F0
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
El aparato fonador
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Estructura anatómica del tracto vocal
1 2
3
4
5
6 7 8
9
11
12 13
14
10
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Fuentes principales del sonido
• Pulsos glóticos (sonidos sonoros)
Cuerdas vocales
• Restricciones en el �ujo de aire (sonidos sordos)
Labios, lengua, dientes, etc
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Pulsos glóticos
200
0
-200
-400
d V/ d t en cm 3 /s/ms 200
0
-200
-400
Tiempo en ms.
0 1 2 3 4 5 ms
0 20 60 40 80
0 0.5 1 1.5 2 2.5 KHz
Energía en dB
20 dB
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Energía y entonación
20 dB
Energía en dB
Tiempo en seg.
0 0.5 2 2.5 1.5 1
300
200
100
0
F 0 en Hz
Tiempo en seg.
0 0.5 2 2.5 1.5 1
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Modi�cadores del sonido
• Morfología del tracto vocal
• Circuito nasal
• Radiación en los labios
• Posición de la lengua
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Espectro de una vocal
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
F 1 F 2
F 3
F 4
F 0
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Espectro de una vocal
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
F 1
F 2
F 3 F 4
F 0
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Triángulo de las vocales
/i/ /e/
/a/
/o/ /u/
5000 4000
3000
2000
1000
500
F 2 e
n H
z
0 400 800 1200 F 1 en Hz
Posteriores o graves
Cerradas
Medias
Anteriores o agudas
Medias Abiertas
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Partes del oído
1
Externo Medio Interno
2
3
4 5 6
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Cóclea
1
2 3
4
5
6
7
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Rampas cocleares
1
2 3
4
5 6
7
8
9
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Onda viajera
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Principio de tonotopía
Distancia desde el estribo en mm.
Am
plitu
d re
lativ
a
0 10 20 30
1600 Hz
100 Hz 200 Hz
400 Hz 800 Hz
40
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Principio de tonotopía
1 0 0 0
2 0 0 0 0
7 0 0 0
5 0 0 0
1 5 0 0
2 0 0 0
3 0 0 0
4 0 0 0
8 0 0
6 0 0
4 0 0 2 0 0
2 0
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Banco de �ltros en escala de mel
Escala de mel
Fmel = 1000 log2
(1 +
FHz
1000
)
0 1000 2000 3000 4000 5000 6000 7000 80000
0.2
0.4
0.6
0.8
1
Frequency [Hz]
Gai
n
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Organización de la clase
Aparato fonador y oído
Generalidades del aparato fonador
Fuentes y modi�cadores del sonido de la voz
Generalidades del oído
Percepción del sonido
Organización estructural del habla
Niveles de la estructura
Análisis por tramos
Procesamiento homomór�co
De�nición de los coe�cientes cepstrales
Procesamiento homomór�co de la voz
Estimación de F0
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
t Emisión completa
Tramos de análisis
Tramos procesados
Sonidos ruidos habla silencios
Fonos y fonemas
Suprasegmentos
Sílabas
Palabras Unidades sintácticas
t t t t
f f f f
/a/-/cla/-/ró/-/que/-/un/
/a/-/k/-/l/-/a/-/r/-/o/
/Aclaró/ - /que/ - /un/ - /Aleph/
/verbo/ - /nexo. inc./ - /numeral/ - /sust./
/A/ /A/ /T/ /A/ /A/
Morfemas /Aclar/-/ó/-/que/-/un/
Física acústica. Procesamiento de señales.
Fonética
Fonología
/u/-/N/ /k/-/e/
Léxico
Sintaxis
Morfología
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Frases
Párrafos. Textos mono-locutor.
Aclaró que un Aleph es uno de los puntos del espacio que contiene a todos los puntos.
¿Existe ese Aleph en lo íntimo de una piedra? ¿Lo he visto cuando vi todas las cosas y lo he olvidado? Nuestra mente es porosa para el olvido; yo mismo estoy falseando y perdiendo, baja la trágica erosión de los años, los rasgos de Beatriz.
- Pero, ¿no es muy oscuro el sótano? - La verdad no penetra en un entendimiento rebelde. Si todos los lugares de la tierra están en el Aleph, ahí estarán todas la luminarias...
Regionalismos. Hablates no-nativos. Múltiples idiomas.
¡Qué observatorio formidable, che Borges! O God!, I could be bounded in a nutshell, and count myself a King of infinite space...
Gramática
Semántica
Pragmática
¿/pred./-/sujeto/-/pred./? ¿/pred./? /pred./- /subordinadas/-/sujeto/.
Estructuras gramaticales
Diálogos. Textos multi-locutor.
Prosodia
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Análisis por tramos
• Necesidad
• Ventanas cuadradas
• Técnicas de ventaneo
• Solapado en el tiempo
• Análisis de las ventanas independientes
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
t
t
t
t
t
t
t
f
f
f
f
f
f 4, 4, 2, 1, 3, 3
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Ventaneo
v(t;n) = ω(n;Nω)v(tNd + n), 0 < n ≤ Nω
ωH(m;Nω) =2750− 23
50cos(2πm/Nω)
x(t; k) = T (k) {v(t;n)} , 0 < k ≤ Nx
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Transformaciones de dominio
i) CE:
xt = [u(t; k)] = TF (k) {v(t;n)} ,
ii) CPL:
xt = [a(t; k)] = TL(k) {v(t;n)} ,
iii) CC:
xt = [c(t; k)] = TC(k) {v(t;n)}
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Organización de la clase
Aparato fonador y oído
Generalidades del aparato fonador
Fuentes y modi�cadores del sonido de la voz
Generalidades del oído
Percepción del sonido
Organización estructural del habla
Niveles de la estructura
Análisis por tramos
Procesamiento homomór�co
De�nición de los coe�cientes cepstrales
Procesamiento homomór�co de la voz
Estimación de F0
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Espectro de una vocal
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
F 1 F 2
F 3
F 4
F 0
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Otra elocución de la misma vocal
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
F 1 F 2
F 3
F 4
F 0
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Coe�cientes cepstrales
c(m) = T −1F {log |TF {v(m)}|}
Espectral → Cepstral
Espectro → Cepstro
Frcuencias → Cuefrencias
Filtro, �ltrado → Liftro, liftrado
Armónicas → Ramónicas
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Separación de fuentes y modi�cadores del sonido
v̂(n) = g(n) ∗ h(n)
V̂ (k) = G(k)×H(k)
V̂ (k) = log |G(k)|+ log |H(k)|
v̂(m) = T −1F {log |G(k)|}+ T −1
F {log |H(k)|}
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Separación de fuentes y modi�cadores del sonido
v̂(n) = g(n) ∗ h(n)
V̂ (k) = G(k)×H(k)
V̂ (k) = log |G(k)|+ log |H(k)|
v̂(m) = T −1F {log |G(k)|}+ T −1
F {log |H(k)|}
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Separación de fuentes y modi�cadores del sonido
v̂(n) = g(n) ∗ h(n)
V̂ (k) = G(k)×H(k)
V̂ (k) = log |G(k)|+ log |H(k)|
v̂(m) = T −1F {log |G(k)|}+ T −1
F {log |H(k)|}
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Separación de fuentes y modi�cadores del sonido
v̂(n) = g(n) ∗ h(n)
V̂ (k) = G(k)×H(k)
V̂ (k) = log |G(k)|+ log |H(k)|
v̂(m) = T −1F {log |G(k)|}+ T −1
F {log |H(k)|}
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Fuentes y modi�cadores de sonido en el espectro
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Fuentes y modi�cadores de sonido en el espectro
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
F 0
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Fuentes y modi�cadores de sonido en el espectro
Energía en dB
20 dB
Frecuencia en KHz
0 2.5 7.5 10 5
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Cepstrum de una vocal
(esquema representativo)
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Cepstrum de una vocal
Cepstrum Real
Cuefrencia en ms
0 50 25
0.20
0
-0.10
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Cepstrum de una vocal
Cepstrum Real
Cuefrencia en ms
0 50 25
0.20
0
-0.10
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Cepstrum de una vocal
Cepstrum Real
Cuefrencia en ms
0 5 2.5
0.20
0
-0.10
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Coe�cientes cepstrales en escala de mel
• Banco de �ltros en escala de mel
• Integración por bandas del espectro
• Coe�cientes de energía por cada banda
• Transformación inversa
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Coe�cientes cepstrales en escala de mel
Escala de mel
Fmel = 1000 log2
(1 +
FHz
1000
)
0 1000 2000 3000 4000 5000 6000 7000 80000
0.2
0.4
0.6
0.8
1
Frequency [Hz]
Gai
n
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Coe�cientes cepstrales en escala de mel
El espectro de magnitud
X[k] = loge |TDF{x[n]}|,
es integrado en bandas
U [i] =∑
k Wi[k]X[k],
y luego se calcula la transformada inversa
C = TDFI{U}.
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Coe�cientes cepstrales en escala de mel
Integración por bandas
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Estimación de F0 por cepstrum
Cepstrum Real
Cuefrencia en ms
0 5 2.5
0.20
0
-0.10
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Estimación de F0 por autocorrelación
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Bibliografía básica
• L. R. Rabiner y B. Gold, Theory and Application of Digital
Signal Processing, Prentice Hall, 1975.
Secciones: 12.1, 12.2, 12.3 y 12.13.
• J. R. Deller, J. G. Proakis, J. H. Hansen, Discrete-Time
Processing of Speech Signals, Prentice Hall, 1993.
Secciones: 4.1, 4.2.1, 4.2.2, 6.1 y 6.2.
→ Error en la �gura 6.3 (c), pp 361.
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Bibliografía básica
Aparato fonador y oído Organización estructural del habla Procesamiento homomór�co
Bibliografía básica