Tratamiento Digital de Voz
Prof. Luis A. Hernández Gómez
Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones
Tratamiento Digital de VozTratamiento Digital de Voz
Tema 1: Producción de sonidos y fonética Mecanismo de producción y tipos de sonidos Fonética (nociones) Modelos Prácticos
Tema 2: El oído y la percepción de vozTema 3: Técnicas de Análisis Temas 4 a 7 Aplicaciones de TDV
Codificación de Voz Reconocimiento de HablaReconocimiento de LocutoresConversión Texto - HablaSistemas Conversacionales
Mecanismo de Producción y Tipos de Mecanismo de Producción y Tipos de SonidosSonidos
Procesado eficiente explotar características de la voz
Características de la voz proceso de producción
Mecanismo de ProducciónMecanismo de Producción
VibraciónVibración
Flujo de aireFlujo de aire
Mecanismo de ProducciónMecanismo de Producción
Tipos de SonidosTipos de Sonidos
Segmentos sonoros : vibración de las cuerdas vocales
Articulación de /o/ Articulación de /u/
Ejemplos: las vocales
Segmentos fricativos : estrechamiento y turbulencia
Articulación de /s/ Articulación de /f/
Ejemplos: sonidos [s], [f]
Tipos de SonidosTipos de Sonidos
Segmentos oclusivos : cierre total, explosión
Articulación de /p/ Art. /b/ oclusiva
Ejemplos: sonidos [p], [b]
Tipos de SonidosTipos de Sonidos
Estudios de Lingüística Española Volumen 4 (1999)
ISSN: 1139-8736
Depósito Legal: B-39200-99 LA TRANSCRIPCIÓN FONÉTICA AUTOMÁTICA DEL DICCIONARIO ELECTRÓNICO DE FORMAS SIMPLES FLEXIVAS DEL ESPAÑOL:
ESTUDIO FONOLÓGICO EN EL LÉXICO Antonio Ríos Mestre
http://elies.rediris.es/elies4/
Fonética (nociones)Fonética (nociones)
Universidad Politécnica de Cataluña Universidad del País VascoUniversidad Politécnica de Cataluña
Fonética articulatoria
FricativasAproximantes
VibrantesLaterales
Sono
rida
d
VocalesSi
No
Nasales
Oclusivas
Oclusivas Fricativas
Africadas
Oclusión
No Total Parcial
Universidad Politécnica de Cataluña Universidad del País VascoUniversidad Politécnica de Cataluña
Fonética articulatoria
labios: [p], [b], [m]
dientes: [t], [d]
alvéolos: [n], [s]
paladar: [J], [L]
velo: [k], [g], [x]
Puntos de articulación
Universidad Politécnica de Cataluña Universidad del País VascoUniversidad Politécnica de Cataluña
Fonética articulatoria
cada uno de los sonidos propios de una lengua
Puntos de articulación
Alófono
Universidad Politécnica de Cataluña Universidad del País VascoUniversidad Politécnica de Cataluña
Fonética articulatoria
conjunto de alófonos con el mismo valor fonológico en una lengua
Puntos de articulación
Alófono
Fonema
Universidad Politécnica de Cataluña Universidad del País VascoUniversidad Politécnica de Cataluña
Fonética articulatoria
Puntos de articulación
Alófono
Fonema
Variabilidad
contexto coarticulación
prosodia
locutor factores individuales
... y sociolingüísticos
Fonética (nociones)Fonética (nociones)
Problemas del repertorio de fonemas del Español Antonio Ríos Mestre (capítulo 4)
Referencia: http://liceu.uab.es/~joaquim/home.htmlJoaquim LlisterriJoaquim Llisterri
Grup de FonèticaSeminari de Filologia i Informàtica
Departament de Filologia Espanyola,Universitat Autònoma de Barcelona
Modelo y Parametrización de la VozModelo y Parametrización de la Voz
ModeloFísico
ModeloFísico
Modelo Espectr
al
Modelo Espectr
al
Modelo Excitación- Filtro
Modelo Excitación- Filtro
• control flexible/intuitivo• expresividad• CO-ARTICULACIÓN fácil
ProsContras
• análisis/re-síntesis fácil
• dificultad analisis/re-síntesis • medidas invasivas
• menos expresivo• CO-ARTICULACIÓN difícil
Modelo y Parametrización de la VozModelo y Parametrización de la Voz
CavidadNasal
CavidadOral
Cavidadfaríngea
lengua
Velo
Cuerdasvocales
Fuerza muscular
SalidaSonido
oral
SalidaSonidoNasal
Pulmones
Fase Abierta Fase Cerrada
Periodo de apertura Periodo decierre
Modelo y Parametrización de la VozModelo y Parametrización de la Voz
FuenteGlotal
TractoVocal(Filtro)
Radiación11 z
Ruido de aspiración
Interacción tracto-fuente: La forma de onda glotal depende, en general, de la configuración del tracto vocal
Aproximación: Despreciar la interacción fuente-tracto ya que la impedancia glotal es muy ata casi siempre.
Modelo y Parametrización de la VozModelo y Parametrización de la Voz
FuenteGlotal
TractoVocal(Filtro)
Radiación11 z
Ruido de aspiración
Forma deOndaGlotal
)1( 1 zRuido de aspiración
TractoVocal(Filtro)
“Excitación glotal”
Señal deVoz
Modelo del Tracto VocalModelo del Tracto Vocal Se modela como un filtro de todo-polos (Filtro IIR) El tracto vocal se representa como una serie de tubos uniformes y sin pérdidas concatenados. Se supone que el sonido se propaga como una onda plana a lo largo del tracto vocal.
AlipA1 ANA2
Terminación enlos labios
Glotis
Ug
-1
Ulip
1-kN
-kN
Modelo del Tracto VocalModelo del Tracto Vocal
1
1
mm
mmm AA
AAk -km km
1-km
1+km
Am Am+1CoeficienteDe reflexión
• Si el periodo de muestreo es T = 2 , puede demostrarse que la función de transferencia del tracto vocal es un filtro todo-polos de orden N• Los coeficientes autoregresivos del filtro que modela el tracto vocal pueden convertirse en los km mediante el métodp de Durbin.
Um
Um
+
- Um+1
Um+1+
-
: tiempo de propagación de la onda sonora a través de un tubo. N : número de tubo desde la glotis hasta los labios
Modelo del Tracto VocalModelo del Tracto Vocal
1----------------------
1 - aiz-i
e(n)Señal deexcitación
s(n)Señal de Voz
Análisis Visual de la Señal de VozAnálisis Visual de la Señal de Voz
Herramientas: Generales de Audio (tipo Cool Edit) Específicas de Voz
Herramientas Específicas de Libre Distribución: Snack & WaveSurfer (KTH) http://www.speech.kth.se/software/(Referencias Joaquim Llisterri) ESPS (HTK) SFS