RECONOCIMIENTO Y SÍNTESIS DE VOZ EN INGENIERÍADefiniciones y conceptos generales en el reconocimiento de pa-trones de voz (unidad 1). Fundamentos de las senãles acu´sticas

RECONOCIMIENTO Y SINTESIS DE VOZEN INGENIERIA

M. Pena Guerrero1

Escuela Superior de Ingenierıa Mecanica y Electrica del Institu-to Politecnico Nacional, Unidad Profesional Adolfo Lopez Mateos,Zacatenco, Mexico Distrito Federal.

[portadaPachuca.act][MPG051216]

1[test.tex][04DIC12]

1

Objetivodelcurso

OBJETIVO.

• Estudiar y analizar los fundamentos teoricos y practicos que nospermiten disenar e implementar sistemas de reconocimiento de lapalabra hablada y su sıntesis sonora.

• Analizar, disenar y construir interfases de comunicacion habladaentre los seres humanos y las maquinas.

• Permitir que una maquina “escuche”, “entienda”, y de respuestasonora a las palabras habladas de su interlocutor.

2

TEMARIO:

Definiciones y conceptos generales en el reconocimiento de pa-trones de voz (unidad 1).

Fundamentos de las senales acusticas (unidad 2).

Herramientas computacionales para la sıntesis y el reconocimien-to de voz (unidad 3).

La Inteligencia Artificial (unidad 4). Redes neuronales, algoritmosgeneticos, agentes, y perceptrones (unidad 5).

Procesamiento de senales digitales (unidad 6).

Casos de estudio: SAPI, RES, HTK, otros sistemas abiertos (uni-dad 7).

Desarrollo de un proyecto de reconocimiento de patrones de voz(unidad 8).

3

METODOS DE RECONOCIMIENTO:2

Preparacion y preprocesamiento.

Reconocimiento de palabras aisladas.

Reconocimiento de palabras conectadas.

Reconocimiento con metodos simbolicos.

Reconocimiento con metodos estocasticos.

Reconocimiento con metodos difusos.

Reconocimiento con tecnicas de Inteligencia Artificial.

2Fuente: Casacubierta87 Indice

4

TIPOS DE RECONOCIMIENTO:3

Comparacion de patrones. Utiliza una distancia matematicaentre vectores, uno de entrada y el otro almacenado en una basede datos que contiene muestras de sonido de voz.

Extraccion de caracterısticas foneticas. Se basa en detec-tores de sonoridad, detectores de tono, detectores de formantes,para tomar una decision, basada en sistemas expertos, y otrastecnicas de Inteligencia Artificial.

Mixta. Combinacion de la comparacion de patrones y la Obten-cion de Caracterısticas Foneticas.

Reconocimiento Automatico Parametrico. Utiliza cade-nas de Markov, algoritmos geneticos, redes neuronales, teorıa deagentes, entre otras tecnicas de la Inteligencia Artificial.

3Fuente: Bernal-Bermudez, p. 2

5

APLICACIONES:

Control de Maquinas.Control automatico de maquinas y he-rramientas.

Medicina. Protesis, audicion, ultrasonido, escaners, tomografıa.

Sistemas de Supervision y Control de Ruido. SistemasESCDA, en procesos industriales.

Inteligencia Artificial (Robotica). Sistemas de navegacionAutonomos.

Sismologıa. Deteccion y prediccion de sismos. Geologıa.Deteccionde yacimientos de petroleo, gas, metales, arqueologıa, entre otros.

Musica. Dictado de partituras, extraccion de partituras, carac-terizacion

6

HERRAMIENTAS DE PROGRAMACION:

DSPs (Procesamiento de Senales Digitales).

Lenguaje C/C++

Sistema Operativo UNIX

7

METODOS NUMERICOS:

Analisis armonico de senales.

Convolucion.

Transformadas: Fourier, Laplace, Z.

Extraccion de parametros .

Algebra de matrices.

Distancias vectoriales.

Teoria de probabilidades.

Procesos estocasticos.

Cadenas de Markov.

Expresiones regulares.

Teorıa de automatas.

Teorıa de lenguajes.

Topologıa.

8

DEFINICIONES[defs1.ps]:

DEFINICIONES 1

¿Que esel recono-cimientode voz?

Reconocimiento de voz. Es un proceso biologico que permite recibir y comprenderlas senales de la voz humana de una manera automatica.

Reconocimiento Automatico de Voz (ASR, Automatic Speech Recognition). ¿Que esel recono-cimientoautomatico de voz?

Es un sistema que permite traducir senales de voz en sımbolos escri tos,los cuales a suvez se traducen en acciones semanticas 2. Dicho sistema puede ser: acustico-neumati-co, electro-mecanico, electronico- analogico-digital, o computacional. Las acionessemanticas pueden ser: texto escrito, comandos, acciones de movimiento, entre mu-chas otras .

Sıntesis de voz. Es un sistema computacional electronico digital que permite tra- ¿Que esla sınte-sisde voz?

ducir los sımbolos de un texto escrito en senales acusticas de voz.

Lenguaje natural. Es una coleccion bien formada de sımbolos sonoros o escritos ¿Que eslenguajenatural?que utilizan los seres humanos para comunicarse entre sı. Tambien es el estudio de la

comprension y produccion de informacion hablada utilizando sistemas computaciona-les electronico-digitales 3.

1[defs1.act], Dr.Maximino Pena Guerrero, 0108112[R ab78, 7]3ver wikipedia

1

9


DEFINICIONES 1

Lenguaje formal. Es una coleccion bien formada de sımbolos primitivos cuyas reglas ¿Que eslenguajeformal?para concatenar dichos sımbolos estan tambien formalmente bien especificadas. Al

conjunto de estos simbolos se denomina el alfabeto del lenguaje (o vocabulario),mientras que al conjunto de las reglas se llama gramatica formal. 2.

Lenguaje. Es la capacidad humana de comunicarse a travez de un sistema de signos3. ¿Que eslenguaje?

Lengua. Sistema de signos que emplea una comunidad linguıstica como instrumento ¿Que esunalengua?de comunicacion.

Habla. Uso individual que cada persona realiza del modelo general de la lengua. ¿Que esel habla?

Fonetica. Disciplina que estudia los sonidos desde el punto de vista de su produccion, ¿Que esfonetica?

transmision, y percepcion, sin preocuparse del significado de los mismos.

Fonologıa. Disciplina que estudia los sonidos dentro de una lengua, establece las ¿Que esfonologıa?

normas para su ordenamiento.

1[defs1.act], Dr.Maximino Pena Guerrero, 0108112ver wikipedia3Las siguientes definiciones se encuantran en [Ber00, pg: 41] Bermudez Jesus Bernal, et., Reconocimiento de voz y fonetica acustica, Alfaomega, 2000.

1

10


DEFINICIONES: 1

Fonema. Es la unidad fonologica mas pequena. Su numero es reducido, no tiene ¿Que esunfonema?significado por si mismo, pero el significado de una palabra cambia si se intercambian

dos fonemas: esto da lugar al fenomeno de la oposicion.

Alofono. Son las diferentes realizaciones de un mismo fonema segun el entorno en ¿Que esunalofono?que este situado. El significado de la palabra no cambia por el intercambio de alofonos.

Grafıa. Es la representacion grafica de un fonema. ¿Que esgrafıa?

FONEMAS Y GRAFIAS EN ESPANOLFonema Grafıa Ejemplos/a/ a/b/ b,v vaso, bote, cava/θ/ c,z cena, caza/k/ c,qu, k casa, queso, kilo/tf/ ch chico, muchacho

1[defs3.act], Dr.Maximino Pena Guerrero, 010811

1

11

FLUJO DE DATOS DE UN PROCESO DIGITAL DE SENAL [pitch1.eps]:

FILTRO

BAJOS

0−900

INVERSO

FILTRO

COEFICIENTESDEL

FILTRO

INVERSO

FILTRO

ANALISIS

PASA

5:1

DECIMACIONx(n)s(n)

LPC p=4

SILENCIO

VOZ

INTERPOLACIONOBTENER

PICOAUTOCORRELACION

y(n)

12

MODELO DE INGENIERIA DE PRODUCCION DE VOZ[pitch3.eps]:

FuncionGlotal

Generador de

VariableTemporalmente

FiltroL(z)

pitch3.fig, pitch3.eps MPG221013

S(z)

s(t)VOZ

G(z)e(t)E(z)

Sonoros

SonidosSordos

ConductoVocal

v(t)V(z)

Funcion deRadiacion

Sonidos ,,

,

Ruido

ImpulsosGenerador de

Coeficientes de Reflexion

13

MAQUINA DIFERENCIAL[babage.ps]:

MAQUINA DIFERENCIAL1

Charles Babbage (1792-1871) matemati-co e ingeniero britanico, inventor de lasprimeras maquinas calculadoras programa-bles, diseno su maquina analıtica (Analy-tical Engine).

En 1822 produjo un modelo funcional a es-cala llamado Difference Engine o maqui-na diferencial.

Debido a la complejidad mecanica de laDiference Engine, hasta antes del sigloXXI, nunca se construyo un modelo a es-cala real, aun ası, dicha maquina es el pro-totipo de las computadoras modernas.

1[babage.tex][MPG251116]

1

14

MAQUINA DE TURING[maquinaTurin.ps]:

AUTOMATA O MAQUINA DE TURING1

Alan Mathison Turing (1912-1954), ma-tematico ingles, desarrollo un metodo ma-tematico para resolver el problema de in-desicion.

Una maquina de turing es un modelo ma-tematico que puede resolver un problemasi es que existe su solucion.

Una maquina de turing es una quıntupla,Q(i, d, e, l, p).

Consiste de (a) una cinta infinita, (b) unacabeza de escritura, (c) una cabeza lectu-ra, (d) un movimiento hacia la izquierda,un movimiento hacia la derecha, y un con-trol de paro.

Una maquina de turing es el fundamentomatematico de los sistemas computaciona-les digitales.

1[alanTurin.tex][MPG080813]

1

15

MAQUINA VON NEUMANN[vonNeuman.ps]:

CONCEPTO DE PROGRAMA ALMACENADO1]

Johon von Neumann (1903-1957), ma-tematico hungaro, desarrollo el conceptode programa almacenado para evitar la re-programacion alambrada de las maquinasdigitales de aplicaciones especıficas.

Una araquitectura von neumann es la cons-truccion de una computadora digital conuna CPU, ALU, I/O, registros, unidad decontrol, memoria dura (almacenamientomasivo), y una memoria operativa (memo-ria RAM).

Una maquina von neumann constitiye elfundamento de los sistemas computacio-nales modernos.

1[vonNeuman.tex][MPG080813]

1

16

SINTETIZADOR DE VOZ ARTIFICIAL[vonKempelen.ps]:

SINTETIZADOR DE VOZ NEUMATICO1

Wolfgang von Kempelen (1734-1804), es-critor e inventor hungaro fue consejero yajedrecista de la corte de viena.

Se hizo famoso por el Turco, maquina ju-gadora de ajedrez.

Construyo el primer sintetizador de voz ar-tificial con base en la neumatica y la pro-duccion de sonidos con doispositivos fısicoscomo silbatos, fuelles, resonadores acusti-cos, cajas de madera, entre otros materia-les disponibles en la epoca.

Sin embargo la maquina de ajedrez resultoser un fraude, pero gracias a este aconteci-miento se dio a conocer dicho sintetizador.

1[vonKempelen.tex][MPG251116]

1

17

VON KEMPELEN: EL TURCO[vonKempelen2.ps]:

VON KEMPELEN: EL TURCO1

1[vonKempelen2.tex][MPG251116]

1

18

VON KEMPELEN: CABEZA PARLANTE[vonKempelen3.ps]:

VON KEMPELEN: SINTETIZADOR DE VOZ1

1[vonKempelen3.tex][MPG291116]

1

19

SINTETIZADOR DE VOZ MUSICAL[gilOlvera.ps]:

SINTETIZADOR DE VOZ MUSICAL

1

Ernesto Gil Olvera (1936-1967), musi-co mexicano hizo cantar y hablar a unorgano Hammond X86 disenado por Lau-rens Hammond (1895-1973).

1[gilOlvera.tex][MPG251116]

1

20

VOCODER: CODIFICADOR DE VOZ[vocoder1.ps]:

EL VOCODER

1

Vocoder. Un vocoder (voice co-

der) es un analizador y sintetizadorde voz.

Desarrollado en 1930 para utilizarloen telecomunicaciones como codifi-cador de voz seguro.

Sus aplicaciones mas usuales son:criptografıa, medicina, musica,robotica, cinematografıa, entre mu-chas otras aplicaciones.

1[vocoder1.tex][MPG291116]

Vocoder desarrollado a principio de los 70s (wikipedia.org)

1

21

EXTRACCION DE PARAMETROS[fig123.ps]:

22

EXTRACCION DE PARAMETROS[rabin21.ps]:

23

EXTRACCION DE PARAMETROS[rabin22.ps]:

24

EXTRACCION DE PARAMETROS[magtex.ps]:

Funcion magnitud

Maximino Pena Guerrero

CARACTERIZAR: MAGNITUD 1

Magnitud: es un metodo matematico que permite carecterizar una senal mediante el calculodel valor absoluto de las muestras que se encuentran en una ventana. Para normalizar el resultadose divide entre el numero de muestras que tiene una ventana.

M(i) =1

Tv

Tv−1∑

k=0

|m(k)| (1)

CABECERA 13 34 3 -7 -11 -26 -4 24 11 -23 -11 0 5 3 23 -34 EOFdonde:

M(i) = magnitud de una ventana.i = numero de ventana.Tv = tamano de la ventana.

m(k) = muestra de sonido capturadak = numero de muestra.

Ejemplo: Para Tv = 5,

M(1) =13 + 34 + 3 + 7 + 11

5=

68

5= 13.6

M(2) =7 + 11 + 26 + 4 + 24

5=

72

5= 14.4

M(3) =4 + 24 + 11 + 23 + 11

5=

73

5= 14.6

M(4) =23 + 11 + 0 + 5 + 3

5=

42

5= 8.4

1[magtex.tex],Dr. Maximino Pena Guerrero, 17.02.11

1

25

EXTRACCION DE PARAMETROS[mediatex.ps]:

Funcion media


CARACTERIZAR: MEDIA 1

Media: es un metodo matematico que permite carecterizar una senal sumando todas las mues-tras que contiene una ventana, y dividendo su resultado entre la cantidad de muestras de dichaventana.

M(i) =1

Tv

Tv−1∑

k=0

m(k) (1)

donde:

M(i) = media de una ventana.i = numero de ventana.Tv = tamano de la ventana.


Cabecera 13 34 3 -7 -11 -26 -4 24 11 -23 -11 0 5 3 23 -34


M(1) =13 + 34 + 3− 7− 11

5=

32

5= 6.4

M(2) =−7 − 11− 26− 4 + 24

5=

−24

5= -4.8

M(3) =−4 + 24 + 11− 23− 11

5=

−3

5= -0.6

M(4) =−23 − 11 + 0 + 5 + 3

5=

−26

5= -5.2

1[mediatex.tex],Dr. Maximino Pena Guerrero, 29.08.11

1

26

EXTRACCION DE PARAMETROS[enertex.ps]:

Funcion energıa


CARACTERIZAR: ENERGIA 1

Energıa: es un metodo matematico que permite carecterizar una senal sumando el cuadrado decada una de las muestras que contiene una ventana, y dividendosu resultado entre la cantidad demuestras de dicha ventana para normalizar el resultado.

E(i) =1

Tv

Tv−1∑

k=0

m2(k) (1)

Cabecera 13 34 3 -7 -11 -26 -4 24 11 -23 -11 0 5 3 23 -34donde:

E(i) = magnitud de la energıa.i = numero de ventana.Tv = tamano de la ventana.



E(1) =(13)2 + (34)2 + (3)2 + (−7)2 + (−11)2

5

=(169) + (1156) + (9) + (49) + (121)

5=

1504

5= 300.8

E(2) =(−7)2 + (−11)2 + (−26)2 + (−4)2 + (24)2

5

=(49) + (121) + (676) + (16) + (576)

5=

1438

5= 287.6

E(3) =(−4)2 + (24)2 + (11)2 + (−23)2 + (−11)2

5

=(16) + (576) + (121) + (529) + (121)

5=

1363

5= 272.6

E(4) =(−23)2 + (−11)2 + (0)2 + (5)2 + (3)2

5

=(529) + (121) + (0) + (25) + (9)

5=

684

5= 136.8

1[enertex.tex], Dr. Maximino Pena Guerrero, 29.08.11

1

27

EXTRACCION DE PARAMETROS[cruces.ps]:

28

PREDICCION LINEAL[lpc1.ps]:

COEFICIENTES DE PREDICCION LINEAL1

LPC (Linear Prediction Code.) Es un metodo numerico que permiteobtener parametros que muestran un espectro suavizado de la informacionmas representativa de una senal de voz.• Proporciona un modelo adecuado de las senales producidas por la voz

humana (sonidos vocalicos vs sonidos sordos)• Es adecuado para implementarse en sistemas computacionales.• Los coeficientes a0, a1, a2, . . ., ai se obtienen extrapolando una muestra

de senal x(n) a partir de las k muestras anteriores x(n− 1), x(n− 2), . . .,x(n− k).• Funciona minimizando el error entre x(n) y x(n−i) utilizandomınimos

cuadrados calculando el error cuadratico medio E dentro de un intervalode n muestras.• Los coeficientes obtenidos ai forman un vector representativo de una

senal sonora de entrada.

1[lpc1.tex][MPG301116]

1

29


COEFICIENTES DE PREDICCION LINEAL: MODELO FORMAL1

x(n) =

k∑

i=1

ai · x(n− i)

E =∑

n

e2(n) = x(n)−

k∑

i=1

ai · x(n− i)

para 0 ≤ n ≤ N − 1

donde:x(n) muestra de referencia (senal original)x(n) muestra predichan intervalo de las muestrasi ındice de una muestra anteriork maximo de muestras anterioresai coeficiente de una muestraN tamano de un conjunto de muestrasE mınimo valor cuadratico medio.


1

30



Resolviendo E para aj | 1 ≤ j ≤ k

∂E

∂aj= 0 1 ≤ j ≤ k

∑

n

x(n− j) ·

[

x(n)−k∑

i=1

ai · x(n− i)

]

=

∑

n

x(n− j) · x(n)−k∑

i=1

ai ·∑

n

·x(n− j) · x(n− i) =

Cj0 −k∑

j=1

ai · Cji

donde:

Cji =∑

n

x(n− j) · x(n− i)


1

31



• Colocando una ventana rectangular en el intervalo 0 ≤ n ≤ N − 1, seanulan las muestras que se encuentran fuera de dicho intervalo limitandoel valor de n.• Si de esto resulta que Cij = Cji = r|i−j|, entonces los valores de r|i−j|

son los coeficientes de una matrız de autocorrelacion (Toeplitz) que seresuelve con el metodo recursivo de Levinson-Durbin.

k∑

i=1

rn(|j − i|) · ai = rn(j) 1 ≤ j ≤ k

o de manera matricial,

rn(0) rn(1) rn(2) . . . rnk − 1rn(1) rn(0) rn(1) . . . rn(k − 2)rn(2) rn(1) rn(0) . . . rn(k − 3)... ... ... . . . ...

rn(k − 1) rn(k − 2) rn(k − 3) . . . rn(0)

a1a2a3...ak

=

rn(1)rn(2)rn(3)...

rn(k)

(1)


1

32

PITCH[pitchs1.ps]:

33

PITCH[pitchs2.eps]:

34

CADENAS DE MARKOV OCULTAS[hmm.ps]:

HMM: CADENAS DE MARKOV OCULTAS1

Andrei Andreyevich Markov (1856-1922),matematico ruso, investigador de la teorıade numeros y la teoria de probabilidades,desarrollo las cadenas que llevan su num-bre.

“Una cadena de Markov es un modelo pro-babilıstico utilizado para predecir la evolu-cion y el comportamiento a corto y largoplazo de determinados sistemas” a.

Una cadena de markov oculta (HMM,Hidden Markov Model) es “un automatade estados finitos utilizado para modelar lavoz (una frase, palabra, fonema, etc.)” b.

Una HMM “... genera observaciones cadavez que salta de un estado a otro.”

ahttp://inop2.blogspot.com/p/cadenas-de-markov.htmbFaundez Zany Marcos, Tratamiento digital de Voz e Imagen, 2001, pp. 107-108

1[hmm.tex][MPG011216]

1

35

CADENAS DE MARKOV OCULTAS[markovgen.eps]:

a12 a23 a34 a 45 a56

a22 a33 a44 a55

1 2 3 4 5 6

a24 a35

o1 o2 o3 o4 o5 o6

b2 o1( ) b5 o 6( )b2 o 2( ) b3 o 3( ) b4 o 4( ) b4 o 5( )

Markov Model

M

ObservationSequence

36

CADENAS DE MARKOV OCULTAS[isoprob.eps]:

SpeechWaveform

SpeechVectors

Concept: a single word

Parameterise

Recognise

w

w

37

CADENAS DE MARKOV[cad1.ps]:

CADENAS DE MARKOV1

• Una cadena de Markov es una serie de eventos, en la cual la probabilidad de queocurra un evento depende del evento inmediato anterior.• “Recuerdan” el ultimo evento y esto condiciona las posibilidades de los eventos futuros.• Esta dependencia del evento anterior distingue a las cadenas de Markov de las series

de eventos independientes, como tirar una moneda al aire o un dado.• Se define como un proceso estocastico discreto que cumple con la propiedad de Markov.• Si se conoce la historia del sistema hasta su instante actual, su estado presente resume

toda la informacion relevante para describir en probabilidad su estado futuro.• Una cadena de Markov es una secuencia X1, X2, X3, ... de variables aleatorias.• El rango de estas variables, es llamado espacio estado, el valor de Xn es el estado del

proceso en el tiempo n.• Si la distribucion de probabilidad condicional de Xn+1 en estados pasados es una

funcion de Xn por sı sola, entonces: donde xi es el estado del proceso en el instante i.La identidad mostrada es la Propiedad de Markov. Tambien se puede definir la cadena

contınua en tiempo de la siguiente manera:

1[cad1.tex][MPG301116]

1

38

REDES NEURONALES[rcajal.ps]:

REDES NEURONALES1]

Santiago Ramon y Cajal (11852-1934), medico espanol, junto conCamilo Golgi, descubrieron la es-tructura del sistema nervioso.

“Una neurona biologica es una celu-la especializada en procesar infor-macion” a.

Una red neuronal artificial es unmodelo estadıstico adaptivo con ba-se en la analogıa de la estructura delcerebro biologico.

“... las redes neuronales estan cons-truidas por unidades simples, a ve-ces llamadas celulas por analo-gia” b.

aFaundez Zany Marcos, Tratamiento digital de Voz e Imagen, 2001, p. 19bAbdi Herve, et. Neuronal Networks, 1999, pg. 1

1[rcajal.tex][MPG011216]

1

39

REDES NEURONALES[neurona2.eps, wikipedia.org]:

40

REDES NEURONALES[casif2.ps]:

Clasificador con redes neuronales

Dr. Maximino Peña Guerrero !"#$%&'())*+

41

REDES NEURONALES[clasif1.ps]:

Clasificador con redes neuronales

Dr. Maximino Peña Guerrero !"#$%&'())*+

42

EXPRESIONES REGULARES[expreg.ps]:

EXPRESION REGULAR 1

Expresion regular. Es una expresion matematica que describe un ¿Que esunaexpresionregular?

comjunto de cadenas sin enumerar sus elementos. Tambien es un len-guaje que especifica la busqueda de cadenas (caracteres) dentro de untexto. 2

Automata o Maquina. Tambien es un modelo matematico que re- ¿Que esunautomata?presenta los estados de un proceso; algunos de ellos son: Automata de

Turing, Automata de stack, y Automata regular.

Aplicacion. Una epresion regular es una forma de representar los len- ¿Donde seaplica?

guajes regulares (finitos o infinitos).

Construccion. Una expresion regular se construye utilizando caracte- ¿Comoseconstruye?res del alfabeto sobre el cual se define el lenguaje, como son operadores

de union, concatenacion y la cerradura de Kleene.1[expreg.tex], Dr.Maximino Pena Guerrero, 13JL162[pg: 17, Jur09] Jurafsky Daniel, James H. Martin Speech and Language Processing: An Introduction to Natural Languege Processing, Computational Linguistics, and Speech

Reconigtion, Second Edition, Pearson Prentice Hall, 2002-2009, USA. 988 pgs.

1

43

EXPRESIONES REGULARES[exprgstx.ps]:

SINTAXIS DE LAS EXPRESIONES REGULARES

EXPRESION DESCRIPCION EJEMPLOS EXPANSIONES

Expansiones de un solo caracter. cualquier caracter unico spi empata con ”spice”, ”spike”, etc\char caracter no alfanumerico * empata con ”*”\n caracter nueva linea nueva linea\r regreso de carro retorno de carro\t tabulador caracter tab[...] cuelquer unico caracter listado dentro de parentesis cuadrados [abc] empata con ”a”, o ”b”, o ”c”[...-...] cuelquer unico caracter en el rango dentro de parentesis cuadrados [0-9] empata con ”0”, o ”1”, ”2”, o, ... ”9”[ˆ...] cuelquer unico caracter no listado [ˆsS] empata con caracteres cono so ”s”o ”S”[ˆ...-...] cuelquer unico caracter no listado en un rango [ˆA..Z] empata con caracteres que no son mayusculas

Retener / Expresiones con posiciones lımiteˆ comienzo de lınea$ fin de lınea\b lımite de la palabra nt\b empata con “nt”en “paint”pero no en “pants”\B palabra sin lımite all\B empata con “all”en “ally”pero no en “wall”

Contadores / Expresiones que cuantifican las expresiones anteriores* cero o mas de la expresion anterior a* empata con “”, “a”, “aa”, “aaa”, . . .+ una o mas de la expresion anterior a+ empata con “”, “a”, “aa”, “aaa”, . . .? exactamente una o cero de la expresion anterior colou?r empata con “color”, o “colours”{n} n veces la expresion anterior a{4} empata con “aaaa”{n,m} desde n hasta m de la expresion anterior{n,} al menos n veces de la expresion anterior.* cualquier cadena de caracteres(...) agrupando por precedencia y memoria para retro referencia...|... coincidencia con cualquier expresion vecina (dog) | (cat) empata con “dog”, o “cat”

Atajos\d cuelquier dıgito [0-9]\D cuelquier no dıgito [ˆ0-9]\w cuelquier alfanumerico / guion bajo [a-zA-Z0-9 ]\W cuelquier no alfanumerico / guion bajo [ˆa-zA-Z0-9 ]\s espacios en blanco (space, tab) [⊔ \r \t \n \f]\s no-espacios en blanco [ˆ⊔ \r \t \n \f]

[exprgstx.tex], Dr.Maximino Pena Guerrero, 02AG16., pg. tabla, contraportada, [Jur09] Jurafsky Daniel, James H. Martin Speech and Language Processing: An Introduction to

Natural Languege Processing, Computational Linguistics, and Speech Reconigtion, Second Edition, Pearson Prentice Hall, 2002-2009, USA. 988 pgs.

144

EXPRESIONES REGULARES[exprgstx.ps]:

EXPRESION REGULAR 1

Sımbolos. Los sımbolos utilizados en una expresion regular son: ¿Cualesson sussımbolos?SIMBOLO INDICA QUE EJEMPLO OPERADOR

+ El caracter que sigue debe aparecer por lo menos una vez. ”ho+la”: hola, hoola,hooola, etc. Cuantificador? El caracter que sigue puede aparecer como mucho una vez. “ob?scuro”: oscuro, obscuro. Cuantificador* El caracter que precede puede aparecer cero, una o mas veces. ”0*42”: 42, 042, 0042, 00042, etc. Cuantificador| Separador de alternativas. ”marron|castano”, color marron o castano Alternador (selector)

1[exprgsim.tex], Dr.Maximino Pena Guerrero, 01AG16

1

45

ARTHUR C. CLARKE[aclarke.ps]:

ARTHUR CHARLES CLARKE

1

Arthur Charles Clarke (1917-2008), escri-tor y cientıfico ingles escrbio en 1968 lanovela A Space Odyssey, cuyo argumen-to principal es La inteligencia Artificial.

En la version cinematografica el argumentose desarrolla en una supercomputadora lla-mada HAL 9000 (Heuristical Program-

med Algorithmic Computer), o Compu-tadora Algorıtmicamente Programada.

Los acronimos provienen de los caracte-res ASCIIs en hexadecimal: I=49, B=42M=4D; es decir H=48, A=41, L=4C.

1[aclarke.tex][MPG291116]

1

46

HAL 9000: CONSOLA DE COMANDOS[halConsole.eps]:

47

HAL 9000: UNIDAD CENTRAL DE PROCESO[compaHal.eps]:

48

HAL 9000: RECONOCIMIENTO DE IMAGEN HAL-MC2[HAL-MC2.eps]:

49

SUPERCOMPUTADORA IBM WATSON[watson.ps]:

IBM WATSON: INTELIGENCIA ARTIFICIAL1

IBM desarrollo la super computadora IBM WATSON, la cual es un sis-tema de Inteligencia Artificial que puede responder directamente a pre-guntas hechas en lenguaje natural.

Sus disenadores pueden “platicar” con ella mediante una interfase dehardware y software de reconocimiento y sintesis de voz.

Contiene una base de datos propia.

Tambien puede utilizar bases de datos en red como DBpedia, Worde-

Net, entre otras disponibles en Internet.

Utiliza la tecnologia DeepQA de IBM.

DeepQA genera Hipotesis, recopila pruebas, realiza el analisis, y pro-porciona calificaciones.

El sistema DeepQA fue desarrollado por IBM y SUSE Linux EnterpriseServer.

Inicialmente WATSON contiene procesadores a 3.5 GHZ con 8 Nucleos.1[watson.tex][MPG301116]

1

50

IBM WATSON: INTELIGENCIA ARTIFICIAL[IBMMWatson.eps]:

51

IBM WATSON: INTELIGENCIA ARTIFICIAL INTERACTIVA[IBMWatson.eps]:

52

IBM WATSON: FLUJO DE DATOS de DeepQA[diagramaDeepQA.eps]:

53

ETAPAS DE PROCESAMIENTO DE SENAL [pitchps.eps]:

54

ANALISIS EN FRECUENCIA [lpc.ps]:

55

TIPOS DE SENAL[sonido.ps]:

56

HILOS DE PROCESAMIENTO DSP EN PARALELO [hilos1.ps]:

57

HILOS DSP EN PARALELO [hilos2.ps]:

58

MODELO CON CIRCUITOS ELECTRICOS RESONANTES [elec.eps]:

C LC LC LC LC L

C LC LC LC LC L

KKKK

KKKK

1235

678910

4

K

K

59

MODELO CON TUBOS RESONANTES [tubo.eps]:

k10 k9 k8 k7 k6 k5 k4 k3 k2 k1

60

MODELO DE UN FILTRO FIR [fir1.eps]:

fir1.fig 220108

Memoria

FILTRO FIR

Un−1

nU

Un−2

Un−3

Un−4

Un−5

Un−6

Un+1

Un+2

Un+3

Un+4

Un+5

Suma de productos

CC

CC

C

ny

Coeficientes

−2

−1

+2

+1

0

entrada

61

MODELO DE UN FILTRO IIR [iir1.eps]:

Memoria

FILTRO IIR

Un−1

nU

Un−2

Un−3

Un−4

Un−5

Un−6

Un+1

Un+2

Un+3

Un+4

Un+5

CC

CC

C

Coeficientes

−2

−1

+2

+1

0 y n

yyyy

n−1

n−2

n−3

n−4

y n−5

dd

d

3

2

1

iir1.fig 220108entrada

Suma de productos

salida

62

BANCO DE FILTROS [banco1.eps]:

fir1.fig 220108

M

ff1 f2 f3 f4 fn−1 fnf0

m1 m1 m2 m3 mn

BANCO DE FILTROS

63

FILTRO PASA ALTO RC [cr.eps]:

64

FILTRO PASABAJO LR [lr2.eps]:

65

FUNCION DE TRANSFERENCIA H(ω) FILTRO PASABAJO LR [fhwrl.eps]:

66

FUNCION DE TRANSFERENCIA H(Z) FILTRO PASABAJO LR [feqdrl.eps]:

67

H(Z) FILTRO DIGITAL PASABAJO LR NORMALIZADO [filtro.eps]:

0 1000 2000 3000 4000 5000 60000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

68

MODELO EN FORMA DIRECTA TODO POLOS [polos.eps]:

z−1

z−1

B0

z−1

z−1

z−1

z−1

z−1

z−1

z−1

z−1

A1

A0Y[n]X[n]

A2

A3

A4

A5

A7

A8

A9

A10

A6

Y[n−1]

Y[n−2]

Y[n−3]

Y[n−4]

Y[n−5]

Y[n−6]

Y[n−7]

Y[n−8]

Y[n−9]

Y[n]

69

MODELO CON FILTRO LATICE TODO POLOS [lati.eps]:

z−1

z−1

z−1

z−1

z−1

z−1

z−1

z−1

z−1

z−1

−k

−k −k −k −k −k

−k−k−k−k

k k k k k

k k k k k

10 9 8 7 6

5 4 3 2 1

17345

678910

y(n)

x(n)

70

MODELO CON TUBOS: FILTRO DE ORDEN 10 [demo2.ps]:

71

RED FILTRO LATICE TODO POLOS DE ORDEN 10 [lati.eps]:

z−1

z−1

z−1

z−1

z−1

z−1

z−1

z−1

z−1

z−1

−k

−k −k −k −k −k

−k−k−k−k

k k k k k

k k k k k

10 9 8 7 6

5 4 3 2 1

17345

678910

y(n)

x(n)

72

FILTRO LATICE DE UN PUERTO [latice3.eps]

73

RED LATICE DE DOS PUERTOS [latice2.eps]

74

FILTRO LATICE TODO POLOS [latice1.eps]

75

CONCLUSIONES:

• Los ingenieros tenemos la obligacion de entender los fundamen-tos matematicos que intervienen en el reconocimiento y la sıntesisde voz, con el objeto de fomentar la independencia tecnologica eneste tema.

• En ingenierıa, basicamente es el estudio del procesamiento desenales digitales y analogicas, tanto en baja frecuencia (espectrosonoro) como en alta frecuancia (senales electromagneticas); losfundamentos teoricos son los mismos.

76

CONCLUSIONES:

• Hoy en dıa, es posible “bajar”de la red aplicaciones relacionadashechas por otros, lo cual nos hace vulnerables a la “apatıa”de crearalgo por nosotros mismos.

• Algunos investigadores han encontrado que existe algo que seconoce como “GULA”informatica, es decir, “si NO tenemos la ver-sion software de nuestra aplicacion”, se produce el fenomeno psi-cologico como angustia, tristeza, frustracion, entre otros sentimien-tos, los cuales son explotados por los grandes comerciantes tec-nologicos, es decir tenemos que “comprar”la version de softwareque nos indican para sentirnos “a gusto”.

77

GRACIAS...

http://www.max.esimez.ipn.mx

[gracias.tex][MPG031015]

78

Documents

RECONOCIMIENTO Y SÍNTESIS DE VOZ EN INGENIERÍADefiniciones y conceptos generales en el reconocimiento de pa-trones de voz (unidad 1). Fundamentos de las senãles acu´sticas