MotivationHidden Markov Model
Text-To-Speech
Hidden Markov ModelHidden Markov Model applicato al Text-To-Speech
Vannutelli Sofien1
1Facoltà di Ingegneria dell’Informazione, Informatica e StatisticaSapienza - Università di Roma
September 11, 2016
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Outline
1 MotivationAbstractProblemi classici
2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione
3 Text-To-SpeechAbstractAcquisizione e Sintesi
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractProblemi classici
Outline
1 MotivationAbstractProblemi classici
2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione
3 Text-To-SpeechAbstractAcquisizione e Sintesi
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractProblemi classici
In breve . . .
Gli Hidden Markov Models sono un modello probabilisticomolto studiato in computer science, specialmente in ambito ditelecomunicazioni e ricerca operativa.
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractProblemi classici
Outline
1 MotivationAbstractProblemi classici
2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione
3 Text-To-SpeechAbstractAcquisizione e Sintesi
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractProblemi classici
IdeaLetteratura russa
In particolare:Analisi delle sequenze delle lettere nella letteratura Russa.
Esempio:La lettera th è piu lontana rispetto alla lettera te.
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractProblemi classici
Altri campiApprendimento automatico, linguistica computazionale, interazione multimodale . . .
Speech Recognition,Text-To-Speech,POS Tagging,etc.
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Outline
1 MotivationAbstractProblemi classici
2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione
3 Text-To-SpeechAbstractAcquisizione e Sintesi
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Probabilità di una sequenze di eventiEsempio
Assunzione (Catene di Markov di primo ordine):La probabilità di un evento dipende esclusivamente dalprecedente
Possiamo modellare i valori delle variabili aleatorie comeSTATI e etichettare le transizioni fra stati medianteprobabilità condizionate:
P(Xi = s′|Xi−1 = s) = p(s′|s) dove per ognis, s′ ∈ Σ
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Formalmente
Una Catena di Markov è una tripla (Q, (p(n1 = s)), A), dove:
i. Q = (1,2 . . . k) è un insieme finito di stati. Ogni stato è unsimbolo ottenuto da un alfabeto Σ.
ii. p rappresenta l’insieme delle probabilità iniziali.iii. A è l’insieme delle probabilità di transizione denotate da
as,s′ per ogni s,s’ in Q.Per ogni s,s’ in Q la probabilità di transizione è:as,s′ = P(πi = s′|πi−1 = s)
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Cosa cerchiamo?
Sia Π = (π1, π2 . . . πn) un processo random con memoria dilunghezza 1, si ha che:
Il valore di πi dipende solo da πi−1.Per ogni s1 . . . si P(πi = si |π1 = s1 . . . πi−1 = si−1) =P(πi = si |π1 = s1 . . . πi−1 = si−1)P(πi = si |πi−1 = si−1) = asi−1,si
Obiettivo: Dato Π, calcolare la probabilità P(π1 . . . πn)P(π1, π2 . . . πn) = P(π1)
∏i P(πi+1|πi)
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Outline
1 MotivationAbstractProblemi classici
2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione
3 Text-To-SpeechAbstractAcquisizione e Sintesi
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
In una catena di Markov c’è una corrispondenza biunivocatra i simboli emessi dall’automa e gli stati corrispondenti.In un HMM non è più così gli stati sono, appunto,"nascosti", e all’osservatore è accessibile soltanto unasequenza di simboli in base alla quale egli può inferiresoltanto la probabilità degli stati corrispondenti.
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Outline
1 MotivationAbstractProblemi classici
2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione
3 Text-To-SpeechAbstractAcquisizione e Sintesi
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Formalmente
Un HMM è una quintupla (s0,S,Y ,P,Q), doveS = 1,2 . . . k è un insieme di stati.s0 lo stato iniziale.Y un insieme di simboli di uscita y1 . . . yn.P è una distribuzione di probabilità delle transizioni, tra duestati qualsiasi s, s′ in S s → s′ : p(s′|s),as′,s = P(πi = s′|πi−1 = s).Q è una distribuzione di probabilità dei valori di emissioneper ogni stato, ovvero per ogni simbolo b e per ogni s in S,la probabilità di osservare b quando siamo nello stato s:et (b) = P(xi = b|πi = t).
In un HMM le transizioni fra stati sono nascoste,ciò che è visibile è solo la sequenza dei simboliemessi.
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Un esempio più correlatoParole e Part-Of-Speech (POS)
Si nota che da ogni stato può essere emesso un sottoinsiemedei simboli in Y (es "suona" non può essere emesso nelletransizioni da art agg: q(suona|art ,agg) = 0.In altri termini, "agg" non è un POS di "suona").
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Un esempio più correlato (2)Parole e Part-Of-Speech (POS)
Data una sequenza di simboli osservata, quale è lasequenza di stati più probabile che possa averla causata?Se osservo Il piano suona forte, le sequenze di POSpossibili sono: art agg verbo avv, art avv verbo agg, artnome verbo avv, art nome verbo agg . . . quale è la piùprobabile?
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Tre algoritmi risolutivi per le HMM
i. Forward-Backwardii. Viterbiiii. Baum-Welch
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Trellis (Reticolo)
Un trellis è un grafo i cui nodi sono ordinati in slices verticali (ditempo), e dove ciascun nodo, ogni volta, è collegato ad almenoun nodo precedente ed almeno un nodo successivo.
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Forward-Backward
Classe dei problemi di Valutazione.DATO un HMM M, ed una sequenza X = 〈x1, x2 · · · xn〉.TROVARE P(X |M).Complessità di tempo Θ(k2 · n), dove k # stati e nlunghezza sequenza.
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Viterbi (1)
Classe dei problemi di Decodifica.DATO un HMM M, ed una sequenza X = 〈x1, x2 · · · xn〉.TROVARE la sequenza π di stati che massimizzaP(X , π|M).Complessità di tempo O(k2 · n), dove k # stati e nlunghezza sequenza.Complessità di spazio O(k · n).
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
Catena di MarkovCatene di Markov vs HMMDefinizione
Baum-Welch
Classe dei problemi di Learning.DATO un HMM M, con probabilità di transizione/emissionenon specificate, ed una sequenza X = 〈x1, x2 · · · xn〉.TROVARE parametri M = (bi(. . . ),ai,j) che massimizzanoP(X |M).Complessità di tempo # iterazioni per O(k2 · n).
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractAcquisizione e Sintesi
Outline
1 MotivationAbstractProblemi classici
2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione
3 Text-To-SpeechAbstractAcquisizione e Sintesi
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractAcquisizione e Sintesi
In breve . . .
I sistemi TTS noti anche come sistemi di sintesi vocaliconvertono il testo, inserito al loro interno, riproducendoloattraverso una voce umana artificiale. Alcune applicazioni:
Educazione linguistica.Aiuto alle persone con handicap visivi e motori.Intereazione Multimodale.Ricerca Sperimentale.etc.
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractAcquisizione e Sintesi
Outline
1 MotivationAbstractProblemi classici
2 Hidden Markov ModelCatena di MarkovCatene di Markov vs HMMDefinizione
3 Text-To-SpeechAbstractAcquisizione e Sintesi
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractAcquisizione e Sintesi
2 moduli
Naturale Language Processing (NLP).Digital Signal Processing (DSP).
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractAcquisizione e Sintesi
Natural Language Processing (1)
Pre-elaborazione (Regular Expression).Analisi morfologica (Propone le categorie vocali per ogniparola).Analisi contestuale (Considera le parole nel loro contesto).Parser sintattico-prosodico (Trova la struttura del testo).Letter-To-Sound (Responsabile della trascrizione foneticadel testo).Produzione della metrica (Processore prosodico).
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractAcquisizione e Sintesi
Natural Language Processing (2)Letter-To-Sound
Strategie adottate:fonetica basata su dizionario.fonetica basata sulle regole di trascrizione.
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractAcquisizione e Sintesi
Natural Language Processing (3)Produzione della metrica...
Per la Produzione della metrica ci si basa su di un processoreprosodico, il quale utilizza un HMM per determinare lasequenza più probabile dei valore di durata delle speech units,in cui ciascuno stato della HMM rappresenta un valore didurata e ciascuna uscita del HMM è uno speech unit. Perdeterminare la sequenza più probabile di valori di durata vieneeseguita utilizzando l’algoritmo di Viterbi.
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractAcquisizione e Sintesi
Natural Language Processing (3)...continua
F = 〈f1, f2, · · · , fn〉 e D = 〈d1,d2, · · · ,dn〉, il TTS osserverà ilfonema F per produrre la durata D, e calcolerà la probabilitàcondizionata P(D|F ) per ogni possibile sequenza di valori. Conil Teorema di Bayes questo può essere espanso come:
P(D|F ) =
(P(F |D) · P(D)
P(F )
)Ci interessa solo la migliore sequenza di durate il valore dimassima verosimiglianza della probabilità condizionata o
maxD{P(D|F )} .
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractAcquisizione e Sintesi
Modulo DSP
Il segnale d’uscita corrisponde ai requisiti d’ingresso. Duetecnologie principali:
Sintesi basata sulle regole (ricerca la voce basandosi su diun modello acustico).Sintensi concatenativa (concatenazione e combinazione diframmenti di voce).
Vannutelli Sofien Relazione su Hidden Markov Model
MotivationHidden Markov Model
Text-To-Speech
AbstractAcquisizione e Sintesi
Modulo DSP (2)Nella sintensi concatenativa
Due moduli:Speech Processing.Sound Processing.
Vannutelli Sofien Relazione su Hidden Markov Model
Appendix Bibliography
Bibliography I
M.R. Schroeder.Computer Speech - Recognition, Compression, Synthesis.Springer Series in Information Sciences.
Romano Scozzafava.Incertezza e Probabilità.Editore Zanichelli, quinta edizione 2005.
Prof.ssa Maria De Marsico.Multimodal Interaction Lesson 7.Corso di Interazione Multimodale, Università di Roma LaSapienza - Dipartimento di Informatica.
Thierry Dutoit.An introduction to text-to-speech synthesis.
Vannutelli Sofien Relazione su Hidden Markov Model
Recommended