View
48
Download
0
Category
Preview:
DESCRIPTION
FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL Lingüística - UPF. nuria.bel@upf.edu Classe 8. El programa. 2. Les paraules Identificació d’unitats, els mots. Autòmats i expressions regulars - PowerPoint PPT Presentation
Citation preview
N.Bel - FPLN
FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL
Lingüística - UPF
FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL
Lingüística - UPF
nuria.bel@upf.edu
Classe 8
N.Bel - FPLN
El programaEl programa
2. Les paraulesIdentificació d’unitats, els mots. Autòmats i expressions regulars
Categories lèxiques i categories funcionals. Propietats estadístiques, morfològiques i semàntica lèxica
Compostos i col·locacions. Mesures d’associació lèxica
Morfemes i analitzadors morfològics. Transductors d’estats finits i morfologia de doble nivell
N.Bel - FPLN
Resum del tema 2Resum del tema 2
Tasques / problemes – identificació unitats:
el mot– processament de
diferents característiques quantitatives, morfològiques i semàntiques
– compostos i col·locacions
Tècniques de processament:simbòliques– expressions regulars– autòmats– transductors d’estats
finitsprobabilístiques– mesures
d’associació lèxica
N.Bel - FPLN
Tot seguint el programaTot seguint el programa
Hem parlat de les unitats que volíem reconèixer, i de les tècniques usades per identificar-les i assignar una representació.
Ara parlarem de cadenes d’unitats: seqüències de paraules o ítems i del seu processament:- per a què?- com?
N.Bel - FPLN
El programaEl programa
3. Cadenes de paraules i Models de llenguatge
Seqüències i models de n-grames.
Etiquetatge i Models de llenguatge. Categories, etiquetes, desambiguació basada en regles, estocàstica i Cadenes de Markov.
N.Bel - FPLN
R E C O R D A T O R I R E C O R D A T O R I
Hem vist característiques quantitatives:– Paraules i la seva freqüència– Paraules que surten juntes amb més
freqüència que el que seria esperable (Informació Mútua)
N.Bel - FPLN
Model per distribució de les paraulesModel per distribució de les paraules
Volem caracteritzar (modelar) la distribució dels elements d’una llengua: podem processar (identificar i afegir informació) llenguatge si sabem com apareixen els elements? Tindrem capacitat de predicció?exemple de seqüències de lletres
• eq• eg• el -a
-e-i
N.Bel - FPLN
Model 1Model 1
Totes les paraules tenen la mateixa probabilitat de sortir, però apareixeran segons la seva freqüència d’aparició normal– ‘el’ FR: 0,0380 – ‘arterial’ FR: 0,00092
Però, si ja tenim una paraula.... ens interessa la probabilitat que té de sortir una paraula donada la paraula anterior:– donada la paraula “pressió” qui té més
probabilitat de sortir immediatament després: “el” o “arterial”
N.Bel - FPLN
Probabilitat condicionadaProbabilitat condicionada
P(A|B) = La probabilitat de què havent-se donat B, A també es doni o sigui veritat
P(el|pressió) P(arterial|pressió)Com saber-ho?– primer mirem casos i computem la
probabilitat (entrenament)– usem la informació per preveure casos no
vistos (usem la probabilitat per la seva capacitat predictiva)
N.Bel - FPLN
Ho mirarem al corpus de l’IULA: secció medicina
Ho mirarem al corpus de l’IULA: secció medicina
Llengua dels documents: Castellà
Àmbits temàtics seleccionats: Medicina
Nombre de paraules : 4.402.980
Quantitat de documents: 401
Nombre de ocurrències de “presión”: 1812
“presión arterial” 280 / 1812 = 0,154
“presión el” 1 = 0,0005
(vivir bajo presión el stress)
N.Bel - FPLN
Bigrames (2-grames)Assumpció de MarkovBigrames (2-grames)
Assumpció de Markov
I per seqüències de n paraules?Usarem la probabilitat condicionada també per a tota una seqüència
la probabilitat que té una paraula, donada tota una seqüència de paraules anteriors, serà la probabilitat d’una paraula donada l’anterior, i així successivament.
P(wn|wn-1) En Markov assumeix que amb dos elements ja podem anar calculant la probabilitat d’una cadena de qualsevol llargada (amb un error assumible...)
N.Bel - FPLN
Autòmats amb pesos i Cadena de Markov
Autòmats amb pesos i Cadena de Markov
Usarem un autòmat d’estats finits amb pesos: cada arc està associat a una probabilitat de transició a un altre.
Una cadena de Markov és un cas especial d’autòmat d’estats finits amb pesos
pressió el
0,0005 %
arterial
0,1%
N.Bel - FPLN
Generalitzant a seqüències nGeneralitzant a seqüències n
Amb bigrames:
P(yo quiero comer comida china) =
P(yo|<s>) x P(quiero|yo) x P(comer|quiero)
x P(comida|comer) x P(china|comida)
Amb trigrames:– P(china| quiero comer)
N.Bel - FPLN
Model de llenguatgeModel de llenguatge
Model de llenguatge: Una representació probabilística de la distribució de paraules en un corpus que caracteritza les propietats distribucionals d’una llengua
Modelar-ho com un autòmat ens permet representar/formular seqüències ordenades i afegir informació estadística
Si la informació estadística la convertim en probabilitat (valors entre 0 i 1) podem aplicar-ho a seqüències mai vistes: capacitat predictiva
N.Bel - FPLN
Consideracions chomskyanesConsideracions chomskyanes
En els models basats en l’observació de dades què passa si no s’ha vist una seqüència?
És perillós tenir un P(x)=0 perquè fem el producte
Tècnicament, la solució és fer “smoothing”
Res no garanteix que funcioni sempre correctament, però funcionarà bé per als casos més freqüents, és a dir, per la majoria dels casos.
L’error és petit. És assumible? Dependrà de l’aplicació
N.Bel - FPLN
La tècnica de bigrames s’aplica a La tècnica de bigrames s’aplica a
La probabilitat de que a una forma x li segueixi la forma y
De que a un article li segueixi un nom
De que a un article femení singular li segueixi un N femení singular
De que a un SN li segueixi un SV
De que a un subjecte li segueixi un predicat ...
N.Bel - FPLN
Model de llenguatge Model de llenguatge
Tasques / problemes– reconeixement de la
parla – reconeixement
d’escriptura– OCR– escriptura predictiva– desambiguació
automàtica (‘PoS tagging’)
– pre-processament
Tècniques de processament probabilístiques– probabilitat
condicionada (Bigrames o Trigrames)
– Models ocults de Markov
N.Bel - FPLN
Una aplicació en detall: Etiquetar textosUna aplicació en detall: Etiquetar textos
Hem vist els analitzadors morfològics: anàlisis per a assignar una possible representació de la informació no explícita que la paraula du: lema e informació morfosintàctica,
però per a formes com “abono” ens donarà 2 resultats
N.Bel - FPLN
Assignació automàtica d’etiquetesPart of Speech Tagging
Assignació automàtica d’etiquetesPart of Speech Tagging
assignació automàtica d’etiquetes (PoS tagging): es el procés de assignar una categoria o marcador de classe lèxica a cada paraula d’un corpus:– abono abono|Ncms– abono abonar|Vmip1s
L’input d’un etiquetador és una cadena de paraules i el conjunt de etiquetes que volem assignar.
N.Bel - FPLN
El problemaEl problema
Accés al diccionari i formes homògrafes: casos de ambigüitat:
TAGS: 216
AMBIGUOUS TAGS: 268
N.Bel - FPLN
Exemples del castellàExemples del castellà
Present Ind.NCMS|VMIP1S: beso, beneficio, ...NCMS|VMIP3S: combate, programa, ...NCMS|VMIP3P: resumen (resumir)NCMP|VMIP2S: combates, programasNCFS|VMIP1S: mano (manar)NCFS|VMIP3S: alarma, ...NCFP|VMIP2S: alarmas, ...NCS|VMIP1S: modelo, radio, testimonioNCS|VMIP3S: espía, guardaNCP|VMIP2S: espías, guardas
- Imperfect Ind.NCFS|VMIIS: garantía (noun-garantir), valía (noun-valer)NCFP|VMII2S: garantías "
N.Bel - FPLN
Més exemples .... 3 etiquetes possiblesMés exemples .... 3 etiquetes possibles
- AS|NCFS|VMSPS: clave, patente- AP|NCFP|VMSP2S: claves, patentes
- AS|NCS|VMSPS: doble
- AP|NCP|VMSP2S: dobles
- AS|NCMS|VMSPS: presente (presentar)
- AP|NCMP|VMSP2S: presentes
N.Bel - FPLN
L’ambigüitat de paraules molt freqüentsL’ambigüitat de paraules molt freqüents
329856 de185594 la PP3FSA|TDFS111163 el110557 que104692 en99854 y96862 los PP3MPA|TDMP83470 del82708 a76303 las PP3FPA|TDFP47312 se37247 por29874 para SP|VMIP3S|VMSPS (parar, parir)29310 un29134 o26173 no25945 una PI3FS|TIFS|VMSPS (unir)24477 sobre SP|NCMS|VMSPS (sobrar)
N.Bel - FPLN
Tècniques per a ‘PoS tagging’Tècniques per a ‘PoS tagging’
sistemes basats en tècniques estadístiques (Model Ocult de Markov, seria un exemple) sistemes basats en regles simbòliques arquitectures híbrides (regles i estadística) com el de Brill (1992) que està basat en regles que determinen quan una paraula ambigua ha de tenir una etiqueta determinada. Però aquestes regles s’indueixen automàticament a partir d’un corpus d’entrenament.
N.Bel - FPLN
Etiquetament basat en reglesEtiquetament basat en regles
els primers sistemes d’etiquetat automàtic (Harris 1962, Klein & Simmons, 1963, Greene & Rubin 1973).
Primer es busquen les paraules en un diccionari on se’ls assignen totes les possibles categories, i després s’aplica un component de regles per anar eliminant algunes fins reduir-ho a una
N.Bel - FPLN
Basat en regles, “Constraint Grammars”Basat en regles, “Constraint Grammars”
Voutilainen (1995) usa la mateixa arquitectura de l’ENGTWOL però amb el lèxic i les regles més sofisticades http://www.lingsoft.fi/cgi-bin/engtwol En un primer estadi cada paraula es passa per un transductor lèxic de dos nivells. Desprès s’aplica un conjunt de “restriccions” (constraints) que usats de forma negativa eliminen els casos de possible ambigüitat
N.Bel - FPLN
Regles de restriccions (1100)Regles de restriccions (1100)
that – Conjunció / ADV intensificador
Given input: that
if
(+1 A/ADV/QUANT); /* si la próxima palabra es adj, adv o /* cuantificador
(+2 SENT-LIM); /* y la siguiente un límite de frase
(NOT – 1 SVOC/A); /* y la palabra anterior no es un verbo /* que admita
/* complementos adjetivos
then elimina las etiquetas que no sean ADV
else elimina la etiqueta ADV
N.Bel - FPLN
RTAG – Expressions regularsPorta, Marimon, Bel (1994)
RTAG – Expressions regularsPorta, Marimon, Bel (1994)
/ (i)- Contexts promoting articles:
// Following unambiguous prepositions or unambiguous verbs (or any ambiguity between them) or 'entre' or unambiguous infinitives
@ PostPrepVfinVinf_Td
&{@@PREP || @@V_FIN}& || &{@@V_INF}& <
< @@ART_DEF >
N.Bel - FPLN
Predicció probabilísticaModel ocult de Markov (HMM)
Predicció probabilísticaModel ocult de Markov (HMM)
La predicció de la categoria es basa en un model de n-grames i estableix un Model del llenguatge: una representació probabilística de la distribució de categories en el texthttp://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/Per a una seqüència de paraules, els etiquetadors HMM seleccionen la seqüència d’etiquetes que té el valor màxim segons la següent fòrmula:
P(paraula|etiqueta) * P(etiqueta|n etiquetes anteriors)
N.Bel - FPLN
Sistemes híbrids: l’etiquetador de BrillSistemes híbrids: l’etiquetador de Brill
Aprenentatge automàtic (Machine Learning) Brill (1992) http://research.microsoft.com/~brill/
TBL té regles que especifiquen quines etiquetes haurien d’assignar-se a quines paraules, i una tècnica d’aprenentatge automàtic en el que les regles s’indueixen automàticament a partir de les dades.
N.Bel - FPLN
Brill: 2 etapes Brill: 2 etapes
1. l’etiquetador assigna l’etiqueta més probable a cada paraula, que ha obtingut a partir d’un corpus ja etiquetat
2. passa a les regles de transformació. Conforme es van aplicant, l’etiquetador aprèn les regles que corregeixen els errors comesos en el pas anterior comparant les etiquetes (i contextos) que té en el corpus ja etiquetat.
Recommended