35
LN Modelos del lenguaje 1 Modelos Estadísticos del lenguaje Modelos del lenguaje (Language Models, LM) Noisy Channel model Modelos simples de Markov Smoothing

Modelos Estadísticos del lenguaje

  • Upload
    feoras

  • View
    39

  • Download
    0

Embed Size (px)

DESCRIPTION

Modelos Estadísticos del lenguaje. Modelos del lenguaje (Language Models, LM) Noisy Channel model Modelos simples de Markov Smoothing. Language Models 1. Modelos estadísticos Modelos del lenguaje (LM) Vocabulario (V), palabra w  V Lenguaje (L), oración s  L - PowerPoint PPT Presentation

Citation preview

Page 1: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 1

Modelos Estadísticos del lenguaje

• Modelos del lenguaje (Language Models, LM)• Noisy Channel model• Modelos simples de Markov• Smoothing

Page 2: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 2

Language Models 1

• Modelos estadísticos• Modelos del lenguaje (LM)• Vocabulario (V), palabra

• w V

• Lenguaje (L), oración • s L

• L V* normalmente infinito

• s = w1,…wN

• Probabilidad de s• P(s)

Page 3: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 3

Noisy Channel Model 1

• Mecanismo de modelado estadístico de un canal de comunicación de mensajes en presencia de ruido

• Se pretende optimizar la calidad de la comunicación de mensajes a través del canal en presencia de ruido

• Compresión (eliminación de la redundancia) y calidad de la transmisión (conseguida introduciendo redundancia de forma controlada de forma que se pueda recuperar el mensaje original en presencia de ruido)

Page 4: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 4

Noisy Channel Model 2

W X W*Yencoder decoderChannel

p(y|x)message

input to channel

Output fromchannel

Attempt to reconstruct message based on output

Page 5: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 5

Noisy Channel Model 3

• Capacidad del canal (C): Nivel al que se puede transmitir información con una probabilidad pequeña de ser incapaz de recuperar la entrada a partir de la salida

• Alcanzamos la capacidad del canal si logramos diseñar un input code X con distribución estadística p(X) que maximice la I (información mutua) entre entrada y salida.

Y)I(X;max Cp(X)

Page 6: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 6

Noisy Channel Model 4

• En PLN no podemos actuar sobre la fase de codificación (encoding). El problema es decodificar la salida para lograr la entrada más verosimil

i)|p(i)p(oargmax p(o)

i)|p(i)p(oargmax o)|p(iargmax I

iii

ˆ

decoderNoisy Channel p(o|I)

I O I

Page 7: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 7

Noisy Channel Model 5

i)|p(i)p(oargmax p(o)

i)|p(i)p(oargmax o)|p(iargmax I

iii

ˆ

Modelo del lenguaje Probabilidad del canal

Page 8: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 8

Noisy Channel Model 6

noisy channel X Y

lenguaje real X

lenguaje observado Y

Deseamos recuperar X a partir de Y

Page 9: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 9

Noisy Channel Model 7

texto correcto

errores

texto con errores

noisy channel X Y

lenguaje real X

lenguaje observado Y

Page 10: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 10

Noisy Channel Model 8

texto correcto

eliminación de espacios

texto sinespacios

noisy channel X Y

lenguaje real X

lenguaje observado Y

Page 11: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 11

Noisy Channel Model 9

texto

pronunciación

habla

language model

acoustic model noisy channel X Y

lenguaje real X

lenguaje observado Y

Page 12: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 12

Noisy Channel Model 10

árbol

inserción determinales

texto

probabilistic CFG

noisy channel X Y

lenguaje real X

lenguaje observado Y

Page 13: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 13

Noisy Channel Model 11

lengua f

traducción

lengua o

noisy channel X Y

lenguaje real X

lenguaje observado Y

Page 14: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 14

Noisy Channel model 12

Cadena acústica Cadena de palabras

Modelo del lenguaje Modelo acústico

ejemplo: ASR Automatic Speech Recognizer

Page 15: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 15

Noisy Channel model 13

Modelo del lenguaje objetivo Modelo de la traducción

ejemplo: Traducción Automática

Page 16: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 16

Implementación de LM

• Implementación intuitiva• Enumerar s L

• Calcular las p(s)

• Parámetros del modelo |L|

• Simplificaciones

• historia• hi = { wi, … wi-1}

• Modelos de Markov

Page 17: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 17

Modelos de Markov simples 1

• Modelos de Markov de orden n+ 1

• P(wi|hi) = P(wi|wi-n+1, … wi-1)

• 0-grama

• 1-grama• P(wi|hi) = P(wi)

• 2-grama• P(wi|hi) = P(wi|wi-1)

• 3-grama• P(wi|hi) = P(wi|wi-2,wi-1)

Page 18: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 18

Modelos de Markov simples 2

• n grande:• más información del contexto (más poder discriminativo)

• n pequeño:• más casos en el corpus de entrenamiento (más confianza)

• Selección de n: • ej. para |V| = 20.000

n num. parámetros

2 (bigrams) 400,000,000

3 (trigrams) 8,000,000,000,000

4 (4-grams) 1.6 x 1017

Page 19: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 19

Modelos de Markov simples 3

• Parámetros de un modelo de n-grama• |V|n

• Estimación MLE• a partir de un corpus

• Problema sparseness

Page 20: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 20

Modelos de Markov simples 4

• Modelo 1-gram

• Modelo 2-gram

• Modelo 3-gram

V

wCwPMLE

)()(

)(

)(),|(

12

1221

ii

iiiiiiMLE wwC

wwwCwwwP

)(

)()|(

1

11

i

iiiiMLE wC

wwCwwP

Page 21: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 21

Modelos de Markov simples 5

Page 22: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 22

Modelos de Markov simples 6

Page 23: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 23

Modelos de Markov simples 7

Distribución real de probabilidad

Page 24: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 24

Modelos de Markov simples 8

Los casos vistos están sobre estimados, los no vistos tienen probabilidad nula

Page 25: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 25

Smoothing 1

• Métodos que actúan sobre el contaje de los n-gramas• Laplace, Lidstone, Jeffreys-Perks

• Métodos que actúan sobre las probabilidades:• Held-Out

• Good-Turing

• Descuento

• Métodos de combinación• Interpolación lineal

• Back Off

Page 26: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 26

Smoothing 2

BN

)wC(w)w(wP n

nlaplace

11

1

P = probabilidad de un n-grama

C = contaje del n-grama en el corpus de entrenamiento

N = total n-gramas en el corpus de entrenamiento

B = parámetros del modelo (n-gramas posibles)

Laplace (add 1)

Page 27: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 27

Smoothing 3

λBN

λ)wC(w)w(wP n

nLid

11

= número positivo pequeño

M.L.E: = 0Laplace: = 1Jeffreys-Perks: = ½

Lidstone (generalización de Laplace)

Page 28: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 28

Smoothing 4

• Calcular qué porcentaje de la masa de probabilidad debe conservarse para los n-gramas no presentes en el corpus de entrenamiento

• Se reverva parte del corpus de entrenamiento como corpus de validación (otra parte es para test)

• Se calculan cuántos n-gramas ausentes del corpus de entrenamiento aparecen en el de validación

• Posibilidad de usar Cross-Validation

Held-Out

Page 29: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 29

Smoothing 5

NN

TwwP

wwCT

r

rnho

rwwCwwnr

nn

)(

)(

1

})(:{12

111

Sea un n-grama w1… wn

r = C(w1… wn)

C1(w1… wn) frecuencia del n-grama en el training set

C2(w1… wn) frecuencia del n-grama en el held out set

Nr número de n-gramas con frecuencia r en el training set

Held-Out

Page 30: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 30

Smoothing 6

r* = “frecuencia ajustada”

Nr = número de n-gram-types que aparecen r veces

E(Nr) = “valor esperado”

E(Nr+1) < E(Nr)

)(

)()1( 1*

r

r

NE

NErr NrPGT

*

Good-Turing

Page 31: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 31

Smoothing 7

Primero se calcula la probabilidad de held-out.• Absolute discounting: Decrementar en una

pequeña constante la probabilidad de cada n-grama observado en el corpus de aprendizaje

• Linear discounting: Decrementar la probabilidad de cada n-grama observado en el corpus de aprendizaje multiplicándola por una cantidad.

Métodos de descuento

Page 32: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 32

Smoothing 8

Combinación de métodos

• Combinación lineal de 1-grama, 2-grama, 3-grama, ...• Estimación de las mediante un corpus de validación

),|( 12 nnnli wwwP

),|()|()( 123112211 nnnnnn wwwPwwPwP

Page 33: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 33

Smoothing 9

• Usar n-grama cuando hay suficientes casos en el corpus de entrenamiento, si no hacer back-off a n-1-grama

• Repetir en caso de necesidad

Katz’s Backing-Off

Page 34: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 34

Enriquecimiento de los LM

• Actuación sobre la historia

• Modelos basados en clases• agrupación de palabras en clases

• Rosenfeld, 2000:• P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|wi-2,wi-1)

• P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|wi-2,Ci-1)

• P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|Ci-2,Ci-1)

• P(wi|wi-2,wi-1) = P(wi|Ci-2,Ci-1)

Page 35: Modelos Estadísticos del lenguaje

PLN Modelos del lenguaje 35

Structured Language Models

• Jelinek, Chelba, 1999• Inclusión de la estructura sintáctica en la historia

• Ti son las estructuras sintácticas • árboles binarios lexicalizados