40
La lematización de textos Elena Álvarez Mellado Seminario Filologías Digitales hoy

La lematizacion de textos

Embed Size (px)

Citation preview

Page 1: La lematizacion de textos

La lematización de textos

Elena Álvarez Mellado

Seminario Filologías Digitales hoy

Page 2: La lematizacion de textos

¿Qué es la lematización?

Page 3: La lematizacion de textos
Page 4: La lematizacion de textos
Page 5: La lematizacion de textos
Page 6: La lematizacion de textos

¿Cómo funciona un lematizador?

Page 7: La lematizacion de textos

limones

dijo

corruptas

nueces

cantábamos

limón

decir

corrupto

nuez

cantar

LEMATIZADOR

Page 8: La lematizacion de textos
Page 9: La lematizacion de textos

corruptísimas

tuerquecita

riéndose

dándoselas

corrupta

tuerca

reír

dar

LEMATIZADOR

Page 10: La lematizacion de textos

- Lexicón (lemas+categorías)

- Reglas morfológicas

- Paciencia.

Ingredientes para hacer un lematizador:

Page 11: La lematizacion de textos

Termina en -ito/a(s) -illo/a(s)

-ísimo/a(s) (sílaba tónica)

Quitamos la terminación: arbolito>árbol

Añadimos O/E/IO guapillo, excelentísimo, sucísimo

¿Raíz irregular? QU->C; GU->G; GÜ->G; C->Z

En el caso de Z: arrocito>arroc->arroz

Añado O/A poquillo->poco; agüita->agua;

Última vocal de la raíz O->UE (fortísimo) E->IE

(calentito)

¿Termina en -bil? -bil->ble (amabilísimo)

¿Termina en -rc /-nc/vocal+c? mayorcito, camioncito, sofacito

¿Termina en -ec? florecita

Añado O/E/IO viejecito, sobrecito,

seriecísimo

¿Termina en -cec? piececito->piecec->pie

Añadimos Z: pececito->pecec->pez

Page 12: La lematizacion de textos

¿Conozco esta palabra? ¿Está en mi base de datos

(lemario)?

Miro en el lemario su lema y su categoría

(MEMORIA)

Aplico el programa de reglas

morfológicas (REGLAS)

No

Page 13: La lematizacion de textos
Page 14: La lematizacion de textos
Page 15: La lematizacion de textos
Page 16: La lematizacion de textos
Page 17: La lematizacion de textos
Page 18: La lematizacion de textos

"palabra": "los"

"lema": "el"

"categoria": "articulo"

"analisis": "ADMP"

"palabra": "ciudadanos"

"lema": "ciudadano"

"categoria": "sustantivo"

"analisis": "NCMP"

"palabra": "reciben"

"lema": "recibir"

"categoria": "verbo"

"analisis": "VPI3P"

"palabra": "el"

"lema": "el"

"categoria": "articulo"

"analisis": "ADMP"

"palabra": "euro"

"lema": "euro"

"categoria": "sustantivo"

"analisis": "NCMP"

"palabra": "con"

"lema": "con"

"categoria": "preposición"

"analisis": "P000"

"palabra": "euforia"

"lema": "euforia"

"categoria": "sustantivo"

"analisis": "NCFS"

Los ciudadanos reciben el euro con euforia

Page 19: La lematizacion de textos
Page 20: La lematizacion de textos
Page 21: La lematizacion de textos
Page 22: La lematizacion de textos
Page 23: La lematizacion de textos
Page 24: La lematizacion de textos
Page 25: La lematizacion de textos

Pon un lematizador en tu vida

Page 26: La lematizacion de textos
Page 27: La lematizacion de textos
Page 28: La lematizacion de textos

Lematizadores de código abierto

Freeling (UPC)

NLTK (Natural Language Toolkit)

openNLP

Stanford CoreNLP

Page 29: La lematizacion de textos
Page 30: La lematizacion de textos

API

Page 31: La lematizacion de textos
Page 32: La lematizacion de textos
Page 33: La lematizacion de textos
Page 34: La lematizacion de textos

AntConc

+

Page 35: La lematizacion de textos
Page 36: La lematizacion de textos

Corpus anotados

Corpus AnCora (UB)

GitHub del grupo CLIG: FR ES PT

Corpus BROWN y LOB

Stanford NLP corpora

Page 37: La lematizacion de textos
Page 38: La lematizacion de textos

Corpus lematizados consultables

Corpus del español de Mark Davis

http://corpusdelespanol.org/

CORPES (RAE)

http://web.frl.es/CORPES/view/inicioExterno.view

Page 39: La lematizacion de textos
Page 40: La lematizacion de textos