La lematizacion de textos

Preview:

Citation preview

La lematización de textos

Elena Álvarez Mellado

Seminario Filologías Digitales hoy

¿Qué es la lematización?

¿Cómo funciona un lematizador?

limones

dijo

corruptas

nueces

cantábamos

limón

decir

corrupto

nuez

cantar

LEMATIZADOR

corruptísimas

tuerquecita

riéndose

dándoselas

corrupta

tuerca

reír

dar

LEMATIZADOR

- Lexicón (lemas+categorías)

- Reglas morfológicas

- Paciencia.

Ingredientes para hacer un lematizador:

Termina en -ito/a(s) -illo/a(s)

-ísimo/a(s) (sílaba tónica)

Quitamos la terminación: arbolito>árbol

Añadimos O/E/IO guapillo, excelentísimo, sucísimo

¿Raíz irregular? QU->C; GU->G; GÜ->G; C->Z

En el caso de Z: arrocito>arroc->arroz

Añado O/A poquillo->poco; agüita->agua;

Última vocal de la raíz O->UE (fortísimo) E->IE

(calentito)

¿Termina en -bil? -bil->ble (amabilísimo)

¿Termina en -rc /-nc/vocal+c? mayorcito, camioncito, sofacito

¿Termina en -ec? florecita

Añado O/E/IO viejecito, sobrecito,

seriecísimo

¿Termina en -cec? piececito->piecec->pie

Añadimos Z: pececito->pecec->pez

¿Conozco esta palabra? ¿Está en mi base de datos

(lemario)?

Miro en el lemario su lema y su categoría

(MEMORIA)

Aplico el programa de reglas

morfológicas (REGLAS)

No

"palabra": "los"

"lema": "el"

"categoria": "articulo"

"analisis": "ADMP"

"palabra": "ciudadanos"

"lema": "ciudadano"

"categoria": "sustantivo"

"analisis": "NCMP"

"palabra": "reciben"

"lema": "recibir"

"categoria": "verbo"

"analisis": "VPI3P"

"palabra": "el"

"lema": "el"

"categoria": "articulo"

"analisis": "ADMP"

"palabra": "euro"

"lema": "euro"

"categoria": "sustantivo"

"analisis": "NCMP"

"palabra": "con"

"lema": "con"

"categoria": "preposición"

"analisis": "P000"

"palabra": "euforia"

"lema": "euforia"

"categoria": "sustantivo"

"analisis": "NCFS"

Los ciudadanos reciben el euro con euforia

Pon un lematizador en tu vida

Lematizadores de código abierto

Freeling (UPC)

NLTK (Natural Language Toolkit)

openNLP

Stanford CoreNLP

API

AntConc

+

Corpus anotados

Corpus AnCora (UB)

GitHub del grupo CLIG: FR ES PT

Corpus BROWN y LOB

Stanford NLP corpora

Corpus lematizados consultables

Corpus del español de Mark Davis

http://corpusdelespanol.org/

CORPES (RAE)

http://web.frl.es/CORPES/view/inicioExterno.view

Recommended