40
Introducción Ingeniería Lingüística 1 Introducción al PLN 1 Presentación del curso Ingeniería lingüística • Tareas • Recursos • Aplicaciones Niveles de procesamiento lingüístico

Introducción al PLN 1

  • Upload
    garvey

  • View
    63

  • Download
    7

Embed Size (px)

DESCRIPTION

Introducción al PLN 1. Presentación del curso Ingeniería lingüística Tareas Recursos Aplicaciones Niveles de procesamiento lingüístico. Del PLN a la Ingenier í a Ling üí stica. - PowerPoint PPT Presentation

Citation preview

Page 1: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 1

Introducción al PLN 1

• Presentación del curso• Ingeniería lingüística

• Tareas• Recursos• Aplicaciones

• Niveles de procesamiento lingüístico

Page 2: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 2

Del PLN a la Ingeniería Lingüística

• La Ingeniería Lingüística es la aplicación del conocimiento de la lengua al desarrollo de sistemas informáticos capaces de reconocer, comprender, interpretar y generar lenguaje humano en todas sus formas.

• La IL comprende:• Métodos, Técnicas y Herramientas• Recursos (Lingware)• Aplicaciones

Page 3: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 3

Componentes de la Tecnología

TEXTO VOZ IMAGEN

ENTRADA

SALIDA

TEXTO VOZ IMAGEN

RECURSOS LINGÜÍSTICOS

Reconocer yValidar

Analizar yComprender Aplicar Generar

Page 4: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 4

Técnicas utilizadas

• Identificación del hablante. Verificación• Reconocimiento del habla• Reconocimiento de caracteres e imágenes• Comprensión de la lengua• Generación de lenguaje• Sistemas basados en diálogos• Síntesis del habla

Page 5: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 5

Identificación del hablante. Verificación

• Problemas:• Hablante desconocido• Ruido (en el entorno o en el medio de

transmisión)• Cambios temporales en el hablante

Page 6: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 6

Reconocimiento del habla

• Discurso discreto vs continuo• Adquisición y uso de modelos

estadísticos de los fonemas y palabras• Reconocimiento de cualquier locutor

(sin necesidad de entrenamiento)• Ruido• Acento, dialectos, agramaticalidades

Page 7: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 7

Reconocimiento de caracteres e imágenes

• Reconocimiento de caracteres impresos (OCR)• tipo de letra desconocido• mala calidad del texto

• Reconocimiento de texto escrito a mano (ICR)• Reconocimiento de imágenes

• Análisis del documento. • Separación en gráficos, texto, fotografías• Análisis del texto: títulos, encabezados, párrafos,

etc...

Page 8: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 8

Comprensión de la lengua

• Comprensión completa o parcial• Análisis incremental:

• Análisis parcial y/o superficial• localización de focos de interés• Análisis más detallados de dichos focos

• Técnicas lingüísticas, estadísticas e híbridas

• Modelos semánticos• Palabras desconocidas

Page 9: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 9

Generación de lenguaje

• Representación semántica del texto• Qué decir y Cómo decirlo (what to say,

how to say)• Planificación del contenido y de la forma• Elementos retóricos

Page 10: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 10

Sistemas basados en diálogos

• Alto nivel de comprensión• Calidad del diálogo• Detección del contenido ilocutivo de las

intervenciones del interlocutor humano• Acciones primitivas locutivas y no locutivas

• comunicaciones, órdenes, peticiones, preguntas, etc...

• Actos de habla directos e indirectos

Page 11: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 11

Síntesis del habla

• Contenido• Forma: intensidad, entonación, duración• Generación a partir de piezas

pregrabadas. Concatenación

Page 12: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 12

Recursos

• Lexicones generales• Diccionarios• Lexicones especializados• Ontologías• Gramáticas• Corpus textuales• Internet como fuente de información

Page 13: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 13

Lexicones generales

• Repositorios de palabras• lemarios, formarios, listas de palabras, ...

• Conocimiento sobre las palabras– Fonología– Morfología: categoría, concordancia..– Sintaxis: categoría, subcategorización, estructura

argumental, valencia, patrones de co-occurrencia...– Semántica: clase semántica,restricciones selectivas...– Pragmática: uso, registro, dominio, ...

Page 14: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 14

Diccionarios

• MRDs• tipos: generales, normativos, de uso, de

aprendizaje, mono/bilingües...• tamaño, contenido, organización

• entrada, acepción, relaciones, ...• Bases de datos léxicas

• ej. Acquilex LDB• Otras fuentes: enciclopedias, tesauros,...

Page 15: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 15

Lexicones especializados

• Nombres propios• Bases de datos terminológicas• Gazetteers• Diccionarios de locuciones, lexías,...• Wordnets• Siglas, jergas• Detectores de fechas, números,

fórmulas,...

Page 16: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 16

Ejemplo: relaciones morfoléxicas. U. Las Palmas (O. Santana)

Page 17: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 17

Ejemplo: utilización de Gazetteers en sistemas de Q&A

• Multitext (U.Waterloo)• Clarke et al, 2001, 2002

• Structured data• biographies (25,000), Trivial Q&A (330,000),

Country locations (800), acronyms (112,000), cities (21,000), animals (500), previous TREC Q&A (1393), ...

• 1 Tb of Web data• Altavista

• AskMSR (Microsoft)• Brill, 2002

Page 18: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 18

Gramáticas

• Gramáticas morfológicas• Gramáticas sintácticas

• Gramáticas de constituyentes• Gramáticas de dependencias• Gramáticas de casos• Gramáticas Transformacionales• Gramáticas sistémicas

• Gramáticas sintagmáticas vs de unificación• Gramáticas probabilísticas• Cobertura, lengua, categorías

Page 19: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 19

Ontologías

• Ontologías léxicas vs conceptuales• Ontologías generales vs de dominio• Ontologías de tareas, metaontologías• Contenido, granularidad, relaciones• Interlinguas: KIF, PIF• CYC, Frame-Ontology, WordNet,

EuroWordNet, GUM, MikroKosmos

Page 20: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 20

Corpus 1

• Textuales vs orales• Gran tamaño (1Mw - 1Gw)• Poco (o nada) estructurados• Información no disponible en forma más

tratable:• colocaciones, estructura argumental, contexto

de aparición, inducción gramatical, relaciones léxicas, restricciones selectivas, lexías, ejemplos de utilización,...

Page 21: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 21

Corpus 2

• Corpus anotados (tagged)• categoría gramatical (pos tagging) posible o

desambiguada• lema• acepción (granularidad)• parentizados• analizados sintácticamente (profundidad)• alineados

• Corpus equilibrados, piramidales, oportunistas

Page 22: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 22

Corpus 3 ejemplos

• Brown Corpus• ACL/DCI (Wall Street Journal, Hansard, ...)• ACL/ECI (European Corpus Initiative)• USA-LDC (Linguistic Data Consortium)• LOB (ICAME, International Computer Archive of Modern English)• BNC (British National Corpus)• SEC (Lancaster Spoken English Corpus)• TOSCA• Collins-Cobuild• PAROLE• IBM/Lancaster treebank• Penn Treebank• Susanne• SemCor• Trésor de la Langue Française (TLF)

Page 23: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 23

Corpus 4 ejemplos

• Instituto Cervantes. Observatorio Español de Industrias de la Lengua "http://www.cervantes.es/oeil/Oeil0.htm

• CREA, recopilado por la RAE. 200 Mw. etiquetado y lematizado

• CRATER, (esp, ing, fran), U.A.Madrid. 5.5Mw. alineado, anotado morfosintácticamente

• ALBAYZIN. Corpus oral, frases aisladas, consultas a BD geográfica. UPC (TSC), UGr, UPMad, UPVal, UABar

• LEXESP, 5Mw, anotado morfosintácticamente, lematizado, UBar, UPC

• IEC en el marco del DCC (catalán)

Page 24: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 24

Ejemplo: proyecto 3lb

Page 25: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 25

Internet como fuente de información 1

• Fuente ingente de información• 1000 Millones de páginas, decenas de Tb, • expansión (doble en 2 años)

• (Cho, 2002)

• Heterogénea• contenido, lengua (70% inglés), formatos

• Servidores de información general• (Medialinks)• 14.000 servidores (5000 periódicos, 70 en España)

Page 26: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 26

Internet como fuente de información 2

• Internet hoy• documentos HTML• dirigidos al consumo (visualización) humano• muchos generados automáticamente por aplicaciones• acceso a través de

• URLs conocidas• buscadores (o metabuscadores) de propósito general• buscadores específicos de una URL determinada

• Limitaciones• dificultad de consumir (por las aplicaciones) texto marcado

(generalmente mal) HTML• dificultad de construcción (y mantenimiento!) de los wrappers

Page 27: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 27

Internet como fuente de información 3

• Tareas relacionadas con la gestión de información en Internet• Modelado y consulta a la Web

• Localización de páginas potencialmente útiles• Consulta a fuentes heterogéneas• Question Answering

• Extracción de Información• Integración de Información• Construcción (y reestructuración) de Web sites• Agentes (crawlers, spiders, softbots, infobots ...)

Page 28: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 28

Internet como fuente de información 4

• Fuentes de información en la Web• Estructuradas

• Bases de datos

• Semi-estructuradas• Exhiben cierta regularidad• No suelen emplear LN no restringido• Elementos extraños que pueden ayudar (marcas HTML, XML) o

confundir (applets, propaganda, ...)• Una alta proporción de recursos actuales en Internet son fuentes semi-

estructuradas => útiles• Semantic Web

• Libres• texto no restringido

Page 29: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 29

Recursos: Repositorios y otras iniciativas 1

• ELRA (European Language Resources Association)• http://www.icp.grenet.fr/ELRA/home.html

• LDC (Linguistic Data Consortium)• http://www.ldc.upenn.edu/

• Eagles (Expert Advisory Group on Language Engineering Standards)• http://www.ilc.pi.cnr.it/EAGLES/home.html

• TEI (Text Encoding Initiative)• http://www.tei-c.org/

• ELSNET (European Network in Language and Speech)• http://www.elsnet.org/

Page 30: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 30

Recursos: Repositorios y otras iniciativas 2

• ACL NLP/CL Universe• http://www.summarization.com/~radev/u/db/acl/• ACL- DCI Data Collection Initiative• The NLP/CL Universe, a publicly extensible indexed

compilation of Web resources related to computational linguistics.

• Multext (Multilingual Text Tools and Corpora)• http://www.lpl.univ-aix.fr/projects/multext/

• CLR (Consortium for Lexical Resources)• EDR

Page 31: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 31

Aplicaciones 1

• Aplicaciones genéricas• (ayuda a la) traducción automática• gestión de la información (multilingüe)• authoring (multilingüe)• interfaz persona/máquina (multilingüe,

multimodal)• Obtención de recursos

• Aplicaciones específicas

Page 32: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 32

Aplicaciones 2

• traducción automática• TA con intervención humana, • TH. asistida• entornos de ayuda a la TH• Adquisición automática de recursos

para la TA (corpus alineados, modelos de traducción, memorias de traducción, ...)

Page 33: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 33

Aplicaciones 3

• gestión de la información• productores de resúmenes,• indiciadores,• {recuperación, extracción, formateo, filtrado,

encaminado} de información,• minería de información textual,• buscadores conceptuales, • alineadores de textos, • “guessers”• sistemas de búsqueda de la respuesta

Page 34: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 34

Aplicaciones 4

• “authoring”• correctores léxicos, gramaticales,

estilísticos, • consulta online de diccionarios, tesauros,

ontologías,• facilidades para la estructuración e

integración de documentos• interfaz persona/máquina (multilingüe,

multimodal)

Page 35: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 35

Aplicaciones 5

• Obtención de recursos lingüísticos• corpus alineados• gramáticas• gazetteers• morfología• restricciones de selección• patrones de subcategorización• Topic Signatures• ...

Page 36: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 36

Aplicaciones 4

• gestión de la información• productores de resúmenes, indiciadores, {recuperación,

extracción, formateo, filtrado, encaminado} de información, buscadores conceptuales, alineadores de textos, “guessers”

• “authoring”• correctores léxicos, gramaticales, estilísticos, consulta online

de diccionarios, tesauros, ontologías, facilidades para la estructuración e integración de documentos

• interfaz persona/máquina (multilingüe, multimodal)

Page 37: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 37

La ingeniería lingüística en Europa

• planes nacionales de investigación y desarrollo tecnológico

• 5º Programa Marco de I+D de la Unión Europea (1998-2002)• 9 áreas científico-tecnológicas

• área de las Tecnologías de la Información y las Comunicaciones

• 12 áreas sectoriales• área de la Sociedad de la Información

• 6º Programa Marco (2004-2008)

Page 38: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 38

Los programas marco de la UE

• Ingeniería Lingüística• Dirección General XIII

• Human Language Technologies• Programas concretos

• ESPRIT (Information Technologies)• LRE (Linguistic Research Engineering)•MLIS (Multilingual Information Society)• INCO (International Cooperation)• LE (Language Engineering)•HLT (Human Language Technologies).

Page 39: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 39

La investigación española en ingeniería lingüística

• Investigación de grupos españoles vs investigación sobre la lengua española• Técnicas independientes de la lengua• Mecanismos de evaluación para el inglés• Otras lenguas • Otros grupos europeos• Grupos americanos

Page 40: Introducción al  PLN  1

PLN Introducción Ingeniería Lingüística 40

Cuántos grupos

• Unos 30 grupos• SEPLN (1997)• I.Cervantes

• Almansa et al, 1998• Llisterri, Garrido, 1998

• 75% en Universidades y C. Investigación• Equilibrio texto/habla/recursos• Áreas, aplicaciones• Especial interés en Recursos