12
1 Know T2. Procesadores lingüísticos UPV/EHU

Know T2. P rocesadores lingüísticos UPV/EHU

  • Upload
    thalia

  • View
    29

  • Download
    0

Embed Size (px)

DESCRIPTION

Know T2. P rocesadores lingüísticos UPV/EHU. Know.Tarea 2. PROCESADORES LINGÜÍSTICOS. - PowerPoint PPT Presentation

Citation preview

Page 1: Know T2. P rocesadores lingüísticos UPV/EHU

1

KnowT2. Procesadores

lingüísticosUPV/EHU

Page 2: Know T2. P rocesadores lingüísticos UPV/EHU

2

Know.Tarea 2. PROCESADORES LINGÜÍSTICOS

“UB reunirá los procesadores lingüísticos existentes para cada una de las lenguas de KNOW, y abordará el desarrollo del eslabón perdido: analizadores sintácticos de amplia cobertura para el español, catalán y euskera. Además, este subproyecto adquirirá modelos verbales, que son indispensables para dar coherencia a los análisis sintácticos y permiten la interpretación semántica.”

Page 3: Know T2. P rocesadores lingüísticos UPV/EHU

3

Know: Objetivos T2Recursos Lingüísticos básicos. Adaptación,

recopilación y enriquecimiento de las herramientas y recursos lingüísticos básicos disponibles para todas las tareas del proyecto. Esto incluye:

Identificación de las unidades y límites oracionales Análisis morfológico Tratamiento de entidades referenciales Análisis sintáctico parcial Subcategorización y patrones de diátesis Análisis sintáctico profundo automático. Desarrollo de gramáticas para el análisis sintáctico

profundo para las lenguas del proyecto. (UB, EHU/UPV)

Page 4: Know T2. P rocesadores lingüísticos UPV/EHU

4

Know: Objetivos T2En el análisis sintáctico Estandarización de las anotaciones de los

diferentes corpus sintácticos. Estudio de la situación actual de los

analizadores sintácticos de las lenguas implicadas en el proyecto.

Desarrollo de gramáticas sintácticas para las lenguas del proyecto con el objetivo de realizar un análisis sintáctico profundo.

Implementación y evaluación de las versiones de la gramática

Page 5: Know T2. P rocesadores lingüísticos UPV/EHU

5

PROCESADORES LINGÜÍSTICOS UPV/EHU

Recursos lingüísticos básicos (1)

• Chunker (Constraint Grammar, rule-based)

• Sintagmas nominales• Cadenas verbales

• Tratamiento de entidades

Page 6: Know T2. P rocesadores lingüísticos UPV/EHU

6

PROCESADORES LINGÜÍSTICOS UPV/EHU

Recursos lingüísticos básicos (2)

• Corpus etiquetado sintácticamente:

• Basado en dependencias

• 50.000 palabras actualmente (3LB)

• Extensión a otras 250.000

Page 7: Know T2. P rocesadores lingüísticos UPV/EHU

7

PROCESADORES LINGÜÍSTICOS UPV/EHU

Análisis sintáctico (A)

Analizador de dependencias (Constraint Grammar):

• Basado en reglas

• Sintaxis parcial (?)

• Falta evaluación

Page 8: Know T2. P rocesadores lingüísticos UPV/EHU

8

PROCESADORES LINGÜÍSTICOS UPV/EHU

Análisis sintáctico (B)

Statistical parsing, dependency-based. Primer año: estado del arte:

Spanish (Cowan and Collins 2005); English (Bikel/Collins 2004); Charniak (2000); (Briscoe

and Carroll 2006) Turkish (Oflazer 2006) CoNLL 2006/2007 MaltParser (Nivre et al. 2007)

Fin del primer año: primera versión del analizador estadístico para el euskera

Page 9: Know T2. P rocesadores lingüísticos UPV/EHU

9

PROCESADORES LINGÜÍSTICOS UPV/EHU

Análisis sintáctico (B)

Statistical parsing, dependency-based

MaltParser (Nivre et al. 2007). Determinista

Basado en el treebank 3LB

Experimentos: 73% (Labeled Attachment Accuracy)

Tratamiento de ambigüedad morfosintáctica?

Page 10: Know T2. P rocesadores lingüísticos UPV/EHU

10

PROCESADORES LINGÜÍSTICOS UPV/EHU

Análisis sintáctico (B)

Statistical parsing, dependency-based.

CoNLL 2007Team Average Arabic Basque Catalan Chinese Czech English Greek Italian Turkish

Nilsson et al.

80.32 (1)

76.52 (1)

76.94 (1)

88.70 (1)

75.82 (15)

77.98 (3)

88.11 (5)

74.65 (2)

84.40 (1)

79.79 (2)

Nakagawa

80.29 (2)

75.08 (2)

72.56 (7)

87 (3)

83 (2)

80.1 (1)

88.4 (3)

76.3 (1)

83.6 (3)

78.2 (5)

Titov et al.

79.9 (3)

74 (6)

75. (3)

87 (6)

82 (7)

77.9 (4)

88.3 (4)

73.5 (10)

82.2 (6)

79.8 (1)

Sagae 79.9 (4)

74.7 (4)

74.6 (6)

88.1 (2)

84.6 (1)

74.83 (8)

89.01 (2)

73.58 (8)

83.91 (2)

75.91 (10)

Hall, J. et al.

79.8 (5)

74.7 (3)

74.9 (5)

87.7 (4)

83.5 (3)

77.22 (6)

85.81 (12)

74.21 (6)

82.48 (5)

79.24 (3)

Carreras

79.0 (6)

70.2 (11)

75.7 (2)

87.6 (5)

80.8 (10)

78.60 (2)

89.61 (1)

73.56 (9)

83.46 (4)

75.85 (11)

Page 11: Know T2. P rocesadores lingüísticos UPV/EHU

11

PROCESADORES LINGÜÍSTICOS UPV/EHU

Análisis sintáctico (C)

Statistical parsing, dependency-based.

Segundo año: añadir información léxica (subcategorización verbal, etc.; Aitziber Atutxa?)

Page 12: Know T2. P rocesadores lingüísticos UPV/EHU

12

PROCESADORES LINGÜÍSTICOS UPV/EHU

Análisis sintáctico (C)

RASP (rule-based + statistical training):

• Actualmente: ~200 reglas

• Entrenado sobre 100 sentencias anotadas manualmente

• Previsto: ?