42
I Jornadas de Lingüística vasco-románica I Jornadas de Lingüística vasco-románica La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus Joseba Abaitua, JosuKa Díaz, Inés Jacob, Fernando Quintana DELi (Universidad de Deusto) DELi (Universidad de Deusto) Garikoitz Araolaza,Luistxo Fernández CodeSyntax CodeSyntax

La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

Embed Size (px)

Citation preview

Page 1: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

I Jornadas de Lingüística vasco-románicaI Jornadas de Lingüística vasco-románica

La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y

lingüística de corpus

Joseba Abaitua, JosuKa Díaz, Inés Jacob,

Fernando Quintana DELi (Universidad de Deusto)DELi (Universidad de Deusto)

Garikoitz Araolaza,Luistxo Fernández CodeSyntaxCodeSyntax

Page 2: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

2

– www.deli.deusto.es/SareBi• DELi (Letras - ESIDE)

– edición digital (XML)

– ingeniería lingüística

» tecnologías de traducción» lingüística de corpus

– grid semántica» web semántica» computación grid

– www.codesyntax.com

SARE-Bi: Sistema de gestión de documentación multilingüe

Page 3: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

3

– estándares XML– lingüística de corpus: TEI

– tecnología de traducción: TMX

– localización de software: XLIFF

– documática– catalogación, indización, búsquedas

– roles y permisos (redactor, traductor, validador...)

– estado y “visibilidad” (borrador, revisado; interno, público)

– tradumática– memoria de traducción– segmentación, alineación– control de versiones - ciclo de vida

SARE-Bi: Sistema de gestión de documentación multilingüe

Page 4: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

4

■ Antecedentes (DELi: 1998-2004)• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)• XML-Bi (2001-2002)

• X-Flow (2002-2003)

• OAC (2003-2005)• TMGrid (2005-2007)

■ Participación (Uned, EHU,UPC, UB...)

• HAIN (1993-1996)

• TREVI (1996-1998)• ITEM (1997-1999)• HERMES (2000-2003)• CORDE (2002-2004)• ESP-EUS (2002-2004)

Page 5: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

5

■ Antecedentes (DELi: 1998-2004)• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)• XML-Bi (2001-2002)

• X-Flow (2002-2003)

• OAC (2003-2005)• TMGrid (2005-2007)

■ Participación (Uned, EHU,UPC, UB...)

• HAIN (1993-1996)

• TREVI (1996-1998)• ITEM (1997-1999)• HERMES (2000-2003)• CORDE (2002-2004)• ESP-EUS (2002-2004)

Page 6: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

6

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1994-1999)– Textos paralelos bilingües en euskara y

castellano de las administraciones vascas con etiquetado SGML/TEI-P3

• XTRA-Bi (2000-2001)• XML-Bi (2001-2002)• X-Flow (2002-2003)• OAC (2003-2005)

• TMGrid (2005-2007)

Page 7: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

7

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)

– Extracción automática de unidades bitextuales para memorias de traducción

• XML-Bi (2001-2002)• X-Flow (2002-2003)

• OAC (2003-2005)

• TMGrid (2005-2007)

Page 8: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

8

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)

• XML-Bi (2001-2002)– Procedimientos para la gestión del flujo

documental multilingüe sobre XML/TEI-P3

• X-Flow (2002-2003)

• OAC (2003-2005)

• TMGrid (2005-2007)

Page 9: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

9

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)

• XML-Bi (2001-2002)• X-Flow (2002-2003)

– Gestión de flujo de contenidos multilingües sobre XLIFF y TMX

• OAC (2003-2005)

• TMGrid (2005-2007)

Page 10: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

10

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)

• XML-Bi (2001-2002)• X-Flow (2002-2003)• OAC (2003-2005)

– Open Archive Cataloger

• TMGrid (2005-2007)

Page 11: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

11

■ Antecedentes (DELi: 1998-2004)

• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)

• XML-Bi (2001-2002)• X-Flow (2002-2003)• OAC (2003-2005)• TMGrid (2005-2007)

– Grid de memorias de traducción

Page 12: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

12

■ Participación (Uned, EHU,UPC, UB, RAE...)

• HAIN (1993-1996)– Entorno para aplicaciones lingüísticas

• TREVI (1996-1998)

– Text Retrieval and Enrichment for Vital Information

• ITEM (1997-1999)– Recuperación de Información Textual en un

Entorno Multilíngüe con Técnicas de Lenguaje Natural

• HERMES (2000-2003)– Hemerotecas electrónicas. Recuperación

multilingüe y extracción semántica• CORDE (2002-2004)

– Corpus diacrónico español

Page 13: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

13

■ Edición digital - lingüística de corpus

– DELi 2002-2005» CORDE» Rómulo. Edición digital plurilingüe de un

texto europeo del siglo XVII » La esfera. Edición hipertextual» UNAI (SPrako tranbia / Un tranvía en

SP)» Fondo Bonaparte

– Etiquetado/Metadatos XML/TEI

Page 14: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

14

Estructura de un texto TEI

Todos los textos TEI tienen ■ cabecera <teiHeader>

– descripción bibliográfica– descripción de la forma en que ha sido

codificado– descripción no bibliográfica del texto

(perfil)– historia de revisiones

■ texto <text>

Page 15: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

15

Estructura de un texto TEI (ii)Cada texto tiene un <front> y un <back>

opcionales

<TEI.2> <teiHeader> [ TEI Header information ] </teiHeader>

<text> <front> [ front matter ... ] </front>

<body> [ body of text ... ] </body>

<back> [ back matter ... ] </back>

</text></TEI.2>

Page 16: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

16

SARE-Bi: Campo de aplicación■ Universidad de Deusto

• genera numerosos documentos admisnistrativos

• la mayoría son bilingües español - euskara, lenguas oficiales del País Vasco

• algunos también en inglés, francés, italiano...

■ Dimensión de los documentos• largos (estatutos, normativas, informes...)• cortos (anuncios, cartas, convocatorias...)• de una única oración(“Atenderemos en el

despacho 535”)

Page 17: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

17

Arquitectura de SARE-Bi

■ SARE-Bi está implementado en Zope– desarrollado en Python– incluye una base de datos orientada a

objetos (ZODB)– los módulos que amplían Zope se

denominan productos– El producto TeiCorpus es el motor de

SARE-Bi

Page 18: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

18

Arquitectura de SARE-Bi (ii)■ Diagrama de clases del producto TeiCorpus

1 * has

ZObject ZObjectManagerCatalogAwareBase

DeliTei{persistent}

id: string

title: stringauthor: string...date: datecatRefTarget: stringDocDate: dateDocAuthor: stringhead_Place: stringhead_DepSup: stringhead_DepInf: string

owner: string

estado: string

visibility: string

add()manage()validar()tmx()

DeliLang{persistent}

id: string

add()tei()

DeliSeg{persistent}

id: string

content: text

add()

DeliCorpus{persistent}

id: string

add()

1 * has

1 * has

Page 19: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

19

SARE-Bi:funciones

■ Recuperación de documentos– filtrado

• basado en metadatos

– búsqueda• texto libre• cualquier

lengua

Page 20: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

20

SARE-Bi: resultados de filtrado■ una fila por documento

- enlace para - enlace para visualización modificación

Page 21: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

21

SARE-Bi:visualización

■ Exportación– TEI y TMX

■ Doc. completo– recuperación de

contenido

■ Doc. segmentado– correspondencia

entre lenguajes

Page 22: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

22

SARE-Bi:resultados de búsqueda

■ segmentos encontrados– en todas las

lenguas

– equivale a lo ofrecido por una memoria de traducción

■ incluye enlaces a visualización

Page 23: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

23

SARE-Bi: incorporación de un documento (primer paso)

■ El usuario proporciona:– valores para

los metadatos

– lenguas del documento (puede ser sólo una)

Page 24: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

24

Texto introducido Gestión de metadatos por el usuario

Segmentacióny alineado

■ ventana similar a la de modificación

SARE-Bi: incorporación de un documento (segundo paso)

Page 25: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

25

SARE-Bi: componentes

■ Corpus de documentos multilingües• anotados, segmentados y alineados• los segmentos son párrafos

■ Metadatos asociados a cada documento

• cabecera TEI• datos habituales: título, fechas, autor, lugar...

– Los metadatos más importantes son:• categoría, estado, visibilidad

Page 26: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

26

Metadatos: categoríaTaxonomía documental con 282

categorías estructuradas en tres niveles:

■ función comunicativa (reglamentar, informar, inquirir)

■ género (25)■ tema (256)

31000/inquirir 31400/instancia 31401/inscripción pruebas mayores 25 años 31402/solicitud de adaptacón de planes de estudio 31403/solicitud de convalidación asignaturas 31404/solicitud de reconocimiento complementos 31405/solicitud de reconsideración admisión 31406/solicitud de título 31407/solicitud de traslado expediente 31408/solicitud cambio de asignaturas opt. y LE

Page 27: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

27

Metadatos: estado y visibilidad

■ Dinámicos• los usuarios cambian el estado y la visibilidad

durante las diferentes etapas del ciclo de edición

• reflejan la situación del documento

• todos los demás metadatos son estáticos (con valores constantes)

■ Estado• no validado, validado, normativo

■ Visibilidad• borrador, confidencial, compartido, público

Page 28: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

28

SARE-Bi: usuarios

■ Asociados a diferentes perfiles– invitados, redactores, traductores,

administradores

■ y permisos, dependientes de– propietario del documento– estado– visibilidad

Page 29: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

29

SARE-Bi: ciclo de edición1 Un redactor añade un documento

monolingüe• al crearlo: visibilidad borrador, estado no

validado• al terminar: visibilidad compartida (por ejemplo)

• el redactor llama al traductor

2 El traductor al terminar su tarea• cambia el estado a validado• avisa al redactor

3 El redactor • accede al documento bilingüe• y lo publica

Page 30: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

30

SARE-Bi: variaciones del ciclo de edición

■ Redactores bilingües• pueden desarrollar documentos bilingües• el traductor se limita a revisar y validar la

traducción

■ Documento normativo• modelo en su categoría• el estado normativo es asignado por el

traductor• un redactor bilingüe podría utilizarlo para un

nuevo documento

Page 31: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

31

Conclusiones

■ Sare-Bi es una aplicación Web (basada en Zope)

• con interfaz multilingüe (localizado es-eu-en)• adecuada gestión de información y contenidos

• complejo sistema de gestión de usuarios

■ Base de datos orientada a objetos■ Funcionalidad XML

• exporta a formatos TEI y XML

Page 32: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

32

Conclusiones

■ En uso experimental desde mayo 2003• seis redactores / dos traductores• sin medidas cuantitativas, pero

• constante incremento del número de documentos del corpus

• aceptación de los usuarios

■ Mejoras del sistema (proyecto X-Flow)• automatización de las tareas de control de flujo• control de versiones de documentos (XLIFF)

Page 33: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

33

■ Las investigaciones presentadas en este proyecto han sido financiadas por:– Gobierno Vasco

• Depto. de Industria (proyecto X-Flow, OD-02UD04, 2002-2003)

• Depto. de Educación, Universidades e Investigación (proyecto XML-Bi, PI1999-72, 2000-2001)

– CodeSyntax (Eibar, España)■ Agradecimientos

– Josu Gómez, Arantza Domínguez (DELi, UD)– Guillermo Barrutieta (Mondragon Unibertsitatea)

Page 34: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

34

Gracias por su atención

Page 35: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

35

■ Documentos dirigidos a• los miembros de un departamento (aprox. 20)• los empleados (aprox. 1.000)• los estudiantes (aprox. 20.000)

■ La calidad es primordial • independientemente del número de lectores• independientemente de la transcendencia y la

longitud del documento.• está mal visto publicar documentos

incorrectamente escritos, ya sea en euskara o en castellano.

Page 36: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

36

■ Producción de un documento• a “writer” writes original document (in one

language)• he sends it to a “translator”• the “translator” produces the other language

version

• she sends it back to the “writer”• he publishes the multilingual document

■ Almost 100% of original writing in Spanish

• Basque: a minority language

• many can read/understand, only a few can write

Page 37: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

37

Case study: fieldwork

■ Cost of translation• mainly an economic concern (institution can

only afford to translate “important” documents)• but also a problem of time (urgent documents)

■ Key: many docs. have a fixed structure• short letters, calls, invitations...• published weekly, monthly, yearly...• small changes (date, place, name...)

– “writers” take advantage of this: they REUSE

– but “translators” MAY NOT REUSE

Page 38: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

38

How can MT help?

■ Goal: to increase the number of multilingual documents generated in our University

■ No Spanish to Basque MT tool yet• although a big research effort is being made• anyway, ¿quality?• translation is an important step, but not the only

one

■ Translators use some MAT tools• term-bases

• translation memories (not fully implemented yet)

Page 39: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

39

Solution (1):a document management system

■ To organise documents• cumulative document repository• classified under several criteria

■ Multilingual functionality• the textual correspondence between parts

(segments) of documents is explicitly shown

■ Collaborative system• writers and translators share the documents• allows to implement other stages in the

publication procedure

Page 40: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

40

Solution (2):translation memories

■ Experience of DELi• automatic extraction of translation memories

from bilingual (es-eu) docs (XTRA-Bi project, 2000-2001)

• several Gigabytes of TMX files• unorganised chunks of texts segments

■ Multilingual segmented document system

• not only the document as a whole• if we show the corresp. of multilingual

segments• then the system is also a translation memory

(TMX) repository

Page 41: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

41

Solution (3): metadata

■ Chaotic accumulation of contents• difficult management, search, retrieval...

■ Metadata• document = content + metacontent

• semantic web, ontologies, content syndication...

• XML technology

■ TEI (Text Encoding Initiative)• not so much for the purpose of linguistic mark-

up

• for structural and cataloguing aspects (TEI header)

Page 42: La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

42

SARE-Bi: a first tour

■ SARE-Bi– multilingual document management system– allows incremental compilation of

documents– allows users to work collaboratively– uses metadata as a conceptual

mechanism

– can also be seen as a memory-based machine translation system

■ Demo