Upload
joseba-abaitua
View
1.082
Download
2
Embed Size (px)
Citation preview
I Jornadas de Lingüística vasco-románicaI Jornadas de Lingüística vasco-románica
La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y
lingüística de corpus
Joseba Abaitua, JosuKa Díaz, Inés Jacob,
Fernando Quintana DELi (Universidad de Deusto)DELi (Universidad de Deusto)
Garikoitz Araolaza,Luistxo Fernández CodeSyntaxCodeSyntax
2
– www.deli.deusto.es/SareBi• DELi (Letras - ESIDE)
– edición digital (XML)
– ingeniería lingüística
» tecnologías de traducción» lingüística de corpus
– grid semántica» web semántica» computación grid
– www.codesyntax.com
SARE-Bi: Sistema de gestión de documentación multilingüe
3
– estándares XML– lingüística de corpus: TEI
– tecnología de traducción: TMX
– localización de software: XLIFF
– documática– catalogación, indización, búsquedas
– roles y permisos (redactor, traductor, validador...)
– estado y “visibilidad” (borrador, revisado; interno, público)
– tradumática– memoria de traducción– segmentación, alineación– control de versiones - ciclo de vida
SARE-Bi: Sistema de gestión de documentación multilingüe
4
■ Antecedentes (DELi: 1998-2004)• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)• XML-Bi (2001-2002)
• X-Flow (2002-2003)
• OAC (2003-2005)• TMGrid (2005-2007)
■ Participación (Uned, EHU,UPC, UB...)
• HAIN (1993-1996)
• TREVI (1996-1998)• ITEM (1997-1999)• HERMES (2000-2003)• CORDE (2002-2004)• ESP-EUS (2002-2004)
5
■ Antecedentes (DELi: 1998-2004)• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)• XML-Bi (2001-2002)
• X-Flow (2002-2003)
• OAC (2003-2005)• TMGrid (2005-2007)
■ Participación (Uned, EHU,UPC, UB...)
• HAIN (1993-1996)
• TREVI (1996-1998)• ITEM (1997-1999)• HERMES (2000-2003)• CORDE (2002-2004)• ESP-EUS (2002-2004)
6
■ Antecedentes (DELi: 1998-2004)
• LEGEBiDUNA (1994-1999)– Textos paralelos bilingües en euskara y
castellano de las administraciones vascas con etiquetado SGML/TEI-P3
• XTRA-Bi (2000-2001)• XML-Bi (2001-2002)• X-Flow (2002-2003)• OAC (2003-2005)
• TMGrid (2005-2007)
7
■ Antecedentes (DELi: 1998-2004)
• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)
– Extracción automática de unidades bitextuales para memorias de traducción
• XML-Bi (2001-2002)• X-Flow (2002-2003)
• OAC (2003-2005)
• TMGrid (2005-2007)
8
■ Antecedentes (DELi: 1998-2004)
• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)
• XML-Bi (2001-2002)– Procedimientos para la gestión del flujo
documental multilingüe sobre XML/TEI-P3
• X-Flow (2002-2003)
• OAC (2003-2005)
• TMGrid (2005-2007)
9
■ Antecedentes (DELi: 1998-2004)
• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)
• XML-Bi (2001-2002)• X-Flow (2002-2003)
– Gestión de flujo de contenidos multilingües sobre XLIFF y TMX
• OAC (2003-2005)
• TMGrid (2005-2007)
10
■ Antecedentes (DELi: 1998-2004)
• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)
• XML-Bi (2001-2002)• X-Flow (2002-2003)• OAC (2003-2005)
– Open Archive Cataloger
• TMGrid (2005-2007)
11
■ Antecedentes (DELi: 1998-2004)
• LEGEBiDUNA (1995-1999)• XTRA-Bi (2000-2001)
• XML-Bi (2001-2002)• X-Flow (2002-2003)• OAC (2003-2005)• TMGrid (2005-2007)
– Grid de memorias de traducción
12
■ Participación (Uned, EHU,UPC, UB, RAE...)
• HAIN (1993-1996)– Entorno para aplicaciones lingüísticas
• TREVI (1996-1998)
– Text Retrieval and Enrichment for Vital Information
• ITEM (1997-1999)– Recuperación de Información Textual en un
Entorno Multilíngüe con Técnicas de Lenguaje Natural
• HERMES (2000-2003)– Hemerotecas electrónicas. Recuperación
multilingüe y extracción semántica• CORDE (2002-2004)
– Corpus diacrónico español
13
■ Edición digital - lingüística de corpus
– DELi 2002-2005» CORDE» Rómulo. Edición digital plurilingüe de un
texto europeo del siglo XVII » La esfera. Edición hipertextual» UNAI (SPrako tranbia / Un tranvía en
SP)» Fondo Bonaparte
– Etiquetado/Metadatos XML/TEI
14
Estructura de un texto TEI
Todos los textos TEI tienen ■ cabecera <teiHeader>
– descripción bibliográfica– descripción de la forma en que ha sido
codificado– descripción no bibliográfica del texto
(perfil)– historia de revisiones
■ texto <text>
15
Estructura de un texto TEI (ii)Cada texto tiene un <front> y un <back>
opcionales
<TEI.2> <teiHeader> [ TEI Header information ] </teiHeader>
<text> <front> [ front matter ... ] </front>
<body> [ body of text ... ] </body>
<back> [ back matter ... ] </back>
</text></TEI.2>
16
SARE-Bi: Campo de aplicación■ Universidad de Deusto
• genera numerosos documentos admisnistrativos
• la mayoría son bilingües español - euskara, lenguas oficiales del País Vasco
• algunos también en inglés, francés, italiano...
■ Dimensión de los documentos• largos (estatutos, normativas, informes...)• cortos (anuncios, cartas, convocatorias...)• de una única oración(“Atenderemos en el
despacho 535”)
17
Arquitectura de SARE-Bi
■ SARE-Bi está implementado en Zope– desarrollado en Python– incluye una base de datos orientada a
objetos (ZODB)– los módulos que amplían Zope se
denominan productos– El producto TeiCorpus es el motor de
SARE-Bi
18
Arquitectura de SARE-Bi (ii)■ Diagrama de clases del producto TeiCorpus
1 * has
ZObject ZObjectManagerCatalogAwareBase
DeliTei{persistent}
id: string
title: stringauthor: string...date: datecatRefTarget: stringDocDate: dateDocAuthor: stringhead_Place: stringhead_DepSup: stringhead_DepInf: string
owner: string
estado: string
visibility: string
add()manage()validar()tmx()
DeliLang{persistent}
id: string
add()tei()
DeliSeg{persistent}
id: string
content: text
add()
DeliCorpus{persistent}
id: string
add()
1 * has
1 * has
19
SARE-Bi:funciones
■ Recuperación de documentos– filtrado
• basado en metadatos
– búsqueda• texto libre• cualquier
lengua
20
SARE-Bi: resultados de filtrado■ una fila por documento
- enlace para - enlace para visualización modificación
21
SARE-Bi:visualización
■ Exportación– TEI y TMX
■ Doc. completo– recuperación de
contenido
■ Doc. segmentado– correspondencia
entre lenguajes
22
SARE-Bi:resultados de búsqueda
■ segmentos encontrados– en todas las
lenguas
– equivale a lo ofrecido por una memoria de traducción
■ incluye enlaces a visualización
23
SARE-Bi: incorporación de un documento (primer paso)
■ El usuario proporciona:– valores para
los metadatos
– lenguas del documento (puede ser sólo una)
24
Texto introducido Gestión de metadatos por el usuario
Segmentacióny alineado
■ ventana similar a la de modificación
SARE-Bi: incorporación de un documento (segundo paso)
25
SARE-Bi: componentes
■ Corpus de documentos multilingües• anotados, segmentados y alineados• los segmentos son párrafos
■ Metadatos asociados a cada documento
• cabecera TEI• datos habituales: título, fechas, autor, lugar...
– Los metadatos más importantes son:• categoría, estado, visibilidad
26
Metadatos: categoríaTaxonomía documental con 282
categorías estructuradas en tres niveles:
■ función comunicativa (reglamentar, informar, inquirir)
■ género (25)■ tema (256)
31000/inquirir 31400/instancia 31401/inscripción pruebas mayores 25 años 31402/solicitud de adaptacón de planes de estudio 31403/solicitud de convalidación asignaturas 31404/solicitud de reconocimiento complementos 31405/solicitud de reconsideración admisión 31406/solicitud de título 31407/solicitud de traslado expediente 31408/solicitud cambio de asignaturas opt. y LE
27
Metadatos: estado y visibilidad
■ Dinámicos• los usuarios cambian el estado y la visibilidad
durante las diferentes etapas del ciclo de edición
• reflejan la situación del documento
• todos los demás metadatos son estáticos (con valores constantes)
■ Estado• no validado, validado, normativo
■ Visibilidad• borrador, confidencial, compartido, público
28
SARE-Bi: usuarios
■ Asociados a diferentes perfiles– invitados, redactores, traductores,
administradores
■ y permisos, dependientes de– propietario del documento– estado– visibilidad
29
SARE-Bi: ciclo de edición1 Un redactor añade un documento
monolingüe• al crearlo: visibilidad borrador, estado no
validado• al terminar: visibilidad compartida (por ejemplo)
• el redactor llama al traductor
2 El traductor al terminar su tarea• cambia el estado a validado• avisa al redactor
3 El redactor • accede al documento bilingüe• y lo publica
30
SARE-Bi: variaciones del ciclo de edición
■ Redactores bilingües• pueden desarrollar documentos bilingües• el traductor se limita a revisar y validar la
traducción
■ Documento normativo• modelo en su categoría• el estado normativo es asignado por el
traductor• un redactor bilingüe podría utilizarlo para un
nuevo documento
31
Conclusiones
■ Sare-Bi es una aplicación Web (basada en Zope)
• con interfaz multilingüe (localizado es-eu-en)• adecuada gestión de información y contenidos
• complejo sistema de gestión de usuarios
■ Base de datos orientada a objetos■ Funcionalidad XML
• exporta a formatos TEI y XML
32
Conclusiones
■ En uso experimental desde mayo 2003• seis redactores / dos traductores• sin medidas cuantitativas, pero
• constante incremento del número de documentos del corpus
• aceptación de los usuarios
■ Mejoras del sistema (proyecto X-Flow)• automatización de las tareas de control de flujo• control de versiones de documentos (XLIFF)
33
■ Las investigaciones presentadas en este proyecto han sido financiadas por:– Gobierno Vasco
• Depto. de Industria (proyecto X-Flow, OD-02UD04, 2002-2003)
• Depto. de Educación, Universidades e Investigación (proyecto XML-Bi, PI1999-72, 2000-2001)
– CodeSyntax (Eibar, España)■ Agradecimientos
– Josu Gómez, Arantza Domínguez (DELi, UD)– Guillermo Barrutieta (Mondragon Unibertsitatea)
34
Gracias por su atención
35
■ Documentos dirigidos a• los miembros de un departamento (aprox. 20)• los empleados (aprox. 1.000)• los estudiantes (aprox. 20.000)
■ La calidad es primordial • independientemente del número de lectores• independientemente de la transcendencia y la
longitud del documento.• está mal visto publicar documentos
incorrectamente escritos, ya sea en euskara o en castellano.
36
■ Producción de un documento• a “writer” writes original document (in one
language)• he sends it to a “translator”• the “translator” produces the other language
version
• she sends it back to the “writer”• he publishes the multilingual document
■ Almost 100% of original writing in Spanish
• Basque: a minority language
• many can read/understand, only a few can write
37
Case study: fieldwork
■ Cost of translation• mainly an economic concern (institution can
only afford to translate “important” documents)• but also a problem of time (urgent documents)
■ Key: many docs. have a fixed structure• short letters, calls, invitations...• published weekly, monthly, yearly...• small changes (date, place, name...)
– “writers” take advantage of this: they REUSE
– but “translators” MAY NOT REUSE
38
How can MT help?
■ Goal: to increase the number of multilingual documents generated in our University
■ No Spanish to Basque MT tool yet• although a big research effort is being made• anyway, ¿quality?• translation is an important step, but not the only
one
■ Translators use some MAT tools• term-bases
• translation memories (not fully implemented yet)
39
Solution (1):a document management system
■ To organise documents• cumulative document repository• classified under several criteria
■ Multilingual functionality• the textual correspondence between parts
(segments) of documents is explicitly shown
■ Collaborative system• writers and translators share the documents• allows to implement other stages in the
publication procedure
40
Solution (2):translation memories
■ Experience of DELi• automatic extraction of translation memories
from bilingual (es-eu) docs (XTRA-Bi project, 2000-2001)
• several Gigabytes of TMX files• unorganised chunks of texts segments
■ Multilingual segmented document system
• not only the document as a whole• if we show the corresp. of multilingual
segments• then the system is also a translation memory
(TMX) repository
41
Solution (3): metadata
■ Chaotic accumulation of contents• difficult management, search, retrieval...
■ Metadata• document = content + metacontent
• semantic web, ontologies, content syndication...
• XML technology
■ TEI (Text Encoding Initiative)• not so much for the purpose of linguistic mark-
up
• for structural and cataloguing aspects (TEI header)
42
SARE-Bi: a first tour
■ SARE-Bi– multilingual document management system– allows incremental compilation of
documents– allows users to work collaboratively– uses metadata as a conceptual
mechanism
– can also be seen as a memory-based machine translation system
■ Demo