Upload
faith
View
48
Download
1
Embed Size (px)
DESCRIPTION
Hacia la gestión automática de contenidos multilingües en XLIFF. Objetivos gestión de contenidos multilingües para publicación en web reutilización de traducciones (memorias de traducción) creación de fondos: terminología, texto alineado herramientas: segmentadores, alineadores, filtros - PowerPoint PPT Presentation
Citation preview
DELi (UD) + Code&Syntax Albacete 2002, CLIP 1
Hacia la gestión automática de contenidos multilingües en XLIFF
• Objetivos– gestión de contenidos multilingües para publicación en
web– reutilización de traducciones (memorias de traducción)– creación de fondos: terminología, texto alineado– herramientas: segmentadores, alineadores, filtros– filtros: formatos TXT, HTML, XML, TMX, XLIFF– control de flujo: redacción, traducción, publicación
DELi (UD) + Code&Syntax Albacete 2002, CLIP 2
X-Flow: Antecedentes– Corpus LEGE-Bi (1995-2002)
• Boletines bilingües (~3 M. palabras, proyectos LEGEBiDUNA)
– Proyecto XTRA-Bi (2000-2001)• Segmentación y etiquetado de boletines• SGML XML, TMX
– Proyecto XML-Bi (2001-2002)• Recursos (LEGE-Bi+, servidor SARE-Bi, herramientas)• Procedimientos (EFQM)
– Proyecto X-Flow (2002-2003)
DELi (UD) + Code&Syntax Albacete 2002, CLIP 3
XTRA-Bi: Extracción automática de entidades bitextuales para software
de traducción asistida
• Compilación de corpus (extracción)• Herramientas de captura de webs (Teleport Pro,
HTTrack)
• Boletines Oficiales (BOG, BOB, BOTHA, BON, BOPV)
• Prensa diaria bilingüe
DELi (UD) + Code&Syntax Albacete 2002, CLIP 4
XTRA-Bi: Extracción automática de entidades bitextuales para software
de traducción asistida• Segmentación en TEI/XML
• Disparidad de formatos originales (Word, PDF, HTML, TXT)
• Filtros y segmentadores (ad-hoc y generales)
• Conversión a XML/TEI P4: subset propio de TEI (TEI-Bi)
DELi (UD) + Code&Syntax Albacete 2002, CLIP 5
XTRA-Bi: Extracción automática de entidades bitextuales para software
de traducción asistida
• Alineación y reordenación en TMX• Párrafo como unidad de segmentación• Índice de alineación automática: 99%• Posibilidad de alineación de unidades menores
(oraciones y nombres propios) con menor fiabilidad• Conversión a TMX (Transit, WordFast, Déjà-Vu,
etc.)
DELi (UD) + Code&Syntax Albacete 2002, CLIP 6
Ejemplo de formato TMX:
<tu tuid="0100227-p11”> <prop type="project">XTRA-Bi: GAO-BOG</prop>
<tuv lang="ES”> <seg>Asimismo, se hace saber que este acuerdo pone fin a la vía administrativa... </seg></tuv>
<tuv lang="EU"> <seg>Era berean, erabaki hau behin betikoa da eta amaiera ematen dio administrazio bideari... </seg></tuv>
</tu>
DELi (UD) + Code&Syntax Albacete 2002, CLIP 7
ETIBOG
BOG2TEI
HTML2TEI
ALINBOG ALINBOTHA
BOG(html)
ETIBOTHA
BOTHA2TEI
TXT2TEI
BOTHA(txt)
BOG(tei)
BOTHA(tei)
ALINTEI
ALINPAR
ALINLIST
PAREJAS.TXT
ALARMAS.TXT ALINPAREJAS.TXT
TMXTEI
TEI2TMX
TMX
DELi (UD) + Code&Syntax Albacete 2002, CLIP 8
XML-Bi: Análisis del flujo documental multilingüe
• diseño de procedimientos de optimización de flujo documental para subsanar desfases en la traducción y publicación plurilingüe
• distintas fases del ciclo de vida de la documentación, desde concepción inicial hasta la distribución, pasando por la redacción, corrección, traducción, revisión, publicación, archivación, recuperación, extracción y reutilización
• estudio de campo: Universidad de Deusto
DELi (UD) + Code&Syntax Albacete 2002, CLIP 9
XML-Bi: Análisis del flujo documental multilingüe
• Desarrollos:
– Estudio de campo (corpus UD-Bi)– Procedimientos operativos EFQM– Compilación e instalación de corpus LEGE-Bi en
intranet (SARE-Bi)– Diseño y adaptación de segmentadores para corpus en
formato TEI/XML y de filtros para conversión a TMX– Integración en plataforma web:
www.deli.deusto.es/SareBi
DELi (UD) + Code&Syntax Albacete 2002, CLIP 10
SARE-Bi: Gestor de documentación multilingüe sobre XML/TEI
• Opciones para el servidor / gestor de corpus:– TEI/XML + XSLT + JavaScript– XML Query Engine, SQL, etc.– XML=Web, web-servers:
• Microsoft .Net• WebSphere• ZOPE:
– Open Source (www.zope.org)– Code&Syntax (www.codesyntax.com)– Localizer (www.j-david.net/localizer/)
DELi (UD) + Code&Syntax Albacete 2002, CLIP 11
LEGE-Bi <teiHeader>, <front>
• <teiHeader> <fileDesc>
<encodingDesc> <classDecl> <taxonomy>...</taxonomy>
• <text> <front>
<DocDate>...</DocDate> <DocAuthor>...</DocAuthor> <head type="place">...</head> <head type"DepSup">...</head> <head type"DepInf">...</head>
DELi (UD) + Code&Syntax Albacete 2002, CLIP 12
X-Flow: Gestor de contenidos multilingüe sobre XLIFF
• Objetivos– seleccionar y organizar utilidades informáticas de apoyo a la
importación y exportación de contenidos multilingües y de memorias de traducción (sobre los estándar TMX y TBX)
– desarrollar un sistema de control de flujo de textos y traducciones basado en los estándar TMX y XLIFF
– proporcionar herramientas para el mantenimiento actualizado de contenidos multilingües adaptadas a estos formatos.
DELi (UD) + Code&Syntax Albacete 2002, CLIP 13
¿Qué es XLIFF?
• XML Localisation Interchange File Format:• Formato para intercambio de archivos de localización. • Su definición comenzó a finales de 2000 (de la mano de
Oracle, Novell, Sun y IBM/Lotus).• Basado en Open Tag, parecido a TMX con innovaciones
para el intercambio de información en web. • Primer borrador de mayo de 2001, última
especificación de abril de 2002. • Se anuncia como una nueva especificación XML para
intercambio de datos para web multilingües.
DELi (UD) + Code&Syntax Albacete 2002, CLIP 14
Referencias
• TEI: http://www.tei-c.org• TMX: http://www.lisa.org/tmx• Transit: http://www.star-ag.ch/• XLIFF:
http://www.opentag.com/xliff.htm• DELi: http://www.deli.deusto.es