14
DELi (UD) + Code&Syntax Albacete 2002, CLIP 1 Hacia la gestión automática de contenidos multilingües en XLIFF • Objetivos gestión de contenidos multilingües para publicación en web reutilización de traducciones (memorias de traducción) creación de fondos: terminología, texto alineado herramientas: segmentadores, alineadores, filtros filtros: formatos TXT, HTML, XML, TMX, XLIFF control de flujo: redacción, traducción, publicación

Hacia la gestión automática de contenidos multilingües en XLIFF

  • Upload
    faith

  • View
    48

  • Download
    1

Embed Size (px)

DESCRIPTION

Hacia la gestión automática de contenidos multilingües en XLIFF. Objetivos gestión de contenidos multilingües para publicación en web reutilización de traducciones (memorias de traducción) creación de fondos: terminología, texto alineado herramientas: segmentadores, alineadores, filtros - PowerPoint PPT Presentation

Citation preview

Page 1: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 1

Hacia la gestión automática de contenidos multilingües en XLIFF

• Objetivos– gestión de contenidos multilingües para publicación en

web– reutilización de traducciones (memorias de traducción)– creación de fondos: terminología, texto alineado– herramientas: segmentadores, alineadores, filtros– filtros: formatos TXT, HTML, XML, TMX, XLIFF– control de flujo: redacción, traducción, publicación

Page 2: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 2

X-Flow: Antecedentes– Corpus LEGE-Bi (1995-2002)

• Boletines bilingües (~3 M. palabras, proyectos LEGEBiDUNA)

– Proyecto XTRA-Bi (2000-2001)• Segmentación y etiquetado de boletines• SGML XML, TMX

– Proyecto XML-Bi (2001-2002)• Recursos (LEGE-Bi+, servidor SARE-Bi, herramientas)• Procedimientos (EFQM)

– Proyecto X-Flow (2002-2003)

Page 3: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 3

XTRA-Bi: Extracción automática de entidades bitextuales para software

de traducción asistida

• Compilación de corpus (extracción)• Herramientas de captura de webs (Teleport Pro,

HTTrack)

• Boletines Oficiales (BOG, BOB, BOTHA, BON, BOPV)

• Prensa diaria bilingüe

Page 4: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 4

XTRA-Bi: Extracción automática de entidades bitextuales para software

de traducción asistida• Segmentación en TEI/XML

• Disparidad de formatos originales (Word, PDF, HTML, TXT)

• Filtros y segmentadores (ad-hoc y generales)

• Conversión a XML/TEI P4: subset propio de TEI (TEI-Bi)

Page 5: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 5

XTRA-Bi: Extracción automática de entidades bitextuales para software

de traducción asistida

• Alineación y reordenación en TMX• Párrafo como unidad de segmentación• Índice de alineación automática: 99%• Posibilidad de alineación de unidades menores

(oraciones y nombres propios) con menor fiabilidad• Conversión a TMX (Transit, WordFast, Déjà-Vu,

etc.)

Page 6: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 6

Ejemplo de formato TMX:

<tu tuid="0100227-p11”> <prop type="project">XTRA-Bi: GAO-BOG</prop>

<tuv lang="ES”> <seg>Asimismo, se hace saber que este acuerdo pone fin a la vía administrativa... </seg></tuv>

<tuv lang="EU"> <seg>Era berean, erabaki hau behin betikoa da eta amaiera ematen dio administrazio bideari... </seg></tuv>

</tu>

Page 7: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 7

ETIBOG

BOG2TEI

HTML2TEI

ALINBOG ALINBOTHA

BOG(html)

ETIBOTHA

BOTHA2TEI

TXT2TEI

BOTHA(txt)

BOG(tei)

BOTHA(tei)

ALINTEI

ALINPAR

ALINLIST

PAREJAS.TXT

ALARMAS.TXT ALINPAREJAS.TXT

TMXTEI

TEI2TMX

TMX

Page 8: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 8

XML-Bi: Análisis del flujo documental multilingüe

• diseño de procedimientos de optimización de flujo documental para subsanar desfases en la traducción y publicación plurilingüe

• distintas fases del ciclo de vida de la documentación, desde concepción inicial hasta la distribución, pasando por la redacción, corrección, traducción, revisión, publicación, archivación, recuperación, extracción y reutilización

• estudio de campo: Universidad de Deusto

Page 9: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 9

XML-Bi: Análisis del flujo documental multilingüe

• Desarrollos:

– Estudio de campo (corpus UD-Bi)– Procedimientos operativos EFQM– Compilación e instalación de corpus LEGE-Bi en

intranet (SARE-Bi)– Diseño y adaptación de segmentadores para corpus en

formato TEI/XML y de filtros para conversión a TMX– Integración en plataforma web:

www.deli.deusto.es/SareBi

Page 10: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 10

SARE-Bi: Gestor de documentación multilingüe sobre XML/TEI

• Opciones para el servidor / gestor de corpus:– TEI/XML + XSLT + JavaScript– XML Query Engine, SQL, etc.– XML=Web, web-servers:

• Microsoft .Net• WebSphere• ZOPE:

– Open Source (www.zope.org)– Code&Syntax (www.codesyntax.com)– Localizer (www.j-david.net/localizer/)

Page 11: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 11

LEGE-Bi <teiHeader>, <front>

• <teiHeader> <fileDesc>

<encodingDesc> <classDecl> <taxonomy>...</taxonomy>

• <text> <front>

<DocDate>...</DocDate> <DocAuthor>...</DocAuthor> <head type="place">...</head> <head type"DepSup">...</head> <head type"DepInf">...</head>

Page 12: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 12

X-Flow: Gestor de contenidos multilingüe sobre XLIFF

• Objetivos– seleccionar y organizar utilidades informáticas de apoyo a la

importación y exportación de contenidos multilingües y de memorias de traducción (sobre los estándar TMX y TBX)

– desarrollar un sistema de control de flujo de textos y traducciones basado en los estándar TMX y XLIFF

– proporcionar herramientas para el mantenimiento actualizado de contenidos multilingües adaptadas a estos formatos.

Page 13: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 13

¿Qué es XLIFF?

• XML Localisation Interchange File Format:• Formato para intercambio de archivos de localización. • Su definición comenzó a finales de 2000 (de la mano de

Oracle, Novell, Sun y IBM/Lotus).• Basado en Open Tag, parecido a TMX con innovaciones

para el intercambio de información en web. • Primer borrador de mayo de 2001, última

especificación de abril de 2002. • Se anuncia como una nueva especificación XML para

intercambio de datos para web multilingües.

Page 14: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 14

Referencias

• TEI: http://www.tei-c.org• TMX: http://www.lisa.org/tmx• Transit: http://www.star-ag.ch/• XLIFF:

http://www.opentag.com/xliff.htm• DELi: http://www.deli.deusto.es