45
Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba Abaitua Universidad de Deusto

Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Embed Size (px)

Citation preview

Page 1: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información”

17-21 de julio de 2000

Tratamiento de corpora bilingües

Joseba AbaituaUniversidad de Deusto

Page 2: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Tratamiento de corpora bilingüesJoseba Abaitua

Universidad de Deusto

La lingüística de corpusTipos de corpora bilingües/traduccionesTécnicas de tratamientoAnotacionesSegmentación y alineaciónAplicacionesPlurilingüismo en Internet

Page 3: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Aplicaciones

Enseñanza de segundas lenguas Didáctica de la traducciónLexicografía y terminografíaTraducción automáticaEdición plurilingüe Internalización de productos Búsquedas translingüísticas Internet

Page 4: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

La lingüística de corpusIntroducciones: McEnery y Wilson 1996,

Pérez Guerra 1998Estructuralismo, descripción gramatical

(Fries 1952, Quirk y otros 1985)Generativismo (1960): intuiciones frente a

datos, críticas de Birdsong 1989, LCConsorcios internacionales para la creación

de corpora (1980/90)

Page 5: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Problemas de los formalismos gramaticales derivados del generativismo

(ATN, DCG, LFG, GPSG, HPSG...)

Aplicaciones reales requieren gramáticas complejas (> 1.000 reglas)

RedundanciaExplosión combinatoria (alternativas,

ambigüedad)Incongruencias, contradiccionesAlto coste de desarrollo, transportabilidad y

mantenimiento

Page 6: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Consorcios internacionalespara la creación de corpora

EEUU Data Collection

Initiative (ACL/DCI) Linguistic Data

Consortium (LCD) Consortium for Lexical

Research (CLR)

Europa ELRA

Page 7: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Tipos de corpus

Corpus oral, sonidos sin transliteraciónCorpus de lengua hablada, transliteraciones

de textos grabadosCorpus de lengua escrita, de cualquier

modalidad Corpus especializado: Hansard, Aarhus Corpus de referencia: BNC (90%-10%), CREA

Page 8: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Propiedades de un corpus de referencia

Representatividad (Atkins, Clear y Ostler 1992) Cobertura amplia (registros, estilos, géneros, modos...) Aspectos relevantes de una lengua Criterios de categorización (Biber y Finegan 1986,

Nakamura 1991) Género: función pragmática (novela, ensayo, manual,

formulario...) Tipo: aspectos cuantitativos (longitud de oraciones,

densidad léxica, frecuencias...)

Page 9: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Representatividad según “géneros”

Porcentajerecomendado en %

Género C. argentino %

10-15 Científico 16,118-12 Comercial 3,25

15-20 Escolar 9,205-6 Humanístico 21,665-6 Jurídico 6,305-10 Literario 9,09

20-25 Periodístico 28,005-6 Publicitario -

10-15 Técnico 6,79nº de palabras del corpus argentino: 2.008.969

Tabla 1 Porcentaje de textos según géneros para corpusde referencia (Marcos Marín 1994)

Page 10: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Compilación de corpora en España

Castellano: RAE (CREA, CORDE -125 k.); VOX (10 k.), SGEL (8 k.), SM (0,8 k.)

Catalán: IEC, IULAEuskara: Euskaltzaindia, UZEI, IXA,

DeustoGallego: Academia da Lingua (?)

Page 11: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Compilación de corpora bilingüe?

Castellano: RAE (CREA, CORDE -125 k.); VOX (10 k.), SGEL (8 k.), SM (0,8 k.)

Catalán: IEC, IULAEuskara: Euskaltzaindia, UZEI, IXA,

DeustoGallego

Page 12: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Tipos de corpora bi/multilingües

Corpora de textos en distintos idiomas (ECI/MCI)

Corpora comparables Baker 1995, textos que sin ser traducciones comparten

similar temática, tamaño, extensión y origen

Corpora paralelos“misma” colección de textos en más de una lengua,

generalmente son traducciones

Page 13: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Contribución de los “traductólogos”

Equivalencia (Nord 1994) Función (Rabadán 1994)Status de la traducción (Sager 1993)

Page 14: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Distintas dimensiones de “equivalencia”

(Nord 1994)

Semántica (contenido, significado)Estilística (forma)Pragmática (función, efecto comunicativo)

Page 15: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Función de la traducción (Rabadán 1994)

Presentación de contenido, argumento, relato

Introducción de elementos culturales, tecnológicos Innovación literaria, desarrollo lingüístico (Garcilaso,

Lutero) Emulación del autor original (Borges, Ezra Pound)Recreación de obras originales (Shakespeare,

Fitzgerald Rubáiyat)Promoción de ideología (Macbeth de Garneau 1978)

Page 16: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Status de la traducción(Sager 1993)

Tipo A: Tr. autónomas, que sustituyen a los originales (novelas de Julio Verne)

Tipo B: Tr. que complementan al original, a modo de glosa (ediciones bilingües de obras literarias)

Tipo C: Tr. simétricas, canónicas (traducciones de Atxaga, Gimferrer, Hansard, Biblia del Rey Jacobo, etc.)

Page 17: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Our Father, who art in heaven,

hallowed be thy name;

thy kingdom come;

thy will be done;

on earth as it is in heaven.

Give us this day our daily bread.

And forgive us our trespasses,

as we forgive those who trespass against us.

And lead us not into temptation;

but deliver us from evil.

For thine is the kingdom, the power and the glory,

for ever and ever. Amen.

Page 18: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Corpora bi/multilingües

Hansard (actas parlamento candiense, EN, FR) Aarhus (derecho contractual europeo, EN, FR, DA) China News Service (CH, EN) Xu y Tau 1999, Fung 1995 NACSIS- National Center for Science Information

Systems (JP, EN) Kando y Aizawa 1998 IULA (FR, EN, DE, ES, CA) BOB o Legebiduna (EU, ES) Martínez 1998

Page 19: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Tratamiento (1/10)

Texto “puro” (ASCII): estudios cuantitativos listas de formas, frecuencias, colocaciones, concordancias filología (verificación de autoría), ling. cuantitativa, ling.

diacrónica, dialectología, sociolingüísitica... Laviosa 1998 obtiene perfiles de traductores Stubbs 1996 “lista nuclear” (list head), palabras más

frecuentes

Texto anotado: explicitación de la información

Page 20: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Tratamiento: anotaciones: máximas de Leech 1993

1. Facilitar la eliminación de las anotaciones, de forma que sea posible recuperar la versión original de los textos.

2. Permitir la extracción de las anotaciones por sí mismas, de manera que puedan constituir una base de conocimientos autónoma, independiente del texto al que se deben.

3. Distribuir las normas en las que se basan las anotaciones para que los usuarios finales puedan interpretarlas sin dificultad.

4. Indicar el procedimiento por el que se introdujeron las anotaciones en los textos y las personas responsables del proceso.

5. Alertar sobre la posibilidad de que el corpus anotado contenga errores. La anotación de un corpus es un acto de interpretación de estructuras y de contenidos y no es infalible.

6. Permitir la más amplia funcionalidad y reutilización del corpus acudiendo a propuestas con mayor aceptación y neutras en lo posible respecto a formalismos o teorías gramaticales concretas.

7. Admitir la existencia de otras normas y estándares de anotación.

Page 21: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

7ª máxima de Leech 1993: “Admitir la existencia de otras normas y estándares de anotación”

TEI-P3 (SGML), 1994- ACL, ACH, MLA BCN, CREA... EAGLES PAROLE MULTEXT CES CRATER

Page 22: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Tipos de anotaciones

Información extralingüística (cabecera) registro de lengua, fecha(s), autor, editor,

transcriptor, género, status, función, etc.

Cuestiones tipografémicas ASCII 256 c., ISO-8859-1 (ISO-Latin) JUNET ISO-10646 (UCS, UNICODE 65.000 c.)

Información lingüística

Page 23: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Información lingüísticaAnotaciones estructuralesAnotaciones morfosintácticas LematizaciónAnálisis sintáctico, (semántico) Anotaciones orientadas a la tareaCódigos de correspondencia

Page 24: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Lematización y etiquetado POS

forma flexiva lexema etiqueta POS entidad SGMLque que PR3CN00 que&pr3cn;

agota agotar VMIP3S0 agota&vmip3s;la la TFFS0 la&tffs;vía vía NCFS00 vía&ncfs;

administrativa administrativo AQ0FS00 administrativo&aq0fs;podrá poder VMIF3S0 podrá&vmif3s;

interponerse interponer VMN000 interponerse&vmn;recurso recurso NCMS00 recurso&ncms;

contencioso contencioso AQ00000 contencioso&aq0;ante ante SPS00 ante&sps;

Tabla 2. Resultados del lematizador de Márquez y Padró, con muestras de etiquetasmorfosintácticas (según los códigos propuestos por PAROLE)

Page 25: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Fase 1: etiquetadomorfosintáctico

Fase 2: etiquetado funcional Fase 3: relaciones dedependencia

[SC [NP La^el+DETSGposicion^posicion+NOUNSGNP]/N [PP del^de=el+PREPDETGobierno^gobierno+NOUNSGPP] [AP frances^frances+ADJSGAP] : v ha^haber+HABsido^ser+PAPUXinterpretada^interpretarPAPSGSC] como^como+COMO [NPuna^un+DETQUANTSGmanera^manera+NOUNSGNP]/N [IV de^de+PREP_DEeludir^eludir+VERBINF IV] [NPel^el+DETSGproblema^problema+NOUNSGNP]/N .^.+SENT

[SC [NP El^el+DETSGproblema^problema+NOUNSG NP]/SUBJ : vtiene^tener+VERBFIN SC][NP una^un+DETQUANTSGdimension^dimension+NOUNSG NP]/OBJ [APmayor^mayor+ADJSGAP].^.+SENT

[SC [NP Las relacionesNP]/SUBJ [AP socialesAP] : v son SC] [AP muyinformales AP], [PP en elsentido PP] [SC [PP deque PP] [NP las personasNP]/SUBJ :v se visitanSC] [PP sin previo avisoPP] ;SUBJ(relación,ser)SUBREFLEX(persona,visitar)ATTR(relación informal)VMODOBJ(ser,en,sentido)PADJ(relación,social)ADJ(previo aviso)

La posición del gobierno francésha sido interpretada como unamanera de eludir el problema.

El problema tiene unadimensión mayor.

Las relaciones socialesson muy informales, en elsentido de que laspersonas se visitan sinprevio aviso;

Tabla 3. Fases del etiquetador IFSP de Gala 1999.

Page 26: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Alineación (Martínez 1999)

1. Enfoque estadístico: similitud de algunos rasgos cuantitativos en el corpus, como la longitud de oraciones, el número de palabras o de caracteres, etc. (Brown y otros 1991, Gale y Church 1991).

2. Enfoque lingüístico: emparejamiento previo de unidades sintagmáticas o de estructuras dependenciales (Sadler 1991, Kaji y otros 1992, Matsumoto y otros 1993).

3. Enfoque mixto: método que aprovecha la identificación de categorías gramaticales como apoyo para la alineación estadística (Chen 1993).

Page 27: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Foru Agindua Orden Foral

Foru Agindua, 767/1994 zk., urriaren 24ko.Aipatutako Foru Aginduaren bidezhurrengo hau xedatu da:

Lurzoru batzuk dentsitate txikiko lurzoruurbanizagai gisa birsailkatzeko ZallakoUdalerriko Planeamenduari buruzkoSorospidezko Arauen aldarazpena ukatzea.

Erabaki honen aurka, harenjakinarazpenetik zenbatu beharreko hilabetebiko epearen barruan, administraziozkoliskarrauzi-errekurtsoa jarri ahal izango da,Euskal Herriko Justizia Auzitegi NagusikoAdministraziozko Liskarrauzietarako Salan,komeniesten diren beste defentsabideakerabil daitezkeelako kalterik gabe. Adieraziden epearen barruan, BHI-015/94-P05-Aespedientea Bilbaoko Gran Vía, 19-21eko5gn. solairuan egongo da ageriko, azterdadin. Bilbon, 1994.eko urriaren 24an.-Hirigintzako foru diputatua. PedroHernández González.

Orden Foral número 767/1994 de 24octubre. Mediante la Orden Foral dereferencia se ha dispuesto lo siguiente:

Denegar la Modificación de las NormasSubsidiarias de Planeamiento delmunicipio de Zalla para la reclasificaciónde unos terrenos como Suelo Apto paraUrbanizar de Baja Densidad.

Contra dicha Orden Foral podráinterponerse, en el plazo de dos mesesdesde su notificación, recursocontencioso-administrativo ante la Sala delo Contencioso-Administrativo delTribunal Superior de Justicia del PaísVasco, sin perjuicio de la utilización deotros medios de defensa que estimeconveniente. Durante el referido plazo elexpediente BHI-015/94-P05-A, quedaráde manifiesto para su examen en lasdependencias situadas en Bilbao calleAlameda Rekalde, 30, 5.a y 6.a plantas.Bilbao, 24 de octubre de 1994.-ElDiputado Foral de Urbanismo.- PedroHernández González.

Tabla 4. Muestra del corpus paralelo LEGEBIDUN/BOB

Page 28: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

<rs type=organization>Euskal HerrikoJustizia Auzitegi NagusikoAdministraziozko LiskarrauzietarakoSalan</rs>

<rs type=organization>Sala de loContencioso-Administrativo del TribunalSuperior de Justicia del País Vasco</rs>

<rs type=law>Zallako UdalerrikoPlaneamenduari buruzko SorospidezkoArauen aldarazpena</rs>

<rs type=law>Modificación de las NormasSubsidiarias de Planeamiento del municipiode Zalla </rs>

<term>Lurzoru batzuk dentsitate txikikolurzoru urbanizagai gisabirsailkatzeko</term>

<term>para la reclasificación de unosterrenos como Suelo Apto para Urbanizar deBaja Densidad</term>

<seg type=9>Erabaki honen aurka, harenjakinarazpenetik zenbatu beharrekohilabete biko epearen barruan,administraziozko liskarrauzi-errekurtsoajarri ahal izango da, Euskal HerrikoJustizia Auzitegi NagusikoAdministraziozko LiskarrauzietarakoSalan, komeniesten diren bestedefentsabideak erabil daitezkeelakokalterik gabe. Adierazi den epearenbarruan, BHI-015/94-P05-A espedienteaBilbaoko Gran Vía, 19-21eko 5gn.solairuan egongo da ageriko, azter dadin.Bilbon, 1994.eko urriaren 24an.-Hirigintzako foru diputatua. PedroHernández González. </seg>

<seg type=9>Contra dicha Orden Foral podráinterponerse, en el plazo de dos meses desdesu notificación, recurso contencioso-administrativo ante la Sala de lo Contencioso-Administrativo del Tribunal Superior deJusticia del País Vasco, sin perjuicio de lautilización de otros medios de defensa queestime conveniente. Durante el referido plazoel expediente BHI-015/94-P05-A, quedará demanifiesto para su examen en lasdependencias situadas en Bilbao calleAlameda Rekalde, 30, 5.a y 6.a plantas.Bilbao, 24 de octubre de 1994.-El DiputadoForal de Urbanismo.- Pedro HernándezGonzález. </seg>

Tabla 5. Segmentación en unidades de traducción.

Page 29: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

<div>... <seg type=9 id=9EU2corresp=9ES2> <p id=pEU11> <s id=sEU11corresp=ES11> <rs type=law id=LEU10corresp=LES12>Foru agindu </rs> horrekamaiera eman dio administrazio bideari;eta beraren aurka <rs type=organizationid=OEU10> Administrazioarekiko </rs>auzibide-errekurtsoa jarri ahal izangozaio <rs type=organization id=OEU11corresp=OES9> Euskal Herriko JustiziAuzitegi Nagusiko AdministrazioarekikoAuzibideetarako Salari </rs>, bihilabeteko epean; jakinarazpen hau egitenden egunaren biharamunetik zenbatukoda epe hori; hala eta guztiz ere, egokiestendiren beste defentsabideak ere erabillitezke. </s> </p> </seg> <seg type=10id=10EU1 corresp=10ES1> <p id=pEU12><s id=sEU12 corresp=ES12> Epe horiamaitu arte BHI-<num num=10094>100/94 </num>-P05-A espedientea agerianegongo da, nahi duenak azter dezan, <rstype=place id=PEU2 corresp=PES3>Bilboko Errekalde zumarkaleko </rs><num num=30> 30.eko </num> bulegoetan,<num num=5> 5 </num> eta <num num=6>6.</num> solairuetan.</s> </p> </seg></div> <closer id=pEU13> <docAuthor> <sid=sEU13 corresp=ES13> <rs type=titleid=TLEU4 corresp=TLES4> Hirigintzakoforu diputatua </rs>. </s> <s id=sEU14corresp=ES14> _ <rs type=name id=NEU4corresp=NES4> Pedro HernándezGonzález </rs>.</s> </docAuthor>

<div> ... <seg type=9 id=9ES2corresp=9EU2> <p id=pES11> <sid=sES11 corresp=EU11> Contra dicha<rs type=law id=LES12 corresp=LEU10>Orden Foral </rs>, que agota la víaadministrativa podrá interponerserecurso contencioso-administrativo antela <rs type=organization id=OES9corresp=OEU11> Sala de lo Contencioso-Administrativo del Tribunal Superior deJusticia del País Vasco </rs>, en el plazode dos meses, contado desde el díasiguiente a esta notificación sin perjuiciode la utilización de otros medios dedefensa que estime oportunos.</s> </p></seg> <seg type=10 id=10ES1corresp=10EU1> <p id=pES12> <sid=sES12 corresp=EU12> Durante elreferido plazo el expediente BHI-<numnum=10094> 100/94 </num>- P05-Aquedará de manifiesto para su exámenen las dependencias de <rs type=placeid=PES3 corresp=PEU2> Bilbao calleAlameda Rekalde </rs>, <num num=30>30 </num>, <num num=5> 5.a </num> y<num num=6> 6.a </num> plantas. </s></p> </seg> </div> <closer=pES13><docAuthor> <s id=sES13 corresp=EU13>El <rs type=title id=TLES4corresp=TLEU4> Diputado Foral deUrbanismo </rs>. </s> <s id=sES14corresp=EU14> - <rs type=name id=NES4corresp=NEU4> Pedro HernándezGonzález </rs> </s> </docAuthor></closer>

Tabla 6. Muestra de sección del corpus alineada (Martínez 1999)

Page 30: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Aplicaciones

Enseñanza de segundas lenguas (International Corpus of Learner English, ICLE)

Didáctica de la traducción (Baker...)Lexicografía y terminografíaTraducción automáticaEdición plurilingüe (MultiMétéo, TREE, GIST) Internalización de productos Búsquedas translingüísticas Internet

Page 31: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Traducción automática

Métodos simbólicos (RBMT) directa, transferencia, interlingüe (KBMT)

Métodos analógicos (ABMT) Probabilidades Weawer 1949, Brown 1990

(Watson Center de IBM) Basado en ejemplos (EBMT), Nagao 1984 Memorias de traducción

• Déjà Vu, TW, Transit, SDLX

Page 32: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Internet plurilingüe

lenguasen las quese publica

a las quese traduce

páginasweb (UL)

páginasweb (IC)

pág./hab.

inglés 28% 5% 75% 70,05% (81,51)chino 13% 0,5% - 0,71% 0,86alemán 12% 17% 4,02% 3,34% 51,77francés 8% 6% 2,81% 1,96% 23,26español 7% 16% 2,53% 1,51% 22,94japonés 5% 5% - 5,01% (69,96)ruso 5% 3% - -portugués 5% 0% 0,82% 0,73% (7,51)neerlandés 2% 7% - 0,71% 56,85otras 15% 41% 14,82% 15.98%

100% 100% 100% 100%

Tabla 7. Comparativa de presencia internacional de las principales lenguas

Page 33: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Itzulpenak mekanizatzeko, zein sistema hobe?

Joseba Abaitua, Deustuko Unibertsitatea

ZER itzuli nahi dugu?ZERTARAKO?NOIZKO?ZENBAT €etan?-NORK-NOLA

Page 34: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

ZER itzuli nahi dugun?Testuen sailkapena

tipoa (Biber y Finegan 1986, Nakamura 1991)

• esaldien luzapena, dentsitate lexikoa, estiloa... generoa

• foru aginduak, eguraldiko berriak, olerkiak... modua

• ahozkoa (1, 2 orality)

• idatzizkoa

• elektronikoa (HTML, XML, PDF, PPT)

helburuak...

Page 35: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

ZERTARAKO?Informazioa eskuragatik?Behin behingo testu/erreferentziak

sortzeko?Argitaratzeko?

hitzaldi baterako, mintzoa sustatzeko, eztabaida sortarazteko...

ahoz kontatua izateko irakurria izateko WWWen, softwaren barruan, produkturen dok. paperean, inprentan, CD-ROM...

Page 36: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

NORK eta NOLA

Term extraction and substitutionMachine Translation (MT)

SYSTRAN, LOGOS, METAL...

Translation Memories Déjà Vu (Atril/Ampersan) TW (Trados) Transit (Star) SDLX (SDL)

Page 37: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Translation Memories

Abantailak Kalitatezko itzulpenak (giza-itzultzaileak

eginak eta balidatuak) TMX

Desabantailak• testu kanonikoak, itxiak (bakarrik)

• itzulpen partzialak (testu - zatiak)

Page 38: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Our Father, who art in heaven,

hallowed be thy name;

thy kingdom come;

thy will be done;

on earth as it is in heaven.

Give us this day our daily bread.

And forgive us our trespasses,

as we forgive those who trespass against us.

And lead us not into temptation;

but deliver us from evil.

For thine is the kingdom, the power and the glory,

for ever and ever. Amen.

Page 39: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Foru Agindua Orden Foral

Foru Agindua, 767/1994 zk., urriaren 24ko.Aipatutako Foru Aginduaren bidezhurrengo hau xedatu da:

Lurzoru batzuk dentsitate txikiko lurzoruurbanizagai gisa birsailkatzeko ZallakoUdalerriko Planeamenduari buruzkoSorospidezko Arauen aldarazpena ukatzea.

Erabaki honen aurka, harenjakinarazpenetik zenbatu beharreko hilabetebiko epearen barruan, administraziozkoliskarrauzi-errekurtsoa jarri ahal izango da,Euskal Herriko Justizia Auzitegi NagusikoAdministraziozko Liskarrauzietarako Salan,komeniesten diren beste defentsabideakerabil daitezkeelako kalterik gabe. Adieraziden epearen barruan, BHI-015/94-P05-Aespedientea Bilbaoko Gran Vía, 19-21eko5gn. solairuan egongo da ageriko, azterdadin. Bilbon, 1994.eko urriaren 24an.-Hirigintzako foru diputatua. PedroHernández González.

Orden Foral número 767/1994 de 24octubre. Mediante la Orden Foral dereferencia se ha dispuesto lo siguiente:

Denegar la Modificación de las NormasSubsidiarias de Planeamiento delmunicipio de Zalla para la reclasificaciónde unos terrenos como Suelo Apto paraUrbanizar de Baja Densidad.

Contra dicha Orden Foral podráinterponerse, en el plazo de dos mesesdesde su notificación, recursocontencioso-administrativo ante la Sala delo Contencioso-Administrativo delTribunal Superior de Justicia del PaísVasco, sin perjuicio de la utilización deotros medios de defensa que estimeconveniente. Durante el referido plazo elexpediente BHI-015/94-P05-A, quedaráde manifiesto para su examen en lasdependencias situadas en Bilbao calleAlameda Rekalde, 30, 5.a y 6.a plantas.Bilbao, 24 de octubre de 1994.-ElDiputado Foral de Urbanismo.- PedroHernández González.

Tabla 4. Muestra del corpus paralelo LEGEBIDUN/BOB

Page 40: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

<rs type=organization>Euskal HerrikoJustizia Auzitegi NagusikoAdministraziozko LiskarrauzietarakoSalan</rs>

<rs type=organization>Sala de loContencioso-Administrativo del TribunalSuperior de Justicia del País Vasco</rs>

<rs type=law>Zallako UdalerrikoPlaneamenduari buruzko SorospidezkoArauen aldarazpena</rs>

<rs type=law>Modificación de las NormasSubsidiarias de Planeamiento del municipiode Zalla </rs>

<term>Lurzoru batzuk dentsitate txikikolurzoru urbanizagai gisabirsailkatzeko</term>

<term>para la reclasificación de unosterrenos como Suelo Apto para Urbanizar deBaja Densidad</term>

<seg type=9>Erabaki honen aurka, harenjakinarazpenetik zenbatu beharrekohilabete biko epearen barruan,administraziozko liskarrauzi-errekurtsoajarri ahal izango da, Euskal HerrikoJustizia Auzitegi NagusikoAdministraziozko LiskarrauzietarakoSalan, komeniesten diren bestedefentsabideak erabil daitezkeelakokalterik gabe. Adierazi den epearenbarruan, BHI-015/94-P05-A espedienteaBilbaoko Gran Vía, 19-21eko 5gn.solairuan egongo da ageriko, azter dadin.Bilbon, 1994.eko urriaren 24an.-Hirigintzako foru diputatua. PedroHernández González. </seg>

<seg type=9>Contra dicha Orden Foral podráinterponerse, en el plazo de dos meses desdesu notificación, recurso contencioso-administrativo ante la Sala de lo Contencioso-Administrativo del Tribunal Superior deJusticia del País Vasco, sin perjuicio de lautilización de otros medios de defensa queestime conveniente. Durante el referido plazoel expediente BHI-015/94-P05-A, quedará demanifiesto para su examen en lasdependencias situadas en Bilbao calleAlameda Rekalde, 30, 5.a y 6.a plantas.Bilbao, 24 de octubre de 1994.-El DiputadoForal de Urbanismo.- Pedro HernándezGonzález. </seg>

Tabla 5. Segmentación en unidades de traducción.

Page 41: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

<div>... <seg type=9 id=9EU2corresp=9ES2> <p id=pEU11> <s id=sEU11corresp=ES11> <rs type=law id=LEU10corresp=LES12>Foru agindu </rs> horrekamaiera eman dio administrazio bideari;eta beraren aurka <rs type=organizationid=OEU10> Administrazioarekiko </rs>auzibide-errekurtsoa jarri ahal izangozaio <rs type=organization id=OEU11corresp=OES9> Euskal Herriko JustiziAuzitegi Nagusiko AdministrazioarekikoAuzibideetarako Salari </rs>, bihilabeteko epean; jakinarazpen hau egitenden egunaren biharamunetik zenbatukoda epe hori; hala eta guztiz ere, egokiestendiren beste defentsabideak ere erabillitezke. </s> </p> </seg> <seg type=10id=10EU1 corresp=10ES1> <p id=pEU12><s id=sEU12 corresp=ES12> Epe horiamaitu arte BHI-<num num=10094>100/94 </num>-P05-A espedientea agerianegongo da, nahi duenak azter dezan, <rstype=place id=PEU2 corresp=PES3>Bilboko Errekalde zumarkaleko </rs><num num=30> 30.eko </num> bulegoetan,<num num=5> 5 </num> eta <num num=6>6.</num> solairuetan.</s> </p> </seg></div> <closer id=pEU13> <docAuthor> <sid=sEU13 corresp=ES13> <rs type=titleid=TLEU4 corresp=TLES4> Hirigintzakoforu diputatua </rs>. </s> <s id=sEU14corresp=ES14> _ <rs type=name id=NEU4corresp=NES4> Pedro HernándezGonzález </rs>.</s> </docAuthor>

<div> ... <seg type=9 id=9ES2corresp=9EU2> <p id=pES11> <sid=sES11 corresp=EU11> Contra dicha<rs type=law id=LES12 corresp=LEU10>Orden Foral </rs>, que agota la víaadministrativa podrá interponerserecurso contencioso-administrativo antela <rs type=organization id=OES9corresp=OEU11> Sala de lo Contencioso-Administrativo del Tribunal Superior deJusticia del País Vasco </rs>, en el plazode dos meses, contado desde el díasiguiente a esta notificación sin perjuiciode la utilización de otros medios dedefensa que estime oportunos.</s> </p></seg> <seg type=10 id=10ES1corresp=10EU1> <p id=pES12> <sid=sES12 corresp=EU12> Durante elreferido plazo el expediente BHI-<numnum=10094> 100/94 </num>- P05-Aquedará de manifiesto para su exámenen las dependencias de <rs type=placeid=PES3 corresp=PEU2> Bilbao calleAlameda Rekalde </rs>, <num num=30>30 </num>, <num num=5> 5.a </num> y<num num=6> 6.a </num> plantas. </s></p> </seg> </div> <closer=pES13><docAuthor> <s id=sES13 corresp=EU13>El <rs type=title id=TLES4corresp=TLEU4> Diputado Foral deUrbanismo </rs>. </s> <s id=sES14corresp=EU14> - <rs type=name id=NES4corresp=NEU4> Pedro HernándezGonzález </rs> </s> </docAuthor></closer>

Tabla 6. Muestra de sección del corpus alineada (Martínez 1999)

Page 42: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Tipos de anotaciones

Información extralingüística (cabecera) registro de lengua, fecha(s), autor, editor,

transcriptor, género, status, función, etc.

Cuestiones tipografémicas ASCII 256 c., ISO-8859-1 (ISO-Latin) JUNET ISO-10646 (UCS, UNICODE 65.000 c.)

Información lingüística

Page 43: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Etiquetado de i. lingüística

Segmentación Anotaciones estructurales

Anotaciones morfosintácticas

Lematización

Análisis sintáctico, (semántico)

Anotaciones orientadas a la tarea

Alineación

Page 44: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Lematización y etiquetado POS

forma flexiva lexema etiqueta POS entidad SGMLque que PR3CN00 que&pr3cn;

agota agotar VMIP3S0 agota&vmip3s;la la TFFS0 la&tffs;vía vía NCFS00 vía&ncfs;

administrativa administrativo AQ0FS00 administrativo&aq0fs;podrá poder VMIF3S0 podrá&vmif3s;

interponerse interponer VMN000 interponerse&vmn;recurso recurso NCMS00 recurso&ncms;

contencioso contencioso AQ00000 contencioso&aq0;ante ante SPS00 ante&sps;

Tabla 2. Resultados del lematizador de Márquez y Padró, con muestras de etiquetasmorfosintácticas (según los códigos propuestos por PAROLE)

Page 45: Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba

Alineación (Martínez 1999)

1. Enfoque estadístico: similitud de algunos rasgos cuantitativos en el corpus, como la longitud de oraciones, el número de palabras o de caracteres, etc. (Brown y otros 1991, Gale y Church 1991).

2. Enfoque lingüístico: emparejamiento previo de unidades sintagmáticas o de estructuras dependenciales (Sadler 1991, Kaji y otros 1992, Matsumoto y otros 1993).

3. Enfoque mixto: método que aprovecha la identificación de categorías gramaticales como apoyo para la alineación estadística (Chen 1993).