84
White Paper Series THE BASQUE LANGUAGE IN THE DIGITAL AGE Liburu Zurien Bilduma EUSKARA ARO DIGITALEAN Inmaculada Hernáez Eva Navas Igor Odriozola Kepa Sarasola Arantza Diaz de Ilarraza Igor Leturia Araceli Diaz de Lezana Beñat Oihartzabal Jasone Salaberria

White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

White Paper Series

THE BASQUELANGUAGE

IN THEDIGITAL AGE

Liburu Zurien Bilduma

EUSKARAARODIGITALEAN

Inmaculada HernáezEva NavasIgor OdriozolaKepa SarasolaArantza Diaz de IlarrazaIgor LeturiaAraceli Diaz de LezanaBeñat OihartzabalJasone Salaberria

Page 2: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-
Page 3: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

White Paper Series

THE BASQUELANGUAGE

IN THEDIGITAL AGE

Liburu Zurien Bilduma

EUSKARAARODIGITALEAN

Inmaculada Hernáez [1]

Eva Navas [1]

Igor Odriozola [1]

Kepa Sarasola [1]

Arantza Diaz de Ilarraza [1]

Igor Leturia [2]

Araceli Diaz de Lezana [3]

Beñat Oihartzabal [4]

Jasone Salaberria [4]

[1] Univ. del País Vasco/Euskal Herriko Unibertsitatea

[2] Elhuyar Foundation

[3] Gobierno Vasco/Eusko Jaurlaritza

[4] UMR 5478 IKER

Georg Rehm, Hans Uszkoreit(editoreak, editors)

Page 4: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-
Page 5: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

HITZAURREA PREFACE

Liburu zuri hauhizkuntza-teknologiei eta haien poten- is white paper is part of a series that promotestzialei buruzko jakintza sustatzea helburu duen bildu- knowledge about language technology and its poten-maren atal bat da, hezitzaileei, kazetariei, politikariei tial. It addresses educators, journalists, politicians, lan-eta hizkuntza-komunitateei zuzendua. guage communities and others.Europan, desberdina da, hizkuntza batetik bestera, e availability and use of language technology in Eu-hizkuntza-teknologien eskuragarritasuna eta erabilera. rope varies between languages. Consequently, the ac-Horren ondorioz, desberdinak behar dute izan, ha- tions that are required to further support research andlaber, hizkuntza bakoitzerako hizkuntza-teknologien development of language technologies also differ forikerketa eta garapena bultzatzeko behar diren ekime- each language. e required actions depend on manynak. factors, such as the complexity of a given language andEuropako Batzordeak sortutako META-NET Bikain- the size of its community.tasun Sareak gaur egungo hizkuntza-baliabideei eta - META-NET, a Network of Excellence funded by theteknologiei buruzko analisi bat bideratu du liburu zu- European Commission, has conducted an analysis ofrien bilduma honetan (p. 75). Analisi hori Europako current language resources and technologies in this23 hizkuntza ofizialentzako eta Europako beste zenbait white paper series (p. 75). is analysis focussed on thenazio– eta eskualde-hizkuntza garrantzitsurentzako 23 official European languages as well as other impor-gauzatu da. Analisiaren ondorio gisa, ondorioztatu da tant national and regional languages in Europe. e re-ikerketa-hutsune esanguratsuak daudela hizkuntza ba- sults of this analysis suggest that there are many signif-koitzerako. Adituen gaur egungo egoeraren analisi eta icant research gaps for each language. A more detailedebaluazio xeheago batez, etorkizuneko ikerketen era- expert analysis and assessment of the current situationgina handiagotu eta arriskuak gutxiagotu litezke. will help maximise the impact of additional researchEnpresa-munduko, administraziopublikoko, industria- and minimise any risks.sektoreko, ikerketa-alorreko, soware-enpresetako, META-NET consists of 54 research centres from 33teknologia-hornitzaileetako eta unibertsitate europa- countries (p. 71) that are working with stakeholdersrretako parte-hartzaileekin lanean diharduten 33 he- from commercial businesses, government agencies, in-rrialdetako 54 ikerketa-zentroz (p. 71) osatuta dago dustry, research organisations, soware companies,META-NET. Denak elkarrekin, teknologiari buruzko technology providers and European universities. To-ikuspegi bateratu bat ari dira sortzen, eta, aldi be- gether, they are creating a common technology visionrean, 2020 bitartean ikerketa-hutsuneak hizkuntza- while developing a strategic research agenda that showsteknologien bidez betetzeko bideak zein izan daitez- how language technology applications can address anykeen azaltzen duen ikerketa-agenda estrategiko bat ere research gaps by 2020.ari da garatzen.

III

Page 6: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

META-NET – [email protected] – http://www.meta-net.eu

Dokumentu honen egileek beren eskerrik beroenak adierazinahi dizkie alemanezko liburu zuriaren [1] egileei, haien do-kumentuko zenbait atal, hizkuntzaren araberakoak ez direnak,berrerabiltzeko baimena emateagatik.

Liburu zuri hau Europako Batzordeko Zazpigarren EsparruProgramaren eta IKTak Sustatzeko Programa Estrategikoa-ren diru-laguntzari esker garatu da, T4ME (249 119 Dirula-guntza Hitzarmena), CESAR (271 022 Dirulaguntza Hitzar-mena), METANET4U (270 893 Dirulaguntza Hitzarmena)eta META-NORD (270 899 Dirulaguntza Hitzarmena) kon-tratuen baitan.

e authors of this document are grateful to the authors of theWhite Paper on German [1] for permission to re-use selectedlanguage-independent materials from their document.

e development of this white paper has been funded by theSeventh Framework Programme and the ICT Policy SupportProgramme of the European Commission under the contractsT4ME (Grant Agreement 249 119), CESAR (Grant Agree-ment 271 022), METANET4U (Grant Agreement 270 893)and META-NORD (Grant Agreement 270 899).

IV

Page 7: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

AURKIBIDEA CONTENTS

EUSKARA ARO DIGITALEAN

1 Laburpena 1

2 Arriskua, gure hizkuntzentzat, eta erronka, hizkuntza-teknologiarentzat 32.1 Hizkuntza-mugek oztopoak jartzen dizkiote Europako informazio-gizarteari . . . . . . . . . . . . . 42.2 Gure hizkuntzak arriskuan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Hizkuntza-teknologia teknologia bideratzaile giltzarria da . . . . . . . . . . . . . . . . . . . . . . 52.4 Hizkuntza-teknologiaren aukerak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5 Hizkuntza-teknologiaren erronkak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.6 Hizkuntzaren jabetzea gizakiengan eta makinetan . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Euskara Europako informazio gizartean 93.1 Datu orokorrak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Euskararen berezitasunak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3 Azken gertaerak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.4 Hizkuntza-lanketa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.5 Hizkuntza hezkuntzan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.6 Nazioartean . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.7 Euskara Interneten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4 Hizkuntza-teknologia euskararako 154.1 Hizkuntza-teknologia aplikatzeko arkitekturak . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.2 Aplikazio-eremu komunak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.3 Beste erabilera-eremu batzuk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.4 Hizkuntza-teknologia hezkuntzan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.5 Hizkuntza-teknologiako programak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.6 Euskararako tresna eta baliabideak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.7 Hizkuntzarteko konparaketa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.8 Ondorioak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5 META-NETi buruz 34

Page 8: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

THE BASQUE LANGUAGE IN THE DIGITAL AGE

1 Executive Summary 35

2 Risk for Our Languages and a Challenge for Language Technology 372.1 Language Borders Hinder the European Information Society . . . . . . . . . . . . . . . . . . . . 382.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 392.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3 Basque in the European Information Society 423.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.2 Particularities of the Basque Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.4 Language cultivation in Basque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.6 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.7 Basque on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4 Language Technology Support for Basque 484.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.4 Language Technology in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.5 Language Technology Programs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.7 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5 About META-NET 66

A Aipamenak -- References 67

B META-NETeko Kideak -- META-NET Members 71

C META-NETen liburu zurien bilduma -- The META-NET White Paper Series 75

Page 9: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

1

LABURPENA

Hizkuntza gizakien arteko komunikazio-biderik ga-rrantzitsuena da. Ideiak eta sentimenduak adieraztekoaukera ematen digu, ikasten eta irakasten laguntzendigu, ezinbestekoa da bizitzeko, kulturaren transmisio-rako tresnarik garrantzitsuena da, eta haren hiztunenidentitate-ikurra da.

Hizkuntza gizakien arteko komunikazio-biderikgarrantzitsuena da.

Gaur egun, mundu globalizatu honetan, edozein le-kutako pertsonekin erraz komunikatzeko tresna askoditugu. Adibidez, informazio- eta komunikazio-teknologia berriek sare sozialak garatzeko aukera emandute, eta, hala, ekarpen handia izan da herrialde etakultura desberdinetako pertsonak harremanetan jartzeasustatzeko. Azken urteotan, halaber, atzerritarren mu-gimendua handia izan da gure herrialdeetan, dela tu-rismoagatik, dela immigrazioagatik, eta horrek hainbathizkuntzatan komunikatzeko beharra sortu du. Ha-lere, hizkuntzarteko komunikazio-arazoak,maiz, linguafranca erabiliz gainditzen dira.Europa aniztasun kultural eta linguistikoaren adibidegarbia da, nahiz eta azken 60 urteetan zehar bateratzenpolitiko eta ekonomikoa izan duen. Hortaz, euskaratikpolonierara zein italieratik islandierara, eragozpen lin-guistikoak gainditu behar dira, nahitaez, Europako hiri-tarren arteko eguneroko komunikazioan nahiz enpresa-ren eta politikaren esferetako komunikazioetan. Euro-par Batasunaren erakundeek bilioi bat euro behar duteurtean, beren eleaniztasun-politika betearazteko; alegia,

testuak itzultzeko eta ahozko jarduerak interpretatzeko.Bitartean, ingelesa lingua franca bihurtzen ari da Euro-pako hiritarren arteko komunikazioan.Espainiar estatuan ere antzeko eszenatokia dugu. Es-tatu osoan, hizkuntza ofizial bakarra dago: espainieraedo gaztelania; horiez gainera, hiru hizkuntza koofizialdaude: euskara, galiziera eta katalana. Estatuan eleaniz-tasunari eustea ez da lan erraza izan; aitzitik, espainierakgainerako hizkuntzen artean duen gailentasunean, iden-titate kulturalaren eta linguistikoaren babesean oinarri-tutako prozesu konplexu baten emaitza izan da. Euro-pako kasuan lingua franca gisa ingelesa erabiltzen denera berean, espainiera erabiltzen da maiz espainiar esta-tuko hizkuntza-eremu desberdinetako hiritarren artekokomunikazio zuzenerako.

Eleaniztasuna babestu beharrekokultura-ondarea da.

Bai Europari dagokionez, bai espainiar estatuari dago-kionez, babestu beharreko kultura-ondarea da eleaniz-tasuna. Globalizazioak, lingua francaren erabilera gai-lendu eta gure hizkuntzaren erabilera murrizteko arris-kua sortzen baitu, ez luke gure hizkuntza- eta kultura-ondare aberatsa alboratzen duen mekanismo bihurtubehar. Komunikazio-mundu global baten barnean,gure hizkuntza eta, harekin batera, gure identitate kul-turala babesteko bideak aurkitu behar ditugu.Gaur egungo hizkuntza-teknologiek eta ikerketa lin-guistikoek ekarpen handia egin dezakete eragozpenlinguistiko horiek gainditzeko; izan ere, hizkuntza-

1

Page 10: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

teknologiak, tresna eta aplikazio adimendunekin bateraerabiliz, oso lagungarriak izango dira europarrek aisehitz egin eta salerosketak egin ditzaten, baita hizkun-tza berean ari ez badira ere. Hizkuntza-teknologiek es-kaintzen dituzten koponbideak hizkuntza europarrenarteko zubi bikaina izan daitezke. Gaur egun merka-tuan lor daitezkeen itzulpen automatikoko nahiz hiz-keta prozesatzeko tresnak – galderei erantzuteko siste-metatik hasi eta hizkuntza naturala darabilten interfa-zeetaraino, eta, besteak beste, itzulpen automatikokosistemak eta laburpen-tresnak darabiltenak –, oraindikere aski urrun daude asmo handiko helburu horretatik.

Hizkuntza-teknologiek eskaintzen dituztenkoponbideak hizkuntza europarren arteko

zubi bikaina izan daitezke.

1970eko hamarkadaren amaierarako, EB konturatuazen hizkuntza-teknologiek Europaren batasunaren gi-daritzan izango zuten garrantziaz, eta, hala, lehenikerketa-proiektua sortu zuen. Aldi berean, oso emaitzabaliagarriak izan zituzten estatu-mailako proiektu askoere jarri zituzten abian, baina inoiz ere ez europar ekin-tza kontzertatu baten gidaritzapean. Eremuko eragile-rik garrantzitsuenak, batez ere, egoitza Amerikako Es-tatu Batuetan duten enpresa pribatu irabazi asmodunakdira. Gaur egungo hizkuntz-teknologia aurreratuenakhurbilketa estatistiko ez-zehatzetan oinarritzen dira etaez dute aparteko metodo nahiz ezagutza linguistikorikerabiltzen. Esaterako, esaldiak automatikoki itzultzendira esaldi bat gizakiek aurrez itzulitako milaka esaldi-rekin konparatuz. Emaitzaren kalitatea, hein handi ba-tean, erabiliko den corpusaren tamainaren eta kalitatea-ren araberakoa da. Azaleko metodo estatistiko horie-kin testu-material kantitate nahikoa duten hizkuntze-tan esaldi sinpleak itzulita emaitza erabilgarriak lor dai-tezke, baina litekeena da huts egitea hizkuntza baten

testu kopurua txikiagoa baldin bada edo egitura kon-plexuak dituzten esaldiak itzuli nahi badira. Hizkun-tzen egitura-ezaugarri sakonagoa aztertuta, ondorioztadaiteke aurrerabide bakarra dela, Europako hizkuntzamultzo zabaleko guztietarako ondo funtzionatuko du-ten aplikazioak garatuko badira.Hortaz, hizkuntzarteko komunikazio-arazoen konpon-bidea da teknologia giltzarriak garatzea. Helburuhori betetzeko, baina Europako kultura- eta hizkuntza-aniztasunari eutsita, behar-beharrezkoa da lehenda-bizi Europako hizkuntza guztien bereizgarri linguisti-koak aztertzea eta hizkuntza bakoitzerako hizkuntza-teknologiek duten gaur egungo laguntzen analisi siste-matiko bat burutzea. Euskararako analisia aurkezteada, hain zuzen, liburu honen xedea. Hala, euskarakohizkuntza-teknologien, aplikazioen eta konponbideenanalisi xehatua aurkezten du ale honek.

Euskara ikerketa sustatu beharraduten EBko hizkuntzetariko bat da.

Hizkuntza-teknologien eremuan, hainbat produktu,teknologia eta baliabide daude euskararako. Badiraaplikazio-tresnak hizketa sintetizatzeko, hizketa eza-gutzeko nahiz ortografia zuzentzeko; badira, halaber,itzulpen automatikoko aplikazio batzuk ere, espainiera-tik euskarara batez ere.Liburu zuri bilduma honetan ageri denez, ikaraga-rrizko aldea dago Europako estatu kideen hizkuntza-baliabideen inbentarioen artean eta ikerketa-egoeren ar-tean. Ondoriorik nabarmenenetariko bat da ikerketasustatu beharra duten EBko hizkuntzetariko bat delaeuskara, hizkuntza-teknologietan oinarritutako aplika-zio benetan eraginkorrak eta egunero jardunean erabil-tzeko modukoak garatuko badira. Euskararako kalitatehandiko hizkuntza teknologiaren garapena oso larria etagarrantzitsua da euskara sustatzeko.

2

Page 11: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

2

ARRISKUA, GURE HIZKUNTZENTZATETA ERRONKAHIZKUNTZA-TEKNOLOGIARENTZAT

Komunikazioan eta gizartean izugarrizko eraginaizaten ari den iraultza digital baten aurrean gaude.Komunikazio-teknologia digitalizatu eta sarekoetanizan berri diren aurrerapenak Gutenbergek inprenta as-matu zuenekoarekin alderatzen dira, batzuetan. Zeresaten digu analogia horrek Europako informazio-gizartearen eta geure hizkuntzen etorkizunari buruz?

Iraultza digitala Gutenbergek inprentaasmatu izanarekin alderatu daiteke.

Gutenbergen asmakizunaren ondoren, benetako aurre-rapausoak eman ziren komunikazioan eta ezagutzentrukaketan, hainbat lani esker; esaterako, Lutherrek egi-nikoa, Biblia hizkuntza arrunt batera itzuli zuenean.Hurrengo mendeetan, teknika kulturalak garatu dirahizkuntza-prozesamendua eta ezagutza- trukaketa ho-beto egiteko:

‚ Hizkuntza handien ortografia eta gramatika estan-darizatzeak aukera eman zuen ideia zientifiko eta in-telektual berriak azkar zabaltzeko;

‚ Hizkuntzen ofizialtasunak aukera eman zien herri-tarrei muga jakin batzuen barruan (sarritan, politi-koak) komunikatzeko;

‚ Hizkuntzen irakaskuntzari eta itzulpenari esker, hiz-kuntzen arteko trukaketa etorri zen;

‚ Kazetaritzako eta bibliografiako jarraibideak sor-tzeak material argitaratuaren kalitatea eta eskuraga-rritasuna bermatu zuten;

‚ Hedabide berriek – egunkariek, irratiak, telebistak,liburuek eta beste batzuek – komunikazio-beharreierantzun zieten.

Azken hogei urteotan, informazio-teknologiak lagunduegin du prozesu horietako asko automatizatzen etaerrazten:

‚ Autoedizioko sowareak hartu du idazmakinareneta monotipoaren tokia;

‚ Microso PowerPoint programak hartu du proiek-tagailuz erakutsitako gardenkien tokia;

‚ Mezu elektronikoen bidez faxez baino azkarrago bi-dali eta jasotzen dira dokumentuak;

‚ Skype erabiliz, Interneteko telefono-deiak egin dai-tezke, eta elkargune birtualak sortu;

‚ Audio- eta bideo-fitxategien kodetze-formatuei es-ker, erraza da multimedia-fitxategiak trukatzea;

‚ Bilatzaileetan gako-hitzak sartuz web-orrietara sargaitezke;

‚ Lineako zerbitzuek itzulpen azkar eta gutxi gora-beherakoak sortzen dituzte; hor dugu, esaterako,Google Translate;

‚ Gizarte-hedabideen plataformek erraztu egiten duteelkarlana eta informazioa partekatzea.

3

Page 12: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Tresna eta aplikazio horiek lagungarriak badira ere,oraindik ez dute lortu informazio-gizarte europar elea-niztun eta jasangarri bat ezartzea; gizarte moderno etainklusibo bat, non informazioa eta produktuak askata-sunez ibiltzen diren alde batetik bestera.

2.1 HIZKUNTZA-MUGEKOZTOPOAK JARTZEN DIZKIOTEEUROPAKOINFORMAZIO-GIZARTEARIEzin dugu jakin etorkizuneko informazio-gizarteazehazki nolakoa izango den. Europaren energia-estrategiaz edo atzerriko politika bateratuaz hitz eginbehar denean, Europako atzerriko ministroak beren ja-torrizko hizkuntzan mintzatzen entzun nahi izango di-tugu, beharbada. Agian, plataforma bat izan nahi dugu,non hainbat hizkuntza hitz egiten dituzten eta era as-kotako hizkuntza-mailak dituzten pertsonak gai jakinbati buruz solasean arituko diren, teknologiak haien iri-tziak bildu eta laburpen txikiak egiten dituen bitartean.Baliteke, halaber, beste herrialde batean dagoen osasun-aseguruen bulego batekin hitz egin nahi izatea.

Ekonomia- eta informazio-eremuglobalak hizkuntza, hizlari eta edukidesberdinen aurrean jartzen gaitu.

Argi dago gaur egungo komunikazioak, duela urte ba-tzuetakoaren aldean, beste kalitate batekoa izan beharduela. Ekonomia eta informazio-eremu globalean, hiz-kuntza, hiztun eta eduki gehiagorekin egiten dugu topo,eta hedabide mota berriekin berehala harremanetan jar-tzeko eskatzen digute. Gizarte-hedabideak (Wikipedia,Facebook, Twitter eta YouTube) izaten ari diren arra-kasta icebergaren tontorra besterik ez da.

Gaur egun, hainbat gigabyteko testuak bidal ditzakegumundu osora segundo gutxi batzuetan, ulertzen ez du-gun hizkuntza batean dagoela ohartu baino lehen. Eu-ropako Batzordeak eskatuta duela gutxi egin den txos-ten baten arabera, Europako Internet-erabiltzaileen %57k bere jatorrizko hizkuntzaz bestelako hizkuntzetanerosten ditu produktuak eta zerbitzuak (ingelesa dagehien erabiltzenden atzerrikohizkuntza, eta, harenon-doren, frantsesa, alemana eta gaztelania). Erabiltzaileen% 55ek irakurtzen ditu edukiak atzerriko hizkuntza ba-tean, baina soilik % 35ek idazten ditu mezu elektroni-koak edo sareko iruzkinak [2]. Duela urte gutxi batzuk,ingelesa izan zen sareko lingua franca– sareko edukiarenparte oso handi bat ingelesez zegoen–, baina egoera goi-tik behera aldatu da orain. Beste hizkuntza batzuetanidatzitako edukien kantitatea izugarri handitu da sarean(batez ere, asiar eta arabiar hizkuntzetan idatzitakoena).

Hizkuntza-mugek eragin duten nonahiko banaketa di-gitalak ez du toki handirik hartu diskurtso publikoan.Alabaina, galdera bat sortzen du behin eta berriz: “Eu-ropako zein hizkuntzak egingo du aurrera eta iraungodu sareko informazioaren eta ezagutzaren gizartean?”.

2.2 GURE HIZKUNTZAKARRISKUANInprentak informazio-trukaketa eskerga ekarri zuen Eu-ropara, baina bertako hizkuntza asko desagertzea ereeragin zuen. Eskualdeetako hizkuntzak eta hizkuntzatxikiak apenas erabiltzen ziren argitalpenetarako. Ho-rren ondorioz, hizkuntza asko ahozko transmisiora mu-gatu ziren – adibidez, kornubiera eta dalmaziera –, eta,beraz, mugatuta gelditu zen haien etengabeko ikaskun-tza, zabalkundea eta erabilera.

Hizkuntza-aniztasuna da Europaren kultura-ondasunaberats eta garrantzitsuenetakoa (80 bat hizkuntzaditu). Europaren hizkuntza-aniztasuna haren arrakastasozialaren ezinbesteko parte ere bada. Hiztun askoko

4

Page 13: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

hizkuntzek eutsiko diote suspertzen ari den gizarteaneta merkatu digitalean duten tokiari, dudarik gabe,baina baliteke Europako hizkuntza asko komunikaziodigitaletatik baztertuta geratzea eta garrantzia galtzeaInterneteko gizartearen begietara. Hori ez litzateke ba-tere ona izango. Alde batetik, aukera estrategiko bat gal-duko litzateke, eta horrek ahuldu egingo luke Europa-ren posizioa munduan. Bestetik, gertaera horiek ez da-toz bat Europako herritar guztien (edozein hizkuntzaizanda ere) berdintasunezko parte-hartzea bermatzekohelburuarekin. UNESCOk eleaniztasunaren inguruaneginiko txostenak dioenez, hizkuntza funtsezko bitar-tekoa da oinarrizko eskubideez gozatzeko – adibidez,adierazpen politikoa, hezkuntza eta gizarteko parte har-tzea [3].

Hizkuntza-aniztasuna daEuropako kultura-ondasun aberats

eta garrantzitsuenetarikoa.

2.3 HIZKUNTZA-TEKNOLOGIATEKNOLOGIA BIDERATZAILEGILTZARRIA DALehen, hizkuntzaren irakaskuntzara eta itzulpenetarabideratzen ziren inbertsioak. Adibidez, kalkulu batzuenarabera, itzulpen, interpretazio, soware-lokalizazio etawebgune globalizazioaren merkatu europarra 8,4 milamilioi eurokoa zen 2008an, eta urtean % 10 haztea es-pero zen [4]. Alabaina, merkatu horren ahalmena ez danahikoa oraingo eta geroko beharrak asetzeko.Hizkuntza-teknologia teknologia bideratzaile giltzarriada, Europako hizkuntzak babestu eta bultzatu ditza-keena. Hizkuntza-teknologiak laguntza ematen dio jen-deari elkarlanean aritzeko, negozioak egiteko, ezagu-tza besteekin banatzeko, eta eztabaida sozial eta poli-tikoetan parte hartzeko, dena delako hizkuntza-mugak

eta informatikako trebetasunak izanda ere. Hizkuntza-teknologiak laguntzen digu jada eguneroko lanetan,hala nola mezu elektronikoak idaztean, lineako ikerketabat egitean edo hegaldi bat erreserbatzean. Eragiketahauek egitean ere hizkuntza-teknologiaz baliatzen gara:

‚ Interneteko bilatzaile baten bidez informazioa aur-kitzen dugunean.;

‚ Testu-prozesadore batean ortografia eta gramatikaegiaztatzen dugunean;

‚ Lineako denda batean produktu baten gaineko go-mendioak begiratzen ditugunean;

‚ Nabigazio-sistema baten ahozko jarraibideak entzu-ten ditugunean;

‚ Lineako zerbitzu baten bidez web-orriak itzultzenditugunean.

Lan honetan agertzen diren hizkuntza-teknologiaketorkizuneko aplikazio berritzaileen oinarrizko osagaiadira. Hizkuntza-teknologia, normalean, teknologia bi-deratzailea izaten da, eta aplikazio-plataforma handiagobaten barruan joan ohi da, nabigazio-sistema edo bila-tzaile baten barruan adibidez. Liburu zuri honetan az-tertzen da teknologia komunak hizkuntza bakoitzerakozenbateraino dauden prestatuta.

Europak hizkuntza-teknologia sendoaketa modu onean erosteko modukoak

behar ditu hango hizkuntza guztietarako.

Laster behar izango dugu Europako hizkuntza guztie-tarako hizkuntza-teknologia bat, eskuragarri dagoena,modu onean eros daitekeena eta soware-esparru han-diagoetan ondo integratuta dagoena. Erabiltzaileak ezdu funtzio interaktiboak, multimediakoak eta eleaniz-tunak erabiltzerik hizkuntza-teknologiarik gabe.

5

Page 14: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

2.4 HIZKUNTZA-TEKNOLO-GIAREN AUKERAKHizkuntza-teknologiak aukera eman diezaieke Euro-pako hizkuntza guztiei itzulpen automatikoak egiteko,edukiak sortzeko, informazioa prozesatzeko eta ezagu-tzak kudeatzeko. Hizkuntza-teknologiak balio dezake,halaber, etxetresna elektroniko, aparailu, ibilgailu, orde-nagailu eta robotentzako hizkuntzan oinarritutako in-terfaze intuitiboak garatzeko. Hainbat prototipo ateradiren arren, aplikazio komertzial eta industrialak ha-sierako fasean daude oraindik. Ikerketan eta garape-nean egin berri diren lorpenek benetako abagunea emandiote. Adibidez, itzulpen automatikoak (IA) zehazta-sun handi samarra ematen du jada esparru jakin batzue-tan, eta aplikazio esperimentalek informazio eleaniz-tuna eta ezagutza-kudeaketa eskaintzen dute, baita Eu-ropako hizkuntza askotan edukiak sortzeko aukera ere.

Hizkuntza-aplikazioak, ahots bidezko erabiltzaile-interfazeak eta elkarrizketa-sistemak oso eremu espe-zializatuetan egon ohi dira eskuarki, eta errendimendumugatua izan ohi dute maiz. Hizkuntza-teknologiahondamen eremuetako erreskate-lanetarako erabiltzeaari dira ikertzen orain. Arrisku handiko inguru horie-tan, itzulpenaren zehaztasuna hil ala biziko kontua izandaiteke. Antzekoa gertatzen da osasungintzan ere. Hiz-kuntzarteko ahalmenak dituzten robot inteligenteekbiziak salba ditzakete.

Hizkuntza-teknologiek sekulako merkatu-aukerak di-tuzte hezkuntzan eta entretenimenduen industrian;izan ere, jokoetan, joko hezigarrietan, simulazioe-tan eta prestakuntza-programetan integra daitezke.Hizkuntza-teknologiak zeregin garrantzitsua izan de-zake beste hainbat tokitan ere; besteak beste, mu-gikorretako informazio zerbitzuetan, ordenagailuz la-gundutako hizkuntza-ikaskuntzarako sowarean, Inter-net bidezko ikaskuntzako inguruneetan, autoebaluazio-tresnetan eta plagioak aurkitzeko gailuetan. Gizarte-hedabideen aplikazioek (adib. Twitter eta Facebook)

duten arrakastak iradokitzen du gero eta gehiago behardirela hizkuntza-teknologia sofistikatuak, gai direnakmezuak behatzeko, eztabaidak laburbiltzeko, iritzi-joerak iradokitzeko, erantzun emozionalak detekta-tzeko, copyrightaren arau-hausteak identifikatzeko etaerabilera desegokien jarraipena egiteko.

Aniztasun linguistikoak sortzendituen “eragozpenak” gainditzen

laguntzen dute hizkuntza-teknologiek.

Hizkuntza-teknologiak aukera paregabea ematen dioEuropar Batasunari, bai ekonomia aldetik, bai kul-tura aldetik. Eleaniztasuna arau bilakatu da Europan.Europako negozioak, erakundeak eta eskolak ere na-zioartekoak eta askotarikoak dira. Herritarrek elka-rrekin komunikatu nahi dute Europako Merkatu Ba-tuan, oraindik ere hor dauden hizkuntza-mugez harago.Hizkuntza-teknologiak hor jarraitzen duten muga ho-riek gainditzen lagundu dezake, eta, era berean, hizkun-tzaren erabilera askea eta irekia bultzatu. Gainera, Eu-ropako hizkuntzetarako hizkuntza-teknologia eleaniz-tun eta berritzaileak munduko beste herrialdeekin etahaietako komunitate eleaniztunekin komunikatzen la-gunduko liguke. Hizkuntza-teknologiek nazioartekoekonomia-aukera ugari ematen dituzte.

2.5 HIZKUNTZA-TEKNOLO-GIAREN ERRONKAKAzken urteotan hizkuntza-teknologiak aurrerapenhandi samarra egin badu ere, aurrerapen teknologikoaeta produktuen berrikuntza erritmomotelean doaz gauregun. Ezin dugu hamar edo hogei urtez itxaron gure in-guru eleaniztuneko komunikazioa eta produktibitateaareagotuko duten hobekuntza nabariak agertu arte.

6

Page 15: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Aurrerapen teknologikoa eta produktuenberrikuntza erritmo motelean doaz gaur egun.

Erabilera handiko hizkuntza-teknologiak – hala nolatestu prozesadoreetako ortografia- eta gramatika-zuzentzaileak – hizkuntza bakarrean izaten dira norma-lean, eta hizkuntza gutxi batzuetan bakarrik egon ohidira eskuragarri. Komunikazio eleaniztunerako apli-kazioek sofistikazio-maila bat eskatzen dute. Itzulpenautomatikoa eta lineako zerbitzuak – esaterako, Goo-gle Translate edo Bing Translator – apartak dira doku-mentu baten edukien gutxi gorabeherako itzulpeneta-rako. Baina, lineako zerbitzu eta IA aplikazio profesio-nal horiek hainbat zailtasun izaten dituzte oso itzulpenzehatzak eta osatuak behar direnean. Okerreko itzulpenbarregarri ezagunak asko dira (hor ditugu, esaterako,Bush edo Kohl izenen itzulpen literalak), eta agerianuzten dute zer-nolako erronkei egin behar dien aurrehizkuntza-teknologiak.

Aurrerabide teknologikoakarinago joan beharra du.

2.6 HIZKUNTZAREN JABETZEAGIZAKIENGAN ETAMAKINETANOrdenagailuek hizkuntza nola tratatzen duten eta hiz-kuntzaren jabetzea horren zaila zergatik den azaltzeko,ikus dezagun gizakiok nola jabetzen garen lehen eta bi-garren hizkuntzez, eta, gero, itzulpen automatikoko sis-temen funtzionamenduaren eskema egingo dugu – zer-baitengatik du hizkuntza-teknologiaren alorrak horrenlotura estua adimen artifizialaren arloarekin.

Gizakiak bi modutan jabetzen dira hizkuntza-gaitasunez. Hasieran, hizkuntza bateko hiztunen ar-teko elkarreragina entzunez ikasten du umeak hizkun-tza hori. Hizkuntzaren erabiltzaileek – gurasoek, anai-arrebek edo beste senide batzuek, esaterako – eratutakohizkuntza-adibide zehatzak entzuteak lehen hitzak etaesaldi laburrak esaten laguntzen die bi urte ingurukoumeei. Hizkuntzak ikasteko antolaketa genetiko bere-ziak eman digu gizakioi gaitasun hori.Normalean, bigarren hizkuntza ikasteak ahalegin askozhandiagoa eskatzen du, umea ez baitago bertako hiztu-nen hizkuntza komunitate baten barruan. Eskola ga-raian, atzerriko hizkuntzez jabetzeko, haien egitura gra-matikala, hiztegia eta ortografia ikasten dira liburueta-tik eta ikasmaterialetatik, eta, haietan, arau abstraktu,taula eta adibidezko testuen bidez azaltzen da hizkun-tza. Atzerriko hizkuntza bat ikasteak denbora asko etaahalegin handia eskatzen ditu, eta orduan eta zailagoada adinean aurrera egin ahala.

Gizakiak bi modutan jabetzen dirahizkuntza-gaitasunez: adibideetatikikasiz eta arau linguistikoak ikasiz.

Hizkuntza-teknologiaren bi sistema-mota nagusiak gi-zakien antzera jabetzen dira hizkuntza-ahalmenez. Me-todo estatistikoan, hizkuntza bakarrean idatzitako adi-bidezko testu zehatzen bildumetatik edo bi hizkun-tza edo gehiagoko testu paralelo deritzenetatik lortzenda hizkuntza-ezagutza. Ikaskuntza automatikoko algo-ritmoen nolabaiteko hizkuntza-gaitasunak adieraz de-zake hitzak, esaldi laburrak eta esaldi osoak zuzen-tasunez nola erabili hizkuntza batean edo nola itzulihizkuntza batetik bestera. Metodo estatistikoetarakobehar den esaldi-kopurua ikaragarria da. Lanaren ka-litatea handiagotu egiten da zenbat eta testu gehiagoaztertu. Milioika esaldiko testuen gainean proba-tzen dituzte maiz sistema horiek. Horregatik ibil-tzen dira bilatzaileen hornitzaileak ahalik eta idatzizko

7

Page 16: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

material gehien bildu nahian. Testu-prozesadoreenortografia-zuzentzaileek, linean eskuragarri dagoen in-formazioak eta Google Search eta Google Translate be-zalako itzulpen-zerbitzuek metodo estatistikoa (datuekgidaturikoa) dute oinarrian.Erregeletan oinarritutako sistemak dira bigarrenhizkuntza-teknologia nagusia. Hizkuntzalaritzako, hiz-kuntzalaritza konputazionaleko eta informatikako adi-tuek azterketa gramatikalak (itzulpen-arauak) kodetueta hiztegi-zerrendak (lexikoiak) osatzen dituzte. Erre-geletan oinarritutako sistema ezartzeko, denbora etaesku-lan asko behar da. Era berean, oso aditu espeziali-zatuak behar dira halako sistemak sortzeko. Erregeletanoinarritutako itzulpen automatikoko sistema garrantzi-tsuenetako batzuek etengabeko garapena izan dute az-ken hogei urteotan. Erregeletan oinarritutako sistemenalde ona da adituek kontrol zehatzagoa lor dezaketelahizkuntzaren prozesamenduaren gainean. Hortaz, so-wareko akatsak sistematikoki zuzendu daitezke eta feed-back zehatza eman dakioke erabiltzaileari, erregeletanoinarritutako sistemok hizkuntza ikasteko erabiltzendirenean batik bat. Finantza-sarrera mugatuak direla

bide, erregeletan oinarritutako hizkuntza-teknologiahizkuntza handietan bakarrik erabil daiteke.

Sistema estatistikoaren eta erregelatan oinarritutako sis-temaren indarguneak eta ahuleziak osagarriak izan ohidirenez, gaur egungo ikerketen joera da bimetodologiakbatera lantzen dituen metodo hibridoa erabiltzea. Halaeta guztiz ere, metodo horiek, aplikazio industrialetanez dute izan, orain arte, ikerketa-laborategietan bezainemaitza onik.

Kapitulu honetan ikusi dugunez, gaur egungoinformazio-gizartean oso erabiliak diren aplikazio as-kok hizkuntza-teknologiak dituzte oinarrian. Areagogertatzen da hori Europako ekonomiaren eta informa-zioaren esparruan, hizkuntza anitzeko komunitatea delakontuan hartzen badugu. Hizkuntza-teknologiek urtegutxian aurrerapauso handiak eman badituzte ere, bideluzea dago, oraindik ere, hizkuntza-teknologietan oina-rritutako sistemen kalitatea hobetzeko. Datozen ata-letan, euskarak Europako informazio-gizartean dueneginkizuna deskribatuko dugu, eta, halaber, euskarazkohizkuntza-teknologien egungo egoera aztertuko dugu.

8

Page 17: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

3

EUSKARA EUROPAKO INFORMAZIOGIZARTEAN

3.1 DATU OROKORRAKEuskara, Nafarroako Erresumako hizkuntza nagusia ze-lako latinez “Lingua Navarrorum” esaten zitzaiona,mendebaldekoEuropanbizirik dagoenhizkuntza prein-doeuropar bakarra da. Hizkuntza bakartutzat jotzenda, ez baitzaio loturarik aurkitu beste hizkuntzekin, an-tzinako akitanierarekin izan ezik. Euskararen jatorrianahiz beste hizkuntzekiko duen lotura gai gatazkatsuaketa interesgarriak dira oraindik ikerlarientzat.

Euskarak 800.000 hiztun inguru ditu.

Euskara, gaur egun, eskualde txiki batean hitz egitenda, Pirinioen mendebaldean, Espainiaren eta Frantzia-ren artekomugarenbi aldeetan, euskaldunekEuskalHe-rria deritzen eskualdean. Hizkuntza lurrak galduz joanda hainbat mendez, hegoaldean batez ere. Duela gutxi,Francoren diktaduraren garaian, euskara erabiltzea de-bekatu zutela eta, hizkuntzak berreskuratu ezinezko ga-lera izan zuen.Ikaragarrizko ahaleginak egin ziren hizkuntza bizibe-rritzeko; batez ere, 1960ko hamarkadan, ikastolen so-rrerari esker euskara hezkuntza-sisteman sartu zenean;klandestinitatean hasierako urteetan. Alabaina, euska-raren berreskuratze-prozesua ez zen hasi 1980ko hamar-kadara arte, autonomiak sortu eta Eusko Jaurlaritzarihizkuntzaren gaineko eskumen politikoak eman zitzaiz-kion arte.

Ahalegin ikaragarriak egin ziren arren, euskara hizkun-tza “ahul” moduan agertu zen 2009an Unescok Mun-duko Arriskupeko Hizkuntzen Mapan [5] atera zue-nean. Gaur egun, kalkulatzen da Euskal Herriko biz-tanleriaren [6] % 26 inguruk hitz egiten duela euskara,Espainiaren administraziopeko aldean nahiz Frantzia-ren administraziopeko aldean, baina bietan ez du estatusbera.Alde batetik, Euskal Herriaren Espainiako partea bi es-kualde politikotan banatuta dago: Euskal AutonomiaErkidegoan, euskara koofiziala da gaztelaniarekin ba-tera, baina gaztelaniaren alderako zenbait desberdin-tasunekin; Nafarroako Foru Erkidegoan, hiru eremudaude, euskararen legezko estatusaren araberakoak: eus-kalduna, erdalduna eta mistoa. Hizkuntzarekiko atxiki-mendua eta hizkuntza-eskubideak ezberdinak dira hirueremu horietan. Bestetik, Frantziako aldean, PirinioAtlantikoetako Departamentuaren mendebaldeko par-tean hitz egiten da euskara, baina inoiz ez du izan ino-lako legezko estatusik eta ez da ofiziala inongo erakun-detan. Dena dela, duela urte batzuk (2004an), erakundepubliko bat sortu zen Iparraldean euskara bultzatzekohelburuarekin.Ahozko euskarak oso dialekto-sakabanaketa handia du.Gaur egun, onartzen da sei euskalki daudela, elkarrenartean alde nabariak dituztenak. Euskara batua ez zenofizialki ezarri 1968. urtera arte, orduan egin baitzuenEuskaltzaindiak [7] lehen estandarizazio-proposamena.Euskalkiok ezberdintasun nabariak dituzte hainbat al-derditan: hiztegia, fonetika, morfofonologia eta proso-

9

Page 18: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

dia, azentua eta intonazioa. Euskalkiak ez dira entitatehomogeneoak; etengabe aldatzen dira batetik bestera,eta, batzuetan, ez dago hain argi bi edo hiruren artekomuga.

3.2 EUSKARARENBEREZITASUNAKEuskara hizkuntza eranskaria eta flexio handikoa da, etahizkuntza ergatibo-absolutiboa izatea da bereizgarri na-gusia. Horrek esan nahi du aditz iragangaitz baten sub-jektua absolutibozko kasuan (markatu gabekoan) joanohi dela, eta kasu hori bera erabiltzen dela aditz iragan-korren objektu zuzenarentzat; aditz iragankorraren sub-jektuabeste era bateanmarkatzenda, ergatibozkokasua-ren bidez: -k atzizkia.Euskarapostposiziozkohizkuntzada; beraz, kasuzko etapostposiziozko esaldiak sintagmaren amaieran atzizkibat edo gehiago gehituta eratzen dira, eskema honenarabera:

erroa + (artikulua) + (numeroa) + [kasua(k)]

Adibidez, “mutilarenagana” honela dago osatuta:«mutil+a+Ø+r+en+gan+a», – “mutil” lema edo izen-erroa da; “a”, artikulua; “Ø”, singularreko marka; “r”,epentesi-partikula; “en”, edutezko genitiboa; “gan” izakibizidunen marka; eta “a”, adlatiboa.Ezaugarri garrantzitsua da hori, hizkuntza naturaleaneta hizketa-prozesamenduan kontuan hartu beharre-koa; bada, izen sintagma bakoitzak 17 deklinabide-kasuizan ditzake, eta lau aldiz forma gehiago har ditzakezehaztasunaren eta numeroaren arabera. Hasierako 68forma horiek are gehiago alda daitezke esaldiko bestezati batzuen arabera – hango izenen arabera ere deklina-tzen direlako. Kalkulatzen da bi mailatako errekurtsioa-rekin euskarazko izen batek 275 deklinabide-marka izanditzakeela, eta hori oso ohiko fenomenoa [8] da, gai-nera. Horrek aditzera ematen du beharrezkoa dela hain-

bat eratako bukaera horiek guztiak tratatzeko modu bataurkitzea, oinarrizko hiztegi batetik abiatuta.Aditzak dira euskara hizkuntza eranskaria dela erakus-ten duen beste adibide bat. Aditz laguntzailea aditznagusi gehienekin batera joan ohi da, eta, subjektuare-kin ez ezik, esaldian dagoen beste edozein objektu zu-zen edo zeharkakorekin ere komunztatzen da. Euro-pako hizkuntzen artean, pertsona askorekiko komunz-tadura hori euskaran, Kaukasoko hizkuntza batzue-tan eta hungarieran baino ez da topatu (guztiak ez-indoeuroparrak). Euskaran, aditzen eskema honi jarrai-tzen zaio:

[aditz-erroa + aspektu-marka] [aditz laguntz.]

Adibidez, euskara batuan, «esaten zenizkidaten» ho-nela dago osatuta: «esan» (aditz-erroa) + «ten»(maiztasun-aspektua) eta «zen+i+zki+da+Ø+te+n»aditz laguntzailea («zen» bigarren pertsonarenergatibo-marka da; «i», aditz laguntzailearen erroa;«zki», hirugarren pertsona pluralaren absolutibo-marka; «da», lehen pertsona singularraren datibo-marka; «Ø», indikatibo marka; «te», pluralarenergatibo-marka; eta «n», iraganaldiko marka). Adi-tza horren konplexua izanda, aditz laguntzaile bakoitzamorfemetan banatu beharrean osorik tratatu ohi da hiz-kuntza naturalaren prozesamendurako ikerketetan.Esaldiko hitzen hurrenkerari dagokionez, oinarrizkoeraikuntza sintaktikoa subjektua-objektuak-aditzada (gaztelanian, frantsesean eta ingelesean, aldiz,subjektua-aditza-objektuak da ohikoena). Esaldi ba-rruko sintagmen hurrenkera alda daiteke mintzagaiarenarabera, baina sintagma barruko hitzen hurrenkera zu-rruna da normalean. Bada, argitu behar da euskararensintagma-hurrenkeramintzagaia-galdegaia dela; hau da,esaldi neutroetan (norbaiti gertaera baten berri ematekoesaldiak, kasurako), mintzagaia ematen da lehenik, etagaldegaia ondoren. Halako esaldietan, aditz-sintagmaamaieran joan ohi da. Laburbilduz, galdegaia aditz-sintagmaren aurre-aurrean doa.

10

Page 19: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Galderetan ere betetzen da arau hori; esaterako, «Zerda hau?» edo«Hau zer da?» esan daiteke, baina bietan«zer» galdetzailea «da» aditzaren aurre-aurrean doa.Arau hori horren garrantzitsua da euskaran, non bestehizkuntzetan ematen diren euskararen deskribapen gra-matikaletan ere euskarazko hitza (galdegai) erabiltzenbaita.Euskararen ortografia fonemikoa da ia erabat: grafemabakoitza fonema bati dagokio, eta, beraz, hitz batenahoskera erraz iragar daiteke idatzizko formatik. Denadela, badaude salbuespen gutxi batzuk: <l> eta <n> le-trek aurretik <i> letra eta atzetik bokal bat badute, bus-tidura egin ohi da; adib. mutila Ñ <mutiLa>. Besteadibide bat “ez” ezezko partikularen amaierako kontso-nante fonemarena da, atzetik datorren fonema ahoskabebihurtzen baitu; adib. ez dira Ñ <eztira>.

Euskarak sei soinu bokaliko eta hogeitahamabost soinu kontsonantiko ditu.

3.3 AZKEN GERTAERAKEuskaltzaindiak, euskal hizkuntzaz arduratzen den era-kunde ofizialak, euskararen forma estandarizatua aterazuen 1960ko hamarkadan, Euskara Batua izenekoa.Euskara egoera formaletan (hezkuntzan, hedabideetan,literaturan…) eta euskal hiztun guztiek ulertzeko eranerabil zedin asmatu zen euskara batua, eta gaur egun erehorretarako erabiltzen da batik bat.Literatura klasikoko tradizioa dela eta, euskara batuaerdialdeko euskalkian eta nafar-lapurteran oinarritzenda nagusiki. Ertzetako euskalkiak oso ezberdinak dira,nahiz etamendebaldekoahiztun gehiendituenetakobatizan erdialdekoarekin batera.Euskara batuak oinarri sendoak ditu, eta aurrerapausoakematen ari da sintaxiaren eta naturaltasunaren aldetik.Gaur egun, euskara ikasten duten ia guztiek euskara ba-tua ikasten dute. Horren ondorioz, fenomeno berezi

bat gertatu da Euskal Herri osoan: euskaldun zaharrakberen euskalkian mintzatzen dira herriko jendearekineta euskara batuan euskaldun berriekin. Mendebaldean,hango euskalkiaren eta batuaren arteko desberdintasunnabariak direla eta, euskara-ikasleei iruditzen zaie ikas-ten ari direnhizkuntzaosourrundagoela jendearen aho-tan dabilen euskara horretatik. Bestalde, jada badaudeeuskara batua ama-hizkuntzatzat duten euskaldun ba-tzuk, euskaldun berri askok beren umeei euskaraz egiteaerabaki baitute, nahiz eta beren lehen hizkuntza gazte-lania izan.

Hala eta guztiz ere, euskararen teorialariek [9] gero etaargiago ikusten dute, euskararen geroa bermatuko bada,beharrezkoa dela euskara batua ez ezik egungo euskal-kiak ere sustatzea. Hortaz, euskalkiek izango dute nola-baiteko garrantzia euskaraz eskainiko diren HTko apli-kazioetan.

Euskal hizkuntza-teknologiaren komunitatea eta ikerla-riak ohartu dira zer-nolako garrantzia duten teknolo-giek hiztun gutxiko hizkuntza batek XXI. mendean au-rrera egin dezan, eta sekulako ahaleginak egin dituzteeuskara gehien erabiltzendirenhizkuntzenmaila bereanjartzeko teknologia aldetik. Eskarmentu zientifiko sen-doa du euskarak, bai eta aldameneko zenbait hizkuntzekere, hala nola katalanak eta galizierak; hori ez da Euro-pan beste inon gertatu, ez eta eskualdeko hizkuntza ba-tzuek hizkuntzarteko produktu eta zerbitzuak garatzeaere.

Argi dago zeinen garrantzitsua den euskararakohizkuntza-teknologiaren industria garatzea, eta horre-xegatik sortu da Langune [10] elkartea ere. Langunehizkuntzen industriaren alorreko EuskalHerriko enpre-sen elkartea da. Elkartea 2010ean sortu zen, eta itzul-pengintzaren, edukien, irakaskuntzaren eta hizkuntza-teknologiaren alorreko 30 enpresa baino gehiago bil-tzen ditu. Languneren helburu nagusia da hizkuntza-teknologiaren sektorea garatzea, eta erreferentzia-puntubilakatzea Europako hizkuntzen industriarentzat, aha-

11

Page 20: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

leginak biderkatu gabe eta sinergiak lortuz. Langunehasi besterik ez da egin, baina urrats ikaragarriak ari daegiten.

3.4 HIZKUNTZA-LANKETAEuskararen ordezkari nagusia Euskaltzaindia da, euskalhizkuntzaren akademia ofiziala (1919). Hizkuntza iker-tzen du, babesten saiatzen da eta erabilera-arauak ezar-tzen ditu. Onarpen ofizial osoa du Espainian (1976),eta onura publikorako kultura-elkartetzat onartzen daFrantzian (1995).Euskal Autonomia Erkidegoan euskara hizkuntza ofi-zial deklaratu zenetik, Eusko Jaurlaritzak hainbat araueta lege egin ditu euskararen erabilera babesteko eta bul-tzatzeko. Hainbat erakunde sortu dira harrezkero: Eus-kararen Aholku Batzordea (1982), EiTB (Euskal IrratiTelebista, 1982), HABE (Helduen Alfabetatze eta Be-rreuskalduntzerakoErakundea, 1983) eta beste hainbat.Euskara Biziberritzeko Plan Nagusia (EBPN) 1998anjarri zen abian, tresna estrategiko moduan eta hiru hel-buru nagusirekin: adostasun batera iritsi erakundeenxede eta ekintzen artean, eratze-programetarako lehen-tasunak ezarri eta euskararen alde lan egiten duten era-kundeen, enpresen eta elkarteen jarduerak koordinatu.Plan estrategiko horren barruan, aldian behin egitendiren inkesta soziolinguistikoak baliagarriak dira bestehelburu batzuk eta zuzenketa-ildoak ezartzeko.Eusko Jaurlaritzak badu euskarari buruzkoweb-atari batwww.euskara.euskadi.net, eta, han, hizkuntzari, harenhistoriari eta gaur egungo egoerari buruzko informazioaez ezik, hizkuntzarekin lotutako era guztietako zerbi-tzu, produktu eta aplikazioetarako estekak ere badaude– eratze-programa publikoetarakoak barne.Frantziako aldean, “Euskararen Erakunde Publikoa”[11] 2004an sortu zen, interes publikoko elkarte mo-duan, lau erakunde publiko – herri- edo eskualde-erakundeak – eta estatua elkartuta, eta eskualdeanhizkuntza-politika bateratua sortu eta ezartzeko asmoz.

3.5 HIZKUNTZA HEZKUNTZANEuskal Autonomia Erkidegoan, 1983an sartu zen eus-kara hezkuntza-sistema publikoan, Lehen eta BigarrenHezkuntzan euskararen eta gaztelaniaren erabilera arau-tzen duen legearekin. Lehen eta Bigarren Hezkuntza-rako, hiru eredu sortu ziren, eta ikastetxe bakoitzari au-keran eman zitzaion zein eredu eskaini.

A ereduan, komunikazio-hizkuntza gaztelania da, etaeuskara “Euskal hizkuntza eta literatura” irakasgaianematen da. D ereduan – euskaraz, c letra ez da erabil-tzen, normalean –, euskara da komunikazio-hizkuntza,eta ikasgai bat ematen da gaztelaniaz, “Gaztelania eta li-teratura”. B ereduan edo tarteko ereduan, ikasgai batzukgaztelaniaz ematen dira (batez ere, irakurketa eta idaz-keta eta matematika) eta beste batzuk euskaraz (nagu-siki, zientziak eta plastika).

Alabaina, A eredua gero eta ikasle gehiago galduz joanzen, eta B eredua gero eta ikasle gehiago hartuz, HaurHezkuntzan eta LehenHezkuntzan batik bat – ikasleenerdiak baino gehiagok D ereduan ikasten du aldi horie-tan. Dena den, 15 urteko ikasleen % 85ek gaztelaniazegin zituen PISA programaren [12] azterketak, eta %15ekbakarrik egin zituen euskaraz; horrek argi uztendugaztelania dela hizkuntza nagusia hezkuntzan.

Nafarroako Erkidegoan, euskarak hainbat mailatako es-tatus ofiziala duen tokian, laugarren eredu bat ere jarrizuten, euskara derrigorrezko ikasgai gisa ere eskaintzenez zuena.

Iparraldeko probintziei dagokienez, euskarazko LehenHezkuntza eskola-sare pribatu batek ematen du, Seas-kak, eta, gaur egun, 2.700 bat ikasle ditu 29 ikastetxetan– Bigarren Hezkuntzako ikastetxe bat eta lizeo bat ba-karrik daude.

Azkenaldian, eredu berriak ari dira proposatzen eta pro-batzen, ingelesaren ikasketa goiztiarrari garrantzia ema-ten dioten ereduak. Eusko Jaurlaritzak eredu hiruele-duna jarri dumartxanduela gutxi, eta,Nafarroan, berriz,gaztelaniaz eta ingelesez ematen den hezkuntza elebi-

12

Page 21: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

duna jarri dute, nahiz eta euskara aukeran eskaintzendu-ten. Hezkuntza-maila handiagoetan, gaztelania da na-gusi, ezbairik gabe. Hiru unibertsitate daude, eta pu-blikoa, bakarra: Universidad del País Vasco / EuskalHerriko Unibertsitatea (UPV/EHU). EHUk euskarazikasteko aukera ematen du, eta, euskaraz eta gaztelaniazeskaintza bera egiteko sekulako ahaleginak egin direnarren, oso gradu gutxi ikas daitezke euskara hutsean.Nabarmentzekoa da Hizkuntzaren Azterketa eta Proze-samendua [13] master eta doktorego-programa euskarahutsean ematen dela 2001. urtetik. Mondragon uniber-tsitate pribatuak euskaraz eskaintzen ditu gradu gehie-nak, eta master batzuk ere bai. Hirugarren unibertsita-teak, Deustuko Unibertsitateak, ikasketa batzuk bainoez ditu eskaintzen euskaraz.

3.6 NAZIOARTEAN2009ko urtarriletik, Etxepare Euskal Institutua da eus-kal hizkuntza eta kultura mundu osoan zabaltzeaz ar-duratzen den euskal erakunde publikoa. Institutu ho-rren asmoa da euskararen irakaskuntza, ikaskuntza etaerabilera bultzatzea mundu osoan, eta euskara hizkun-tza komuntzat daukaten komunitate guztien ekarpenakbiltzen ditu. Institutuaren xedea da, halaber, euskalkultura nazioarteko komunitatean barreiatzea, euskarahitz egiten duten talde horiei erreferentzia berezia egi-nez, euskal diaspora barne. Historian, euskaldun askokalde egin dute EuskalHerritikmunduko beste txoko ba-tzuetara, arrazoi ekonomiko eta politikoak direla eta;euskal diaspora izena jarri zitzaion aberritik kanpo biziden euskal jatorriko jendeari. Gaur egun, euskal jato-rriko jende dezente bizi daTxilen, Argentinan, Bolivian,Ekuadorren, Kolonbian, Kuban, Mexikon, Venezuelan,Kanadan eta Estatu Batuetan. Haietan guztietan, euskalkulturaguneak daude, Euskal Etxeak, helburu bera lor-tzeko sortutakoak: euskal kultura eta nortasunari eus-tea. 24 herrialdetako hiri handi gehientsuenetan daudeEuskal Etxeak [14].

Euskararen jatorriak eta egitura bereziak euskal hizkun-tza eta kultura ikasteko interesa piztu dute. Gaur egun,Amerikako eta Europako 13 herrialdetako 29 unibertsi-tatetan ikas daiteke.Nazioarteko erakundeetan duen tokiari dagokionez, Es-painiako gobernua saiatu da Europako erakundeen hiz-kuntza ofizialetan euskara sartzen, katalanarekin eta ga-legoarekin batera. Baina, gaur egun, ez dira hizkuntzaofizialtzat jotzen; erdiofizialak dira, eskoziera, gaelikoaeta galesarekin batera. Euskara oso leku gutxitan era-bil daiteke: EskualdeetakoLantaldearen etaKontseilua-ren saioetan hitz egin daiteke, baina Europar Legebil-tzarraren osoko bilkuretan, ez. Herritarrek eskubideadute, halaber, Europako erakundeei euskaraz idaztekoeta erantzuna hizkuntza berean jasotzeko, baina Espai-niako Gobernuaren bitartez egin behar dute beti, etahark ordaindu behar ditu gastuak.Euskara sartuta dago Europar Batasuneko Eskualdee-tako Hizkuntzen eta Hizkuntza Txikien Zerrendan[15], eta, beraz, jasotzen du laguntza Europar Lege-biltzarrak eskualde-hizkuntzetako eta hizkuntza txikie-tako ekintzak sustatzeko egindako ebazpenetatik.

Mundu osoan zehar 29unibertsitatetan euskara irakasten da.

Hizkuntza-teknologiak beste ikuspegi batetik egindiezaioke aurre erronka horri, atzerriko hizkuntzakotesturako itzulpen automatikoa edo hizkuntzartekoinformazio-berreskurapena bezalako zerbitzuak eskai-niz, eta, hala, lagundu egin dezake berezko ingeles-hiztunak ez direnek dituzten desabantaila pertsonal etaekonomikoak murrizten.

3.7 EUSKARA INTERNETEN2010. urtearen lehen hiruhilabetekoan, Euskal He-rriko etxeen % 61,4tan (513.000) ordenagailua zegoen.

13

Page 22: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

460.000 familia baino gehixeago zeuden, eta horietatik% 54,9k Interneterako sarbidea zuten beren etxeetan.Horrenbestez, 15 urte edo gehiagoko milioi bat lagunbaino gehiago Internet-erabiltzaileak ziren. Gehienekesan zuten egunero konektatzen zirela. % 22,9k baka-rrik erabiltzen zuen euskara Interneten. Hala eta guz-tiz ere, euskaldunen artean Internet-erabiltzaileen taldesendo eta gogotsu bat dago. Euskarazko blogek, euska-razko Wikipediak nahiz lineako zerbitzuek eta doakosowarean oinarritutako sistema eragile eta tresnen ko-kapenak euskara eta euskal kultura Interneten nahiz IK-Tetan egotearen aldeko apustua egin dute, eta, hala,euskara zabaldu dute. Esaterako, Euskal Wikipediak120.000 artikulu baino gehiago ditu; wikipedia guztienartean artikulu gehien dituen 36.a da. Eta ahalegin han-diak egin dira soware-programa [16, 17] eta baliabidearruntak [18, 19, 20, 21, 22] euskaraz eskaintzeko.

Interneteko 1.000 webgune garrantzitsuenenartean, % 0,5etan erabiltzen da euskara.

Lehen mailako domeinu berri bat erregistratu da, .eus,eta 2012. urtean jarriko da abian. Aurretiko izen-emateak 193 dira jada. Proposaturiko .eus domeinuaeuskal hizkuntza eta kulturaren komunitatea Interne-ten ordezkatuko duen izena izango da. Ikur hori eus-

kal kultura eta euskara sustatzeko tresna bihurtuko da,eta, alde horretatik, .eus domeinua mekanismo era-ginkorra izango da euskara mundu osoan estandariza-tzeko. .eus domeinuak, Interneteko toki birtualean, eus-kara modu eraginkorrean sustatzen dela ziurtatuko du,eta, era berean, nazioartearen onespena bermatuko du.Era berean, .eus domeinuak Interneten kulturanizta-suna indartu eta zabalduko du, hizkuntza- eta kultura-komunitateei beren domeinua izaten uzteak Internetenbihotz-bihotzean jartzen baitu kulturaniztasuna. Hiz-kuntzarekin eta kulturekin zerikusia duten domeinuakindargarri eta onuragarri dira hizkuntza- eta kultura-komunitate horientzat, baina Internetentzat beraren-tzat ere bai [23].

Euskal Wikipediak 123.787 artikuluditu, eta 36. Wikipediarik handiena da,

artikulu kopuruari dagokionez.

Hizkuntza-teknologiarentzat garrantzitsua da Internetgero eta indartsuagoa izatea, bi arrazoirengatik. Bate-tik, eskuragarri daudenhizkuntzari buruzkodatudigita-lizatuak iturri aberatsa dira hizkuntza naturalaren erabi-lera aztertzeko, informazio estatistikoa bilduz nagusiki.Bestetik, hizkuntza-teknologia erabiltzen duten era as-kotako aplikazio-eremuak eskaintzen ditu Internetek.

14

Page 23: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

4

HIZKUNTZA-TEKNOLOGIAEUSKARARAKO

Hizkuntza-teknologiak giza hizkuntzarekin lan egitekoespezializatutako informazio-teknologiak dira. Horre-gatik, giza hizkuntzaren teknologia izenpean ere ezagu-tzen dira maiz teknologia hauek. Giza hizkuntza ahoznahiz idatziz agertzen da. Hizkuntza-komunikaziokomodurik zaharrena eta naturalena hizketa bada ere, in-formazio konplexua eta giza ezagutzaren zati handienatestu idatzienbidez gorde eta transmititzenda. Hizketa-eta testu-teknologiek bimodu horietan prozesatzen edosortzen dute hizkuntza. Baina, hizkuntzak baditu hiz-ketan nahiz testuetan agertzen diren alderdiak ere, halanola hiztegiak, gramatikaren zati handi bat eta esal-dien esanahia. Hortaz, hizkuntza-teknologiako atalasko ezin dira bietako batean sartu, hizketa-teknologianala testu-teknologian. Horien artean daude hizkun-tza ezagutzarekin lotzen duten teknologiak. 1. irudiakhizkuntza-teknologiaren egoera irudikatzen du. El-karrekin komunikatzen garenean, beste komunikazio-modu batzuk eta beste informazio-bide batzuk erabil-tzendituguhizkuntzarekin batera. Hizketarekin batera,imintzioak eta aurpegierak erabiltzen ditugu. Testu di-gitalak irudiekin eta hotsekin lagunduta joan ohi dira.Filmetan, hizkuntza ahoz eta idatziz ager daiteke. Beraz,hizketa- eta testu-teknologiak gainjarri egiten dira etainterakzioan daude askotariko komunikazioa eta multi-media dokumentuak errazago prozesatzeko aukera ema-ten duten beste teknologia askorekin.

4.1 HIZKUNTZA-TEKNOLOGIAAPLIKATZEKO ARKITEKTURAKHizkuntza prozesatzeko soware-aplikazio ohikoene-tan, hizkuntzaren hainbat alderdi eta haien zereginakkopiatzen dituzten zenbait osagai egon ohi dira. 2. iru-dian, testuak prozesatzeko sistema batean topa dezake-gun arkitektura bat ageri da, asko sinplifikatuta. Lehe-nengo hiru moduluek sarrerako testuaren egitura etaesanahia hartzen dute kontuan:

‚ Aurretratamendua: datuak garbitu, formatuakendu, sarrerako hizkuntza detektatu eta abar.

‚ Analisi gramatikala: aditza eta haren objektuak,mo-difikatzaileak eta abar aurkitu; esaldiaren egitura de-tektatu.

‚ Analisi semantikoa: desanbiguazioa (“hori” hitzarenzein adierada egokia testuinguru jakinbatean?), ana-forak eta erreferentziako adierazpenak (adib. “bera”edo “autoa”) ulertzea; esaldi baten esanahia ordena-gailuak irakurtzeko moduan eman.

Zeregin espezifikoko moduluek era askotako eragike-tak egiten dituzte, hala nola sarrerako testu baten la-burpen automatikoa, datu-baseko bilaketak eta bestehainbat. Hemen behean, aplikazio-eremu komunakerakutsiko ditugu, eta eremu horietako modulu nagu-siak nabarmendu. Hor ere, aplikazioen arkitekturakoso sinplifikatuta eta idealizatuta ageri dira, hizkuntza-teknologiako (HT) aplikazioak edonork ulertzeko mo-

15

Page 24: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Teknologia multimedia eta multimodalak

Hizkuntza teknologiak

Hizketa teknologiak

Testu teknologiak

Jakintza teknologiak

1: Hizkuntza-teknologien ingurua

duan azaltzearren. Tresna eta baliabide garrantzitsue-nak azpimarratuta daude testuan, eta kapitulu amaie-rako taulan ere ageri dira. Aplikazio-eremukomunei bu-ruzko ataletan, dagokion euskarazko esparruan laneanari diren industrien ikuspegi orokor bat ere ematen da.

Aplikazio-eremu komunak aurkeztu ondoren, HTenikerketa eta hezkuntzako egoeraren azalpen labur batemango dugu, eta, bukatzeko, egin diren eta egiten aridiren ikerketa-programen berri emango dugu. Atal ho-nen amaieran, adituaren ikuspuntutik HTen tresna etabaliabide komunen egoera nolakoa den azalduko dugu,hainbat alderditatik (eskuragarritasuna, heldutasuna etakalitatea). Taula honek ikuspegi orokor on bat ematendu euskararako HTen egoeraren gainean.

4.2 APLIKAZIO-EREMUKOMUNAKAtal honetan, HTen tresna eta baliabide garrantzitsue-nak aztertu, eta euskarazkoHTen jardueren ikuspegi batemango dugu. Tresna eta baliabide garrantzitsuenak na-barmenduta daude testuan, eta kapitulu amaierako tau-lan ere ageri dira.

4.2.1 Hizkuntza-zuzentzailea

Testu-prozesadore bat erabili duen edonork egindu topo ortografia-zuzentzaile batekin – ortografia-akatsak markatu eta zuzenketak proposatzen dituenosagaia da. RalphGorin-ek ortografia zuzentzeko lehenprograma asmatu zuenetik berrogei urte igaro ondoren,gaur egungo hizkuntza-zuzentzaileek ez dute, besterik

Sarrerako testua

Aurreprozesaketa Analisi gramatikala Analisi semantikoa Atazaren araberako moduluak

Irteera

2: Testua prozesatzeko aplikazioen ohiko arkitektura

16

Page 25: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

gabe, erauzitako hitzen zerrenda bat ortografia zuze-neko hitzen hiztegi batekin alderatzen; gero eta sofisti-katuagoak dira.Morfologiarako hizkuntzaren menpeko algoritmoezgainera (adibidez, plurala egiteko), batzuk gai dira orainsintaxiarekin lotutako akatsak identifikatzeko, hala nolaaditz baten falta edo pertsona edo numeroan subjek-tuarekin komunztatzen ez duen aditza (“Haiek gutunaidazten ari *da”). Alabaina, eskura dauden ortografia-zuzentzaile gehienek (Microso Word-ekoa barne) ezdute akatsik aurkituko Jerrold H. Zar-en poema bateko(1992) lehen bertso honetan [24]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

Mota horretako akatsak aurkitzeko, testuingurua az-tertu beharra dago maiz, hala nola euskaraz ergatiboaerabili behar den ala ez erabakitzeko orduan:

‚ Liburua neskak dauka

‚ Irakurlea neska da.

Hizkuntza zuzentzailea lortzeko (3), bietakoren bategin behar da: hizkuntza espezifikoko gramatika-arauak formulatu – trebetasun eta eskulan handia eska-tzen du horrek – edo hizkuntza-eredu estatistiko dela-koa erabili. Ereduok hitz jakin bat inguru zehatz ba-tean (hots, aurretik eta atzetik dituen hitzak) atera-tzeko zer probabilitate dagoen kalkulatzen dute. Adi-bidez, neskak dauka hitz-sekuentzia agertzeko proba-bilitatea neska dauka agertzekoa baino askoz handia-goa da. Hizkuntza eredu estatistikoa automatikoki ateradaiteke hizkuntza-datu zuzenen kantitate handietatik(hots, corpusetatik). Orain arte, ingelesezko hizkuntza-datuetan oinarrituta garatu eta ebaluatu dira metodohoriek. Horrek ez du esan nahi, ordea, euskarara zuze-nean transferitu daitezkeenik, euskarak inflexio handia-

goa eta morfologia eranskaria du eta. Egia esanda, zail-tasun izugarriak daude euskararako hizkuntza-ereduaksortzeko, ezinezkoa baita balizko hitz-forma guztiak bil-tzea.Hizkuntza-zuzentzailea ez da testu-prozesamendukotresnetan bakarrik erabiltzen; testuak sortzen lagun-tzeko sistemetan ere erabiltzen da. Produktu teknikoekgora egin duten bezalaxe, dokumentazio teknikoa ereasko ugaritu da azken hamarkadetan. Enpresak, be-zeroen aldetik erabilera txarragatiko kexak edo matxu-ragatiko erreklamazioak (gaizki idatziriko edo ulertu-riko jarraibideengatik) jasotzeko beldurrez, dokumen-tazio teknikoan arreta gehiago jartzen hasi dira, eta na-zioarteko merkatuan sartzen ere bai. Hizkuntza natura-laren prozesamenduan egin diren aurrerapenek testuaksortzen laguntzeko sowarea ekarri dute; programa ho-rrek dokumentazio teknikoa jartzen du idazlearen es-kura, arau jakin batzuk eta (enpresaren) terminologia-murrizketa batzuk dituzten hitzak eta esaldi-egiturakerabil ditzan.

Hizkuntza-zuzentzailea ez datestu-prozesamenduko tresnetan

bakarrik erabiltzen; testuak sortzenlaguntzeko sistemetan ere erabiltzen da.

Euskararako gehien erabiltzen den zuzentzaile ortogra-fikoa Xuxen da [25], IXA unibertsitateko ikerkuntza-taldeak (http://ixa.si.ehu.es) garatu eta Eleka Ingenia-ritza Linguistikoa enpresak eskaintzen duena. Zuzen-tzaile ortografiko hori ez da hiztegi bat erabiltzera mu-gatzen, ingelesean edo inflexio txikiagoko beste hizkun-tza batzuetan egin ohi denmoduan. Horren ordez, ana-lisimorfologikoa egiten du. Zuzentzaile ortografikoho-nen bertsio berrienak gramatika eta estiloa ere zuzen-tzen ditu. Bertsio horretan, Hizkia [26] enpresak etaUZEI [27] erakundeak garatutako kodea ere badago.Zuzentzaile ortografikoetan eta editatzen lagun-tzeko programetan ez ezik, ordenagailuz lagundutako

17

Page 26: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Sarrerako testua

Letrakako azterketa

Gramatika azterketa

Zuzenketa proposamenak

Hizkuntza eredu estatistikoa

3: Hizkuntza azterketa (behean: arauetan oinarritua; goian: estatistikoa)

hizkuntza-ikaskuntzaren esparruan ere garrantzitsua dahizkuntza-zuzentzailea, eta web bilatzaileetara bidali-tako dudak automatikoki zuzentzeko ere erabiltzen da;adib. Google-ren “esan nahi zenuen” iradokizunak.

4.2.2 Web bilaketak

Webeko, intranetetako edo liburutegi digitaletako, bi-laketak dira gaur egun gehien erabiltzen den hizkuntza-teknologia, eta, hala ere, gutxi garatuta dago. Googlebilatzailea 1998an sortu zen, eta mundu osoko bilaketaguztietatik % 80tan erabiltzen da gaur egun [28].Lehenengo bertsio hartatik ez da aldaketa esanguratsu-rik egon, ez bilaketaren interfazean, ez berreskuratutakoemaitzen aurkezpenean. Oraingo bertsioan, Google-kgaizki idatzitako hitzak ortografikoki zuzentzen ditu,eta, 2009an, oinarrizko bilaketa semantikorako ahalme-nak gehitu zizkioten bere algoritmo-taldekatzeari [29];hala, bilaketa zehatzagoa egin daiteke, sartutako termi-noen esanahia testuinguruan aztertzen da eta. Google-ren arrakastak erakusten du, eskura datu asko eta horiekindexatzeko teknika eraginkorrak izanda, nagusiki esta-tistiketan oinarritzen den metodo batek emaitza onakeman ditzakeela.Informazio-eskaera sofistikatuagoetarako, ezagutzalinguistiko sakonagoa integratu beharra dago testu-interpretazioa errazteko. Makinek irakurtzeko modukothesaurusak eta hizkuntza-baliabide ontologikoak -adibidez,Wordnet- eta antzekoBaliabide lexikalak era-bili dituzten esperimentuek hobekuntzak izan dituzte

orriak bilaketa-terminoen sinonimoen bidez bilatzekoaukerari esker. Aurrerapen horietarako ere hizkuntza-ren baliabide espezifikoak behar dira. Euskal HerrikoUnibertsitateko IXA ikerkuntza-taldeak EuskalWord-Net (BasWN) garatu du, eta ELRAren bitartez eskuratudaiteke.

Bilatzaileen hurrengo belaunaldiak hizkuntza-teknologia sofistikatuagoa izan beharko du, batez eregaldera batean edo hitz-gakoz osatzen ez den esaldi ba-tean oinarritutako kontsulta bati aurre egiteko. Esate-rako, Emadazu azken bost urteotan beste enpresa batekxurgatu dituen enpresa guztien zerrenda kontsultarako,analisi gramatikala nahiz analisi semantikoa behar da.Erantzun egokia lortzeko, analisi sintaktikoa egin beha-rra dago, esaldiaren egitura gramatikala aztertzeko etajakiteko erabiltzaileak bilatzen duena xurgatuak izan di-ren enpresak direla, eta ez beste enpresa batzuk xurgatudituzten enpresak.

Azkenik, kontsulta prozesatua egituratu gabeko datu-kantitate handi batekin lotu beharra dago, erabil-tzaileak lortu nahi duen informazioa aurkitze aldera.Informazio-berreskurapena esaten zaio horri, eta doku-mentu egokiak bilatu eta mailakatzen ditu. Gainera,enpresa-zerrenda bat sortzeko, dokumentu bateko hitzkate bat enpresa-izen bat dela adierazten digun informa-zioa erauzi behar dugu. Era horretako informazioa enti-tateen izenen ezagutzaile izenekoen bitartez dago esku-ragarri.

18

Page 27: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Erabiltzailearen galdera

Web orriak

Aurreprozesaketa Galderaren analisia

Aurreprozesaketa Prozesaketa semantikoa Indexatzea

Parekatzea eta

gailentasuna

Bilaketaren emaitzak

4: Web bilaketaren arkitektura

Are zailagoa da bilaketa bat beste hizkuntza ba-tean idatzitako dokumentuekin lotzea. Hizkuntzar-teko informazio-berreskuratzerako, balizko iturburu-hizkuntza guztietara itzuli behar dugu kontsulta au-tomatikoki, eta berreskuratutako informazioa helbu-ruko hizkuntzara eraman. Testu-formatuez bestela-koetan ematen diren datuen proportzioa handitu denheinean, gero eta gehiago eskatzen dira multimedia-informazioa berreskurapenerako zerbitzuak, hots,irudi-, audio- eta bideo-datuen bilaketak. Audio- etabideo-fitxategietarako, hizketa ezagutzeko moduluaizan behar da, hizketaren edukia testu edo irudikapenfonetiko bihurtzeko, eta, hala, erabiltzailearen kontsul-tak haiekin lotzeko.

Enpresa horien garapena interes bereziko atariei gehiga-rriak eta bilatzaile aurreratuak eskaintzean datza, gaiaridagokion semantika erabiliz. Oraindik ere prozesatze-indar handia eskatzen duela eta, bilatzaile horiektestu-corpus nahiko txikietan bakarrik erabil daitezke.Prozesatze-denbora bilatzaile estatistiko arrunt batenabaino mila aldiz handiagoa da, gutxienez – adibidez,

Google-k eskaintzen duen bilatzailearekin alderatuta.Bilatzaile horiek eskari handia dute gai espezifikoko do-meinuenmodelazioan, eta ezinezkoa damekanismoho-riek web-mailan erabiltzea.

Bilatzaileen hurrengo belaunaldiakhizkuntza-teknologia sofistikatuagoa

izan beharko du.

Euskal Autonomia Erkidegoan, Eleka Ingeniaritza Lin-guistikoa enpresa txikia buru-belarri aritu da lanean,euskararako aplikazioak eta webean oinarritutako zer-bitzuak garatzen. HTren ikerketa-emaitzak eta balia-bideak integratzen dituzte normalean, hala nola IXAtaldearen eta Elhuyar Fundazioaren lematizatzaileak etadatu-base lexikalak. Elebila bilatzaile eleaniztunak kon-tuan hartzen ditu euskararen berezitasunak, eta hain-bat hizkuntza-tresna eta -baliabide integratzen ditu, ka-litatezko euskarazko emaitzak lortzeko. Beste adibidebat Miatu izeneko tresna da; liburutegi bat da, eta hel-buru bereziarekin indexatutako datu baseen gainean le-

19

Page 28: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

matizatzaileak eta analisi morfologikorako beste tresnabatzuk erabiliz bilaketak egiteko funtzioak eskaintzenditu. www.zientzia.net zientziarekin lotutako atariaeta www.ikasbil.net eduki pedagogikoko ataria sortzekoerabili da.

4.2.3 Ahozko interakzioa

Erabiltzaile bati grafikoak, teklatua eta saguaren par-tez ahozko hizkera erabiliz makinekin interakzioan jar-tzeko aukera ematen dioten interfazeen oinarrian da-goen teknologia da Ahozko Interakzioa. Gaur egun, en-presek beren bezeroei, langileei edo lankideei telefonozeskaintzen dizkieten automatizazio partzial edo osokozerbitzuetan erabiltzen dira, normalean, ahotsaren bi-dezko erabiltzaile-interfazeak (AEI). Lan-arlo haue-tan asko erabiltzen dira ahotsaren bidezko erabiltzaile-interfazeak: banketxeak, logistika, garraio publikoa etatelekomunikazioak. Ahozko interakzioaren teknologiagailu jakin batzuen interfazeetan ere egon ohi da – esa-terako, autoan txertatuta doazen nabigazio-sistemetan–, eta erabiltzaile-interfaze grafikoen sarrera/irteeramo-dalitateen ordez ahozko hizkera ezartzeko ere erabiltzendira, Smartphone gailuetan esaterako.Ahozko interakzioaren oinarrian, lau teknologia hauekdaude:

‚ Hizketaren ezagutza automatikoak: zer hitz esandiren ateratzen du, erabiltzaileak egindako hots-sekuentzia batetik.

‚ Analisi sintaktikoak eta interpretazio semantikoak:erabiltzaile batek esandakoaren egitura sintaktikoaaztertzen du eta interpretatu egiten du sistemarenhelburuaren arabera.

‚ Elkarrizketa-kudeaketa: beharrezkoa da erabiltzai-learen interakzioko sistema-zatian zer egin zehaz-teko, behin erabiltzailearen inputa emandakoan etasistemaren funtzioak kontuan hartuta.

‚ Hizketaren sintesirako teknologia (TTS edo Text-to-Speech): esandako hitz horiek hots bihurtzeko

eta erabiltzailearentzako irteera gisa emateko erabil-tzen da.

Erabiltzaile bati ahozko hizkera erabilizmakinekin interakzioan jartzeko aukera

ematen dioten interfazeen oinarrian dagoenteknologia da Ahozko Interakzioa.

ASR sistemen erronkarik handienetarikoa da zehazta-sun osoz ezagutzea erabiltzaile batek esandako hitzak.Horretarako, bietakoren bat egin behar da: erabiltzai-learen balizko esaldiak gako-hitzen sorta mugatu bateramurriztu, edohizkuntza-ereduak sortu eskuz, hizkuntzanaturalaren erabiltzailearen esaldi sorta handia hartzendutenak. Ikasketa automatikoko sistemak erabiliz, au-tomatikoki ere sor daitezke hizkuntza-ereduak hizketa-corpusetatik; alegia, hizketa duten audio-fitxategien etahaien testu-transkripzioen bilduma handietatik. Esal-dien edukiamugatuz gero, ahots bidezko interfazeak eramugatuan erabiltzera behartzen da erabiltzailea, eta ho-rrek eragina izan dezake haren erosotasunean; hala ere,hizkuntza-eredu aberatsak sortu, doitu eta zaintzeakasko igo ditzake gastuak. Hizkuntza-ereduak erabiltzendituzten eta hasieran erabiltzaile bati zer nahi duen adie-raztekomalgutasuna ematen dioten –Nola lagundu die-zazuket? edo antzeko galderen bidez– ahots bidezkoerabiltzaile-interfazeek onarpen zabalagoa dute.Ahots bidezko erabiltzaile-interfazeen emaitzetarako,enpresek erabiltzen dituzten esaldiak aldez aurretikgrabatutakoak izan ohi dira eta hiztun profesionalekesandakoak – ahal izanez gero, enpresakoak berta-koak. Esaldi estatikoak diren kasuan, hitzen formula-zioa erabilera-testuinguru jakin baten edo erabiltzailehorren datu pertsonalen menpekoa ez denean, erabil-tzailearen esperientzia ona izango da. Aldiz, esaldi batekzenbat eta eduki dinamikoagoa hartu behar duen kon-tuan, are txarragoa izango da erabiltzailearen esperien-tzia, audio-fitxategi solteak elkarrekin lotzeagatik sortu-tako prosodia kaskarragoa izango baita. Gaur egungo

20

Page 29: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Sarrerako ahotsa Seinale prozesaketa

Irteerako ahotsa Hizketa sintesia Kontsulta fonetikoa eta intonazio plangintza

Hizkuntza naturala-ren ulermena eta

elkarrizketa

Ezagutza

5: Ahots bidezko elkarrizketa sinple baten arkitektura

TTS sistemak, ostera, hobeak dira esaldi dinamikoennaturaltasun prosodikoari dagokionez, nahiz eta orain-dik ere hobetu daitezkeen.

Ahozko interakzioaren teknologiaren merkatuan, az-ken hamarkadan, teknologia-osagaien arteko interfa-zeak asko estandarizatu ziren, eta aplikazio jakin bate-rako soware-tresna jakinbatzuk sortzeko irizpideak ereagertu ziren. Era berean, merkatua asko indartu da az-ken hamar urteotan, batez ere hizketaren ezagutza au-tomatikoaren eta TTSen esparruetan. Esparru horie-tan, G20 herrialdeetako – populazio dezentea eta indarekonomiko handia duten herrialdeak – merkatu nazio-nalak mundu osoko bost enpresa baino gutxiagoren es-kuetan daude; Europan, Nuance eta Loquendo dira ga-rrantzitsuenak. 2007. urtetik, Eusko Jaurlaritzak eman-dako babesari esker, Nuanceren produktu-katalogoansartuta dago euskara. Alabaina, hizketaren ezagutzaautomatikoaren eskaintza tamaina txiki eta ertainekohiztegi-aplikazioetaramugatzen da, eta ez da eskaintzendiktaketa-produkturik. TTSrako, emakumezko ahotsbakarra eskaintzen da. Espainiako merkatuan, VerbioSpeech Technologies [30] enpresa kataluniarrak bieta-rako eskaintzen du euskara, hizketaren ezagutza auto-matikorako nahiz TTSrako. Euskararako diktaketa-sistema komertzialik ez dago, ordea.

Elkarrizketa-kudeaketako teknologia eta ezagutzei da-gokienez, enpresa nazionalak dira nagusi merkatue-tan, ETEak normalean. TTSen Espainiako merka-

tuan, enpresa gehienak aplikazio sortzaileak dira. Espai-niako merkatuko enpresa nagusiak hauek dira: Indsys[31] (Intelligent Dialogue Systems), Fonetic [32], Ydilo[33] eta NaturalVox [34]. Horietako zenbaitek ba-dute eskaintza mugatu bat euskararentzat. Euskararakodoaneko TTS sowarea ere badago, Euskal HerrikoUnibertsitateko (UPV/EHU) Aholab [35] ikerkuntza-taldeak eskainia.

Gaur egungo teknologiatik harago begiratuta, aldaketaesanguratsuak egongo dira, Smartphone gailuak hedatuegingo baitira bezeroekiko harremanak kudeatzeko pla-taforma berri moduan – telefono, Internet eta postaelektronikoarekin batera. Joera horrek eragina izangodu ahozko interakziorako teknologiaren erabileran ere.Alde batetik, epe luzera, behera egingo du telefonian oi-narritutako ahotsaren bidezko erabiltzaile-interfazeeneskariak. Bestetik, gero eta gehiago erabiliko da ahozkohizkera Smartphonetarako sarrera-modalitate erabile-rraz moduan. Joera hori erakusten dute hiztuna kon-tuan hartu gabeko hizketaren ezagutzaren zehaztasu-nean egin diren hobekuntza nabariek – Smartphone-erabiltzaileei zerbitzu zentralizatu moduan jada eskain-tzen ari zaizkien ahozko diktaketa-zerbitzuetarako egin-dakoak. Ezagutzaren eginkizuna aplikazioen azpiegitu-rara bideratzeko joera hori ikusita, uste da hizkuntza-teknologia komunen aplikazio espezifikoko erabilerakgarrantzia hartuko duela.

21

Page 30: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

4.2.4 Itzulpen automatikoa

Hizkuntza naturala itzultzeko ordenagailu digitalakerabiltzearen ideia A. D. Booth-ek izan zuen 1946an,eta esparru hori ikertzeko finantzaketa handia egin zen1950eko hamarkadan, eta, berriro, 1980eko hamarka-dan. Hala ere, itzulpen automatikoak (IA) ez dio orain-dik behar bezala erantzun hasierako urteetan sortu zuenitxaropenari.

Itzulpen Automatikoak, bere oinarrizko mailan,hizkuntza natural bateko hitzak kendu eta beste

batekoak jarri besterik ez du egiten.

IAk, bere oinarrizko mailan, hizkuntza natural batekohitzak kendu eta beste batekoak jarri besterik ez duegiten. Hori baliagarria izan daiteke esapide gutxikohizkera oso mugatua darabilten esparruetan, hala nolaeguraldi-iragarpenetan. Estandarizazio gutxiagoko tes-tuak ondo itzultzeko, ordea, testu-unitate handiagoak(esapideak, esaldiak eta pasarte osoak ere bai) xede-hizkuntzako baliokide aproposenekin lotu behar dira.Horko zailtasunik handiena giza hizkuntzaren anbi-guotasuna da, erronkak ezartzen baititu hainbat mai-latan; esaterako, adiera desanbiguazioa lexiko-mailan(“Jaguar” hitzak autoari edo animaliari egin diezaiokeerreferentzia) edo beste maila batzuetan, adibidez:

‚ Egon garenetan ez dugu topatu[Egon garen aldietan ez dugu topatu] edo[Egon garen tokietan ez dugu topatu]

‚ Aitak semeari bere bizikleta eman dio[Aitarena ala semearena?]

Halakoak konpontzeko modu bat hizkuntza-arauetanoinarritzen da. Familia bereko hizkuntzekin ari bagaralanean, beharbada zuzeneko itzulpena egin daiteke bi-garren adibidearen gisako perpausetan. Baina, sarri-tan, arauan oinarritutako sistemek (edo ezagutzak gida-turikoek) sarrera-testua aztertu eta tarteko adierazpide

sinboliko bat sortzen dute, eta hortik sortzen da xede-hizkuntzako testua. Metodo horiek arrakasta izan deza-ten, hiztegi handiak izan behar dituzte, informaziomor-fologiko, sintaktiko eta semantikoa biltzen dutenak, etagramatika-arauen bilduma handia, hizkuntzalari aditubatek tentuz diseinaturikoa.

1980ko hamarkadaren amaieratik hasita, ordenagailuagarrantzia hartuz eta merkatuz joan zen heinean, geroeta jakin-min handiagoa pizten zuten IArako eredu es-tatistikoek. Eredu estatistiko horien parametroak testuelebidunen corpusen analisitik atera dira; hor dugu, esa-terako, Europarl corpus paraleloa, Europako Legebil-tzarraren aktak 11 hizkuntza europarretan ematen di-tuena. Datu nahikoa izanez gero, IA estatistikoa nahikobaliagarria da atzerriko hizkuntzan idatzitako testu ba-ten gutxi gorabeherako esanahia ateratzeko. Alabaina,ezagutzak gidaturiko sistemekin alderatuta IA estatis-tikoak (edo datuek gidaturikoak) duen desabantaila daemaitza agramatikalak sortzen dituela maiz. Bestalde,datuek gidaturiko IAk, gramatika idazteko giza ahale-gin txikiagoa behar izateaz gainera, badu beste abantailabat: ezagutzak gidaturiko sistemei ihes egiten dizkietenberezitasunak ondo trata ditzake, esapideak kasurako.

Ezagutzak gidaturiko IAren eta datuek gidaturiko IA-ren indarguneak eta ahulguneak elkarrekiko osagarriakdirenez, bietako metodologiak nahasten dituzten me-todo hibridoetara jotzen dute ikerlari guztiek gaur egun.Hori egiteko era bat baino gehiago daude. Batean, bisistemak erabiltzen dira – ezagutzak gidaturikoa eta da-tuek gidaturikoa –, eta hautapen-modulu batek eraba-kitzen du zein den esaldi bakoitzaren irteerako esaldionena. Esaldi luzeetarako, ordea, ez du topatzen emai-tza egokirik. Konponbide hobea da irteera askotakoesaldien zatirik onenak elkartzea; hori nahiko zaila izandaiteke, askotariko aukerei dagozkien atalak ez baitirabeti agerikoak eta lerrokatu egin behar izaten baitira.

Euskararentzat, IA bereziki zaila da. Euskara hizkuntzaeranskaria, morfologia aberatsekoa eta flexio maila han-

22

Page 31: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Itzulpen automatiko estatistikoa

Iturburu testua

Xede testua

Testu analisia (formatua, morfologia, sintaxia etab.)

Postedizioa (formatua, testuingurua etab.)

Itzulpen arauak

6: Itzulpen automatikoa (ezkerrean: estatistikoa, eskuinean: arau bidezkoa)

dikoa izanda, hiztegiaren analisia eta hiztegi-estaldurazailagoa da. Gainera, esaldiko osagaien hurrenkera delabide, lan nekeza da corpus paraleloak kudeatzea.

Matxin transferentzian oinarritutako IA sistema bat da,gaztelaniatik euskararakoa, IXA taldeak EuskalHerrikoUnibertsitatean garatutakoa. Irekia da, berrerabilga-rria, eta euskarri elkarreragingarria eskaintzen du bestehizkuntza bikoteentzat ere (matxin.sourceforge.org).Kode irekiko beste programa batzuk erabiltzen ditu,hala nola Freeling, eta euskararenmorfologia berrerabil-tzen du morfologia sorkuntzarako. IXA taldeak Itzul-pen Automatiko Estatistikoko sistema bat ere sortu dueuskara eta gaztelaniarako, hitzen segmentazioa eta be-rrordenaketa egiten duena (EUSMT). IA sistema ho-riek garatzeko, lankidetza estua dago unibertsitatekoikerkuntza-taldearen, Eleka Ingeniaritza Linguistikoaenpresa txikiaren eta Elhuyar Fundazioaren artean – az-ken horrek hizkuntza-baliabide asko jartzen ditu. Elekaenpresak Batua-Bizkaiera bihurtzailea ere atera du. Ala-cantekoUnibertsitateko Transducens taldeak ere garatudu euskaratik gaztelaniara itzultzeko hasierako sistemabat, Apertium plataforma erabiltzen duena. GoogleItzultzaileak alfa bertsio bat eskaintzen du euskararen-tzat.

Lucy Soware enpresak– IAko aplikazioen sortzaile ga-rrantzitsuenetakoa da nazioartean – filial bat dauka Es-painian, Lucy Iberica [36], lehen Translendium zena.Eusko Jaurlaritzak enpresa hori hautatu zuen 2008an,

gaztelaniatik euskararako itzulpen-sistema bat sortzeko,eta 2011an berriro hautatu zuen lan horrekin jarrai ze-zan.

Erabiltzailearekiko espezifikoaden terminologia eta lan-prozesuen integrazioa behar bezala egokituz gero, orohar, uste da IAren erabilerak produktibitatea asko ho-betu dezakeela. Halaber, IA sistemen kalitatea orain-dik asko hobetu daitekeela uste da. Hainbat erronkadaude oraindik; besteak beste, hizkuntza-baliabideakesparru edo erabiltzaile-talde jakin batera egokitzea etalehendik dauden prozesuetan integratzea, terminoendatu-baseekin eta itzulpen-memoriekin batera. Gai-nera, hizkuntza-bikote asko falta dira oraindik.

Ebaluazio-kanpainek IA sistemen kalitatea, metodoaketa hizkuntza pare bakoitzerako sistemaren egoera al-deratzeko balio dute. 7. irudia (p. 24) Euromatrix+proiektuan prestatu zen, eta Europako 23 hizkuntza-tatik 22tarako lortutako binakako emaitzak (irlanderaez dago ebaluatua) erakusten ditu. Emaitzak zerrenda-tzeko, BLEU score bat hartu zen kontuan, non scorehandiagoak itzulpen hobea adierazten baitu [37]. Gizaitzultzaile batek 80 puntu inguru lortuko lituzke. Emai-tzarik onenak (berdez eta urdinez) programa koordi-natuetan ikerketa-inbertsio garrantzitsuak izan dituz-ten eta hainbat corpus paralelo dituzten hizkuntzek di-tuzte (ingelesak, frantsesak, nederlanderak, espainieraketa alemanak, esaterako). Emaitza txarragoak dituztenhizkuntzak gorriz ageri dira. Hizkuntza horien kasuan,

23

Page 32: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Xede hizkuntza — Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

EN – 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 – 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 – 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 – 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 – 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 – 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 – 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 – 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 – 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 – 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 – 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 – 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 – 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 – 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 – 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 – 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 – 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 – 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 – 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 – 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 – 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5 –

7: 22 hizkuntza europar arteko itzulpen automatikoa – Machine translation between 22 EU-languages [38]

edo ez dute behar bezalako garapenik izan, edo oso des-berdinak dira egitura aldetik beste hizkuntzekiko (adi-bidez, hungariera, maltera eta finlandiera).

4.3 BESTE ERABILERA-EREMUBATZUKHizkuntza-teknologiako aplikazioak sortzeko, era asko-tako lanak egin behar dira, eta, batzuetan, lan horiek ezdira agertzen erabiltzailearekiko elkarreraginean, bainazerbitzu-funtzio garrantzitsuak betetzen dituzte siste-maren “erraietan”. Horregatik, ikergai garrantzitsuakdira, eta esparru akademikoko hizkuntzalaritza konpu-tazionalaren barruko banakako diziplinak dira orain.

Galderei erantzutea ikerketa-arlo bizia da orain; corpusetiketatuak egin dira horretarako eta lehiaketa zientifi-koak antolatu dira. Ideia da gako-hitzetan oinarritu-tako bilaketa atzean uztea (bilatzaileak garrantzitsuak

izan daitezkeen dokumentuen sorta handi bat ematendu), eta bilaketa zehatza egin ahal izatea (erabiltzaileakgaldera zehatz bat egiten du, eta sistemak erantzun ba-kar bat ematen dio):

Galdera: Zer adin zuenNeil Amstrongek ilargira iri-tsi zenean?

Erantzuna: 38.

Argi dago hori lehen aipatu dugun web-bilaketaren es-parru komunarekin dagoela lotuta, baina, galderei eran-tzutea, gaur egun termino zabala da eta hainbat zalan-tza sortzen ditu, hala nola “Zer galdera mota ezber-dindu behar lirateke eta nola tratatu behar lirateke”,“Nola azter eta erka daitezke erantzuna izan dezaketendokumentuak” (bat ez datozen erantzunak eman ditza-kete?) eta “Nola erauz daiteke informazio espezifikoa(erantzuna) testu batetik testuingurua gehiegi baztertugabe?”.

24

Page 33: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Horrek lotura du informazio-erauzketa (IE) delako la-narekin ere; garrantzi eta eragin handiko alorra izanzen hori 1990eko hamarkadaren hasieran, hizkuntza-laritza konputazionalaren barruan “aldaketa estatisti-koa” gertatu zen garaian. IEren xedea da dokumentumota espezifikoetan informazio espezifikoa aurkitzea;adibidez, egunkarietako pasarteetan kontatzen direnenpresa-xurgatzeetan partaide nagusiak zein diren aur-kitzea. Landutako beste alor bat terroristen erasoei bu-ruzko albisteena da; horietan, erasoaren egilea, helbu-rua, ordua, tokia eta ondorioak jasotzen dituen txantiloibatera pasatzea da arazoa. Esparru espezifikoko txanti-loiak betetzeko gaitasuna IEren bereizgarri nagusia da,eta, horregatik, “atzeko” teknologiaren beste adibide batda; ondo zedarritutako ikerketa-eremuak ditu, baina,erabilgarria izan dadin, aplikazio-inguru egoki bateantxertatu behar da.

Hizkuntza-teknologiako aplikazioekzerbitzu-funtzio garrantzitsuak betetzen dituzte

software-sistema handiagoen baitan.

Bi “mugako” eremu daude: testu-laburpenak eta testu-sorkuntza; batzuetan, aplikazio autonomoak dira, eta,beste batzuetan, azpiko aplikazio laguntzaileak. Testu-laburpenak, agerikoa den moduan, testu luze bat labur-tzeko lanari egiten dio erreferentzia, eta MS Word-enbarruko funtzio moduan eskaintzen da, esaterako. Ba-tez ere estatistiketan oinarrituta egiten du lan; lehenik,testu bateko hitz “garrantzitsuak” aurkitzen ditu (adi-bidez, testuan oso maiz eta hizkuntzaren erabilera oro-korrean askoz gutxiagotan agertzen diren hitzak), eta,gero, hitz garrantzitsu asko dituzten esaldiak detekta-tzen ditu. Esaldi horiek dokumentuan markatu edohandik erauzi egiten ditu, eta laburpena egiteko erabil-tzen ditu. Zeregin horretan – eta horixe da bere zere-ginnagusia–, testu-laburpena eta esaldi-erauzketa gauzabera dira: testua txikiagotu egiten da bere esaldien azpi-multzo batera. Testu-laburpenerako tresna komertzial

guztiek ideia horixe erabiltzen dute. Zertxobait ikertuden bestemetodo bat laburpenean esaldi berriak sartzeada; hots, jatorrizko testuan forma horretan agertu beha-rrik ez duten esaldiez osaturiko laburpena egitea. Ho-rretarako, testua sakonagotik ulertu behar da, eta, be-raz, ez da horren metodo sendoa. Azken batean, testu-sortzaile bat normalean ez da izaten aplikazio autonomobat, soware handiagoko batean txertatutako aplika-zioa baizik; adibidez, informazio klinikoaren sisteme-tan, pazienteen datuak bildu, gorde eta prozesatu egitendira, eta txostena sortzea da sisteman txertatutako testu-sortzailearen funtzioetako bat.

Euskararako eta, halaber, hizkuntzagehienetarako, testu-teknologia gehienetako

ikerketa ez dago ingeleserako bezain garatua.

Ikerkuntza-eremu horiek guztiak ez daude ingelese-rako bezainbeste garatuta euskararako. Bada, ingele-sean, hainbat eta hainbat lehiaketa ireki egin dira gal-derei erantzutearen, informazio-erauzketaren eta testu-laburpenen esparruetan, Estatu Batuetako DARPA etaNISTek antolatuta. Horrek aurrerapen handiak ekarriditu esparruan, baina jomuga ingelesa izandabeti; lehia-keta batzuetan sartu izan dira hainbat hizkuntza, bainaeuskara ez da inoiz horietako bat izan. Hori dela eta,corpus etiketatu edo baliabide gutxi daude eskuragarrizeregin horietarako. Testu-laburpenetarako sistemak,metodo estatistikoak bakarrik erabiltzen dituztenean,hizkuntzaren mendekoak dira, neurri handi batean,eta, beraz, zenbait ikerketa-prototipo daude eskuragarri.Testu-sorkuntzarako, osagai berrerabilgarriak gainazalaegiteko moduluetara (“sorkuntza-gramatiketara”) mu-gatuta egon izan dira; hor ere, eskura dauden sowaregehienak ingeleserako dira.

25

Page 34: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

4.4 HIZKUNTZA-TEKNOLOGIAHEZKUNTZANHizkuntza-teknologia diziplinarteko alorra da, eta hain-bat adituren lana hartzen du; besteak beste, hizkuntza-lariak, informatikariak, matematikariak, filosofoak, psi-kolinguistak etaneurozientzialariak. Hortaz, gaur egun,Espainian, hizkuntzalari konputazional izateko oina-rrizko prestakuntza filologia edo hizkuntzalaritzakogradu baten barruan emango da, beharbada – irakas-gai komunen artean hizkuntzalaritza konputazionalaematen bada –, edo informatika-fakultatean, bestela.Lehen aukera eskaintzen duten unibertsitateak hauekdira: Universitat de Barcelona, Universitat Pompeu Fa-bra, Universitat Oberta de Catalunya eta Universidadede Vigo. Hizkuntzalaritza konputazionala irakasgai-tzat ematen duten informatika-fakultate nagusiak, be-rriz, beste hauek dira: Universidad Politécnica de Ma-drid, UniversidadCarlos III, UniversidadAutónoma deMadrid, Universitat d’Alacant, UniversidadNacional deEducación a Distancia eta Euskal Herriko Unibertsita-tea. Bi aukerak eskaintzen dituenik ere bada: Universi-dad Complutense.

Graduondoko ikastaroek helburu zehatzagoa duenprestakuntza profesionala eskaintzen dute. Doktore-ikastaro batzuetan ematen dira hizkuntzaren eta hiz-ketaren prozesamenduarekin lotutako masterrak etairakasgaiak. Euskal Herriko Unibertsitateak hizkun-tzaren prozesamenduari buruzko doktoretza-ikastarooso bat eskaintzen du, euskara hutsean ere ikas dai-tekeena. Beste master edo doktoretza-ikastaro ba-tzuetako ikasleei ere eskaintzen zaizkie hizkuntza-teknologiakomoduluak, hizketaren prozesamendua ba-tik bat (adib. EHUren Sare Mugikorretako Informazio-eta Komunikazio-teknologiak masterreko ikasleei).

Euskal Autonomia Erkidegoko hiru unibertsitateetanbanatuta dauden zenbait ikerketa-talde ari dira gaihauek lantzen: hizketaren prozesamendua, hizketarensintesia eta bihurketa, hizketaren eta hiztunaren ezagu-

tza, hizkuntzaren ezagutza, hizkuntza naturalaren pro-zesamendua, testutik testurako itzulpena eta hizketa-tik hizketarako itzulpena. Guztiak dira Hizkuntza Na-turalaren Prozesamendurako Espainiar Elkarteko kide(SEPLN, Sociedad Española para el Procesamiento delLenguaje Natural). SEPLN irabazi asmorik gabeko era-kundea da, esparru akademikoko nahiz industria-arloko300 kide baino gehiago dituena, eta 1984an sortu zen,helburu honekin: irakaskuntza, ikerkuntza eta LNPrengarpenarekin lotutako jarduerak sustatu eta zabaltzea,Espainian bertan nahiz nazioartean. SEPLN elkarteakmintegiak, sinposioak eta hitzaldiak antolatzen ditu, etaEspainiakonahiz nazioarteko erakundeekiko lankidetzasustatzen du.

SEPLNk urteroko kongresu bat antolatzen du, eta, ur-tetik urtera, LNP lantzen duten ikerlari gehiago erakar-tzen ditu, Espainiatik nahiz kanpotik datozenak. Elkar-teak aldizkari bat ere kaleratzen du, eta web-zerbitzaribat du, hizkuntza naturalaren prozesamenduarekin lo-tutako gaiei buruzko informazioa eta kideentzako foroireki bat eskaintzen dituena.

Espainiako Hizketa Teknologietako Sarea (RTTH)[39] foro komun bat da, eta han elkartzen diren hizketa-teknologien ikerlariek (25o baino gehiago dira gauregun) zeregin osagarriak egin eta esperientziak elkarba-natzen dituzte, helburu hauekin:

‚ Hizketa-teknologien ikerkuntza sustatzea, alor ho-rretara ikerlari gazte gehiago erakartzeko prestakun-tza, ikasle-trukeak, bekak eta sariak eskainiz.

‚ Negozio-ikerkuntzarako inbertsioak erakartzea,beste negozio aukera batzuk eskaintzen dituztenaplikazio berriak aurkituz.

‚ Aurrerapenak egitea elkarteak sortzen, eta sareko ki-deak integratzea, Espainiak gaztelaniaren ikerkun-tzan duen nagusitasunari eusteko eta hizkuntza koo-fizialei ere bultzada emateko (katalana, euskara etagalegoa).

26

Page 35: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

RTTHelkarteak “Hizketaren teknologiari buruzko jar-dunaldiak” antolatzen ditu urtero, 2000. urtetik. Ikas-taro horren xedea da elkargune bat izatea, iberiar pe-nintsulako hizkuntzetan dauden hizketa- eta hizkuntza-teknologien gaineko ikerkuntzaren emaitzen berri ema-teko eta horiei buruzko eztabaida sustatzeko. Enpre-sen eta unibertsitatearen arteko elkarlana ere sustatzendu. Era askotako jarduerak antolatzen ditu: txostenteknikoen aurkezpenak, hitzaldi magistralak, proiektu-txostenen eta laborategiko jardueren aurkezpenak, era-kustaldiak eta azken doktore-tesien aurkezpenak.

4.5 HIZKUNTZA-TEKNOLO-GIAKO PROGRAMAKEuskararako teknologia-programak Eusko Jaurlaritzaketa Espainiako Gobernuak bultzatu dituzte, batez ere.

Espainiako Hezkuntza Ministerioak eta Zientzia etaBerrikuntzako Ministerioak ikerketa-programa nazio-nalen bidez bultzatu dute informazio-teknologien alo-rreko ikerketa. Programa horietarako, ikerketa-proiektuasko egin behar izan dira, eta elkarlana egin nazioar-teko ikerketa zentro eta enpresekin. Euskararen prozesa-mendu automatikorako aplikazio komertzialen eta au-rrerapen teknologikoaren oinarria proiektu horien on-dorioz sortu da, hein batean.

2000. urtetik hona, Espainiako Gobernuak, Ikerketa-rako eta Teknologia Berrikuntzarako Plan Nazionala-ren barruan, proiektu batzuk bultzatu ditu hizketa-teknologia eleaniztunen alorrean: TEHAM, AVIVA-VOZ eta BUCEADOR. Haien helburu nagusia zenhizketaren ezagutza, hizketaren itzulpena eta testutikhizketarako sintesia hobetzea Espainiako hizkuntza ofi-zial guztietan: euskara, galegoa, katalana eta gaztelania.

Industria Teknologia Garatzeko Zentroa (CDTI) Es-painiako erakunde publiko bat da, Zientzia eta Berri-kuntza Ministerioaren mendekoa, eta Espainiako en-presen maila teknologikoa areagotzen laguntzea du

helburu. CDTIk I+G proiektuak ebaluatu eta fi-nantzatzen ditu, CENIT (2010ean bukatutakoa) etaAVANZA bezalako programen bitartez.

Eusko Jaurlaritzak ikerketa eta berrikuntzaren alde egi-ten du “Zientzia, teknologia eta berrikuntzarako plana”ren bitartez (ZTBP). Plan horren barruan, erakundeeta ikerketa- eta berrikuntza-agentzia batzuk eratu diraazken urteotan: Zientzia, Teknologia eta Berrikuntza-ren Euskal Kontseilua (ikerketa eta berrikuntza bultza-tzeko eta garatzeko ekintzak egiten dituen erakunde po-litiko ahaltsuena), InnoBasque (berrikuntzaren euskalagentzia) eta IkerBasque (zientziaren euskal fundazioa,talentudun ikerlariak euskal zientzia- eta teknologia-sistemara erakartzeaz arduratzen dena). ZTBP plana-ren tresna garrantzitsuenak ikerketa- eta berrikuntza-proiektuetarakodeialdiakdira: ETORTEKprograma–Zientzia, Teknologia eta Berrikuntzarako Euskal Sarekoerakundeei zuzendutakoa – eta ETORGAI programa –enpresa pribatuei zuzendutakoa.

Azken ZTBP planean (2010ekoan) identifikatutakoalor estrategiko bat hizkuntza-teknologiena izan da, au-rrekoetan bezalaxe. Hala, azken hamar urteotan, HIZ-KING21, ANHITZ eta BERBATEK [40] proiektuakgauzatu dira ETORTEK programaren barruan. Euska-rarako gaur egun dauden baliabide eta tresna gehienakproiektu horien bidez eskuratutakoak dira.

4.6 EUSKARARAKO TRESNAETA BALIABIDEAKAtal honetako 8. taulan, euskararako daudenHizkuntza-teknologien gaur egungo egoeraren labur-pena ageri da. Adostutako estimazioetan oinarrituta,dauden tresna eta baliabideak balioetsi dituzte zenbaitadituk, zazpi irizpideei jarraiki (0tik 6ra):

Liburu Zurien bilduma honetan, Europako hainbat hiz-kuntzaren egoera orokorra balioesteko lehendabizikoahalegina eginda, hizkuntza-teknologien egoerari dago-

27

Page 36: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Kan

titatea

Esku

raga

rrita

suna

Kalita

tea

Esta

ldur

a

Heldu

tasu

na

Irau

nkor

tasu

na

Mol

daga

rrita

suna

Hizkuntza teknologiak (Tresna, Teknologiak eta Aplikazioak)

Hizketa Ezagutza 2 1 1 1 4 3 2

Hizketa Sintesia 2 3 4 4 4 3 3

Analisi gramatikala 4 2.5 4 4 4 2.5 2.5

Analisi semantikoa 1 1.5 2 1 1 1 1

Testu-sorkuntza 1 0 0 0 0 0 0

Itzulpen automatikoa 3 5 2 3 3 2 2

Hizkuntza baliabideak (Baliabideak, Datuak eta Jakintza-Baseak)

Testu-corpusak 2 4 3 2 3 4 2.5

Hizketa-corpusak 3 2 3 2 3 3 2

Corpus paraleloak 2 4 2 2 2 2 1

Baliabide lexikalak 4 4 4 5 5 4 3

Gramatikak 2 2 2 2 2 2 2

8: Hizkuntza-teknologien sustapenaren egoera euskararako.

kienez. Hutsuneak eta beharrak zehatz-mehatz konpa-ratzeko eta identifikatzeko aukera emango du azterketahorrek.

Euskararako, teknologiei eta baliabideei erreparatuz ate-ratako ondorioak honako hauek dira:

‚ Gaur egun, hizketaren prozesamendurako tresnekargi adierazten dute hizketaren sintesia garatuagodagoela hizketa-ezagutza baino. Hala ere, oso zailada euskararako eguneroko aplikazioak aurkitzea;hala nola, telefono mugikorretarako ahots bidezkointerfazeak, auto-nabigazio sistemak edo ahots bi-dezko elkarrizketa-sistemak.

‚ Ikerketa-talde batzuek hizketaren eta hizkuntzarenprozesamenduan dihardute lanean. Hala ere, ikerke-tako ahaleginak eta norabideak ez daude koordina-

tuta, eta tokiko eta aldizkako finantzaketarenmenpedaude.

‚ Euskararako HT ikerketak arrakasta lortu du kali-tate handiko tresna jakin batzuk diseinatzerakoan,baina zaila da ebazpen jasangarriak eta estandarrakproposatzea. Era berean, baliabide asko ez dira es-tandarrak, hau da, existitzen badira ere jasangarrita-suna ez dago bermatua; programa eta ekimen itun-duak behar dira datuak eta truketarako formatuakestandarrak bihurtzeko.

‚ Semantika sintaxia baino zailagoa da prozesatzeko;testu-semantika hitz- eta perpaus-semantika bainozailagoa da prozesatzeko. Tresna batek gero eta se-mantika gehiago kontuan hartu, gero eta zailagoada datu zuzenak aurkitzea; prozesaketa sakona sus-tatzeko ahalegin gehiago behar dira.

28

Page 37: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Horrenbestez, argi dago ahalegin handiagoak bideratubehar direla, bai euskararako baliabideak sortzeko, baiikerketarako, berrikuntzarako eta garapenerako. Datukopuru handien beharra eta hizkuntza-teknologietanoinarritutako sistemen konplexutasun handia direlame-dio, nahitaezkoa da harremanetarako eta lankidetzarakoazpiegitura berriak garatzea.

4.7 HIZKUNTZARTEKOKONPARAKETAHTen gaur egungo egoera oso desberdina da hizkuntza-komunitate batetik bestera. Hizkuntzen arteko egoerakalderatzeko, bi aplikazio-eremutan (itzulpen automati-koa eta hizketa-prozesaketa), oinarrizko teknologia ba-tean (testu-analisia) eta, orobat, HTetan oinarritutakoaplikazioak garatzeko behar diren funtsezko baliabidee-tan oinarritutako ebaluazio bat aurkeztu da atal hone-tan.Hizkuntzak multzokatzeko, bost puntuko honakoeskala hau baliatu da:

1. HTen egoera bikaina

2. egoera ona

3. egoera ertaina

4. egoera osagabea

5. egoera apala

HTen egoera irizpide hauen bidez neurtu da:Hizketa Prozesaketa: hizketa ezagutzeko dauden tek-nologien kalitatea, hizketa-sintesirako dauden teknolo-gien kalitatea, landutako eremuen kopurua, dauden hiz-ketazko corpusen kantitatea eta tamaina, hizketan oina-rritutako aplikazio eskuragarrien kantitatea eta motak.Itzulpen Automatikoa: Dauden MT teknologien kali-tatea, landutako hizkuntza pareen kopurua, landutakofenomeno linguistikoen eta eremuen kopurua, daudencorpus paraleloen kalitatea eta tamaina, MT aplikazioeskuragarrien kantitatea eta motak.

Testu Analisia: Testua analizatzeko dauden tekno-logien kalitatea eta motak (morfologia, sintaxia, se-mantika), landutako fenomeno linguistikoen eta ere-muen kopurua, eskuragarri dauden aplikazioen kantita-tea etamotak, dauden testu-corpusen (etiketatuen) kali-tatea eta tamaina, dauden baliabide lexikalen (adibidez,WordNet) eta gramatiken kalitatea eta motak.

Baliabideak: Dauden testu-corpusen kalitatea eta ta-maina, hizketa-corpusak eta corpus paraleloak, daudenbaliabide lexikal eta gramatiken kalitatea eta motak.

Goiko taulek erakusten dute ezen, azken hamarkade-tan espainiar eta euskal gobernuek HTak diruz lagun-tzeko programei esker, euskarak Europako gainerakohizkuntza gehienak bezalako baliabideak dituela. Eus-kara eta hizlari kopuru handiagoa duten hizkuntzakparean daude, baina kontuan izan behar da beste hiz-kuntza horiek EBko hizkuntza ofizialak direla. Argidago euskarazko HTetako baliabideak eta tresnak ezdirela iristen gaztelaniazko maila bereko baliabide etatresnen kalitatera eta estaldurara; izan ere, gaztelaniaondo kokatuta dago ia HT eremu guztietan. Oraindikere hizkuntza-baliabideetan hutsune asko dago euskara-rako, kalitate handiko aplikazioak sortzeari begira.

Hizketa-prozesaketarako, gaur egungo teknologiek askiemaitza onak dituzte, hainbat aplikazio industriale-tan integratzeko, hala nola IVR elkarrizketa-sistemetan,nahiz eta diktatu-sistemetan betetzeko hutsunea izan,baita eremu mugatuetan ere. Bestalde, Itzulpen Auto-matikoko sistemek ez dute emaitza onik oraindik; eus-kara oso hizkuntza desberdina da, izan ere, hizkuntzaaurreindoeuroparrekin alderatuta. Sailkatzaile estatis-tiko sakonagoak behar dira, jatorri bera duten beste hiz-kuntza pare batzuekin (esaterako, katalana-gaztelaniaedo galiziera-gaztelania pareekin) konparatuta. Alderdilinguistiko gehiago kontuan hartzen dituzten eta sarre-rako testuaren analisi semantiko sakonagoa egiteko au-kera ematen duten baliabideen eta teknologien behargarbia dago. Oinarrizko baliabide eta teknologia ho-

29

Page 38: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

rien kalitatea eta estaldura hobetuta, hainbat aplikazio-eremu aurreratu (kalitate handiko itzulpen automati-koa barne) garatzeko aukera berriak sortzeko gai izangogara.

4.8 ONDORIOAKLiburu Zurien bilduma honetan, lehendabiziko ahale-gin garrantzitsu bat egin dugu, Europako 30 hizkun-tzatako hizkuntza-teknologien egoera aztertu eta hiz-kuntza horien arteko goi-mailako konparaketa bat era-kusteko. Hutsuneak, beharrak eta gabeziak identifika-tuz, Europako hizkuntza-teknologien komunitatearen-tzat eta interesa duten parteentzat errazagoa izango dateknologian oinarritutako benetako Europa eleaniztunbat eraikitzea helburu duen eskala handiko ikerketa- etagarapen-programa bat diseinatzea.Ikusi dugu alde handiak daudela Europako hizkuntzabatetik bestera. Zenbait hizkuntzatarako eta aplikazio-eremutarako, kalitate oneko sowarea eta baliabideakbadaude ere, beste hizkuntza batzuek (eskuarki hizkun-tza “txikiagoek”) hutsune handiak dituzte. Hizkuntzaaskori testu-analisirako oinarrizko teknologiak eta tek-nologia horiek garatzeko oinarrizko baliabideak faltazaizkie. Beste batzuek, berriz, badituzte oinarrizkotresna eta baliabideak, baina oraindik ez dute prozesa-keta semantikoan inbertitzen. Hortaz, eskala handikoahalegina egin beharra dugu, Europako hizkuntza guz-tien arteko kalitate handiko itzulpen automatikoa gara-tzeko helburu handira iristeko.Euskararen kasua, hizkuntza-teknologien egoerari da-gokionez, baikor baina zuhur aztertu beharra dago. Ba-dago HT ikerketa-komunitate bideragarri bat EuskalHerrian, espainiar eta euskal ikerketa-programen bidezbultzatzen dena. Hainbat baliabide eta punta-puntakoteknologia ekoitzi eta banatu dira euskararako. Halaere, garatu diren baliabideen irismena eta tresnen mul-tzoa oso mugatuak dira oraindik ere, gaztelaniarako(eta, noski, ingeleserako) dauden baliabide eta tresne-

kin alderatuta; beraz, ez dira nahiko, ez kalitateari dago-kionez, ez kantitateari dagokionez, benetako jakintza-ren gizarte eleaniztunbat sustatzeko beharrezkoak direnteknologia motak garatzeko.

Gaur egun, hizkuntza-teknologien industria aski heda-tuta dago, eta ETT askok lantzen dute eremu hori, ba-tez ere hizkuntza idatzirako. Haien produktuak euska-raren estandarizazio-prozesua eta erabilera bultzatzekotresna eraginkorrak izan dira eta dira oraindik ere. Eus-kara ez da ageri enpresa handien katalogoetan, ekimenjakin zenbaitetan izan ezik, Eusko Jaurlaritzaren lagun-tzaz, eskuarki.

Hainbat ikerketa-talde ari dira hizketaren eta hizkuntza-ren prozesaketan 1988tik. Euskara salbuespena da hiz-kuntzaren tamainaren eta HBen egoeraren arteko ko-rrelazioarekiko, eta horren zergatia ikerketa-talde ho-rien lan koordinatuan datza. Baliabide gutxiago di-tuzten hizkuntzetako ikerketa eta garapena bultzatzeko,goi-mailako estandarizazio-irizpideei jarraitu behar zaieeta, orobat, kode irekien aldeko apustuari eta dagoenekoeginda dauden lan, tresna eta aplikazioen berrerabile-rari.

Gure azterketek agerian uzten dute euskarazko HT ba-liabideak sortzeko ahalegin handia egitea eta baliabi-deok aurrera begirako ikerketa, berrikuntza eta garapenabideratzeko erabiltzea dela bide bakarra. Datu kopuruhandien beharrak eta hizkuntza-teknologietan oinarri-tutako sistemen konplexutasun handiak ezinbestekoegiten du azpiegitura berriak eta ikerketa-antolaketakoherenteagoa garatzea, harreman eta lankidetza ho-beak suspertuko badira. Kode irekia eta 2.0 komunita-teak tresna lagungarriak izan daitezke tresna eta balia-bide jasangarriak azkar garatzeko baliabide gutxiago di-tuzten hizkuntzetarako.

Jarraitutasun-falta ere badago ikerketaren eta garapena-ren finantzaketan. Txandakatu egin ohi dira epe labu-rreko programa koordinatuak eta laguntza urri edo ba-tere gabeko aldiak. Gainera, koordinazio-falta oroko-

30

Page 39: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

rra dago EBeko beste herrialde batzuetako eta EuropakoBatzorde mailako programekin ere.Beraz, ondoriozta dezakegu behar-beharrezkoa dela eki-men handi eta koordinatu bat, Europako hizkuntzenartean hizkuntza-teknologien desberdintasunak oreka-tzea xede duena.META-NETen epe luzeko helburua da hizkuntza guz-tietarako kalitate handiko hizkuntza-teknologiak gara-

tzea, aniztasun kulturalaren bidez bateratze politikoaeta ekonomikoa lortzeko. Dauden oztopoak eraisteneta Europako hizkuntzen artean zubiak eraikitzen la-gunduko du teknologiak. Horretarako, baina, behar-beharrezkoa da interesdun guztiek -politikariek, iker-tzaileek, enpresek eta gizarteak- indarrak batzea etorki-zunerako.

31

Page 40: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Bikaina Ona Ertaina Osagabea Apala/Ezegoera egoera egoera egoera egoera

Ingelesa AlemanaEspainieraFinlandieraFrantsesaNederlanderaItalieraPortugaleraTxekiera

EuskaraBulgarieraKatalanaDanieraEslovakieraEslovenieraEstonieraGalizieraGrekoaHungarieraIrlanderaNorvegieraPolonieraSerbieraSuediera

IslandieraKroazieraLetonieraLituanieraMalteraErrumaniera

9: Hizketa-prozesaketarako hizkuntza-multzoak

Bikaina Ona Ertaina Osagabea Apala/Ezegoera egoera egoera egoera egoera

Ingelesa FrantsesaEspainiera

AlemanaKatalanaNederlanderaHungarieraItalieraPolonieraErrumaniera

EuskaraBulgarieraKroazieraDanieraEslovakieraEslovenieraEstonieraFinlandieraGalizieraGrekoaIrlanderaIslandieraLetonieraLituanieraMalteraNorvegieraPortugaleraSerbieraSuedieraTxekiera

10: Itzulpen automatikorako hizkuntza-multzoak

32

Page 41: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Bikaina Ona Ertaina Osagabea Apala/Ezegoera egoera egoera egoera egoera

Ingelesa AlemanaEspainieraFrantsesaNederlanderaItaliera

EuskaraBulgarieraKatalanaDanieraEslovakieraEslovenieraFinlandieraGalizieraGrekoaHungarieraNorvegieraPolonieraPortugaleraErrumanieraSuedieraTxekiera

KroazieraEstonieraIrlanderaIslandieraLetonieraLituanieraMalteraSerbiera

11: Testu-analisirako hizkuntza-multzoak

Bikaina Ona Ertaina Osagabea Apala/Ezegoera egoera egoera egoera egoera

Ingelesa AlemanaEspainieraFrantsesaNederlanderaHungarieraItalieraPolonieraSuedieraTxekiera

EuskaraBulgarieraKatalanaKroazieraDanieraEslovakieraEslovenieraEstonieraFinlandieraGalizieraGrekoaNorvegieraPortugaleraErrumanieraSerbiera

IrlanderaIslandieraLetonieraLituanieraMaltera

12: Baliabideetarako hizkuntza-multzoak

33

Page 42: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

5

META-NETI BURUZ

Europako Batzordeak sortutako bikaintasunezko sareada META NET. Sareak Europako 33 herrialdetako54 kide ditu, gaur egun. META-NETek META, Eu-ropa Eleaniztunaren Teknologia Aliantza, babesten du,hizkuntza-teknologiako aditu eta erakundeen talde eu-ropar gero eta handiagoa. META-NETek oinarri tekno-logikoak eman nahi ditu informazio-gizarte zinez elea-niztuna sortzeko Europan, eta hari eusteko. Horrelakogizarte bat lortu nahi da:

‚ Hizkuntzen arteko komunikazio eta lankidetzarakoaukera ematen duena.

‚ Hizkuntza guztietan aukera berdinak ematen di-tuena informazioa eta ezagutzak eskuratzeko.

‚ Europarrei informazio-teknologia aurreratua es-kaintzen diena sarean eta modu onean.

Merkatu digital eta informazio-esparru bakar batek osa-tutako Europa bateratu bat bermatu nahi du META-NETek eta, horretarako, Europako hizkuntza guztie-tarako bultzatzen eta sustatzen ditu teknologia elea-niztunak. Teknologia horiei esker, era askotako apli-kazio eta esparruetan erabil daitezke itzulpen automa-tikoa, eduki-sorkuntza, informazio-prozesamendua etaezagutza-kudeaketa. Halaber, hizkuntzan oinarritutakointerfaze intuitiboak garatzeko aukerak ere sor daitezkehainbat teknologiatan, hala nola etxetresna elektroni-koetan, makineria eta ibilgailuetan, nahiz ordenagailueta robotetan. META-NET2010eko otsailaren 1ean ja-rri zen abian, eta dagoeneko zenbait jarduera garatu ditubere hiru ekintza-lerroetan: META-VISION, META-SHARE eta META-RESEARCH.META-VISIONen helburua da akziodunen komuni-tate bizia eta eragin handikoa sortzea ikuspegi partekatu

baten eta ikerketa-programa estrategiko (IPE) komunbaten inguruan. Proiektu horren lan-ildo nagusia da Eu-ropan HTen komunitate koherente eta kohesiboa era-tzea, akziodunen talde zatitu eta anitzetako ordezkariakelkartuz. Liburu Zuri hau beste 29 hizkuntzatako alee-kin batera prestatu da. Teknologia bateratuaren ikuspe-gia alor banatan lantzeko hiruHausnarketaTaldetan ga-ratu zen. META Teknologia Kontseilua osatu zen haus-narketak egin eta IPEa prestatzeko, HTen komunitateosoarekin elkarlan zuzenaz eraikitako ikuspegian oina-rrituz.META-SHARE proiektuak baliabideak trukatzeko etapartekatzeko bitarteko ireki eta partekatua eskaintzendu. Biltegiekin osatutako parekoen sareak hizkuntza-datuak, tresnak eta web-zerbitzuak izango ditu, kalita-tezko metadatuekin dokumentatuak eta kategoria es-tandarizatuetan antolatuak. Baliabideak erraz eskuradaitezke, eta bilaketa uniformea da. Baliabideok kodeirekikoak izan daitezke – doakoak, beraz – edo ordain-duta eskuratu beharreko salgai mugatuak.META-RESEARCH proiektuak zubiak eraikitzenditu hurbileko teknologia-esparruetara iristeko. Xe-dea beste esparruetan aurrerapenak eragitea da, etahizkuntza-teknologiaren onerako izan daitekeen iker-keta berritzailea aprobetxatzea. Ekintza-ildoaren oina-rria da itzulpen automatikoan muturreko ikerketa ga-ratzea, datuak biltzea, datu-bildumak prestatzea eta ba-liabide linguistikoak ebaluazio-lanetarako antolatzea,tresna eta metodoen inbentarioak sortzea eta komuni-tateko kideentzat ikastaroak eta prestakuntza-saioak

[email protected] – http://www.meta-net.eu

34

Page 43: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

1

EXECUTIVE SUMMARY

Language is the primary means of communication be-tween humans. It allows us to express ideas and feelings,helps us to learn and teach, is essential for living, is theprimary vehicle of transmission of culture, and is a sym-bol of identity.

Language is the primary means ofcommunication between humans.

In our current level of globalization, we have many waysto easily communicate with people from all over theworld. For example, the new information and commu-nications technologies have enabled the developmentof social networks that have encouraged and enhancedinteraction between people from virtually all countriesand cultures. Also, in recent years, we have seen largemovements of foreign people between our countries,i. e., tourism or immigration, that creates the necessityfor communication among different languages. iscross-lingual communication problem is oen solvedthought the use of a lingua franca.e countries of Europe provide is a clear example of lin-guistic and cultural diversity despite the fact that, dur-ing the last 60 years, Europe has increasingly become adistinct political and economic entity. is means thatfromBasque to Polish and from Italian to Icelandic, lan-guage challenges are inevitably confronted by people ineveryday life as well as in the spheres of business, politicsand sciences. e European Union’s institutions spendabout a billion euros a year on maintaining their policyof multilingualism, i. e., translating texts and interpret-

ing spoken communication. In parallel, English is be-coming a lingua franca in the communication betweenEuropean citizens.In Spain, as a case in point, we find the same scenario.Spain has an official language, Spanish, also known asCastilian, and three co-official languages: Catalan,Gali-cian and Basque. Preserving multilingualism in Spainhas not been an easy task. It is the result of a complexprocess to intentionally preserve cultural and linguisticidentity within and among the various regions and peo-ple of Spain. Similar to the use of English in the Eu-ropean case, direct communication between citizens ofdifferent language areas of Spain, oen need the use ofCastilian as a lingua franca.

Multilingualism is a culturalheritage to be preserved.

At both, the European and the Spanish levels, multilin-gualism is a cultural heritage to be preserved. Global-ization should not become a mechanism that promotesthe abandonment of our rich linguistic and cultural her-itage as it invites us to abandon the use of our own lan-guage in favor of a lingua franca. In a global commu-nication environment, we should find ways to commu-nicate broadly with the world while preserving our ownlanguage and, with it, our cultural identity.Modern language technology and linguistic researchcan make a significant contribution to bridging theselinguistic borders. When combined with intelligent de-vices and applications, language technology will in the

35

Page 44: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

future be able to help citizens talk easily to each otherand do business with each other even if they do notspeak a common language. Language technology solu-tions will eventually serve as a unique bridge betweendifferent languages. However, the language technolo-gies and speech processing tools currently available onthe market (ranging from question answering systemsto natural language interfaces, and including translationsystems and summarization tools, among many others),still fall short of this ambitious goal.

Language technology solutions willeventually serve as a unique bridge

between different languages.

As early as the late 1970s, the EU realised the profoundrelevance of language technology as a driver of Euro-pean unity, and began funding its first research projects.At the same time, national and autonomic projects wereset up that generated valuable results but never led toconcerted European action. e dominant actors inthe field are primarily privately owned for-profit enter-prises based in Northern America. e predominantlanguage technologies today rely on imprecise statisti-cal approaches that do not make use of deeper linguis-tic methods and knowledge. For example, sentences areautomatically translated by comparing a new sentenceagainst thousands of sentences previously translated byhumans. e quality of the output largely depends onthe amount and quality of the available sample corpus.While the automatic translation of simple sentences inlanguages with sufficient amounts of available text ma-terial can achieve useful results, such shallow statisti-cal methods are doomed to fail in the case of languageswith a much smaller body of sample material or in thecase of sentences with complex structures. Analysingthe deeper structural properties of languages is the only

way forward if we want to build applications that per-form well across a wide range of languages.e solution to the cross-language communicationproblem is therefore to build key enabling technologies.To achieve this goal and preserve Europe’s cultural andlinguistic diversity, it is necessary to first carry out asystematic analysis of the linguistic particularities of allEuropean languages, and the current state of languagetechnology to support them. is is the purpose ofthe present book in what concerns the Basque language.is volume shows a detailed analysis of the languagetechnologies, applications and solutions for Basque.In the field of language technology, the Basque lan-guage shows a number of products, technologies and re-sources. ere are application tools for speech synthe-sis, speech recognition, spelling correction, and gram-mar checking. ere are also some applications for auto-matic translation, mainly between Spanish and Basque.

Basque is one of the EU languages that still needsfurther research before truly effective language

technology solutions are ready for everyday use.

As this series of white papers demonstrate, there is adramatic difference between Europe’s member states interms of both the maturity of the research and in thestate of readiness with respect to language solutions.One of the major conclusions is that Basque is one ofthe EU languages that still needs further research be-fore truly effective language technology solutions areready for everyday use. At the same time, there are goodprospects for achieving an outstanding position in thisimportant technology area. is development of high-quality language technology for Basque is urgent and ofutmost importance for the preservation for a minoritylanguage as Basque.

36

Page 45: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

2

RISK FOR OUR LANGUAGES AND ACHALLENGE FOR LANGUAGE TECHNOLOGY

We are witnesses to a digital revolution that is dramati-cally impacting communication and society. Recent de-velopments in digital information and communicationtechnology are sometimes compared to Gutenberg’s in-vention of the printing press. What can this analogy tellus about the future of the European information societyand our languages in particular?

The digital revolution is comparable toGutenberg’s invention of the printing press.

Aer Gutenberg’s invention, real breakthroughs incommunication and knowledge exchange were accom-plished by efforts such as Luther’s translation of theBible into vernacular language. In subsequent centuries,cultural techniques have been developed to better han-dle language processing and knowledge exchange:

‚ the orthographic and grammatical standardisationof major languages enabled the rapid disseminationof new scientific and intellectual ideas;

‚ the development of official languages made it possi-ble for citizens to communicate within certain (of-ten political) boundaries;

‚ the teaching and translation of languages enabled ex-changes across languages;

‚ the creationof editorial andbibliographic guidelinesassured the quality and availability of printed mate-rial;

‚ the creation of different media like newspapers, ra-dio, television, books, and other formats satisfieddifferent communication needs.

In the past twenty years, information technology hashelped to automate and facilitate many of the processes:

‚ desktop publishing soware has replaced typewrit-ing and typesetting;

‚ Microso PowerPoint has replaced overhead projec-tor transparencies;

‚ e-mail send and receive documents faster than a faxmachine;

‚ Skype offers cheap Internet phone calls and hostsvirtual meetings;

‚ audio and video encoding formatsmake it easy to ex-change multimedia content;

‚ search engines provide keyword-based access to webpages;

‚ online services like Google Translate produce quick,approximate translations;

‚ social media platforms such as Facebook, Twitter,and Google+ facilitate communication, collabora-tion, and information sharing.

Although such tools and applications are helpful, theyare not yet capable of supporting a sustainable, multi-lingual European society for all where information andgoods can flow freely.

37

Page 46: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

2.1 LANGUAGE BORDERSHINDER THE EUROPEANINFORMATION SOCIETYWe cannot predict exactly what the future informa-tion society will look like. But there is a strong like-lihood that the revolution in communication technol-ogy is bringing people speaking different languages to-gether in new ways. is is putting pressure on individ-uals to learn new languages and especially on develop-ers to create new technology applications to ensure mu-tual understanding and access to shareable knowledge.In a global economic and information space, more lan-guages, speakers and content interactmore quickly withnew types ofmedia. ecurrentpopularity of socialme-dia (Wikipedia, Facebook, Twitter, YouTube, and, re-cently, Google+) is only the tip of the iceberg.

The global economy and informationspace confronts us with different languages,

speakers and content.

Today, we can transmit gigabytes of text around theworld in a few seconds before we recognise that it is ina language we do not understand. According to a re-cent report from the EuropeanCommission, 57% of In-ternet users in Europe purchase goods and services innon-native languages (English is the most common for-eign language followed by French, German and Span-ish.). 55% of users read content in a foreign languagewhile only 35% use another language to write e-mails orpost comments on theWeb [2]. A few years ago, Englishmight have been the lingua franca of the Web – the vastmajority of content on theWebwas in English – but thesituation has now drastically changed. e amount ofonline content in other European (as well as Asian andMiddle Eastern) languages has exploded.

Surprisingly, this ubiquitous digital divide due to lan-guage borders has not gained much public attention;yet, it raises a very pressing question: Which Europeanlanguages will thrive in the networked information andknowledge society, andwhich are doomed to disappear?

2.2 OUR LANGUAGES AT RISK

While the printing press helped step up the exchange ofinformation in Europe, it also led to the extinction ofmany European languages. Regional and minority lan-guages were rarely printed and languages such as Cor-nish and Dalmatian were limited to oral forms of trans-mission, which in turn restricted their scope of use. Willthe Internet have the same impact on our languages?

The variety of languages in Europe is one of itsrichest and most important cultural assets.

Europe’s approximately 80 languages are one of its rich-est and most important cultural assets, and a vital partof its unique social model [41]. While languages suchas English and Spanish are likely to survive in the emerg-ingdigitalmarketplace,manyEuropean languages couldbecome irrelevant in a networked society. is wouldweakenEurope’s global standing, and run counter to thestrategic goal of ensuring equal participation for everyEuropean citizen regardless of language. According toa UNESCO report on multilingualism, languages arean essential medium for the enjoyment of fundamentalrights, such as political expression, education and par-ticipation in society [3].

38

Page 47: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

2.3 LANGUAGE TECHNOLOGYIS A KEY ENABLINGTECHNOLOGYIn the past, investment efforts in language preservationfocused on language education and translation. Accord-ing to one estimate, the European market for transla-tion, interpretation, soware localisation and websiteglobalisationwas €8.4 billion in 2008 and is expected togrow by 10% per annum [4]. Yet this figure covers justa small proportion of current and future needs in com-municating between languages. e most compellingsolution for ensuring the breadth and depth of languageusage in Europe tomorrow is to use appropriate technol-ogy, just as we use technology to solve our transport, en-ergy and disability needs among others.Digital language technology (targeting all forms ofwrit-ten text and spoken discourse) helps people collaborate,conduct business, share knowledge and participate insocial and political debate regardless of language barri-ers and computer skills. It oen operates invisibly insidecomplex soware systems to help us:

‚ find information with an Internet search engine;

‚ check spelling and grammar in a word processor;

‚ view product recommendations in an online shop;

‚ hear the verbal instructions of a car navigation sys-tem;

‚ translate web pages via an online service.

Language technology consists of a number of core appli-cations that enable processes within a larger applicationframework. e purpose of the META-NET languagewhite papers is to focus on how ready these core tech-nologies are for each European language.

Europe needs robust and affordable languagetechnology for all European languages.

Tomaintain our position in the frontline of global inno-vation, Europe will need language technology adaptedto all European languages that is robust, affordable andtightly integrated within key soware environments.Without language technology, we will not be able toachieve a really effective interactive, multimedia andmultilingual user experience in the near future.

2.4 OPPORTUNITIES FORLANGUAGE TECHNOLOGYIn the world of print, the technology breakthrough wasthe rapid duplication of an image of a text (a page) usinga suitably powered printing press. Human beings had todo thehardworkof lookingup, reading, translating, andsummarizing knowledge. We had to wait until Edisonto record spoken language – and again his technologysimplymade analogue copies. Digital language technol-ogy can now automate the very processes of translation,content production, and knowledgemanagement for allEuropean languages. It can also empower intuitive lan-guagespeech-based interfaces for household electronics,machinery, vehicles, computers and robots. Real-worldcommercial and industrial applications are still in theearly stages of development, yet R&D achievements arecreating a genuine window of opportunity. For exam-ple, machine translation is already reasonably accuratein specific domains, and experimental applications pro-vide multilingual information and knowledge manage-ment as well as content production in many Europeanlanguages.

As with most technologies, the first language applica-tions such as voice-based user interfaces and dialoguesystems were developed for highly specialised domains,and oen exhibit limited performance. But there arehuge market opportunities in the education and en-tertainment industries for integrating language tech-nologies into games, cultural heritage sites, edutain-

39

Page 48: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

ment packages, libraries, simulation environments andtraining programmes. Mobile information services,computer-assisted language learning soware, eLearn-ing environments, self-assessment tools and plagiarismdetection soware are just some of the application ar-eas where language technology can play an importantrole. e popularity of social media applications likeTwitter and Facebook suggest a further need for sophis-ticated language technologies that can monitor posts,summarise discussions, suggest opinion trends, detectemotional responses, identify copyright infringementsor track misuse.

Language technology helps overcome the“disability” of linguistic diversity.

Language technology represents a tremendous oppor-tunity for the European Union. It can help addressthe complex issue of multilingualism in Europe – thefact that different languages coexist naturally in Euro-pean businesses, organisations and schools. But citi-zens need to communicate across these language borderscriss-crossing the European Common Market, and lan-guage technology can help overcome this final barrierwhile supporting the free andopenuse of individual lan-guages. Looking even further forward, innovative Eu-ropean multilingual language technology will provide abenchmark for our global partners when they begin toenable their own multilingual communities. Languagetechnology can be seen as a form of ‘assistive’ technol-ogy that helps overcome the ‘disability’ of linguistic di-versity andmake language communitiesmore accessibleto each other.Finally, one active field of research is the use of languagetechnology for rescue operations in disaster areas, whereperformance canbe amatter of life anddeath: Future in-telligent robots with cross-lingual language capabilitieshave the potential to save lives.

2.5 CHALLENGES FACINGLANGUAGE TECHNOLOGYAlthough language technology has made considerableprogress in the last few years, the current pace of tech-nological progress and product innovation is too slow.

The current pace of technologicalprogress is too slow.

Widely-used technologies such as the spelling and gram-mar correctors in word processors are typically mono-lingual, and are only available for a handful of languages.Online machine translation services, although usefulfor quickly generating a reasonable approximation of adocument’s contents, are fraught with difficulties whenhighly accurate and complete translations are required.Due to the complexity of human language, modellingour tongues in soware and testing them in the realworld is a long, costly business that requires sustainedfunding commitments. Europe must therefore main-tain its pioneering role in facing the technology chal-lenges of a multiple-language community by inventingnewmethods to accelerate development right across themap. ese could include both computational advancesand techniques such as crowdsourcing.

Technological progress needs to be accelerated.

2.6 LANGUAGE ACQUISITIONIN HUMANS AND MACHINESTo illustrate how computers handle language andwhy itis difficult to program them to use it, let’s look briefly atthe way humans acquire first and second languages, andthen see how language technology systems work.

40

Page 49: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Humans acquire language skills in two different ways.Babies acquire a language by listening to the real inter-actions between its parents, siblings and other familymembers. From the age of about two, children producetheir first words and short phrases. is is only possi-ble because humans have a genetic disposition to imitateand then rationalise what they hear.Learning a second language at an older age requiresmore effort, largely because the child is not immersedin a language community of native speakers. At school,foreign languages are usually acquired by learning gram-matical structure, vocabulary and spelling using drillsthat describe linguistic knowledge in terms of abstractrules, tables and examples. Learning a foreign languagegets harder with age.

Humans acquire language skills in twodifferent ways: learning from examples and

learning the underlying language rules.

e two main types of language technology systems ‘ac-quire’ language capabilities in a similar manner. Sta-tistical (or ‘data-driven’) approaches obtain linguisticknowledge from vast collections of concrete exampletexts. While it is sufficient to use text in a single lan-guage for training, e. g., a spell checker, parallel texts intwo (or more) languages have to be available for train-ing a machine translation system. e machine learn-ing algorithm then “learns” patterns of howwords, shortphrases and complete sentences are translated.is statistical approach can require millions of sen-tences and performance quality increases with theamount of text analysed. is is one reason why searchengine providers are eager to collect as much writtenmaterial as possible. Spelling correction in word pro-cessors, and services such as Google Search and GoogleTranslate all rely on statistical approaches. e great ad-

vantage of statistics is that the machine learns fast incontinuous series of training cycles, even though qual-ity can vary arbitrarily.

e second approach to language technology and ma-chine translation in particular is to build rule-basedsystems. Experts in the fields of linguistics, computa-tional linguistics and computer science first have to en-code grammatical analyses (translation rules) and com-pile vocabulary lists (lexicons). is is very time con-suming and labour intensive. Some of the leading rule-basedmachine translation systems have been under con-stant development for more than twenty years. egreat advantage of rule-based systems is that the expertshavemoredetailed control over the languageprocessing.is makes it possible to systematically correct mistakesin the soware and give detailed feedback to the user, es-pecially when rule-based systems are used for languagelearning. But due to the high cost of this work, rule-based language technology has so far only been devel-oped for major languages.

As the strengths and weaknesses of statistical and rule-based systems tend to be complementary, current re-search focuses on hybrid approaches that combine thetwomethodologies. However, these approaches have sofar been less successful in industrial applications than inthe research lab.

As we have seen in this chapter, many applicationswidely used in today’s information society rely heavilyon language technology. Due to its multilingual com-munity, this is particularly true of Europe’s economicand information space. Although language technologyhas made considerable progress in the last few years,there is still huge potential in improving the quality oflanguage technology systems. In the following, we willdescribe the role of Basque in European information so-ciety and assess the current state of language technologyfor the Basque language.

41

Page 50: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

3

BASQUE IN THE EUROPEANINFORMATION SOCIETY

3.1 GENERAL FACTSBasque – or euskara, in Basque –, known as ‘LinguaNavarrorum’ in Latin because it was the popular lan-guage in the Kingdom of Navarre, is the only surviv-ing pre-Indo-European language in western Europe. Itis considered an isolated language, with no known con-nections with other languages other than ancient Aqui-tanian. Both the origin of the language and its relation-ship with other languages continue to be controversialand of interest for many researchers.

Basque is presently spoken in a small region located atthe west of the Pyrenees, on both sides of the border be-tweenSpain andFrance, in the region calledEuskalHer-ria (BasqueCountry, in Basque) by the Basque commu-nity. e language has been loosing territory for cen-turies mainly on the south side. More recently, duringthe years of Franco’s dictatorshipwhen the use ofBasquewas forbidden, the language suffered an irreparable loss.Enormous efforts of revitalisation of the language wereovertaken particularly from the 60s, where a networkof schools was created introducing Basque into the ed-ucational system, clandestinely during its first years ofexistence. However, it is only from the 80’s, with thelinguistic political competences given to the BasqueGovernment aer the creation of the Autonomies, thatBasque language started a recovery process.

In spite of the tremendous efforts made, in 2009 Basqueappeared in the Unesco Map of the World’s Languagesin Danger [5] as a “vulnerable” language. Nowadays,

Basque is estimated to be spoken by about 26% of thepopulation of the Basque Country [6], either on theSpanish administration side or on the French admin-istration side, but its status is not at all homogeneous.On one hand, the Spanish area of the Basque Coun-try is divided into two political regions: in the BasqueAutonomous Community, Basque is legally co-officialalong with Spanish, but with certain inequalities infavour of Spanish; in the Navarresse Community thereare three different areas depending on the legal statusof Basque: Basque-speaking, non-Basque-speaking, andmixed. e support for the language and the linguis-tic rights of the citizens vary depending on which ofthe three areas they are in. On the other hand, on theFrench side, Basque is spoken in the western half of theDépartement of Pyrénées-Atlantiques, but it has neverhad any legal status of any kind, and it is not official inany institution. However some years ago (2004), a pub-lic Agency was created to promote Basque language inFrench Basque country.

Basque has around 800,000 native speakers.

SpokenBasque shows a very high degree of dialectal dis-persion. It is now commonly accepted that it is com-prised of six dialects which have great differences amongthem. Standard or Unified Basque was not officially es-tablished until 1968 when the Academy of the Basquelanguage Euskaltzaindia [7] made the first standardi-

42

Page 51: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

sation proposal. ese dialects have great differencesbetween them in many aspects: lexical, phonetic, mor-phophonological and also prosodical, in accent and in-tonation. edialects are not homogeneous entities; in-stead, they change continuously from one to another,and in several cases the limit between two or more ofthem is not so clear.

3.2 PARTICULARITIES OF THEBASQUE LANGUAGEBasque is an agglutinative and high-inflective languagewhose major characteristic is that it is an ergative-absolutive language. at means that the subject of anintransitive verb is in the absolutive case (which is un-marked), and the same case is used for the direct objectof a transitive verb; the subject of the transitive verb ismarked differently, with the ergative case: the suffix -k.

Basque uses six different vowel soundsand thirty five consonant sounds.

Basque is postpositional; so, case and postpositionalphrases are formed by attaching a suffix or concatenat-ing more than one to the end of a phrase, according tothe following scheme:

root + (article) + (number) + (case(s))

For example, «mutilarengana» (towards the boy) isformed by: «mutil+a+Ø+r+en+gan+a», – in which«mutil» is the lemma, or noun root; «a» is the article;«» the mark of singular; «r» an epenthetic particle;«en» thepossessive genitive; «gan» the animate-beingmarker and «a» the allative.is is an important characteristic to be taken into ac-count in natural language and speech processing, sinceeach noun-phrase can be inflected in 17 different ways,

multiplied by 4 ways for its definiteness and number.ese first 68 forms are furthermodified based on otherparts of sentence, which in turn are inflected for thenoun again. It has been estimated that, with two lev-els of recursion, a Basque noun may have 275 inflectedforms, which is, on the other hand, very common [8].is implies that it is necessary to find a way of dealingwith all these ending variations starting from a basic lex-icon.e verbs are another example of the agglutinative char-acter of Basque. e auxiliary verb, which accompa-nies most main verbs, agrees not only with the sub-ject, but with any direct object and the indirect objectpresent. Among European languages, this poly-personalagreement is only found in Basque, some languages ofthe Caucasus, andHungarian (all non-Indo-European).Verbs in Basque follow the next scheme:

[verb_radical+aspect_suffix] [aux_verb]

For example, in Standard Basque «esaten zenizki-daten» (you – 2nd person plural – used to tell mesome things) is formed by «esan» (tell, verb radical)+ «ten» (frequentative aspect) and the auxiliary verb«zen+i+zki+da+Ø+te+n», in which «zen» marksthe ergative secondperson; «i» is the auxiliary verb rad-ical; «zki» the absolutive third person plural; «da»the dative first person singular; «Ø» is the indicativemarker; «te» the ergative plural marker; and «n» themarker for the past tense. Due to this complexity, it isusual inNatural Language Processing research to opt fortreating each of the auxiliary verbs as a whole, instead ofdividing them into morphemes.As far as the word order of the sentence is concerned,the basic syntactic construction is Subject-Objects-Verb(unlike Spanish, French or English where Subject-Verb-Objects construction is more common). e order ofthe phrases within a sentence can be changed with the-matic purposes, whereas the order of the words withina phrase is usually rigid. As a matter of fact, Basque

43

Page 52: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

phrase order is topic-focus, meaning that in neutral sen-tences (such as sentences to inform someone of a fact orevent) the topic is stated first, then the focus. In suchsentences, the verb phrase comes at the end. In brief,the focus directly precedes the verb phrase. is rule isalso applied in questions, for instance,What is this? canbe translated as «Zer da hau?» or «Hau zer da?», butin both cases the question tag «zer» immediately pre-cedes the verb«da». is rule is so important that, evenin grammatical descriptions of Basque written in otherlanguages, the Basque word galdegai (focus) is used.Basque orthography is almost phonemic: eachgrapheme corresponds to one phoneme, and so, thepronunciation of a word can be easily figured out fromits written form. Nevertheless, there are a few excep-tions: <l> and <n> are usually palatalised when theyare preceded by <i> and followed by a vowel: mutilaÑ <mutiLa> (the boy). Another example is that theconsonant phoneme at the end of the negative particle“ez” (no) converts the contiguous next phoneme in avoiceless phoneme: ez dira Ñ <eztira> (they are not).

3.3 RECENT DEVELOPMENTSA standardised form of the Basque language, calledEuskara Batua, was developed by Euskaltzaindia, theAcademy of the Basque Language in the late 1960s. Eu-skara Batua was created so that Basque language couldbe used – and easily understood by all Basque speak-ers – in formal situations (education, mass media, lit-erature...), and this is its main use nowadays. For clas-sic literary reasons, Standard Basque is based mainly onthe Central and Navarrese-Labourdin dialects. e ex-treme dialects, differ noticeably from it, despite that theWestern dialect is one of themost spoken dialects of thelanguage together with the Central dialect.Standard Basque has solid foundations and it is devel-oping forward aspects as syntax and naturalness. Atpresent, almost all the people that study Basque learn

the Euskara Batua. is fact has created a phenomenonall around the Basque country in which Basque peo-ple speak their own local dialect with locals, and stan-dard Basque with the ‘new Basque speakers’ (euskaldunberri). In the Western area, due to the great differencesbetween the western dialect and the standard, it has ledto a situation where people studying Basque feel thatthe language they are studying is pretty far from whatBasque people speak. On the other hand, it is nowalready a fact that there are standard Basque speakerswhose mother tongue is precisely standard Basque, be-cause many new Basque speakers opt to speak to theirchildren in Basque, even that their own primary lan-guage was Spanish.

However, the idea that the future of Basque is relatednot only to the development of Standard Basque butalso to the promotion of the current dialects ismore andmore accepted by the theoreticians of the Basque lan-guage [9]. So, dialects will be somehow important inthe future applications of LT for Basque.

e Basque LT community and researchers, consciousof the importance of technologies for languages spo-ken by small communities to evolve in the 21st century,have made a great effort to place Basque at the sametechnological level as the most used languages. ereis a solid scientific experience along with other neigh-bouring languages, such as Catalan and Galician, thatis virtually unique in Europe, such as the developmentof cross-lingual products and services between regionallanguages.

e importance of the development of a LT industryfor Basque is evident taking into account the creationof Langune [10]. Langune is an association of BasqueCountry companies belonging to the Language Indus-try sector. is associationwas set up in 2010 andbringstogether over 30 companies in the spheres of translation,content, teaching and language technologies. Its mainobjective is to develop the sector of LT, which will be

44

Page 53: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

a benchmark in the language industry in Europe, whileavoiding the duplication of efforts and achieving syner-gies. Langune has just started but is taking giant steps.

3.4 LANGUAGE CULTIVATIONIN BASQUEe Basque language is mainly represented by ‘Eu-skaltzaindia’, the Royal Academy of the Basque Lan-guage (1919). It carries out research in the language,seeks to protect it and establishes standards of use. It en-joys full official recognition as a royal academy in Spain(1976) and as a cultural association of public benefitwithin the territory of France (1995).

Since the declaration of Basque as the official languagein the Autonomous Basque Community, the BasqueGovernment has developed numerous norms and lawsin order to protect and favour the use of the lan-guage. Various organisms and institutions have sincebeen created: Basque Advisory Board (1982), BasqueRadio-Television EiTB (1982), the Institute for AdultsLiteracy-HABE (1983) and many others.

e ‘General Plan for the Promotion of the Use ofBasque’ was first introduced in 1998 as a strategic in-strumentwith threemain objectives: reach consensus ingoals and actions of the different institutions, establishpriorities for the founding programmes and coordinatethe activities of institutions, companies and associationsdealing with Basque. Within this strategic Plan, period-ical sociolinguistic surveys serve as guide for establish-ing new goals and correction directions. e BasqueGovernment has aweb-portal www.euskara.euskadi.netdedicated to the Basque language, offering informationnot only about the language and its history and presentsituation, but also links to every kind of service, productor application related with the language, including pub-lic funding programmes. In the French area, the “OfficePublic de la LangueBasque” [11]was created in 2004, as

a public Agency bringing together four local or regionalpublic institutions and the state, with the goal of defin-ing and applying a common linguistic policy in the re-gion to promote Basque language.

3.5 LANGUAGE IN EDUCATIONIn the Basque Autonomous Community, Basque wasofficially introduced in the public education system in1983 with the law that regulates the use of Basque andSpanish in the Primary and Secondary School. For thePrimary and Secondary School three models were cre-ated, giving the possibility to each institution to choosethe model to offer. In model A the vehicular languageis Spanish, and Basque is taught in the subject “BasqueLanguage and Literature”. In model D – the letter Cis not normally used in Basque – Basque is the vehicu-lar language and there is one subject “Spanish Languageand Literature” taught in Spanish. Model B is an inter-mediatemodel, where some of the subjects are taught inSpanish (mainly Reading and Writing and Mathemat-ics) and another part inBasque (mainly science andplas-tic). However, the Model A has been losing studentsprogressively, in favour of Model B, mainly in pre- andprimary school, where more than half of the studentslearn in Model D. Yet, 85% of the 15 years old studentsmade the examinations for the PISA Study in Spanishwhilst only 15% did them in Basque [12], clearly show-ing that Spanish is the dominant language in Education.In the Navarresse Community, where Basque has dif-ferent grades of official status depending on the area, aforth model was also available with no mandatory sub-ject of Basque. As for theNorthern provinces in France,primary education in Basque is offered by the privatenetwork of schools ‘Seaska’, which ismanaging presentlyalmost 2700 students in 29 establishments that includeone centre for secondary education and one ‘lizeo’.Very recently, new models are being proposed andtested, which consider the importance of early learning

45

Page 54: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

of English. e Basque Government in Spain has re-cently introduced a trilingual model, while in Navarrebilingual education in Spanish and English has been in-troduced, although Basque is offered optionally.At higher levels of education, the offer is clearly dom-inated by Spanish. From the three existing universi-ties, the only public university, Universidad del PaísVasco / Euskal Herriko Unibertsitatea (UPV/EHU),offers the possibility of learning inBasque, and althoughenormous efforts have been made to make equal offerin Basque as in Spanish, only very few degrees can betaken fully in Basque. Remarkably, a Master and Doc-torate Program ‘Analysis and Processing of Language’[13] totally offered in Basque exists since the year 2001.e private University Mondragon Unibertsitatea of-fers most of their degrees in Basque and some of theirMaster studies in Basque. e third University, Uni-versidad de Deusto, offers only some of the courses inBasque.

3.6 INTERNATIONAL ASPECTSSince January 2009, the Etxepare Basque Institute is theBasque public institution responsible for spreading theBasque language and culture all over the world. is in-stitution is aiming to promote the teaching, study anduse of Basque throughout the world and to include thecontributions of all the communities that share Basqueas a common language. e Institute also aims to dis-seminate Basque culture in the international commu-nity with very special reference to those groups thatspeak Basque, including the Basque Diaspora. Alongthe history, many Basques have le the Basque Countryfor other parts of the globe for economic and politicalreasons; Basque Diaspora is the name given to describepeople of Basque origin living outside their traditionalhomeland. Currently there are substantial Basque ori-gin populations in Chile, Argentina, Bolivia, Ecuador,Colombia, Cuba, Mexico, Venezuela, Canada and the

United States. All of them have several Basque culturalcentres (Euskal Etxeak) that were established to pursuethe same objective: the perpetuation of Basque cultureand identity. ere are Basque cultural centres in mostlarge cities of 24 different countries [14].e origins and singular structure of Basque have raisedthe interest in the study of Basque language and culture.Currently it can be learned in 29 universities belongingto 13 different American and European countries.Regarding the use of Basque in international insti-tutions, the Spanish government has made efforts infavour of including it, together with Catalan and Gali-cian among the official languages of the European insti-tutions. But currently they do not enjoy the status ofofficial languages; they are considered semi-official, to-getherwith Scottish,Gaelic andWelsh. Basque can onlybe used in very limited situations: it can be spoken at thework sessions of the Region Committee and the Coun-cil, but not in the plenarymeetings of the European Par-liament. Citizens can also write to the European institu-tions using Basque and have right to be answered in thesame language, but always through the SpanishGovern-ment and this government must pay the derived fees.

29 universities from 13 different American andEuropean countries offer Basque studies.

Basque is included in the list Regional andminority lan-guages of the European Union [15] and as such it ben-efits from the resolutions adopted by the European Par-liament to promote actionon regional andminority lan-guages.Language technology can address this challenge froma different perspective by offering services like machinetranslation or cross-lingual information retrieval to for-eign language text and thus help diminish personal andeconomic disadvantages naturally faced by non-nativespeakers of English.

46

Page 55: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

3.7 BASQUE ON THE INTERNETIn the first quarter of 2010, 61.4% of the households(513,000) in the Basque Country had a computer.ere were slightly over 460,000 families, of which54.9%, had access to the Internet from their homes. ismeans that over a million people aged 15 and over wereInternet users. Most of them stated to be online everyday. Only 22.9% of them used Basque language on theInternet [42].

Basque is used by 0.5% of all thewebsites that rank in the top 1,000.

Nevertheless there is a strong and willing community ofInternet users among Basque speaking people. e blo-gosphere in Euskara, the Wikipedia and online servicesin Euskara, as well as the location of tools and operatingsystems based on free soware, have fostered the pres-ence of Euskara and Basque culture, both on the Inter-net and ICT, encouraging, in this way, the expansion ofits use. For instance, the Basque Wikipedia has morethan 120,000 articles occupying the 36th place in num-ber of articles among all the Wikipedia. And a big ef-fort has been made in order to provide different com-mon sowareprograms [16, 17] and resources inBasque[18, 19, 20, 21, 22].A new top level domain .eus has been registered andwill be launched in mid 2012. It already counts with

193 pre-registrations. e proposed top-level domain.eus is the name that will represent the Community ofthe Basque Language and Culture on the Internet. issymbol will become a tool for the promotion of Basqueculture and Euskara, and, in this sense, the .eus domainwill be an effective mechanism for linguistic standardi-sation of Euskara worldwide. e .eus domain, throughthe virtual space of the Internet, will assure an efficientpromotion of Euskara, guaranteeing simultaneously itsinternational recognition. Similarly, the .eus domainwill reinforce and extend themulticultural nature of theInternet, since allowing linguistic and cultural commu-nities to have their own domain puts multiculturalismat the very heart of the Internet. Domains related tolanguage and cultures strengthen and benefit not onlythose linguistic and cultural communities but also theInternet itself [23].

The Basque Wikipedia, with 123,787articles, is the 36th largest Wikipedia

in terms of the number of articles.

For language technology, the growing importance ofthe Internet is important in twoways. On one hand, thelarge amount of digitally available language data repre-sents a rich source for analysing the usage of natural lan-guage, in particular by collecting statistical information.On the other hand, the Internet offers a wide range ofapplication areas involving language technology.

47

Page 56: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

4

LANGUAGE TECHNOLOGY SUPPORTFOR BASQUE

Language technology is used to develop soware sys-tems designed to handle human language and are there-fore oen called “human language technology”. Humanlanguage comes in spoken and written forms. Whilespeech is the oldest and in terms of human evolution themost natural form of language communication, com-plex information and most human knowledge is storedand transmitted through the written word. Speechand text technologies process or produce these differ-ent forms of language, using dictionaries, rules of gram-mar, and semantics. is means that language technol-ogy (LT) links language to various forms of knowledge,independently of the media (speech or text) in which itis expressed. Figure 1 illustrates the LT landscape.When we communicate, we combine language withother modes of communication and information media– for example speaking can involve gestures and facialexpressions. Digital texts link to pictures and sounds.Movies may contain language in spoken and writtenform. Inotherwords, speech and text technologies over-lap and interact with other multimodal communicationand multimedia technologies.In this section, we will discuss the main applicationareas of language technology, i. e., language checking,web search, speech interaction, and machine transla-tion. ese applications and basic technologies include

‚ spelling correction

‚ authoring support

‚ computer-assisted language learning

‚ information retrieval

‚ information extraction

‚ text summarisation

‚ question answering

‚ speech recognition

‚ speech synthesis

Language technology is an established area of researchwith an extensive set of introductory literature. e in-terested reader is referred to the following references:[43, 44, 45, 46, 47].Before discussing the above application areas, we willbriefly describe the architecture of a typical LT system.

4.1 APPLICATIONARCHITECTURESSoware applications for language processing typicallyconsist of several components that mirror different as-pects of language. While such applications tend to bevery complex, figure 2 shows a highly simplified archi-tecture of a typical text processing system. efirst threemodules handle the structure and meaning of the textinput:

1. Pre-processing: cleans the data, analyses or removesformatting, detects the input languages, and so on.

2. Grammatical analysis: finds the verb, its objects,modifiers and other sentence elements; detects thesentence structure.

48

Page 57: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Multimedia &MultimodalityTechnologies

LanguageTechnologies

Speech Technologies

Text Technologies

Knowledge Technologies

1: Language technologies

3. Semantic analysis: performs disambiguation (i. e.,computes the appropriate meaning of words in agiven context); resolves anaphora (i. e., which pro-nouns refer to which nouns in the sentence); rep-resents the meaning of the sentence in a machine-readable way.

Aer analysing the text, task-specific modules can per-form other operations, such as automatic summarisa-tion and database look-ups.In the remainder of this section, we firstly introducethe core application areas for language technology, andfollow this with a brief overview of the state of LT re-search and education today, and a description of pastand present research programmes. Finally, we presentan expert estimate of core LT tools and resources forBasque in terms of various dimensions such as availabil-ity, maturity and quality. e general situation of LT for

the Basque language is summarised in figure 7 (p. 60) atthe end of this chapter. is table lists all tools and re-sources that are boldfaced in the text. LT support forBasque is also compared to other languages that are partof this series.

4.2 CORE APPLICATION AREASIn this section, we focus on themost important LT toolsand resources, and give an overview of LT activities inBasque. Tools and resources that are set in bold in thetext can also be found in the table at the endof this chap-ter.

4.2.1 Language Checking

Anyone using a word processing tool such as MicrosoWord has come across a spell checking component thatindicates spelling mistakes and proposes corrections.

Input Text

Pre-processing Grammatical Analysis Semantic Analysis Task-specific Modules

Output

2: A typical text processing architecture

49

Page 58: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Input Text Spelling Check Grammar Check Correction Proposals

Statistical Language Models

3: Language checking (top: statistical; bottom: rule-based)

Forty years aer the first spelling correction program byRalph Gorin, language checkers nowadays do not sim-ply compare the list of extracted words against a dic-tionary of correctly spelled words, but have become in-creasingly sophisticated. Using language-dependent al-gorithms for grammatical analysis, they detect errorsrelated to morphology (e. g., plural formation) as wellas syntax-related errors, such as a missing verb or a con-flict of verb-subject agreement (e. g., she *write a letter).However, most spell checkers will not find any errors inthe following text [24]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

For handling this type of errors, analysis of the contextis needed in many cases, e. g., in Basque, for deciding ifthe ergative marker has to be used, as in:

‚ Liburua neskak dauka[e girl has the book]

‚ Irakurlea neska da.[e reader is a girl.]

Language checking(see figure 3) either requires the for-mulation of language-specific grammars, i. e., a high de-gree of expertise and manual labour, or the use of a sta-tistical languagemodel. Suchmodels calculate the prob-ability of a particular word occurring in a specific envi-ronment (i. e., the preceding and following words). For

example, neskak dauka is a much more probable wordsequence thanneska dauka. A statistical languagemodelcan be automatically derived using a large amount of(correct) language data (i. e., a corpus). Up tonow, theseapproaches have mostly been developed and evaluatedon English language data. However, they do not neces-sarily transfer straightforwardly toBasquewith its richerinflection and agglutinative morphology. In fact, lan-guage modelling for Basque poses enormous difficultiesdue to the impossibility of collecting all possible word-forms.e use of Language Checking is not limited to wordprocessing tools, but it is also applied in authoring sup-port systems. Accompanying the rising number of tech-nical products, the amount of technical documenta-tion has rapidly increased over the last decades. Fear-ing customer complaints about wrong usage and dam-age claims resulting from bad or badly understood in-structions, companies have begun to focus increasinglyon the quality of technical documentation, and at thesame time targeting the international market. Advancesin natural language processing lead to the developmentof authoring support soware, which assists the writerof technical documentation to use vocabulary and sen-tence structures consistent with certain rules and (cor-porate) terminology restrictions.

Language checking is not limited to wordprocessors but also applies to authoring systems.

50

Page 59: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

e most used Spell Checker for Basque is Xuxen [25],which was developed by the university research groupIXA (http://ixa.si.ehu.es) and is supplied by the SMEEleka Ingenieritza Linguistikoa. is Spell Checker isnot limited to the use of a lexicon as it is common prac-tice for English or other less-inflected languages. Onthe contrary, morphological analysis is performed. enewest version of this spell checker also performs gram-mar and style corrections. is version also includescode developed by the companyHizkia [26] and the in-stitution UZEI [27].

Besides spell checkers and authoring support, LanguageChecking is also important in the field of computer-assisted language learning and is applied to automati-cally correct queries sent to Web Search engines, e. g.,Google’s ‘Did you mean …’ suggestions.

4.2.2 Web Search

Search on the web, in intranets or in digital libraries, isprobably the most widely used and yet underdevelopedLanguageTechnology today. e search engineGoogle,which started in 1998, is nowadays used for about 80%of all search queries world-wide [28].

Neither the search interface nor the presentation ofthe retrieved results has significantly changed since thefirst version. In the current version, Google offers aspelling correction for misspelled words and also, in2009, they incorporated basic semantic search capabili-ties into their algorithmic mix [29], which can improvesearch accuracy by analysing the meaning of the queryterms in context. e success story ofGoogle shows thatwith a lot of data at hand and efficient techniques for in-dexing these data, a mainly statistically-based approachcan lead to satisfactory results.

For more sophisticated information requests, it is es-sential to integrate deeper linguistic knowledge to fa-cilitate text interpretation. Experiments using lexicalresources such as machine-readable thesauri or onto-

logical language resources like WordNet have demon-strated improvements in finding pages using synonymsof the search terms. Again, these developments re-quire language-specific resources. A Basque WordNet‘BasWN’ has been developed by the research group IXAat theUniversity of the BasqueCountry and is commer-cially available through ELRA.

The next generation of search engineswill have to include much more sophisticated

language technology.

e next generation of search engines will have to in-clude much more sophisticated language technology,especially to deal with search queries consisting of aquestion or other sentence type rather than a list of key-words. For the query, Give me a list of all companies thatwere taken over by other companies in the last five years,a syntactic as well as semantic analysis is required. esystem also needs to provide an index to quickly retrieverelevant documents. A satisfactory answer will requiresyntactic parsing to analyse the grammatical structure ofthe sentence and determine that the user wants compa-nies that have been acquired, rather than companies thathave acquired other companies.Finally, the processed query needs to bematched againsta huge amount of unstructured data in order to find thepiece or pieces of information the user is looking for.is is commonly referred to as information retrievaland involves the search for and ranking of relevant doc-uments. In addition, generating a list of companies, wealso need to extract the information that a particularstring ofwords in a document refers to a company name.is kind of information is made available by so-callednamed-entity recognisers.Even more demanding is the attempt to match a queryto documents written in a different language. For cross-lingual information retrieval, we have to automatically

51

Page 60: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

User Query

Web Pages

Pre-processing Query Analysis

Pre-processing Semantic Processing Indexing

Matching&

Relevance

Search Results

4: Web search architecture

translate the query to all possible source languages andtransfer the retrieved information back to the target lan-guage. e increasing percentage of data available innon-textual formats drives the demand for services en-abling multimedia information retrieval, i. e., informa-tion search on images, audio, and video data. For audioand video files, this involves a speech recognitionmod-ule to convert speech content into text or a phoneticrepresentation, to which user queries can be matched.

Focus on development for these companies lies on pro-viding add-ons and advanced search engines for special-interest portals by exploiting topic-relevant semantics.Due to the still high demands in processing power, suchsearch engines are only economically usable on relativelysmall text corpora. Processing time easily exceeds thatof a common statistical search engine as, e. g., providedby Google by a magnitude of thousands. ese searchengines also have high demand in topic-specific domainmodelling, making it not feasible to use these mecha-nisms on web scale.

In the Basque Autonomous Community, the smallcompany Eleka Ingeniaritza Linguistikoa has been veryactive in the development of applications andweb basedservices for Basque. ey usually integrate LT researchresults and resources such as lemmatisers and lexicaldatabases of the IXA group and Elhuyar Foundation.e multilingual search engine elebila considers theBasque language specifics and integrates various linguis-tic tools and resources to offer high quality search re-sults for Basque. Another example is the tool calledMiatu (‘Examine’ in Basque), a library offering func-tionality to search in special purpose indexed databasesusing lemmatisers and other morphology analysis tools.It has been used to develop the science related web por-tal www.zientzia.net and the educational content portalwww.ikasbil.net.

4.2.3 Speech Interaction

Speech Interaction technology is the basis for the cre-ation of interfaces that allow a user to interact with ma-chines using spoken language rather than, e. g., a graph-

52

Page 61: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Speech Input Signal Processing

Speech Output Speech Synthesis Phonetic Lookup & Intonation Planning

Natural Language Understanding &

Dialogue

Recognition

5: Speech-based dialogue system

ical display, a keyboard, and a mouse. Today, such voiceuser interfaces (VUIs) are usually employed for partiallyor fully automating service offerings provided by com-panies to their customers, employees, or partners viathe telephone. Business domains that rely heavily onVUIs are banking, logistics, public transportation, andtelecommunications. Other usages of Speech Interac-tion technology are interfaces to particular devices, e. g.,navigation systems, and the employment of spoken lan-guage as an alternative to the input/output modalitiesof graphical user interfaces, e. g., in smartphones.At its core, Speech Interaction comprises the followingfour differrent technologies:

‚ Automatic speech recognition (ASR) is responsiblefor determining which words were actually spokengiven a sequence of sounds uttered by a user.

‚ Syntactic analysis and semantic interpretation dealwith analysing the syntactic structure of a user’s ut-terance and interpretting the latter according to thepurpose of the respective system.

‚ Dialogue management is required for determining,on the part of the system the user interacts with,which action shall be taken given the user’s input andthe functionality of the system.

‚ Speech synthesis (Text-to-Speech, TTS) technol-ogy is employed for transforming the wording ofthat utterance into sounds that will be output to theuser.

One of the major challenges of ASR systems is to ac-curately recognise the words a user utters. is meansrestricting the range of possible user utterances to alimited set of keywords, or manually creating languagemodels that cover a large range of natural language ut-terances. Using machine learning techniques, languagemodels can also be generated automatically from speechcorpora, i. e., large collections of speech audio files andtext transcriptions. Restricting utterances usually forcespeople to use the voice user interface in a rigid way andcan damage user acceptance; but the creation, tuningand maintenance of rich language models will signifi-cantly increase costs. VUIs that employ language mod-els and initially allow a user to express their intent moreflexibly – prompted by a How may I help you? greeting– are better accepted by users.

Speech interaction is the basis for interfaces thatallow a user to interact with spoken language.

For the output part of a VUI, companies tend to useutterances pre-recorded by professional – ideally corpo-rate – speakers a lot. For static utterances, in which thewording does not depend on the particular contexts ofuse or the personal data of the given user, this will re-sult in a rich user experience. However, the more dy-namic content an utterance needs to consider, the morethe user experience may suffer from a poor prosody re-

53

Page 62: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

sulting from concatenating different parts of audio files.In contrast, today’s TTS systems prove superior, thoughoptimisable, regarding the prosodic naturalness of dy-namic utterances.

Regarding the market for Speech Interaction technol-ogy, the last decade underwent a strong standardisationof the interfaces between the different technology com-ponents, as well as by standards for creating particularsoware artefacts for a given application. ere alsohas been strongmarket consolidationwithin the last tenyears, particularly in the field of ASR and TTS. Here,the national markets in the G20 countries – i. e., eco-nomically strong countries with a considerable popula-tion – are dominated by less than 5 players worldwide,with Nuance and Loquendo being the most prominentones in Europe. Since 2007, thanks to the supportgiven by theBasqueGovernment, Basque language is in-cluded in the catalogue of products of Nuance. How-ever, the offer in ASR is limited to small to mediumsize vocabulary applications and no dictation productis available. For TTS, just one female voice is avail-able. On the Spanish market, the Catalan SME VerbioSpeech Technologies [30] also offers Basque both forASR andTTS, withmore than one voice. Still, no com-mercial dictation system exists for Basque.

Regarding dialogue management technology andknow-how, markets are strongly dominated by nationalplayers, which are usually SMEs. Most of the compa-nies on the Spanish TTS market are essentially appli-cation developers. Key players in the Spanish marketare: Indsys [31] (IntelligentDialogue Systems), Fonetic[32], Ydilo [33] and NaturalVox [34]. Some of themhave a limited offer in Basque. Free TTS soware fortheBasque language is also offered by the research groupAholab [35] of the University of the Basque Country(UPV/EHU).

Looking beyond today’s state of technology, there willbe significant changes due to the spread of smart phones

as a new platform for managing customer relationships– in addition to the telephone, Internet, and email chan-nels. is tendency will also affect the employment oftechnology for speech interaction. On one hand, de-mand for telephony-based VUIs will decrease, in thelong run. On the other hand, the usage of spoken lan-guage as a user-friendly inputmodality for smart phoneswill gain significant importance. is tendency is sup-ported by the observable improvement of speaker inde-pendent speech recognition accuracy for speech dicta-tion services that are already offered as centralised ser-vices to smart phone users. Given this ‘outsourcing’of the recognition task to the infrastructure of applica-tions, the application-specific employment of linguisticcore technologieswill supposedly gain importance com-pared to the present situation.

4.2.4 Machine Translation

e idea of using digital computers for translation ofnatural languages came up in 1946 by A. D. Booth andwas followed by substantial funding for research in thisarea in the 1950s and beginning again in the 1980s.Nevertheless, Machine Translation (MT) still fails tofulfil the high expectations it gave rise to in its earlyyears.

At its basic level, Machine Translation simplysubstitutes words in one natural language

with words in another language.

At its basic level, MT simply substitutes words in onenatural language by words in another. is can be use-ful in subject domains with a very restricted, formulaiclanguage, e. g., weather reports. However, for a goodtranslation of less standardised texts, larger text units(phrases, sentences, or even whole passages) need to bematched to their closest counterparts in the target lan-guage. e major difficulty here lies in the fact that hu-

54

Page 63: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Statistical Machine

Translation

Source Text

Target Text

Text Analysis (Formatting, Morphology, Syntax, etc.)

Text Generation

Translation Rules

6: Machine translation (left: statistical; right: rule-based)

man language is ambiguous, which yields challenges onmultiple levels, e. g., word sense disambiguation at thelexical level (‘Jaguar’ can mean a car or an animal) or onother levels as in:

‚ Egon garenetan ez dugu topatu[Each time we were there we have not seen him/her]or [In every place we were we have not seen him/her]

‚ Aitak semeari bere bizikleta eman dio[e father has given his bicycle to his son]

One way of approaching the task is based on linguis-tic rules. For translations between closely related lan-guages, a direct translation may be feasible in cases likein the second example above. But oen rule-based (orknowledge-driven) systems analyse the input text andcreate an intermediary, symbolic representation, fromwhich the text in the target language is generated. esuccess of these methods is highly dependent on theavailability of extensive lexicons with morphological,syntactic, and semantic information, and large sets ofgrammar rules carefully designed by a skilled linguist.Beginning in the late 1980s, as computational powerincreased and became less expensive, more interest wasshown in statistical models for MT. e parameters ofthese statistical models are derived from the analysis ofbilingual text corpora, such as the Europarl parallel cor-pus, which contains the proceedings of the EuropeanParliament in 21 European languages. Given enough

data, statistical MT works well enough to derive an ap-proximatemeaning of a foreign language text. However,unlike knowledge-driven systems, statistical (or data-driven) MT oen generates ungrammatical output. Onthe other hand, besides the advantage that less humaneffort is required for grammar writing, data-driven MTcan also cover particularities of the language that gomissing in knowledge-driven systems, for example id-iomatic expressions.

As the strengths and weaknesses of knowledge- anddata-driven MT are complementary, researchers nowa-days unanimously target hybrid approaches combiningmethodologies of both. is canbedone in severalways.One is to use both knowledge- and data-driven systemsand have a selection module decide on the best outputfor each sentence. However, for longer sentences, noresult will be perfect. A better solution is to combinethe best parts of each sentence from multiple outputs,which can be fairly complex, as corresponding parts ofmultiple alternatives are not always obvious and need tobe aligned.

For Basque, MT is particularly challenging. e richmorphology, the high degree of inflection and the ag-glutinative character of the language makes dictionaryanalysis and dictionary coverage difficult. Additionally,due to the order of the sentence components, parallelcorpora are difficult to manage.

55

Page 64: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Matxin is a Transfer-based MT system from Spanishinto Basque developed by IXA Group at the Univer-sity of the Basque Country (UPV/EHU). It is an open,reusable and interoperable framework useful even forother language-pairs (matxin.sourceforge.org). It usesother open source codes such as Freeling, and reusesBasque morphology for morphological generation.IXAGroup has also created an improved StatisticalMa-chine Translation system for Basque Spanish that dealswith morphological segmentation and word reordering(EUSMT. http://ixa2.si.ehu.es/openmt-demo/). Forthe development of these MT systems, there is strongcollaboration between the university research group,the local SME Eleka Ingeniaritza Linguistikoa andthe Elhuyar Foundation, which provides considerableamounts of linguistic resources. is SME has also de-velopped the translator Standard Basque batua – West-ern dialect bizkaiera. Also, a Basque to Spanish initialsystem has been developed by the Transducens Groupat Universitat d’Alacant, using the platform Apertium.Google’s Translator offers an alpha version for Basque.

Leading international MT developer Lucy Soware hasan important subsidiary in Spain, Lucy Iberica [36], for-mer Translendium. is company was selected in 2008by theBasqueGovernment to develop a Spanish-Basquetranslation system and again in 2011 to continue thework.

Provided good adaptation in terms of user-specific ter-minology andworkflow integration, there is a wide con-sensus that the use of MT can increase productivity sig-nificantly. e quality of MT systems is still consid-ered to have huge improvement potential. Challengesinclude the adaptability of the language resources to agiven subject domain or user area and the integrationinto existing workflows with term bases and translationmemories. In addition, many language pairs are stillmissing.

Evaluation campaigns help to compare the quality ofMT systems, their approaches and the status of the sys-tems for different language pairs. Figure 7 (p. 24), whichwas prepared during the Euromatrix+ project, showsthe pair-wise performances obtained for 22 of the 23EU languages (Irish was not compared). e resultsare ranked according to a BLEU score, which indicateshigher scores for better translations [37]. A humantranslator would normally achieve around 80 points.ebest results (in green andblue)were achievedby lan-guages that benefit froma considerable research effort incoordinated programmes and the existence ofmany par-allel corpora (e. g., English, French, Dutch, Spanish andGerman). e languages with poorer results are shownin red. ese either lack such development efforts or arestructurally very different from other languages (e. g.,Hungarian, Maltese, Finnish).

4.3 OTHER APPLICATION AREASBuilding Language Technology applications involves arange of subtasks that do not always surface at the levelof interaction with the user, but provide significantservice functionalities ‘under the hood’ of the system.erefore, they constitute important research issues thathave become individual sub-disciplines of Computa-tional Linguistics in academia.uestion answering has become an active area of re-search, forwhich annotated corpora have been built andscientific competitions have been started. e idea is tomove from keyword-based search (to which the engineresponds with a whole collection of potentially relevantdocuments) to the scenario of the user asking a concretequestion and the system providing a single answer. Forexample:

Question: How old was Neil Armstrong when hestepped on the moon?

Answer: 38.

56

Page 65: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

While this is obviously related to the aforementionedcore area Web Search, question answering nowadays isprimarily an umbrella term for research questions suchas what types of questions should be distinguished andhow should they be handled, how can a set of docu-ments that potentially contain the answer be analysedand compared (do they give conflicting answers?), andhow can specific information – the answer – be reliablyextracted from a document, without unduly ignoringthe context.

Language technology applications often providesignificant service functionalities behind the

scenes of larger software systems.

is is in turn related to the information extraction (IE)task, an area that was extremely popular and influen-tial at the time of the ‘statistical turn’ in ComputationalLinguistics, in the early 1990s. IE aims at identifyingspecific pieces of information in specific classes of docu-ments; this could e. g., be the detectionof the key playersin company takeovers as reported in newspaper stories.Another scenario that has been worked on is reports onterrorist incidents, where the problem is to map the textto a template specifying the perpetrator, the target, timeand location of the incident, and the results of the in-cident. Domain-specific template-filling is the centralcharacteristic of IE, which for this reason is another ex-ample of a ‘behind the scenes’ technology that consti-tutes a well-demarcated research area but for practicalpurposes then needs to be embedded into a suitable ap-plication environment.Two ‘borderline’ areas, which sometimes play the role ofstand-alone application and sometimes that of support-ive, ‘under the hood’ component are text summarizationand text generation. Summarisation, obviously, refersto the task of making a long text short, and is offered forinstance as a functionality within MS Word. It works

largely on a statistical basis, by first identifying ‘impor-tant’ words in a text (that is, for example, words that arehighly frequent in this text butmarkedly less frequent ingeneral language use) and then determining those sen-tences that contain many important words. ese sen-tences are then marked in the document, or extractedfrom it, and are taken to constitute the summary. In thisscenario, which is by far themost popular one, summari-sation equals sentence extraction: the text is reducedto a subset of its sentences. All commercial summaris-ers make use of this idea. An alternative approach, towhich some research is devoted, is to actually synthe-sise new sentences, i. e., to build a summary of sentencesthat need not show up in that form in the source text.is requires a certain amount of deeper understandingof the text and therefore is much less robust. All in all, atext generator is inmost cases not a stand-alone applica-tion but embedded into a larger soware environment,such as into the clinical information system where pa-tient data is collected, stored and processed, and reportgeneration is just one of many functionalities.

For Basque and for most languages,research in most text technologies is much

less developed than for English.

For Basque, the situation in all these research areas ismuch less developed than it is for English, where ques-tion answering, information extraction, and summari-sation have since the 1990s been the subject of numer-ous open competitions, primarily those organised byDARPA/NIST in the United States. ese have signif-icantly improved the state of the art, but the focus hasalways been on English; some competitions have addedmultilingual tracks, but Basquewas never a targeted lan-guage. Accordingly, there are hardly available annotatedcorpora or other resources for these tasks. Summarisa-tion systems, when using purely statistical methods, are

57

Page 66: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

oen to a good extent language-independent, and thussome research prototypes are available. For text genera-tion, reusable components have traditionally been lim-ited to the surface realisation modules (the “generationgrammars”); again, most available soware is for En-glish.

4.4 LANGUAGE TECHNOLOGYIN EDUCATIONLanguage Technology is a highly interdisciplinary field,involving the expertise of linguists, computer scien-tists, mathematicians, philosophers, psycholinguists,and neuroscientists, among others. Consequently, thecurrent basic training of a computational linguist maybe performed in Spainwithin the framework of a degreein Philology or Linguistics, which includes Computa-tional Linguistics as a core subject, or byComputationalScience faculties. Among the Universities that offer thefirst option: Universitat de Barcelona, Universitat Pom-peuFabra,UniversitatOberta deCatalunya andUniver-sidade deVigo. On the other hand,main computationalscience faculties offering Computational Linguistic assubject are: Universidad Politécnica de Madrid, Uni-versidad Carlos III, Universidad Autónoma de Madrid,Universitat d’Alacant, Universidad Nacional de Edu-cación a Distancia and Universidad del País Vasco /Euskal Herriko Unibertsitatea. Other cases, such asthe Universidad Complutense combine both. Gradu-ate courses offer a more targeted professional training.ere are several doctoral programs which offer mastersor subjects related to language and speech processing. Acomplete doctoral program on Language Processing isoffered by Universidad del País Vasco / Euskal HerrikoUnibertsitatea, also totally offered in Basque. Modulesin Language Technology are also offered to students ofothermaster or PhDcourses, particularly in SpeechPro-cessing (e. g., Master TICRM of the UPV/EHU).

ere are several research groups spread across the 3 uni-versities of the BasqueAutonomousCommunity, work-ing on speech processing, speech synthesis and conver-sion, speech and speaker recognition, language recog-nition, natural language processing, text-to-text trans-lation and speech-to-speech translation. All of themare members of the Sociedad Española para el Proce-samiento del Lenguaje Natural (SEPLN, Spanish Soci-ety for Natural Language Processing), a non-profit or-ganisation with over 300members, both from academiaand industry, which was created in 1984 with the pur-pose to promote and spread activities related to teach-ing, research anddevelopment ofNLP, onbothnationaland international level. SEPLN organises seminaries,symposiums and conferences and promotes collabora-tion with national and international institutions.SEPLN organises an annual conference, which is at-tended yearly by an increasing number of researchersworking on NLP, both from Spain and abroad. e as-sociation also edits a periodical journal and maintainsa web server with information about issues related tothe natural language processing and an open forum formembers. e SpanishNetwork on SpeechTechnology(RTTH) [39] is a common forum where researchers(presently more than 25o researchers) in Speech Tech-nology gather to combine efforts and share experiencesin order to:

‚ Promote research in speech technology to attractnew young researchers in this field through training,student exchanges, scholarships and awards.

‚ Attract investments for business research by findingnew applications that offer new business opportuni-ties.

‚ Progress in building partnerships and integration ofnetwork members to maintain Spain’s leadership inthe investigation of Spanish, and also enhance co-official languages such as Catalan, Euskara and Gali-cian.

58

Page 67: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

RTTH has been promoting every other year the “Jor-nadas en Tecnología del Habla” since 2000. is work-shop pursues the aims of being a meeting point topresent and discuss the results of the research on speechand language technologies on Iberian languages. eyalso aim at promoting industry/university collabora-tion. A wide variety of activities: technical papers pre-sentations, keynote lectures, presentation of project re-ports and laboratories activities, demos, and recent PhDthesis presentations are defined.

4.5 LANGUAGE TECHNOLOGYPROGRAMSTechnology programs for the Basque language havebeen supported mainly by the Basque and the Span-ish Government. e Spanish Ministries of Educationand Science and Innovation have supported research inthe field of information technologies through nationalresearch programs. ese programs have impelled nu-merous research projects and collaboration with inter-national research centres and companies. e basis oftechnology development and commercial applicationsfor automated processing of the Basque language hasbeen partly created as a result of these projects.

Since 2000 up till today, the Spanish Governmentsupported within the National Plan of Research andTechnology several projects in the area of Multilin-gual SpeechTechnologies: TEHAM,AVIVAVOZ, andBUCEADOR. eir main purpose was to improve thequality of Speech Recognition, Speech Translation andText to Speech Synthesis in all the official languages spo-ken in Spain: Basque, Galician, Catalan and Spanish.

e Centre for the Development of Industrial Tech-nology (CDTI) is a Spanish public organisation, underthe Ministry of Science and Innovation, whose objec-tive is to help Spanish companies to increase their tech-nological profile. CDTI evaluates and finances R&D

projects through programmes such asCENIT (finalisedin 2010) and AVANZA.

e Basque Government supports research and inno-vation through the “Plan de Ciencia y Tecnología”(PCTI). Within this plan, several bodies and researchand innovation agencies have been created in the lastyears: e Basque Council for Science, Technology andInnoation (the highest political body leading actionsto promote and develop research and innovation), In-noBasque (eBasqueAgency for Innovation) and Iker-Basque (Basque Foundation for Science), whose maininstrument is the attraction of talented researchers tothe Basque Science and Technology system. Importantinstruments of the PCTI plan are the calls for researchand innovation projects: the program ETORTEK, ad-dressed to the agents of Basque Network for Science,Technology and Innoation, and the program ETOR-GAI, addressed to private companies.

In the last PCTI2010, as had already been in previ-ous plans, Language Tecnologies have been identifiedas one strategic field. As such, during the last 10 years,the projects HIZKING21, ANHITZ, and presentlyBERBATEK [40] have been carried out under theETORTEK program. Most of the existing resourcesand tools for Basque have been obtained through theseprojects.

4.6 AVAILABILITY OF TOOLSAND RESOURCESTable 7 provides an overview of the current situation ofLanguage Technology support for Basque. Several lead-ing experts rated the existing tools and resources basedon educated estimations using seven criteria (each rang-ing from 0 to 6). In this white paper series, a first efforthas beenmade to assess the overall situation ofmanyEu-ropean languages with respect to language technologysupport in a way that allows for high level comparison

59

Page 68: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

ua

ntity

Availabi

lity

ua

lity

Cov

erag

e

Matur

ity

Sustaina

bilit

y

Ada

ptab

ility

Language Technology: Tools, Technologies and Applications

Speech Recognition 2 1 1 1 4 3 2

Speech Synthesis 2 3 4 4 4 3 3

Grammatical analysis 4 2.5 4 4 4 2.5 2.5

Semantic analysis 1 1.5 2 1 1 1 1

Text generation 1 0 0 0 0 0 0

Machine translation 3 5 2 3 3 2 2

Language Resources (Resources, Data and Knowledge Bases)

Text corpora 2 4 3 2 3 4 2.5

Speech corpora 3 2 3 2 3 3 2

Parallel corpora 2 4 2 2 2 2 1

Lexical resources 4 4 4 5 5 4 3

Grammars 2 2 2 2 2 2 2

7: State of language technology support for Basque

and identification of gaps and needs. For Basque, keyresults include the following:

‚ Speech processing developments currently show amore mature situation for speech synthesis than forspeech recognition. More efforts have to be donein the development of languagemodels that accountfor the special morphology of Basque.

‚ Everyday applications that integrate speech technol-ogy such as voice-based interfaces tomobile phones,car navigation systems or spoken dialog systems arerarely available in Basque.

‚ e spelling checker is one of the most powerfultools in the ongoing standardisation of Basque andthe most representative of the effective LT tools cre-ated to promote the use of Basque.

‚ Standard resources for Basque have adopted TEIand XML standards as a basis for linguistic annota-tion at the different levels of processing, and also tothe definition of a general methodology for writtencorpus annotation. However, several resources lackstandardisation, i. e., even if they exist, sustainabilityis not always given; concerted programs and initia-tives are needed to standardise data and interchangeformats.

‚ Text semantics is more difficult to process thanwordand sentence semantics. ere is a Wordnet forBasque, and promising algorithms to examine sim-ilarity between words and to extract facts from texthave been developed.

From this, it is clear thatmore efforts need to be directedinto the creation of resources for Basque and into re-

60

Page 69: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

search, innovation, anddevelopment. eneed for largeamounts of data and the high complexity of languagetechnology systems make it also mandatory to developnew infrastructures for sharing and cooperation.

4.7 CROSS-LANGUAGECOMPARISONecurrent state of LT support varies considerably fromone language community to another. In order to com-pare the situation between languages, this section willpresent an evaluation based on two sample applicationareas (machine translation and speech processing) andone underlying technology (text analysis), as well as ba-sic resources needed for building LT applications. elanguages were clustered using the following five-pointscale:

1. Excellent support

2. Good support

3. Moderate support

4. Fragmentary support

5. Weak or no support

LTsupportwasmeasured according to the following cri-teria:Speech Processing: uality of existing speech recog-nition technologies, quality of existing speech synthesistechnologies, coverage of domains, number and size ofexisting speech corpora, amount and variety of availablespeech-based applications.Machine Translation: uality of existing MT tech-nologies, number of language pairs covered, coverage oflinguistic phenomena and domains, quality and size ofexistingparallel corpora, amount andvariety of availableMT applications.Text Analysis: uality and coverage of existing textanalysis technologies (morphology, syntax, semantics),

coverage of linguistic phenomena and domains, amountand variety of available applications, quality and size ofexisting (annotated) text corpora, quality and coverageof existing lexical resources (e. g., WordNet) and gram-mars.

Resources: uality and size of existing text corpora,speech corpora and parallel corpora, quality and cover-age of existing lexical resources and grammars.

Figures 7 to 10 show that, thanks to LT funding pro-grams from the Spanish and Basque governments in re-cent decades, the Basque language is equipped as mostof other European languages. It compares well withlanguages spoken by a bigger number of speakers de-spite these are official languages of EU countries. isis mainly due to coordinated efforts of research groupsand small developers of LT tools. But LT resources andtools for Basque clearly do not yet reach the quality, sizeand coverage of comparable resources and tools for theSpanish language, which is in a good position in almostall LT areas. ere are still some gaps inBasque languageresources and tools with regard to high quality applica-tions.

For speech processing, current technologies performwell enough to be successfully integrated into a lim-ited number of industrial applications such as IVR spo-ken dialogue systems, although there is still a gap tofill for dictation systems, even in a constrained domain.Machine Translation systems do not get a good perfor-mance yet, due to the fact that Basque is very differentfrom the Indo-European languages. Deeper statisticalclassifiers are needed compared to other language pairswith similar origin, such asCatalan-SpanishorGalician-Spanish. ere is a clear need for resources and tech-nologies to cover a wider range of linguistic aspects andto allow a deep semantic analysis of the input text. Byimproving the quality and coverage of these basic re-sources and technologies, we shall be able to open upnew opportunities for tackling a vast range of advanced

61

Page 70: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

application areas, including high-qualitymachine trans-lation and continuous speech recognition.

4.8 CONCLUSIONSIn this series of white papers, we have made an im-portant initial effort to assess language technology sup-port for 30 European languages, and provide a high-leel comparison across these languages. By identifyingthe gaps, needs and deficits, the European language tech-nology community and related stakeholders are now ina position to design a large scale research and develop-ment programme aimed at building a truly multilingual,technology-enabled Europe.We have seen that there are huge differences betweenEurope’s languages. While there are good quality so-ware and resources available for some languages and ap-plication areas, others (usually “smaller” languages) havesubstantial gaps. Many languages lack basic technolo-gies for text analysis and the essential resources for de-veloping these technologies. Others have basic tools andresources but are as yet unable to invest in semantic pro-cessing. We therefore still need to make a large-scaleeffort to attain the ambitious goal of providing high-quality machine translation between all European lan-guages.e situation of Basque concerning language technol-ogy support gives rise to cautious optimism. ere isa viable LT research community in the Basque Coun-try, which has been mainly supported by Spanish andBasque research programmes. A number of resourcesand state-of-the-art technologies have been producedand distributed for Basque. However, the scope of theresources and the range of tools are still very limitedwhen compared to the resources and tools for the Span-ish language (and obviously for the English language)and they are simply not sufficient in quality and quan-tity to develop the kind of technologies required to sup-port a truly multilingual knowledge society.

e Basque language technology industry is well estab-lished and a significant number of SME are active in thissector, although mostly for written technologies. eirproducts have been and still are effective tools support-ing the standardisationprocess andpromoting theuse ofBasque. Basque has not been included in the catalogueof large companies, except for a few specific actions, andusually supported by the Basque Government.

ere are several research groups working in speech andlanguage processing since 1988. If Basque is now anexception to the correlation between language size andLR scarcity is due to the coordinated efforts of thoseresearch groups. Research and development for less re-sourced languages should be faced following high stan-dardisation criteria, open-source coding and reusing lan-guage foundations, tools and applications.

Our findings show that the only alternative is to makea substantial effort to create LT resources for Basque,and use them to drive forward research, innovation anddevelopment. e need for large amounts of data andthe extreme complexity of language technology systemsmakes it vital to develop a new infrastructure and amorecoherent research organisation to spur greater sharingand cooperation. Open source initiatives and the 2.0communities can be important instruments for a rapidand sustainable development of tools and resources forless resourced languages.

ere is also a lack of continuity in research and devel-opment funding. Short-term coordinated programmestend to alternate with periods of sparse or zero fund-ing. In addition, there is an overall lack of coordinationwith programmes in other EU countries and at the Eu-ropean Commission level. We can therefore concludethat there is a desperate need for a large, coordinatedinitiative focused on overcoming the differences in lan-guage technology readiness for European languages as awhole.

62

Page 71: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

META-NET’s long-term goal is to introduce high-quality language technology for all languages in orderto achieve political and economic unity through cul-tural diversity. e technology will help tear down ex-isting barriers and build bridges between Europe’s lan-guages. is requires all stakeholders – in politics, re-search, business, and society – to unite their efforts forthe future.

63

Page 72: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFinnishFrenchGermanItalianPortugueseSpanish

BasqueBulgarianCatalanDanishEstonianGalicianGreekHungarianIrishNorwegianPolishSerbianSlovakSloveneSwedish

CroatianIcelandicLatvianLithuanianMalteseRomanian

8: Speech processing: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English FrenchSpanish

CatalanDutchGermanHungarianItalianPolishRomanian

BasqueBulgarianCroatianCzechDanishEstonianFinnishGalicianGreekIcelandicIrishLatvianLithuanianMalteseNorwegianPortugueseSerbianSlovakSloveneSwedish

9: Machine translation: state of language technology support for 30 European languages

64

Page 73: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English DutchFrenchGermanItalianSpanish

BasqueBulgarianCatalanCzechDanishFinnishGalicianGreekHungarianNorwegianPolishPortugueseRomanianSlovakSloveneSwedish

CroatianEstonianIcelandicIrishLatvianLithuanianMalteseSerbian

10: Text analysis: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFrenchGermanHungarianItalianPolishSpanishSwedish

BasqueBulgarianCatalanCroatianDanishEstonianFinnishGalicianGreekNorwegianPortugueseRomanianSerbianSlovakSlovene

IcelandicIrishLatvianLithuanianMaltese

11: Speech and text resources: State of support for 30 European languages

65

Page 74: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

5

ABOUT META-NET

META-NET is a Network of Excellence funded by theEuropean Commission [48]. e network currentlyconsists of 54 members from 33 European countries.META-NET forges META, the Multilingual EuropeTechnologyAlliance, a growing community of languagetechnology professionals and organisations in Europe.META-NET fosters the technological foundations fora truly multilingual European information society that:

‚ makes communication and cooperation possibleacross languages;

‚ grants all Europeans equal access to information andknowledge regardless of their language;

‚ builds upon and advances functionalities of net-worked information technology.

e network supports a Europe that unites as a sin-gle digital market and information space. It stimu-lates and promotes multilingual technologies for all Eu-ropean languages. ese technolo¬gies support auto-matic translation, content production, informationpro-cessing and knowledge management for a wide varietyof subject domains and applications. ey also enableintuitive language-based interfaces to technology rang-ing from household electronics, machinery and vehiclesto computers and robots.Launched on 1 February 2010, META-NET has al-ready conducted various activities in its three lines ofactionMETA-VISION,META-SHARE andMETA¬-RESEARCH.META-VISION fosters a dynamic and influentialstakeholder community that unites around a shared

vi¬sion and a common strategic research agenda (SRA).e main focus of this activity is to build a coher¬entand cohesive LT community in Europe by bring¬ing to-gether representatives from highly fragmented and di-verse groups of stakeholders. e present White Paperwas prepared together with volumes for 29 other lan-guages. e shared technology vision was developed inthree sectorial Vision Groups. e META TechnologyCouncil was established in order to discuss and to pre-pare the SRA based on the vision in close interactionwith the entire LT community.META-SHARE creates an open, distributed facility forexchanging and sharing resources. e peer-to-peer net-work of repositories will contain language data, toolsandweb services that are documentedwith high-qualitymetadata and organised in standardised cate¬gories.e resources can be readily accessed and uni¬formlysearched. e available resources include free, opensourcematerials as well as restricted, commercially avail-able, fee-based items.META-RESEARCH builds bridges to related tech-nol¬ogy fields. is activity seeks to leverage advancesin other fields and to capitalise on innovative researchthat can benefit language technology. In particular, theaction line focuses on conducting leading-edge researchin machine translation, collecting data, preparing datasets and organising language re-sources for evaluationpurposes; compiling inventories of tools and methods;and organising workshops and training events formem-bers of the community.

[email protected] – http://www.meta-net.eu

66

Page 75: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

A

AIPAMENAK REFERENCES

[1] Aljoscha Burchardt, Markus Egg, Kathrin Eichler, Brigitte Krenn, Jörn Kreutel, Annette Leßmöllmann,Georg Rehm, Manfred Stede, Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache im Digitalen Zeital-ter – e German Language in the Digital Age. META-NET White Paper Series. Georg Rehm and HansUszkoreit (Series Editors). Springer, 2012.

[2] EuropeanCommissionDirectorate-General InformationSociety andMedia. User language preferences online.Flash Eurobarometer 313, 2011.

[3] UNESCO Director General. Intersectoral mid-term strategy on languages and multilingualism. Paris, 2007.

[4] EuropeanCommissionDirectorate-General forTranslation. Size of the language industry in theEU. KingstonUpon ames, 2009.

[5] UNESCO – Languages and Multilingualism . http://www.unesco.org/en/languages-and-multilingualism.

[6] Euskal Estatistika Erakundea (Basque Statistics Institute) . http://en.eustat.es.

[7] Euskaltzaindia (Royal Academy of the Basque Language) . http://www.euskaltzaindia.net/index.php?option=com_content&Itemid=1&id=18&lang=en&layout=blog&view=section.

[8] IXAGroup. Automaticmorphological analysis of Basque. Literary&Linguistic Computing, 11(4):193–203,1996.

[9] Koldo Zuazo. Euskararen sendabelarrak (e medicinal herbes of Basque). Alberdania, 2000.

[10] LANGUNE Hizkuntz industrien elkartea Euskal Herrian (e Basque Association of Language Industries).http://www.langune.com/home?set_language=en.

[11] Euskararen erakunde publikoa (Public Office of the Basque Language). http://www.mintzaira.fr.

[12] Amaia Arregi, Alicia Sainz, and José Ramón Ugarriza. PISA 2009 Euskadi. Informe de evaluación (PISA2009 Euskadi. Evaluation report).http://www.isei-ivei.net/cast/pub/pisa2009/PISA2009-EUSKADI-1INFORME.pdf, 2009.

[13] Hizkuntzaren azterketa eta prozesamendua (Analysis and Processing of Language).https://ixa.si.ehu.es/master/en.

67

Page 76: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

[14] Munduko euskal etxeen ataria (e web of and for the Basque clubs). http://www.euskaletxeak.net/i.

[15] EU policy – to protect and promote regional and minority languages.http://ec.europa.eu/education/languages/languages-of-europe/doc139_en.htm.

[16] Eusko Jaurlaritza (Basque Government). Euskarazko sowarea deskargatzea (Basque soware down-load). http://www.euskara.euskadi.net/r59-20660/eu/contenidos/informacion/euskarazko_softwarea/eu_9567/aurkib.html.

[17] Sokat: Euskarazko soware katalogoa (Sokat: Basque Soware Catalog). http://softkat.ueu.org.

[18] Language Resources for Basque. http://aclweb.org/aclwiki/index.php?title=Resources_for_Basque.

[19] Hiztegia (Dictionary). http://www.hiztegia.net.

[20] Frantses-Euskara Hiztegi Elektronikoa (French-Basque Electronic Dictionary). http://www.nolaerran.org.

[21] Euskalbar (Basque translator for Firefox). http://euskalbar.eu.

[22] Euskara Institutuaren ataria (Basque Institute’s website). http://www.ei.ehu.es.

[23] PuntuEus Association. http://www.puntueus.org/en/.

[24] Jerrold H. Zar. Candidate for a Pullet Surprise. Journal of Irreproducible Results, page 13, 1994.

[25] XuxenWeb (Spell Checker for Basque). http://www.xuxen.com.

[26] Hizkia, Informatique. http://hizkia.pagesperso-orange.fr.

[27] Terminologia eta Lexikografia Zentroa (Centre for Terminology and Lexicography). http://www.uzei.com.

[28] Google zieht weiter davon (Google moves further away).http://www.spiegel.de/netzwelt/web/0,1518,619398,00.html.

[29] Google rolls out semantic search capabilities. http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html.

[30] Verbio speech technologies. http://www.verbio.com.

[31] Indisys: Intelligent dialogue systems. http://www.indisys.es/default.aspx.

[32] Fonetic solutions. http://www.fonetic.es.

[33] Ydilo. http://www.ydilo.com/esp/index.php.

[34] Natural vox. http://www.naturalvox.com.

[35] Aholab. AhoTTS. http://aholab.ehu.es/tts.

68

Page 77: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

[36] Lucy soware. http://www.lucysoftware.com.

[37] Kishore Papineni, SalimRoukos, ToddWard, andWei-JingZhu. BLEU:AMethod forAutomatic Evaluationof Machine Translation. In Proceedings of the 40th Annual Meeting of ACL, Philadelphia, PA, 2002.

[38] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 Machine Translation Systems for Europe. InProceedings of MT Summit XII, 2009.

[39] RedTemática enTecnologías delHabla (ematicNetworkonSpeechTechnologies). http://www.rthabla.es.

[40] Berbatek. http://www.berbatek.com.

[41] European Commission. Multilingualism: an asset for Europe and a shared commitment. Brussels, 2008.

[42] Statistics on the Information Society.http://en.eustat.es/estadisticas/opt_0/id_118/ti_Information_Society/subarbol.html#axzz1LTNljBpS.

[43] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Hagen Langer, and Ralf Klabunde, ed-itors. Computerlinguistik und Sprachtechnologie: Eine Einführung (Computational Linguistics and LanguageTechnology: An Introduction). Spektrum Akademischer Verlag, 2009.

[44] Daniel Jurafsky and James H. Martin. Speech and Language Processing. Prentice Hall, 2nd edition, 2009.

[45] Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. MITPress, 1999.

[46] Language Technology World (LT World). http://www.lt-world.org.

[47] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zam-polli, editors. Survey of the State of the Art in Human Language Technology. Cambridge University Press,1998.

[48] Georg Rehm and Hans Uszkoreit. Multilingual Europe: A challenge for language tech. MultiLingual,22(3):51–52, April/May 2011.

69

Page 78: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-
Page 79: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

B

META-NETEKO KIDEAK META-NET MEMBERS

Alemania Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm

Human Language Technology and Pattern Recognition, RWTH Aachen University:Hermann Ney

Department of Computational Linguistics, Saarland University: Manfred Pinkal

Austria Austria Zentrum für Translationswissenscha, Universität Wien: Gerhard Budin

Belgika Belgium Computational Linguistics and Psycholinguistics Research Centre, University ofAntwerp: Walter Daelemans

Centre forProcessing Speech and Images,University ofLeuven: Dirk vanCompernolle

Bulgaria Bulgaria Institute for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva

Danimarka Denmark Centre for Language Technology, University of Copenhagen:Bolette Sandford Pedersen, Bente Maegaard

Erresuma Batua UK School of Computer Science, University of Manchester: Sophia Ananiadou

Institute for Language, Cognition and Computation, Center for Speech TechnologyResearch, University of Edinburgh: Steve Renals

Research Institute of Informatics andLanguageProcessing,University ofWolverhamp-ton: Ruslan Mitkov

Errumania Romania Research Institute for Artificial Intelligence, Romanian Academy of Sciences:Dan Tufiș

Faculty of Computer Science, University Alexandru Ioan Cuza of Iași: Dan Cristea

Eslovakia Slovakia Ľudovít Štúr Institute of Linguistics, Slovak Academy of Sciences: Radovan Garabík

Eslovenia Slovenia Jozef Stefan Institute: Marko Grobelnik

Espainia Spain Barcelona Media: Toni Badia, Maite Melero

Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra: Núria Bel

Aholab Signal Processing Laboratory, University of the Basque Country:Inma Hernaez Rioja

Center for Language and Speech Technologies and Applications, Universitat Politèc-nica de Catalunya: Asunción Moreno

Department of Signal Processing and Communications, University of Vigo:Carmen García Mateo

Estonia Estonia Institute of Computer Science, University of Tartu: Tiit Roosmaa, Kadri Vider

71

Page 80: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Finlandia Finland Computational Cognitive Systems Research Group, Aalto University: Timo Honkela

Department of Modern Languages, University of Helsinki: Kimmo Koskenniemi,Krister Lindén

Frantzia France Centre National de la Recherche Scientifique, Laboratoire d’Informatique pour la Mé-canique et les Sciences de l’Ingénieur: Joseph Mariani

Evaluations and Language Resources Distribution Agency: Khalid Choukri

Grezia Greece R.C. “Athena”, Institute for Language and Speech Processing: Stelios Piperidis

Herbehereak Netherlands Utrecht Institute of Linguistics, Utrecht University: Jan Odijk

Computational Linguistics, University of Groningen: Gertjan van Noord

Hungaria Hungary Research Institute for Linguistics, Hungarian Academy of Sciences: Tamás Váradi

Department of Telecommunications and Media Informatics, Budapest University ofTechnology and Economics: Géza Németh and Gábor Olaszy

Irlanda Ireland School of Computing, Dublin City University: Josef van Genabith

Islandia Iceland School of Humanities, University of Iceland: Eiríkur Rögnvaldsson

Italia Italy Consiglio Nazionale delle Ricerche, Istituto di Linguistica Computazionale “AntonioZampolli”: Nicoletta Calzolari

Human Language Technology Research Unit, Fondazione Bruno Kessler:Bernardo Magnini

Kroazia Croatia Institute of Linguistics, Faculty of Humanities and Social Science, University of Za-greb: Marko Tadić

Letonia Latvia Tilde: Andrejs Vasiļjevs

Institute ofMathematics andComputer Science, University of Latvia: Inguna Skadiņa

Lituania Lithuania Institute of the Lithuanian Language: Jolanta Zabarskaitė

Luxenburgo Luxembourg Arax Ltd.: Vartkes Goetcherian

Malta Malta Department Intelligent Computer Systems, University of Malta: Mike Rosner

Norvegia Norway Department of Linguistic, Literary and Aesthetic Studies, University of Bergen:Koenraad De Smedt

Department of Informatics, Language Technology Group, University of Oslo:Stephan Oepen

Polonia Poland Institute of Computer Science, Polish Academy of Sciences: Adam Przepiórkowski,Maciej Ogrodniczuk

University of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik

Department of Computer Linguistics and Artificial Intelligence, Adam MickiewiczUniversity: Zygmunt Vetulani

Portugal Portugal University of Lisbon: António Branco, Amália Mendes

72

Page 81: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

Spoken Language Systems Laboratory, Institute for Systems Engineering andComput-ers: Isabel Trancoso

Serbia Serbia University of Belgrade, Faculty of Mathematics: Duško Vitas, Cvetana Krstev,Ivan Obradović

Pupin Institute: Sanja Vranes

Suedia Sweden Department of Swedish, University of Gothenburg: Lars Borin

Suitza Switzerland Idiap Research Institute: Hervé Bourlard

Txekiar Errep. Czech Republic Institute of Formal and Applied Linguistics, Charles University in Prague: Jan Hajič

Zipre Cyprus Language Centre, School of Humanities: Jack Burston

Hizkuntza-teknologietako 100 bat adituk –META-NETen aurkezten diren herrialde eta hizkuntzetako ordezkariak–Liburu Zurien bildumaren ondorio eta mezurik garrantzitsuenak aztertu eta finkatu zituzten, Berlinen, Alemanian,izandako bilera batean, 2011ko urriaren 21 eta 22an. – About 100 language technology experts – represen-tatives of the countries and languages represented in META-NET – discussed and finalised the key results andmessages of the White Paper Series at a META-NET meeting in Berlin, Germany, on October 21/22, 2011.

73

Page 82: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-
Page 83: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

C

META-NETEN LIBURUZURIEN BILDUMA

THE META-NETWHITE PAPER SERIES

Alemana German DeutschBulgariera Bulgarian българскиDaniera Danish danskErrumaniera Romanian românăEslovakiera Slovak slovenčinaEsloveniera Slovene slovenščinaEspainiera Spanish españolEstoniera Estonian eestiEuskara Basque euskaraFinlandiera Finnish suomiFrantsesa French françaisGaliziera Galician galegoGrekoa Greek εηνικάHungariera Hungarian magyarIngelesa English EnglishIrlandera Irish GaeilgeIslandiera Icelandic íslenskaItaliera Italian italianoKatalana Catalan catalàKroaziera Croatian hrvatskiLetoniera Latvian latviešu valodaLituaniera Lithuanian lietuvių kalbaMaltera Maltese MaltiNederlandera Dutch NederlandsNorvegiera Bokmål Norwegian Bokmål bokmålNorvegiera Nynorsk Norwegian Nynorsk nynorskPoloniera Polish polskiPortugalera Portuguese portuguêsSerbiera Serbian српскиSuediera Swedish svenskaTxekiera Czech čeština

75

Page 84: White Paper Series Liburu Zurien Bilduma THE BASQUE ... · Programaren eta IKTak Sustatzeko Programa Estrategikoa- ren diru-laguntzari esker garatu da, T4ME (249119 Dirula- guntzaHitzarmena),CESAR(271022DirulaguntzaHitzar-

www.meta-net.eu

La

ngua

ge Users Society Research Communities In

dustries

www.meta-net.eu

In everyday communication, Europe’s citizens, businesspartners and politicians are inevitably confronted withlanguage barriers. Language technology has the po-tential to overcome these barriers and to provide inno-vative interfaces to technologies and knowledge. Thiswhite paper presents the state of language technologysupport for the Basque language. It is part of a se-ries that analyses the available language resources andtechnologies for 30 European languages. The analy-sis was carried out by META-NET, a Network of Excel-lence funded by the European Commission. META-NETconsists of 54 research centres in 33 countries, who co-operate with stakeholders from economy, governmentagencies, research organisations, non-governmental or-ganisations, language communities and European uni-versities. META-NET’s vision is high-quality languagetechnology for all European languages.

Europako hiritarrak, enpresak nahiz politikariak era-gozpen linguistikoak gainditu beharrean izaten diraegunero-egunero. Hizkuntza-teknologiek aukeraematen dute eragozpen horiek gainditzeko eta, ha-laber, hainbat teknologia eta ezagupide erabiltzekointerfaze berritzaileak sortzeko. Liburu zuri honekeuskararako hizkuntza-teknologien egoera aurkez-ten du, eta Europako 30 hizkuntzatarako eskuragarridauden baliabide linguistikoak eta teknologiak az-tertzen dituen bilduma baten lehenengo atala da.Europako batzordeak sortutako META-NET Bikainta-sun Sareak bultzatu du azterketa hori, eta enpresa-munduko, administrazio publikoko, ikerketa-alorreko,alor pribatuko, komunitate linguistikoko eta unibertsi-tate europarretako parte hartzaileekin lanean dihar-duten 33 herrialdetako 54 ikerketa-zentroz osatutadago.

“The Language White Paper Series is an excellent initiative of META-NET, in keeping with our motto ’Give andspread knowledge’. We hope that it will further foster investment in Language Technology solutions for less re-sourced languages like Basque.” — Iñaki Goirizelaia (Rector of the Universidad del País Vasco)

“Europa eleanitzaren testuinguruan, Informazioaren eta Komunikazioaren Teknologiak (IKT) arlo estrategikoa dirahizkuntza guztientzat baina, bereziki, hizkuntza minoritarioentzat. Egun, teknologia horien kontsumitzaileek, In-terneti esker, muga geografikoak eta linguistikoak gaindituta, aukera paregabea dute IKT produktuak nahi dutenhizkuntzan eskuratzeko. Baina horretarako, gure hizkuntza txikiek, ezinbestez, merkatu horretan sartu behar dute.META-NET plataforma egokia da helburu hori erdiesteko.”— Blanca Urgell (Eusko Jaurlaritzako Kultura Sailburua)