Igor Leturia An Hitz

Preview:

Citation preview

Euskararako hizkuntzteknologiak batuz:AnHitz proiektua

Igor Leturia – Elhuyar FundazioaIEB 2009 – 2009/05/07 – Donostia

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Zer da AnHitz proiektua

• AnHitz zera da:– ikerketa estrategikoko proiektua– hizkuntz teknologietan– Eusko Jaurlaritzako Industria eta Kultura sailek

Etortek programaren bidez diruz lagundua– bost kideko partzuergo batek aurrera eramana– 2006-2008 tartean

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Hizkuntz teknologiak (I)

• Ediziorako laguntzak–Hiztegi elektronikoak– Zuzentzaileak• ortografia, gramatika, estiloa...

–Karaktereen ezagutza– Itzulpenetan laguntzeko programak– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Hizkuntz teknologiak (II)

• Edukien kudeaketa– Informazioaren berreskurapena• elebakarra, eleanitza...

– Informazio-erauzketa• laburpen automatikoa, terminologia-erauzketa...

–Dokumentuen sailkapena–Testuen sorkuntza– Itzulpen automatikoa–Galderak erantzutea– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Hizkuntz teknologiak (III)

• Ahotsaren teknologiak–Ahotsaren sintesia–Ahotsaren ezagutza–Hizlariaren ezagutza–Ahotsaren analisia– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Hizkuntz teknologiak (IV)

• Oinarrizko baliabideak–Datu-base lexikalak–Ontologia lexikoak–Testu-corpusak• elebakarrak, eleanitzak...

– Itzulpen memoriak–Ahots-corpusak– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Hizkuntz teknologiak (V)

• Oinarrizko tresnak–Analizatzaile morfologikoak–Analizatzaile sintaktikoak– Lematizatzaileak– Entitate ezagutzaileak– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Hizkuntz teknologiak (VI)

• Beste batzuk– Irudien ezagutza– Pertsona-gailu interfazeak– Elkarrizketa sistemak– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz partzuergoa (I)

• VICOMTech (IK4)–Ordenagailu bidezko elkarrekintzazko grafikoetan eta

multimedia digitalean ikerketa aplikatuko zentroa–AnHitz proiektuan:• Liderra• Ikus-interfazeak

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz partzuergoa (II)

• Robotiker (Tecnalia)– IKTetan eta produktuen garapenean espezializatutako

zentro teknologikoa–AnHitz proiektuan:• Aplikazioen integrazioa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz partzuergoa (III)

• Elhuyar– Zientzia eta euskara uztartzea eta euskararen

corpusaren eta estatusaren normalizazioa helburu duen irabazi asmorik gabeko fundazioa–AnHitz proiektuan:• Corpusak• Terminologia erauzketa• Informazioaren berreskurapena

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz partzuergoa (IV)

• IXA Taldea (EHU)– Lengoaia naturalaren prozesamenduan aritzen den

ikerketa-taldea–AnHitz proiektuan:•Oinarrizko tresnak• Itzulpen automatikoa• Galderak erantzuteko sistemak

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz partzuergoa (V)

• Aholab Taldea (EHU)–Ahotsaren eta seinaleen tratamenduan aritzen den

ikerketa-taldea–AnHitz proiektuan:• Ahotsaren sintesia• Ahotsaren ezagutza• Hizlariaren ezagutza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz-en emaitzak (I)

• Testu-baliabideak– ZT Corpusa• zientzia eta teknologiazko testuen Corpusa• http://www.ztcorpusa.net/

– EPEC corpusa•morfologikoki, sintaktikoki eta semantikoki etiketatuta eta

eskuz desanbiguatuta• http://clic.ub.edu/ancora

– EuSemCor• semantikoki etiketatutako euskarazko corpusa• http://sisx04.si.ehu.es:8080/eusemcor/

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz-en emaitzak (II)

• Ahots-baliabideak– SpeechDat-EU• euskarazko ahotsezko bi datu-base• telefonotatik eta telefono mugikorretatik lortuak

– EmoDB• euskarazko emoziodun ahotsezko bi datu-base

–Bizkaifon• bizkaieraren fonoteka• http://bizkaifon.ehu.es/

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz-en emaitzak (III)

• Testuzko tresnak– Erauzterm• terminologia erauzketa euskarazko corpusetatik

– ElexBI• terminologia erauzketa elebiduna corpus paraleloetatik

–AzerHitz• terminologia erauzketa elebiduna corpus konparagarrietatik

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz-en emaitzak (IV)

• Testuzko tresnak (II)–CorpEus• Internet euskarazko corpus erraldoi gisa• http://www.corpeus.org/

–DokuSare• dokumentu eleanitzen artean eduki antzekodunak

identifikatzeko

– Elezkari• bilatzaile eleanitza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz-en emaitzak (V)

• Testuzko aplikazioak– EusBila• euskarazko bilatzailea• http://www.elebila.eu

–Opentrad-Matxin• gaztelania-euskara itzultzaile automatikoa• http://www.opentrad.org

– Ingelesa-euskara itzultzaile automatiko estatistikoa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz-en emaitzak (VI)

• Ahotsezko aplikazioak–AhoTTS• testu-ahots bihurgailua hiru hizkuntzatan eta emozioekin• http://aholab.ehu.es/tts/tts_en.html

–Testu-ahots bihurgailua PDAtarako–Hitz eta esaldi isolatuen ezagutza sistema

euskararako –Hizlarien ezagutza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

AnHitz-en emaitzak (VII)

• Argitalpen ugari nazioarteko kongresu eta aldizkari zientifikoetan

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Zer da AnHitz demoa (I)

• AnHitz proiektuan garatutako hainbat hizkuntza-, ahots- eta ikus-teknologia elkarlanean• Zientzia eta Teknologiako aditua• Interakzioa ahotsez eta euskaraz, 3Dko avatar

baten bidez

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Zer da AnHitz demoa (II)

• Bi kontsulta mota:–Galderak erantzun• nork asmatu zuen teleskopioa?• noiz aurkitu zuten penizilina?• non jaio zen Newton?• non dago Nilo ibaia?

–Termino bilaketa testu-bilduma eleaniztun baten, eta euskaraz ez dauden emaitzak automatikoki itzuli• ozono-geruza• energia berriztagarriak• biomasa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Teknologien integrazioa (I)

• 3D avatarra (VICOMTech)• Testu-ahots bihurgailu eleanitza (Aholab)• Euskarazko ahots-ezagutza (Robotiker, Aholab)• Euskarazko galderak erantzuteko sistema (IXA)• Termino-bilaketa eleanitza (Elhuyar)• Itzulpen automatikoa (IXA)• Zientzia eta Teknologiazko corpus eleanitzak

(Elhuyar)• Dena integratzeko sistema (Elhuyar)

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Teknologien integrazioa (II)AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Zientzia etaTeknologiazko

dokumentu-bilduma

(eu)

Zientzia etaTeknologiazko

dokumentu-bilduma

(eu-es-en)MT(es-eu)

MT(en-eu)

CLIR(eu-es-en)

QA(eu)

SISTEMA

ERABIL

TZAILEA

Dok-ak(es)

Dok-ak(en)

Dok-ak(eu)

Dok-ak(eu)

Dokumentuak(eu)

Bilatzeko hitza(k)(eu)

Galdera(eu)

Erantzuna(k)(eu)

ASR(eu)

TTS(eu)

Testua(eu)

Testua(eu)

Ahotsa(eu)

Ahotsa(eu)

Avatarra

DemoaAnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Ebaluazioa (I)

• Demoa ebaluatu egin da– 50 pertsona–Bakoitzak 3 galdera eta 3 bilaketa–Galdetegi bat bete

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Ebaluazioa (II)

• Ahotsaren ezagutza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Asmatze-maila %Ongi 63,19Zalantzan baina ongi 12,59Gaizki baina errepikatzeko aukera 13,43Gaizki 10,79

Sistemak ulertu al dizu zuk esandakoa? %Ia beti 16,33Gehienetan 38,78Batzutan 34,69Gutxitan 10,20Ia inoiz ez 0,00

Ebaluazioa (III)

• Ahotsaren sorkuntza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Sistemak esaten duena ongi ulertzen al da? %Oso ongi 66,67Ongi 18,75Nahiko ongi 14,58Gaizki 0,00Oso gaizki 0,00

Naturala al zen sistemaren hizkera? %Oso naturala 10,42Naturala 33,33Nahiko naturala 31,25Artifiziala 22,92Oso artifiziala 2,08

Ebaluazioa (IV)

• Galderak erantzutea

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Erantzun zuzena non eman dizu? %1. aukeran 30,612. aukeran 8,163. aukeran 1,024. aukeran 3,065. aukeran 3,06Erantzun zuzena ez zegoen aukeren artean 36,73Ez du inongo erantzunik eman 17,35

Ebaluazioa (V)

• Termino bilaketa eleanitza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Zer iruditu zaizkizu bueltatutako emaitzak? %Oso egokiak 28,06Egokiak 40,29Nahiko txarrak 22,30Ez dute zerikusirik nahi nuenarekin 9,35

Ebaluazioa (VI)

• Itzulpen automatikoa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Zer iruditu zaizkizu emaitzen itzulpenak? %Oso onak 4,44Onak 8,89Nahiko onak 16,67Ulertzeko modukoak 38,89Nahiko txarrak 26,67Txarrak 2,22Oso txarrak 2,22

Ebaluazioa (VII)

• Balorazio orokorra

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Sistema erabilgarria dela iruditzen al zaizu? %Oso erabilgarria 25,00Erabilgarria 37,50Nahiko erabilgarria 37,50Ez erabilgarria 0,00Guztiz ez erabilgarria 0,00

Interakzio sistema hau beste erabilera batzuetan egokia al da? %Bai, makinekin beti horrela izan beharko litzateke 20,83Kasu askotan bai 39,58Kasu batzuetan 39,58Kasu gutxitan 0,00Ez 0,00

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Orain arteko proiektuak

• Hizking21:– 2002-2004–Hasierako tresnak eta hizkuntz baliabideak

• AnHitz:– 2006-2008–Aplikazio aurreratuagoak– Integrazioa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

BerbaTek proiektua (I)

• 2009-2011• Ikerketa eta garapena–Hizkuntz teknologiak–Ahots-teknologiak–Multimedia-teknologiak

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

BerbaTek proiektua (II)

• Hizkuntzen Industriaren sektorea oinarri teknologikoz hornitzeko– Itzulpengintza• itzulpengintza, software lokalizazioa, interpretazioa,

bikoizketa...

– Edukiak• hiztegiak, egunkariak, liburuak, irakaskuntza-materiala,

ikus-entzunezkoak...

– Irakaskuntza• hizkuntzen irakaskuntza, irakaskuntza arautua...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Helburuak (I)

• Corpusak– Internetetik corpus elebakar, paralelo eta

konparagarriak automatikoki

• Hiztegiak–Hiztegi berriak pibotaje bidez–Terminologia erauzketarekin jarraitu

• Ontologia lexikalak–Domeinu-ontologien erauzketa automatikoa

• Analizatzaileak– Sintaktikoa, semantikoa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Helburuak (II)

• Itzulpen automatikoa– Erregeletan oinarritutakoa hobetu– Estatistikoa–Adibideetan oinarritutakoa–Hibridoa– Interlingua–Aurredizioa– Postedizioa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Helburuak (III)

• Informazio erauzketa–Dokumentuen mapa kontzeptualak– Laburpen automatikoa–RDF ezagutza-baseen erauzketa

• Galderak erantzutea– Elebakarrarekin jarraitu– Eleanitza–RDF ezagutza-baseen gainean

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Helburuak (IV)

• Informazioaren berreskurapena–Bilaketa semantikoa–Ontologiak–Metadatu-editoreak–Multimedia• Hizlarien ezagutza• Irudien analisia

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Helburuak (V)

• Ahotsa–Hizketa jarraiaren ezagutza–Ahotsen transformazioa–Diarizazioa• ahots segmentuen detekzioa• hizlarien ezagutza• ...

– Elkarrizketa sistemak

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Helburuak (VI)

• Irakaskuntza–Ahoskatzearen ebaluazio automatikoa–Ariketak ahotsaren bidez egitea– Idatzitako testuen ebaluazio automatikoa– Plagioen detekzioa–Corpusetatik irakaslearentzako baliabideak

automatikoki sortzea• ariketak, adibideak...

– Ikaslearentzako laguntzak• hiztegiak, corpusak, zuzentzaileak, sorkuntza

morfologikoa...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Helburuak (VII)

• Demoak– Itzulpengintza• Dokumentalen bikoizketa automatikoa azpitituluetatik• Itzulpen automatikoa pibotaje bidez

– Edukiak•Web bidezko bilatzaile semantiko multimedia

– Irakaskuntza• Hizkuntzen irakaskuntzarako tutore pertsonala

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Euskararako hizkuntzteknologiak batuz:AnHitz proiektua

Igor Leturia – Elhuyar FundazioaIEB 2009 – 2009/05/07 – Donostia