49

Click here to load reader

Igor Leturia An Hitz

Embed Size (px)

Citation preview

Page 1: Igor Leturia An Hitz

Euskararako hizkuntzteknologiak batuz:AnHitz proiektua

Igor Leturia – Elhuyar FundazioaIEB 2009 – 2009/05/07 – Donostia

Page 2: Igor Leturia An Hitz

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Page 3: Igor Leturia An Hitz

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Page 4: Igor Leturia An Hitz

Zer da AnHitz proiektua

• AnHitz zera da:– ikerketa estrategikoko proiektua– hizkuntz teknologietan– Eusko Jaurlaritzako Industria eta Kultura sailek

Etortek programaren bidez diruz lagundua– bost kideko partzuergo batek aurrera eramana– 2006-2008 tartean

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 5: Igor Leturia An Hitz

Hizkuntz teknologiak (I)

• Ediziorako laguntzak–Hiztegi elektronikoak– Zuzentzaileak• ortografia, gramatika, estiloa...

–Karaktereen ezagutza– Itzulpenetan laguntzeko programak– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 6: Igor Leturia An Hitz

Hizkuntz teknologiak (II)

• Edukien kudeaketa– Informazioaren berreskurapena• elebakarra, eleanitza...

– Informazio-erauzketa• laburpen automatikoa, terminologia-erauzketa...

–Dokumentuen sailkapena–Testuen sorkuntza– Itzulpen automatikoa–Galderak erantzutea– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 7: Igor Leturia An Hitz

Hizkuntz teknologiak (III)

• Ahotsaren teknologiak–Ahotsaren sintesia–Ahotsaren ezagutza–Hizlariaren ezagutza–Ahotsaren analisia– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 8: Igor Leturia An Hitz

Hizkuntz teknologiak (IV)

• Oinarrizko baliabideak–Datu-base lexikalak–Ontologia lexikoak–Testu-corpusak• elebakarrak, eleanitzak...

– Itzulpen memoriak–Ahots-corpusak– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 9: Igor Leturia An Hitz

Hizkuntz teknologiak (V)

• Oinarrizko tresnak–Analizatzaile morfologikoak–Analizatzaile sintaktikoak– Lematizatzaileak– Entitate ezagutzaileak– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 10: Igor Leturia An Hitz

Hizkuntz teknologiak (VI)

• Beste batzuk– Irudien ezagutza– Pertsona-gailu interfazeak– Elkarrizketa sistemak– ...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 11: Igor Leturia An Hitz

AnHitz partzuergoa (I)

• VICOMTech (IK4)–Ordenagailu bidezko elkarrekintzazko grafikoetan eta

multimedia digitalean ikerketa aplikatuko zentroa–AnHitz proiektuan:• Liderra• Ikus-interfazeak

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 12: Igor Leturia An Hitz

AnHitz partzuergoa (II)

• Robotiker (Tecnalia)– IKTetan eta produktuen garapenean espezializatutako

zentro teknologikoa–AnHitz proiektuan:• Aplikazioen integrazioa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 13: Igor Leturia An Hitz

AnHitz partzuergoa (III)

• Elhuyar– Zientzia eta euskara uztartzea eta euskararen

corpusaren eta estatusaren normalizazioa helburu duen irabazi asmorik gabeko fundazioa–AnHitz proiektuan:• Corpusak• Terminologia erauzketa• Informazioaren berreskurapena

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 14: Igor Leturia An Hitz

AnHitz partzuergoa (IV)

• IXA Taldea (EHU)– Lengoaia naturalaren prozesamenduan aritzen den

ikerketa-taldea–AnHitz proiektuan:•Oinarrizko tresnak• Itzulpen automatikoa• Galderak erantzuteko sistemak

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 15: Igor Leturia An Hitz

AnHitz partzuergoa (V)

• Aholab Taldea (EHU)–Ahotsaren eta seinaleen tratamenduan aritzen den

ikerketa-taldea–AnHitz proiektuan:• Ahotsaren sintesia• Ahotsaren ezagutza• Hizlariaren ezagutza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 16: Igor Leturia An Hitz

AnHitz-en emaitzak (I)

• Testu-baliabideak– ZT Corpusa• zientzia eta teknologiazko testuen Corpusa• http://www.ztcorpusa.net/

– EPEC corpusa•morfologikoki, sintaktikoki eta semantikoki etiketatuta eta

eskuz desanbiguatuta• http://clic.ub.edu/ancora

– EuSemCor• semantikoki etiketatutako euskarazko corpusa• http://sisx04.si.ehu.es:8080/eusemcor/

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 17: Igor Leturia An Hitz

AnHitz-en emaitzak (II)

• Ahots-baliabideak– SpeechDat-EU• euskarazko ahotsezko bi datu-base• telefonotatik eta telefono mugikorretatik lortuak

– EmoDB• euskarazko emoziodun ahotsezko bi datu-base

–Bizkaifon• bizkaieraren fonoteka• http://bizkaifon.ehu.es/

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 18: Igor Leturia An Hitz

AnHitz-en emaitzak (III)

• Testuzko tresnak– Erauzterm• terminologia erauzketa euskarazko corpusetatik

– ElexBI• terminologia erauzketa elebiduna corpus paraleloetatik

–AzerHitz• terminologia erauzketa elebiduna corpus konparagarrietatik

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 19: Igor Leturia An Hitz

AnHitz-en emaitzak (IV)

• Testuzko tresnak (II)–CorpEus• Internet euskarazko corpus erraldoi gisa• http://www.corpeus.org/

–DokuSare• dokumentu eleanitzen artean eduki antzekodunak

identifikatzeko

– Elezkari• bilatzaile eleanitza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 20: Igor Leturia An Hitz

AnHitz-en emaitzak (V)

• Testuzko aplikazioak– EusBila• euskarazko bilatzailea• http://www.elebila.eu

–Opentrad-Matxin• gaztelania-euskara itzultzaile automatikoa• http://www.opentrad.org

– Ingelesa-euskara itzultzaile automatiko estatistikoa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 21: Igor Leturia An Hitz

AnHitz-en emaitzak (VI)

• Ahotsezko aplikazioak–AhoTTS• testu-ahots bihurgailua hiru hizkuntzatan eta emozioekin• http://aholab.ehu.es/tts/tts_en.html

–Testu-ahots bihurgailua PDAtarako–Hitz eta esaldi isolatuen ezagutza sistema

euskararako –Hizlarien ezagutza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 22: Igor Leturia An Hitz

AnHitz-en emaitzak (VII)

• Argitalpen ugari nazioarteko kongresu eta aldizkari zientifikoetan

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 23: Igor Leturia An Hitz

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Page 24: Igor Leturia An Hitz

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Page 25: Igor Leturia An Hitz

Zer da AnHitz demoa (I)

• AnHitz proiektuan garatutako hainbat hizkuntza-, ahots- eta ikus-teknologia elkarlanean• Zientzia eta Teknologiako aditua• Interakzioa ahotsez eta euskaraz, 3Dko avatar

baten bidez

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 26: Igor Leturia An Hitz

Zer da AnHitz demoa (II)

• Bi kontsulta mota:–Galderak erantzun• nork asmatu zuen teleskopioa?• noiz aurkitu zuten penizilina?• non jaio zen Newton?• non dago Nilo ibaia?

–Termino bilaketa testu-bilduma eleaniztun baten, eta euskaraz ez dauden emaitzak automatikoki itzuli• ozono-geruza• energia berriztagarriak• biomasa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 27: Igor Leturia An Hitz

Teknologien integrazioa (I)

• 3D avatarra (VICOMTech)• Testu-ahots bihurgailu eleanitza (Aholab)• Euskarazko ahots-ezagutza (Robotiker, Aholab)• Euskarazko galderak erantzuteko sistema (IXA)• Termino-bilaketa eleanitza (Elhuyar)• Itzulpen automatikoa (IXA)• Zientzia eta Teknologiazko corpus eleanitzak

(Elhuyar)• Dena integratzeko sistema (Elhuyar)

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 28: Igor Leturia An Hitz

Teknologien integrazioa (II)AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Zientzia etaTeknologiazko

dokumentu-bilduma

(eu)

Zientzia etaTeknologiazko

dokumentu-bilduma

(eu-es-en)MT(es-eu)

MT(en-eu)

CLIR(eu-es-en)

QA(eu)

SISTEMA

ERABIL

TZAILEA

Dok-ak(es)

Dok-ak(en)

Dok-ak(eu)

Dok-ak(eu)

Dokumentuak(eu)

Bilatzeko hitza(k)(eu)

Galdera(eu)

Erantzuna(k)(eu)

ASR(eu)

TTS(eu)

Testua(eu)

Testua(eu)

Ahotsa(eu)

Ahotsa(eu)

Avatarra

Page 29: Igor Leturia An Hitz

DemoaAnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 30: Igor Leturia An Hitz

Ebaluazioa (I)

• Demoa ebaluatu egin da– 50 pertsona–Bakoitzak 3 galdera eta 3 bilaketa–Galdetegi bat bete

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 31: Igor Leturia An Hitz

Ebaluazioa (II)

• Ahotsaren ezagutza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Asmatze-maila %Ongi 63,19Zalantzan baina ongi 12,59Gaizki baina errepikatzeko aukera 13,43Gaizki 10,79

Sistemak ulertu al dizu zuk esandakoa? %Ia beti 16,33Gehienetan 38,78Batzutan 34,69Gutxitan 10,20Ia inoiz ez 0,00

Page 32: Igor Leturia An Hitz

Ebaluazioa (III)

• Ahotsaren sorkuntza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Sistemak esaten duena ongi ulertzen al da? %Oso ongi 66,67Ongi 18,75Nahiko ongi 14,58Gaizki 0,00Oso gaizki 0,00

Naturala al zen sistemaren hizkera? %Oso naturala 10,42Naturala 33,33Nahiko naturala 31,25Artifiziala 22,92Oso artifiziala 2,08

Page 33: Igor Leturia An Hitz

Ebaluazioa (IV)

• Galderak erantzutea

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Erantzun zuzena non eman dizu? %1. aukeran 30,612. aukeran 8,163. aukeran 1,024. aukeran 3,065. aukeran 3,06Erantzun zuzena ez zegoen aukeren artean 36,73Ez du inongo erantzunik eman 17,35

Page 34: Igor Leturia An Hitz

Ebaluazioa (V)

• Termino bilaketa eleanitza

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Zer iruditu zaizkizu bueltatutako emaitzak? %Oso egokiak 28,06Egokiak 40,29Nahiko txarrak 22,30Ez dute zerikusirik nahi nuenarekin 9,35

Page 35: Igor Leturia An Hitz

Ebaluazioa (VI)

• Itzulpen automatikoa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Zer iruditu zaizkizu emaitzen itzulpenak? %Oso onak 4,44Onak 8,89Nahiko onak 16,67Ulertzeko modukoak 38,89Nahiko txarrak 26,67Txarrak 2,22Oso txarrak 2,22

Page 36: Igor Leturia An Hitz

Ebaluazioa (VII)

• Balorazio orokorra

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Sistema erabilgarria dela iruditzen al zaizu? %Oso erabilgarria 25,00Erabilgarria 37,50Nahiko erabilgarria 37,50Ez erabilgarria 0,00Guztiz ez erabilgarria 0,00

Interakzio sistema hau beste erabilera batzuetan egokia al da? %Bai, makinekin beti horrela izan beharko litzateke 20,83Kasu askotan bai 39,58Kasu batzuetan 39,58Kasu gutxitan 0,00Ez 0,00

Page 37: Igor Leturia An Hitz

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Page 38: Igor Leturia An Hitz

Edukia

• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua

Page 39: Igor Leturia An Hitz

Orain arteko proiektuak

• Hizking21:– 2002-2004–Hasierako tresnak eta hizkuntz baliabideak

• AnHitz:– 2006-2008–Aplikazio aurreratuagoak– Integrazioa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 40: Igor Leturia An Hitz

BerbaTek proiektua (I)

• 2009-2011• Ikerketa eta garapena–Hizkuntz teknologiak–Ahots-teknologiak–Multimedia-teknologiak

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 41: Igor Leturia An Hitz

BerbaTek proiektua (II)

• Hizkuntzen Industriaren sektorea oinarri teknologikoz hornitzeko– Itzulpengintza• itzulpengintza, software lokalizazioa, interpretazioa,

bikoizketa...

– Edukiak• hiztegiak, egunkariak, liburuak, irakaskuntza-materiala,

ikus-entzunezkoak...

– Irakaskuntza• hizkuntzen irakaskuntza, irakaskuntza arautua...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 42: Igor Leturia An Hitz

Helburuak (I)

• Corpusak– Internetetik corpus elebakar, paralelo eta

konparagarriak automatikoki

• Hiztegiak–Hiztegi berriak pibotaje bidez–Terminologia erauzketarekin jarraitu

• Ontologia lexikalak–Domeinu-ontologien erauzketa automatikoa

• Analizatzaileak– Sintaktikoa, semantikoa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 43: Igor Leturia An Hitz

Helburuak (II)

• Itzulpen automatikoa– Erregeletan oinarritutakoa hobetu– Estatistikoa–Adibideetan oinarritutakoa–Hibridoa– Interlingua–Aurredizioa– Postedizioa

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 44: Igor Leturia An Hitz

Helburuak (III)

• Informazio erauzketa–Dokumentuen mapa kontzeptualak– Laburpen automatikoa–RDF ezagutza-baseen erauzketa

• Galderak erantzutea– Elebakarrarekin jarraitu– Eleanitza–RDF ezagutza-baseen gainean

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 45: Igor Leturia An Hitz

Helburuak (IV)

• Informazioaren berreskurapena–Bilaketa semantikoa–Ontologiak–Metadatu-editoreak–Multimedia• Hizlarien ezagutza• Irudien analisia

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 46: Igor Leturia An Hitz

Helburuak (V)

• Ahotsa–Hizketa jarraiaren ezagutza–Ahotsen transformazioa–Diarizazioa• ahots segmentuen detekzioa• hizlarien ezagutza• ...

– Elkarrizketa sistemak

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 47: Igor Leturia An Hitz

Helburuak (VI)

• Irakaskuntza–Ahoskatzearen ebaluazio automatikoa–Ariketak ahotsaren bidez egitea– Idatzitako testuen ebaluazio automatikoa– Plagioen detekzioa–Corpusetatik irakaslearentzako baliabideak

automatikoki sortzea• ariketak, adibideak...

– Ikaslearentzako laguntzak• hiztegiak, corpusak, zuzentzaileak, sorkuntza

morfologikoa...

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 48: Igor Leturia An Hitz

Helburuak (VII)

• Demoak– Itzulpengintza• Dokumentalen bikoizketa automatikoa azpitituluetatik• Itzulpen automatikoa pibotaje bidez

– Edukiak•Web bidezko bilatzaile semantiko multimedia

– Irakaskuntza• Hizkuntzen irakaskuntzarako tutore pertsonala

AnHitz proiektua

AnHitz demoa

BerbaTek proiektua

Page 49: Igor Leturia An Hitz

Euskararako hizkuntzteknologiak batuz:AnHitz proiektua

Igor Leturia – Elhuyar FundazioaIEB 2009 – 2009/05/07 – Donostia