Click here to load reader
Upload
kulturerrota
View
442
Download
5
Embed Size (px)
Citation preview
Euskararako hizkuntzteknologiak batuz:AnHitz proiektua
Igor Leturia – Elhuyar FundazioaIEB 2009 – 2009/05/07 – Donostia
Edukia
• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua
Edukia
• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua
Zer da AnHitz proiektua
• AnHitz zera da:– ikerketa estrategikoko proiektua– hizkuntz teknologietan– Eusko Jaurlaritzako Industria eta Kultura sailek
Etortek programaren bidez diruz lagundua– bost kideko partzuergo batek aurrera eramana– 2006-2008 tartean
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Hizkuntz teknologiak (I)
• Ediziorako laguntzak–Hiztegi elektronikoak– Zuzentzaileak• ortografia, gramatika, estiloa...
–Karaktereen ezagutza– Itzulpenetan laguntzeko programak– ...
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Hizkuntz teknologiak (II)
• Edukien kudeaketa– Informazioaren berreskurapena• elebakarra, eleanitza...
– Informazio-erauzketa• laburpen automatikoa, terminologia-erauzketa...
–Dokumentuen sailkapena–Testuen sorkuntza– Itzulpen automatikoa–Galderak erantzutea– ...
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Hizkuntz teknologiak (III)
• Ahotsaren teknologiak–Ahotsaren sintesia–Ahotsaren ezagutza–Hizlariaren ezagutza–Ahotsaren analisia– ...
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Hizkuntz teknologiak (IV)
• Oinarrizko baliabideak–Datu-base lexikalak–Ontologia lexikoak–Testu-corpusak• elebakarrak, eleanitzak...
– Itzulpen memoriak–Ahots-corpusak– ...
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Hizkuntz teknologiak (V)
• Oinarrizko tresnak–Analizatzaile morfologikoak–Analizatzaile sintaktikoak– Lematizatzaileak– Entitate ezagutzaileak– ...
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Hizkuntz teknologiak (VI)
• Beste batzuk– Irudien ezagutza– Pertsona-gailu interfazeak– Elkarrizketa sistemak– ...
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz partzuergoa (I)
• VICOMTech (IK4)–Ordenagailu bidezko elkarrekintzazko grafikoetan eta
multimedia digitalean ikerketa aplikatuko zentroa–AnHitz proiektuan:• Liderra• Ikus-interfazeak
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz partzuergoa (II)
• Robotiker (Tecnalia)– IKTetan eta produktuen garapenean espezializatutako
zentro teknologikoa–AnHitz proiektuan:• Aplikazioen integrazioa
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz partzuergoa (III)
• Elhuyar– Zientzia eta euskara uztartzea eta euskararen
corpusaren eta estatusaren normalizazioa helburu duen irabazi asmorik gabeko fundazioa–AnHitz proiektuan:• Corpusak• Terminologia erauzketa• Informazioaren berreskurapena
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz partzuergoa (IV)
• IXA Taldea (EHU)– Lengoaia naturalaren prozesamenduan aritzen den
ikerketa-taldea–AnHitz proiektuan:•Oinarrizko tresnak• Itzulpen automatikoa• Galderak erantzuteko sistemak
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz partzuergoa (V)
• Aholab Taldea (EHU)–Ahotsaren eta seinaleen tratamenduan aritzen den
ikerketa-taldea–AnHitz proiektuan:• Ahotsaren sintesia• Ahotsaren ezagutza• Hizlariaren ezagutza
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz-en emaitzak (I)
• Testu-baliabideak– ZT Corpusa• zientzia eta teknologiazko testuen Corpusa• http://www.ztcorpusa.net/
– EPEC corpusa•morfologikoki, sintaktikoki eta semantikoki etiketatuta eta
eskuz desanbiguatuta• http://clic.ub.edu/ancora
– EuSemCor• semantikoki etiketatutako euskarazko corpusa• http://sisx04.si.ehu.es:8080/eusemcor/
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz-en emaitzak (II)
• Ahots-baliabideak– SpeechDat-EU• euskarazko ahotsezko bi datu-base• telefonotatik eta telefono mugikorretatik lortuak
– EmoDB• euskarazko emoziodun ahotsezko bi datu-base
–Bizkaifon• bizkaieraren fonoteka• http://bizkaifon.ehu.es/
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz-en emaitzak (III)
• Testuzko tresnak– Erauzterm• terminologia erauzketa euskarazko corpusetatik
– ElexBI• terminologia erauzketa elebiduna corpus paraleloetatik
–AzerHitz• terminologia erauzketa elebiduna corpus konparagarrietatik
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz-en emaitzak (IV)
• Testuzko tresnak (II)–CorpEus• Internet euskarazko corpus erraldoi gisa• http://www.corpeus.org/
–DokuSare• dokumentu eleanitzen artean eduki antzekodunak
identifikatzeko
– Elezkari• bilatzaile eleanitza
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz-en emaitzak (V)
• Testuzko aplikazioak– EusBila• euskarazko bilatzailea• http://www.elebila.eu
–Opentrad-Matxin• gaztelania-euskara itzultzaile automatikoa• http://www.opentrad.org
– Ingelesa-euskara itzultzaile automatiko estatistikoa
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz-en emaitzak (VI)
• Ahotsezko aplikazioak–AhoTTS• testu-ahots bihurgailua hiru hizkuntzatan eta emozioekin• http://aholab.ehu.es/tts/tts_en.html
–Testu-ahots bihurgailua PDAtarako–Hitz eta esaldi isolatuen ezagutza sistema
euskararako –Hizlarien ezagutza
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
AnHitz-en emaitzak (VII)
• Argitalpen ugari nazioarteko kongresu eta aldizkari zientifikoetan
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Edukia
• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua
Edukia
• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua
Zer da AnHitz demoa (I)
• AnHitz proiektuan garatutako hainbat hizkuntza-, ahots- eta ikus-teknologia elkarlanean• Zientzia eta Teknologiako aditua• Interakzioa ahotsez eta euskaraz, 3Dko avatar
baten bidez
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Zer da AnHitz demoa (II)
• Bi kontsulta mota:–Galderak erantzun• nork asmatu zuen teleskopioa?• noiz aurkitu zuten penizilina?• non jaio zen Newton?• non dago Nilo ibaia?
–Termino bilaketa testu-bilduma eleaniztun baten, eta euskaraz ez dauden emaitzak automatikoki itzuli• ozono-geruza• energia berriztagarriak• biomasa
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Teknologien integrazioa (I)
• 3D avatarra (VICOMTech)• Testu-ahots bihurgailu eleanitza (Aholab)• Euskarazko ahots-ezagutza (Robotiker, Aholab)• Euskarazko galderak erantzuteko sistema (IXA)• Termino-bilaketa eleanitza (Elhuyar)• Itzulpen automatikoa (IXA)• Zientzia eta Teknologiazko corpus eleanitzak
(Elhuyar)• Dena integratzeko sistema (Elhuyar)
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Teknologien integrazioa (II)AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Zientzia etaTeknologiazko
dokumentu-bilduma
(eu)
Zientzia etaTeknologiazko
dokumentu-bilduma
(eu-es-en)MT(es-eu)
MT(en-eu)
CLIR(eu-es-en)
QA(eu)
SISTEMA
ERABIL
TZAILEA
Dok-ak(es)
Dok-ak(en)
Dok-ak(eu)
Dok-ak(eu)
Dokumentuak(eu)
Bilatzeko hitza(k)(eu)
Galdera(eu)
Erantzuna(k)(eu)
ASR(eu)
TTS(eu)
Testua(eu)
Testua(eu)
Ahotsa(eu)
Ahotsa(eu)
Avatarra
DemoaAnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Ebaluazioa (I)
• Demoa ebaluatu egin da– 50 pertsona–Bakoitzak 3 galdera eta 3 bilaketa–Galdetegi bat bete
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Ebaluazioa (II)
• Ahotsaren ezagutza
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Asmatze-maila %Ongi 63,19Zalantzan baina ongi 12,59Gaizki baina errepikatzeko aukera 13,43Gaizki 10,79
Sistemak ulertu al dizu zuk esandakoa? %Ia beti 16,33Gehienetan 38,78Batzutan 34,69Gutxitan 10,20Ia inoiz ez 0,00
Ebaluazioa (III)
• Ahotsaren sorkuntza
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Sistemak esaten duena ongi ulertzen al da? %Oso ongi 66,67Ongi 18,75Nahiko ongi 14,58Gaizki 0,00Oso gaizki 0,00
Naturala al zen sistemaren hizkera? %Oso naturala 10,42Naturala 33,33Nahiko naturala 31,25Artifiziala 22,92Oso artifiziala 2,08
Ebaluazioa (IV)
• Galderak erantzutea
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Erantzun zuzena non eman dizu? %1. aukeran 30,612. aukeran 8,163. aukeran 1,024. aukeran 3,065. aukeran 3,06Erantzun zuzena ez zegoen aukeren artean 36,73Ez du inongo erantzunik eman 17,35
Ebaluazioa (V)
• Termino bilaketa eleanitza
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Zer iruditu zaizkizu bueltatutako emaitzak? %Oso egokiak 28,06Egokiak 40,29Nahiko txarrak 22,30Ez dute zerikusirik nahi nuenarekin 9,35
Ebaluazioa (VI)
• Itzulpen automatikoa
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Zer iruditu zaizkizu emaitzen itzulpenak? %Oso onak 4,44Onak 8,89Nahiko onak 16,67Ulertzeko modukoak 38,89Nahiko txarrak 26,67Txarrak 2,22Oso txarrak 2,22
Ebaluazioa (VII)
• Balorazio orokorra
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Sistema erabilgarria dela iruditzen al zaizu? %Oso erabilgarria 25,00Erabilgarria 37,50Nahiko erabilgarria 37,50Ez erabilgarria 0,00Guztiz ez erabilgarria 0,00
Interakzio sistema hau beste erabilera batzuetan egokia al da? %Bai, makinekin beti horrela izan beharko litzateke 20,83Kasu askotan bai 39,58Kasu batzuetan 39,58Kasu gutxitan 0,00Ez 0,00
Edukia
• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua
Edukia
• AnHitz proiektua• AnHitz demoa• BerbaTek proiektua
Orain arteko proiektuak
• Hizking21:– 2002-2004–Hasierako tresnak eta hizkuntz baliabideak
• AnHitz:– 2006-2008–Aplikazio aurreratuagoak– Integrazioa
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
BerbaTek proiektua (I)
• 2009-2011• Ikerketa eta garapena–Hizkuntz teknologiak–Ahots-teknologiak–Multimedia-teknologiak
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
BerbaTek proiektua (II)
• Hizkuntzen Industriaren sektorea oinarri teknologikoz hornitzeko– Itzulpengintza• itzulpengintza, software lokalizazioa, interpretazioa,
bikoizketa...
– Edukiak• hiztegiak, egunkariak, liburuak, irakaskuntza-materiala,
ikus-entzunezkoak...
– Irakaskuntza• hizkuntzen irakaskuntza, irakaskuntza arautua...
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Helburuak (I)
• Corpusak– Internetetik corpus elebakar, paralelo eta
konparagarriak automatikoki
• Hiztegiak–Hiztegi berriak pibotaje bidez–Terminologia erauzketarekin jarraitu
• Ontologia lexikalak–Domeinu-ontologien erauzketa automatikoa
• Analizatzaileak– Sintaktikoa, semantikoa
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Helburuak (II)
• Itzulpen automatikoa– Erregeletan oinarritutakoa hobetu– Estatistikoa–Adibideetan oinarritutakoa–Hibridoa– Interlingua–Aurredizioa– Postedizioa
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Helburuak (III)
• Informazio erauzketa–Dokumentuen mapa kontzeptualak– Laburpen automatikoa–RDF ezagutza-baseen erauzketa
• Galderak erantzutea– Elebakarrarekin jarraitu– Eleanitza–RDF ezagutza-baseen gainean
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Helburuak (IV)
• Informazioaren berreskurapena–Bilaketa semantikoa–Ontologiak–Metadatu-editoreak–Multimedia• Hizlarien ezagutza• Irudien analisia
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Helburuak (V)
• Ahotsa–Hizketa jarraiaren ezagutza–Ahotsen transformazioa–Diarizazioa• ahots segmentuen detekzioa• hizlarien ezagutza• ...
– Elkarrizketa sistemak
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Helburuak (VI)
• Irakaskuntza–Ahoskatzearen ebaluazio automatikoa–Ariketak ahotsaren bidez egitea– Idatzitako testuen ebaluazio automatikoa– Plagioen detekzioa–Corpusetatik irakaslearentzako baliabideak
automatikoki sortzea• ariketak, adibideak...
– Ikaslearentzako laguntzak• hiztegiak, corpusak, zuzentzaileak, sorkuntza
morfologikoa...
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Helburuak (VII)
• Demoak– Itzulpengintza• Dokumentalen bikoizketa automatikoa azpitituluetatik• Itzulpen automatikoa pibotaje bidez
– Edukiak•Web bidezko bilatzaile semantiko multimedia
– Irakaskuntza• Hizkuntzen irakaskuntzarako tutore pertsonala
AnHitz proiektua
AnHitz demoa
BerbaTek proiektua
Euskararako hizkuntzteknologiak batuz:AnHitz proiektua
Igor Leturia – Elhuyar FundazioaIEB 2009 – 2009/05/07 – Donostia