Umap-eu, IEB2011 jardunaldietan

Embed Size (px)

DESCRIPTION

Aitzol Naberan eta Josu Azpillagaren hitzaldia IEB2011 jardunaldietan, Umap-en inguruan.

Citation preview

  • 1. 1 eu.umap.eu Josu Azpillaga

2. eu.umap.eu

  • Ideia . Zer da umap.eu

3. Tresna . Nola dabil. 4. Emaitzak . Estatistika batzuk. 5. Aurrera begira . 6. Zer da umap.eu? 7. Zer da umap.eu? 8. 9. eu.umap.eu tresna... proba bat 10. eu.umap.eu. tresna

  • Tuitak jasotzea, denbora errealean

11. Erabiltzaile euskaldun berriak harrapatzen 12. Hizkuntza detekzioa 13. Albisteak, gako-hitzak 14.

  • Tuitak jasotzea, denbora errealean
  • Twitter. Streaming API
  • http://dev.twitter.com/pages/streaming_api

Aukerak:

  • Location

15. Track (keywords) 16. Language and Country -> users 17. Limit: eskaera berezia (50000) X (10) minutuz behin, eskaera berritu 18. class Client:def __init__(self):self.buffer = u'' self.conn = pycurl.Curl()self.conn.setopt(pycurl.USERPWD, "%s:%s" % (USER, PASS))self.conn.setopt(pycurl.URL, STREAM_URL)self.conn.setopt(pycurl.POSTFIELDS, urllib.urlencode(get_post_values())) self.conn.setopt(pycurl.WRITEFUNCTION, self.on_receive)try: self.conn.perform() except pycurl.error, e: print "Error code: ", e[0] print "Error message: ", e[1] def on_error(self, data): import pdb;pdb.set_trace() print data def on_receive(self, data): print data self.buffer += dataif data.endswith("rn") and self.buffer.strip():content = json.loads(self.buffer) a = create_status_from_dic(content) self.buffer = "" 19.

  • Erabiltzaile euskaldun berriak harrapatzen
  • Ehhhh.... algoritmo...

20. Hasteko erabiltzaile multzo batekin, nahikoa 21. Garbiketa ere egiten da 22. Norbanakoak bai; robotak? 23. Eu... ondo; ca... ejem. 24.

  • Hizkuntza detekzioa
  • Aukera diferenteak

25. Errazena? Google API !!! 26. Onena? Google API!!!

  • http://code.google.com/apis/language/

Lizentziak ez du baimentzen. Orduan? 27.

  • Hizkuntza detekzioa
  • GuessLanguage erabiltzen dugu

28. LangID http://langid.net/ 29. Text cat http://odur.let.rug.nl/~vannoord/TextCat/ 30. LID http://web.me.com/dcavar/LID/ 31. Guess Language https://code.google.com/p/guess-language/ LangID Textcat LID GuessLanguage Test 1. eu OK %75 %74 %85 %93 Test 2. eu OK %76 %88 %96 %95 32.

  • Albisteak, gako-hitzak
  • Gako-hitzak
  • Hitz guztiak zenbatu eta batu

33. Logika

  • Hitz normala: 1 point

34. Hash-a: 10 point 35. Tuit horrek link bat du: x1.1 36. Tuit hori retuit bat da: x1.1 37. ... 38. Aldatu liteke! 39.

  • Albisteak, gako-hitzak
  • Albisteak
  • Link guztiak batu (ojo laburtzaileekin!)

40. x minutuz behin, aipatuenak kalkulatu 41. Aipatuen hoiek bisitatu eta informazio relebantea ekarri

  • OEmbed!!!!!!!!!!

42. HTML parserra ;-) 43.

  • oEmbed vs HTML parser

http://www.youtube.com/oembed?url=http%3A//www.youtube.com/watch%3Fv%3DbDOYN-6gdRE&format=json {"provider_url": "http://www.youtube.com/", "title": "BRIARDON SCOOTER - scooting dog", BRIARDON SCOOTER - scooting dog

courteous1
  • vs
44.
  • eu.umap.eu tresna. kodea
  • Kode guztia, horratx:
  • http://www.codesyntax.com/products
  • cstwitterstatus
45. cstwitternews 46. cslanguagedetection 47. Emaitzak: datu batzuk
  • 2010eko urritik martxan (aurreko datuak...)
48. Datu orokorrak:
  • Tuitak: 1.177.666 (aurrekoak beste 400.000)
49. eu tuitak: 151.969 (%13) 50. Erabiltzaileak: 2000tik gora jarraitzen. Eu aktiboak? 1200 inguru... gutxiago seguraski. 51. Emaitzak: datu batzuk 52. Emaitzak: datu batzuk
  • eu tuiten bat egin duten erabiltzaileak, 6 hilabetean: +%60
53. Emaitzak: datu batzuk
  • 2010/11tik hona tuit kopuruaren araberako erabiltzaileak
54. Emaitzak: datu batzuk
  • 2010/11tik hona euskarazko tuit kopuruaren araberako erabiltzaileak
55. Emaitzak: datu batzuk
  • 2011 / 04. Retuitak.
56. Tuitak (eu):26.982 57. Retuitak (eu): 4.109 (%15) 58. Erabiltzaile retuiteatuenak (eraginkorrenak!): 59. berria (225), kalaportu (126), argia (108), Sustatu (82), boligorria (75), euskalherrian (71), bildueh (57), zaldieroa (55), garanet (53), theklaneh (49), larbelaitz (48), luistxo (46), iturri (44), euskaljakintza (42), 17Korrika (41), info7irratia (40), zuzeu (40), dabidmp (36), robergutierrez (35), beaetaeneko (34), imnl (30), gaztea (30), tropela (30), teketen (29), Karrikiri (28), birasuegi (26), euskadi_irratia (25), ameslaria (25), EITBKultura (24), eitbcom (24), donostiakultura (24), ainhoaeus (24), baieuskarari (24), eguraldia (23), koldocas (23), goiena (22), zerdionk (22), hedoi_etxarte (21), jonabril (21), iPtx (21), jazpillaga (21), ueu_orokorra (20), exprai (20), GAZTEA (20), joxearanzabal (19), demonocrazy (19), IBIL2D (19), macmikel (18), kazetainfo (18), xletona (17), 60. Emaitzak: datu batzuk
  • 2011 / 04. Loturak.
61. Tuitak (eu):26.982 62. Loturadunak (eu): 14.802 (%55!!!) 63. Hedabide(!) aipatuenak: 64. eitb.com (1238), youtube.com (504), argia.com (395), berria.info (372), sustatu.com (314), goiena.net (310), zuzeu.com (245), gara.net (235), twitpic.com (230), feedburner.com (226), euskadi.net (200), twitter.com (197), ukberri.net (191), topatu.info (165), google.com (156), askatu.org (143), kulturweb.com (132), etengabe.blogsome.com (117), bizkaie.biz (116), kazeta.info (103), bildu.info (100), uberan.org (87), otamotz.com (87), aiaraldea.com (86) 65. Emaitzak: datu batzuk
  • 2011 / 04. Albisteak.
66. Albisteakalbistegi automatikoan:508 67. Nondik? 68. eitb.com (49), argia.com (37), youtube.com (28), berria.info (26), gara.net (19), zuzeu.com (14), twitpic.com (12), sustatu.com (13), topatu.info (10), orekakomunikazioa.deusto.es (8), bildu.info (8), askatu.org (7), ezkerabertzalea.info (7), otamotz.com (6), bit.ly (6), ueu.org (6), hitzondo.net (6), diariovasco.com (5), askapena.org (5), ikasleabertzaleak.org (5), baisarean.org (5), feeds.feedburner.com (4), feedproxy.google.com (4), berriketan.info (4), imh.es (4), juankarh.blogspot.com (4), etxerat.info (4), elpais.com (3), euskaljakintza.com (3), albisteak.euskalherrian.info (3), eibar.org (3), bizkaie.biz (3), noticiasdegipuzkoa.com (3), flickr.com (3), imanolmurua.blogspot.com (2), deia.com (2), codesyntax.com (2), mukom.mondragon.edu (2), 69. Aurrera begira 70. Eskerrik asko @jazpillaga