Minería de datos (práctica twitter)

  • Upload
    jio-nox

  • View
    434

  • Download
    0

Embed Size (px)

Citation preview

  • 1. MD twitter + @NoxJio

2. Porqu twitter? Red social: tiempo real. Rica fuente de informacin que est madura para hacer minera de datos. En promedio, los usuarios de Twitter generan 140 millones de tweets por da en una variedad de temas 3. Objetivos Analizar texto plano, normalizarlo y extraer lo relevante de lo abundante. Realizar un estudio bsico de la informacin estadstica aplicando algoritmos de extraccin de informacin, segmentacin y clasificacin sobre dichos datos. 4. Paso 1: recuperar datos (tweets) A travs de una servicio gratuito [Topsy's OtterApi] que permite obtener los ltimos tweets sobre determinado tema: http://otter.topsy.com/searchdate.rss?q=juegos%20ol%C3%ADmpicos&window=d28 Se obtiene un XML con la informacin de los ltimos tweets al respecto [juegos olmpicos p.e.] en el siguiente formato: 5. Paso 2: Introducir info en un sistema de Minera de Datos Cul?: http://rapid-i.com/content/view/181/190/ Cmo?: en base a un lector XML o va Xpath, que la misma plataforma ofrece para parsear los datos. 6. Paso 3: Procesar informacin Tokenizar: Separar las palabras de los tweets una a una. Stopwords: Eliminar aquellas palabras no relevantes (como l, la, los, ser, estar, etc) Vectorizar los tweets: Necesitamos convertir cada tweet en un vector de palabras [representarlo como una fila en una tabla, en el que la primera columna ser el id del texto, y tendr otras tantas columnas como el conjunto de palabras de todos los textos, y en el valor de la columna, aparecer un valor, indicando la relevancia de dicha palabra en ese texto, con respecto a los dems]. Todo este proceso es realizado de manera automtica por la plataforma a travs de un algoritmo llamado TF/IDF.. 7. Paso 4: Primer anlisis de cules son las palabras que aparecen en un conjunto de tweets 8. Paso 5: Averiguar si existen grupos de palabras que se agrupen en distintas categoras que expliquen cmo distintos grupos de personas hablan de temas diferentes, y cules son esos temas. Cmo?: Aplicando un algoritmo de clasificacin sobre los distintos vectores de palabras, que los agrupe por similitud [Clustering with k-medoids].. en conjunto con tcnicas de optimizacin de la informacin sobre el conjunto de datos [Algoritmos Genticos].. 9. Resultados del paso 5: Segmentos De esta forma, vemos que en Twitter, se est hablando, acerca de los Juegos Olmpicos, en 5 categoras diferentes, con temticas diferentes. A partir de aqu, podemos sacar las estadsticas y grficas que queramos.. 10. Grfica 1: de qu se habla ms? 11. Grfica 2: quin habla de qu? 12. Grfica 3: cundo se habla de qu? 13. .. Podramos saber, en base a un texto dado, cul sera su autor, o a qu categora pertenecera .. 14. Conclusiones Se ha transformado un proceso aparentemente muy complejo de tratamiento de textos en lenguaje natural, a un formato vectorizado que nos permite realizar cualquier operacin de anlisis, comparacin, clasificacin e incluso prediccin. Este es un ejemplo simple de cmo, aplicando algoritmos muy maduros sobre problemas complejos, podemos dar solucin a necesidades reales actuales. 15. Fuente Aplicacin de Minera de Datos a Conjuntos de Textos. Como analizar twitter.. Ibermtica, Agosto 02, 2012. http://rtdibermatica.com/?p=945