Upload
beatriz-martin-valcarcel
View
287
Download
1
Embed Size (px)
Citation preview
Octubre.2016
Taller de introducción a técnicas de Text Mining en Twitter con R
@Legado y @zigiella
Índice1. Quiénes somos2. Contexto3. Qué es R4. Los datos textuales5. Cómo obtener información de estos datos 6. Demo en R
a) Preprocesadob) Stemmingc) Inspeccionar palabras frecuentesd) Asociaciones e) Plot de asociacionesf) Nube de palabrasg) Clúster
i. Dendogramaii. K-means
7. Interpretación y conclusiones8. Anexo 1: Conectarse a Twitter9. Anexo 2: Instalar paquetes necesarios
QUIÉNESSOMOS
¡Hola!
Consultor Freelance
@Legado
Juandy
● Jefe de campamento y algo friki.● Escritor frustrado (por ahora).● Viajero por necesidad.● Jugador de fútbol americano.● Filólogo.
@Legado
@zigiella
INGENIERÍA INFORMÁTICA
DATA MANAGEMENT & ANALYTICS
PSICOLOGÍA
ExecutiveMBA
EMPR
END
EDU
RÍA
BUSINESS MANAGEMENTMARKETINGADVERTISING
Bea
● Nativa digital de la generación X!● Tech+Digital+Business.● Aprendizaje non stop.● Retos non stop.● Me gusta que los planes salgan
bien.@zigiella
CONTEXTODónde, qué, por qué y eso...
TRANSFORMACIÓNDIGITAL
BIG DATA
CULTURADATA DRIVEN
EL DATOVALOR
TOMA DE DECISIONES
TRANSVERSAL
RBreve introducción breve
● Software de análisis de datos.● Ciencia, medicina, psicología, economía,...● Gratuito, libre y de código abierto.● Gran comunidad.● Muchos paquetes.● Bla, bla, bla,...● Fin de la intro breve.
Origen: DataCamp
LA TEORÍAComencemos a entender
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Voice to text
Datos textuales – Qué son
Focus groups
Libros
Investigaciones
Documentos oficialesTexto …
CASOS DE USO REALES¿Pero esto es útil?
Caso de uso real
MARCA DE BEBIDAS
MARCA DE COCHES
E-COMMERCE DE MODA
Caso de uso real
Necesitamos conectar con las tendencias en nuestro e-commerce
Scrapping
Frecuencia
Asociación
Topics
Descripciones
Etiquetas
Taxonomía
Posicionamiento
E-COMMERCE DE MODA
Caso de uso real
Necesitamos conocer a tiempo posibles amenazas hacia la marca
Salud
Medio ambiente
Nutrición
Bulos
Sistema de alerta
temprana
MARCA DE BEBIDAS
Caso de uso real
MARCA DE COCHES
Necesitamos encontrar la forma de volver a conectar con la audiencia: conocer sus nuevos territorios e intereses, y descubrir insights para
trabajar la reconexión.
Caso de uso real
Movilidad
Medios de transporte
Sensaciones
Problemas
MARCA DE COCHES
EL NEGOCIOHerramientas
El negocio
El negocio
30.000€ y
50.000€Anuales
Wordcloud
Ásociación
Topics en líneas temporales
Clustering
Gratis
Un buen comienzo
TALLER PRÁCTICOYa es la hora de hacer cositas en R...
Se trata de un ejercicio de iniciación a las técnicas de Text Mining. Tenemos un dataset compuesto de un conjunto de tweets recién extraídos de Twitter y vamos a tratar de averiguar qué temas tratan.
El esquema del proceso a realizar es el siguiente:
Conjunto de tweets
PreprocesoCreación
de Corpus
CreaciónMatriz
TérminosDocs
Análisis
¡¡¡Al final, a la máquina le damos números!!!
Corpus
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Minería
Corpus
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Minería
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Preprocesado
Minería
Pasar texto a minúsculas
Quitar todo aquello que no es útil en el análisis
Quitar signos de puntuación
Quitar números
Quitar expresiones
Stemming
Preprocesado
Preprocesado - Stemming
ArboladoArboledaArbóreoArbolitos
Árbol
Stemming
¡Son matrices con mucho “sparsity”!
Asociación
Árbol ipsum dolor incendio amet, consectetur adipiscing elit. Praesent vestibulum magna sed ante tempus iaculis. Maecenas vitae nisl quam. Integer augue nisi, lacinia in neque sit amet, interdum congue odio. In neque magna, mattis sit amet nisi id, cursus ullamcorper felis. Aenean pharetra porttitor ipsum ut tincidunt. Sed condimentum purus ut leo mattis, quis pretium nunc rhoncus. Ut accumsan orci at orci venenatis, vitae Bosque dui congue. Nulla magna quam, accumsan ac tincidunt id, cursus in massa. Etiam nec eros sit amet eros fringilla varius. Vestibulum ac purus venenatis, malesuada est vitae, molestie dui. Nulla eget neque sit amet odio semper mollis et ornare justo. Etiam lacinia, purus at semper tincidunt, libero metus venenatis sapien, sed convallis quam elit vel sapien. Vivamus porta dictum augue ut ornare. Pellentesque luctus, purus non fringilla ornare, velit est volutpat nulla, eget tempus tellus eros ac ligula. Etiam nulla Arboleda, ultrices vel mauris incendio, mollis ornare massa. Sed aliquam vulputate consectetur. Ut lacinia dignissim nisl vitae consequat. Donec posuere, dui et placerat varius, libero enim laoreet est, quis posuere purus neque nec libero. Nunc aliquet sapien nec convallis rhoncus. Donec ac metus leo.
¡EMpezamos a saber de qué va la cosa!
Igual “USEFUL” no aporta valor al resultado y debería haberla quitado antes (momento stopwords)...
visualizar es super potente para darse cuenta de cosas… :)
SE ven cosas interesantes cuando buscamos los términos que más se relacionan con unos en concreto...
una sencilla visualización superpotente!
Clusterización - Clúster
Agrupación(Habitualmente por similitud
o por cercanía)
Dendograma – Clúster por orden jerárquico
CONCLUSIONES¿Dónde está el valor verdadero?
INTERPRETACIÓN
Y DEBATE DE RESULTADOS
¡el dato no habla por nosotros!
¡nosotros hablamos por el dato!
¡GRACIAS Y HASTA PRONTO!
@zigiella @Legado
ANEXO 1Conectarse a Twitter con R
PASO 1: Para poder conectarnos a Twitter desde R necesitamos tener una cuenta en Twitter y estar logineados.
Entonces debemos acceder a https://apps.twitter.com y crear una app:
Rellenaremos un sencillo formulario indicando cuatro cosas. Mirad el ejemplo.
PASO 2: Si todo ha ido bien estaremos en la página de la app. Iremos al menú “Keys and Access Tokens y crearemos nuestros tokens:
El resultado será similar al que ves y tendrás tus credeciales:
Api KeyApi SecretAccess TokenAccess Token Secret
Ya podemos ejecutar código R para obtener tweets. Este ejemplo es una pequeña muestra.
Tendremos que poner nuestras credenciales en el código.
Cuando hagamos setup nos hará una pregunta:
Responderemos “Yes” y continuaremos.:)
ANEXO 2Instalar paquetes necesarios en R
¡GRACIAS DE NUEVO!
@zigiella @Legado