Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de...

Preview:

Citation preview

Técnicas para el análisis de datos

digitalesAnálisis de redes sociales online y minería de

texto para las ciencias sociales

Camilo Cristanchocamilo.cristancho@uab.cat

Día 4

5. Minería de texto5.1. Consideraciones teóricas5.2. Representación y descripción: convirtiendo el texto en datos5.3. Interpretación y exploración

5.1 Consideraciones teóricas

Enfoques para el análisis de contenido• Enfoques descriptivos y exploratorios• análisis de frecuencia de palabras• análisis de co-ocurrencia (Doerfel y Barnett 1996)

• Enfoques deductivos métodos de análisis de contenido• Automatizar la elección del esquema de categorización y la clasificación de los

documentos en las categorías• Análisis de clusters• Menores costes iniciales

• no hay opciones teóricas sobre qué categorías son necesarias ex ante• no se requiere ninguna codificación manual (Quinn et al 2009;. Simon y Xeon 2004

Enfoques para el análisis de contenido• Análisis automatizado de textos (Hillard et al 2007;. Monroe

y Schrodt 2008)• Clasificación de texto (sin supervisión y aprendizaje supervisado

(Sebastiani 2002; Liu 2011; Scharkow 2011).• Análisis de redes Semánticas (van Atteveldt 2008)• Topic modeling• Procesamiento del lenguaje natural - entender el significado a

partir del lenguaje natural• Detección de tendencias - Predecir temas emergentes

Enfoques para el análisis de contenido•Métodos de aprendizaje supervisado• Requieren elegir categorías y una muestra de documentos

codificados manualmente• Puede utilizarse para la mayoría de las preguntas con interés

teórico• Descubrimiento de un conjunto relevante de categorías a partir de

los datos• Enfoques deductivos• Codificación basada en diccionario• Análisis basado en reglas

Análisis de contenidos - aplicaciones

Minería de texto

• Objetivo principal - identificar regularidades en conjuntos de datos textuales (patrones, conexiones, perfiles, tendencias)• latentes• previamente desconocidos• potencialmente útiles

• Extracción de información de los documentos y agregación de la colección completa

• Datos altamente redundantes• Patrones – Encontrar frases importantes• Conexiones - Encontrar palabras con significado semántico• Reducir la complejidad - Crear un resumen de los documentos

Minería de texto – retos

• Conceptos• Difíciles de representar - combinaciones sutiles de relaciones

abstractas entre conceptos• Altamente dimensionales - muchas maneras para representar

conceptos similares• Complejos - características múltiples

Características complejas de los medios sociales

•Microtextos• Twitter y la mayoría de los mensajes de Facebook son muy cortos

• Contenido ruidoso• deletreo inusual• capitalización irregular• Emoticones• abreviaturas idiosincrásicas

• Temporalidad• Fecha de creación• modelos temporales para examinar tendencias, volatilidad, causalidad

Bontcheva and Rout / Semantics of Social Media Streams

Características complejas de los medios sociales• Contexto social

• Indispensable para una interpretación correcta de los contenidos de los medios sociales• Posición estructural• Autoridad del usuario• Clusters

• Centrado en el usuario• Usuarios como productores y consumidores de contenidos de los medios sociales• Fuente rica de información explícita e implícita sobre los datos demográficos de los usuarios, intereses,

opiniones

• Plurilingüe• Hasta ahora los métodos de la tecnología semántica se han centrado en el Inglés• Identificación automática de idioma - medios de comunicación social separados por grupos lingüísticos

Bontcheva and Rout / Semantics of Social Media Streams

Minería de texto – limitaciones

• Palabras• Homonimia: misma forma, significado diferente• La polisemia: misma forma, significado relacionado• Sinonimia: forma diferente, mismo significado• Hiponimia: una palabra denota una subclase de otra

• Uso del lenguaje• sarcasmo• ironía

Minería de opiniones

• Extracción de opiniones del texto• Opiniones: declaraciones subjetivas que reflejan sentimientos o

percepciones de las personas sobre las entidades o eventos• Se utiliza igualmente el concepto de “análisis de Sentimiento”• Los medios sociales ofrece un entorno idóneo para que la gente

comparta opiniones• Fuente útil de información no estructurada• El reto consiste en extraer la información útil

Minería de opinions y medios sociales• Twitter stream • fuente de datos centralizada• actualizada en tiempo real• nuevas fuentes de información se integran automáticamente en el

corpus• amplia gama de perspectivas individuales• decenas de miles de contribuyentes activos involucrados en el

discurso público

Minería de opinions y medios sociales• Los medios de comunicación social ofrecen una gran cantidad de

información sobre el comportamiento y los intereses de los usuarios:• explícita: John le gusta ...• implícitas: personas que les gusta ... tienden a ser grandes tomadores de

riesgo• asociativo: la gente que compra ... productos también tienden a comprar

productos ...

• La información sobre los individuos no es útil por sí misma, PERO la búsqueda de grupos de intereses y opiniones compartidas es interesante• Si mucha gente habla en los sitios de medios sociales sobre ...

Retos en la Minería de opiniones

• Identificar si un texto contiene opiniones o actitudes o no (las noticias de hechos vs. Editorial)• Identificar la entidad expresando la opinión• Identificar la polaridad y el grado de la opinión (a favor o en

contra)• Identificar el tema de la opinión (opinión acerca de qué?)

5.2 Representación y descripción: convirtiendo el texto en datos

Proceso de minería de texto

1. Captura de información• Recopilar, seleccionar, filtrar documentos que pueden ser útiles

2. Extracción de Información - Organización• Tweets• contenidos del Sitio• API de contenidos especializados (Newswires, actividad parlamentaria, ...)

3. Definir las estructuras de datos• Documentos de texto sin formato• Tablas• Bases de datos

Proceso de minería de texto

4. Limpiar el texto• Quitar las etiquetas y la información no textual

5. Partición• Texto en unidades - DTM

Término1 Término2 Término3 … Términon

Documento1

Documento2

Documento3

…Documenton

Proceso de minería de texto

6. Búsqueda• entidades pertinentes (personas, organizaciones, instituciones)• hechos acerca de las entidades (atributos)• palabras clave

7. Análisis• co-ocurrencia, co-referencia, redes conceptuales• clustering, clasificación de documentos, tendencias

8. Visualización

Recursos y herramientas

• Recursos• Ontologías, léxicos, terminologías, tesauros, gramáticas, corpus

anotados• Instrumentos• Convertidores de documentos, detectores de oraciones,

tokenisers, taggers, Chunkers, reconocedores de entidades, analizadores semánticos

Qué buscamos?

• Frecuencia• Superior / inferior• Dentro de / entre poblaciones

• Medidas de similitud - Correlación• Objetivo• Patrones

• Combinaciones• Co-referencia (redes latentes)! = Vínculos intencionales

5.3. Interpretación y exploración

Términos comunes

• Listas de términos comunes• Métricas de términos y conjuntos de términos• Agrupados por clusters• Términos frecuentes – “Stop words”

• http://www.elwebmaster.com/referencia/stopwords-en-espanol • http://latel.upf.edu/morgana/altres/pub/ca_stop.htm

• Evitar la dispersión• Baja frecuencia en la DTM

Nubes de términos

• Representación visual de frecuencias

•www.tagxedo.com/app.html

Redes semánticas

• Representación de términos relacionados• Términos como nodos• Términos más comunes – evitar dispersión

• Ego-red• Clústeres de términos• Clasificación• Distancia - Intensidad por color• Centralidad

Redes de hashtag

• Listas de los hashtags que se utilizan en conjunto• Métricas de términos y conjuntos de términos - recuentos Hashtag• Hashtags como nodos

• Redes ego• Clústeres de hashtags• Clasificación• Distancia • Centralidad

Clustering

• Estrategia de reducción de datos• reducir un gran número de variables a un conjunto más pequeño que

mantiene la información de predicción del conjunto más amplio• Separa los tweets en grupos que son similares con respecto a los términos

contenidos en cada tweet

• Maximizar la disimilitud entre los grupos• Minimizar la disimilitud entre los grupos

Análisis de clústeres – reducir la complejidad e investigación exploratoria

• Clustering (vincular términos semánticamente similares) vs. clasificación de términos (asignar términos a clases de un esquema de clasificación predefinida)• creación de metadatos• detección de temas• Indexación conceptual (con hechos, eventos)• clasificación de documentos

Recommended