55
Sistemas de Inteligencia Web: Análisis de Redes Sociales Fco Fernando de la Rosa Troyano Sevilla 8 de junio de 2012 Dirigida por el Dr. Rafael Martínez Gasca

Sistemas de Inteligencia Web: Análisis de Redes Sociales

Embed Size (px)

Citation preview

Page 1: Sistemas de Inteligencia Web: Análisis de Redes Sociales

Sistemas de Inteligencia Web: Análisis de Redes Sociales

Fco Fernando de la Rosa TroyanoSevilla 8 de junio de 2012

Dirigida por el Dr. Rafael Martínez Gasca

Page 2: Sistemas de Inteligencia Web: Análisis de Redes Sociales

2/55

Índice

� Motivación� Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)� Sistemas de Inteligencia Web (SIW)

� Técnicas para extraer y analizar datos Web� Extracción de redes sociales� Diagramas estructurales� Visualización focalizada

� SIW basado en BPMS� Plataforma TREDAR

� Conclusiones y trabajos futuros� Difusión de Resultados

Page 3: Sistemas de Inteligencia Web: Análisis de Redes Sociales

3/55

Motivación

� Estudiar los fundamentos de los procesos para la toma de decisiones a nivel estratégico.

� Existen gran cantidad de herramientas relacionadas con este problema: creatividad, marketing, VTIC, innovación, cuadro de mando, pensamiento visual, delphi, árboles lógicos, DAFO, etc.

Definir y analizar el problema

Generar alternativas

Valorar las alternativas

Elegir la mejor alternativa

Implantar la alternativa

Evaluar la eficacia de la decisión

Page 4: Sistemas de Inteligencia Web: Análisis de Redes Sociales

4/55

Motivación

� Definición VTIC: Proceso de búsqueda, análisis y distribución de datos que permite obtener información relevante para los procesos de toma de decisionesalertando sobre las tendencias previsibles.

� El objetivo de la VTIC es evitar contratiempos en los procesos de toma de decisión. Por ejemplo, evitar:� Invertir en investigaciones o productos ya realizados� Perder oportunidades de negocio� Perder cuota de mercado

� Característica de la información generada:� Información +cualitativa -cuantitativa� Representa tendencias extraídas del entorno� Visión holística del escenario

Page 5: Sistemas de Inteligencia Web: Análisis de Redes Sociales

5/55

Problemas planteados

� Desarrollar Sistema de Vigilancia Tecnológica e Inteligencia Competitiva (SIC) que utilicen fuentes de información Web (SIW).

� Desarrollar herramientas para extraer, analizar y visualizar grandes cantidades de datos Web

Sistema de InteligenciaCompetitiva

Sistema de InteligenciaWeb

Utiliza fuentes de información web

Heterogénea

Dinámica

Características

Semiestructurada

Page 6: Sistemas de Inteligencia Web: Análisis de Redes Sociales

6/55

Índice

� Motivación� Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)� Sistemas de Inteligencia Web (SIW)

� Técnicas para extraer y analizar datos Web� Extracción de redes sociales� Diagramas estructurales� Visualización focalizada

� SIW basado en BPMS� Plataforma TREDAR

� Conclusiones y trabajos futuros� Difusión de Resultados

Page 7: Sistemas de Inteligencia Web: Análisis de Redes Sociales

7/55

Ciclo de vida de los SIC

Page 8: Sistemas de Inteligencia Web: Análisis de Redes Sociales

8/55

Clasificación de las tareas VTIC

Fuentes

Google

CiteSeer

RSS (noticias)

SpringerLink

Yahoo! finance

Twitter

Extracción

Redes sociales

Redes de etiquetas

Redes de términos

Análisis

Reconocimiento Automático de Términos

Co-ocurrencias

Análisis de conceptos formales

Diagramas estructurales

Clustering

DBLP

Documentos

Análisis de redes sociales

Visualización

Redes

Matrices estratégicas

TreeMap

Métricas

Ejemplos

Impacto temático

PFNET, MST, MDS

Reducción

Tesauros

Dinámicas

Estáticas

Aportaciones basada en el ARS

Web 2.0

Visión focalizada

Page 9: Sistemas de Inteligencia Web: Análisis de Redes Sociales

9/55

Técnicas de extracción de redes sociales

Fuentes

Google

CiteSeer

RSS

SpringerLink

Yahoo! finance

Twitter

Extracción

Redes sociales

Redes de etiquetas

Redes de términos

Análisis

Reconocimiento Automático de Términos

Co-ocurrenciasDiagramas estructurales

Clustering

DBLP

Documentos

Análisis de redes sociales

Visualización

Redes

Matrices estratégicas

TreeMap

Métricas

Ejemplos

Impacto temático

PFNET, MST, MDS

Reducción

Tesauros

Dinámicas

Estáticas

� Bola de nieve� Dirigida mediante heurísticas:

� Tópicos de interés

� Análisis de redes sociales

¿Cómo extraer una red social haciendo consultas a motores de búsqueda?

Web 2.0

Análisis de conceptos formales

Page 10: Sistemas de Inteligencia Web: Análisis de Redes Sociales

10/55

Extracción de semillas

Semillas (direcciones de correo):� Motor de búsqueda� Listas de distribución� Sitios web de una organización o

congreso� Bases de datos bibliográficas

Page 11: Sistemas de Inteligencia Web: Análisis de Redes Sociales

11/55

Consultas al motor de búsqueda

contextos

clique

Page 12: Sistemas de Inteligencia Web: Análisis de Redes Sociales

12/55

Análisis de los contextos

Proceso deexpansión

Page 13: Sistemas de Inteligencia Web: Análisis de Redes Sociales

13/55

Análisis de los contextos

Proceso deexpansión

Page 14: Sistemas de Inteligencia Web: Análisis de Redes Sociales

14/55

atc

lsi

auto

cs

dte

mat

fís

Visualización de redes sociales

Page 15: Sistemas de Inteligencia Web: Análisis de Redes Sociales

15/55

Técnicas de extracción de redes sociales

Fuentes

Google

CiteSeer

RSS

SpringerLink

Yahoo! finance

Twitter

Extracción

Redes sociales

Redes de etiquetas

Redes de términos

Análisis

Reconocimiento Automático de Términos

Co-ocurrenciasDiagramas estructurales

Clustering

DBLP

Documentos

Análisis de redes sociales

Visualización

Redes

Matrices estratégicas

TreeMap

Métricas

Ejemplos

Impacto temático

PFNET, MST, MDS

Reducción

Tesauros

Dinámicas

Estáticas

Basada en el ARS

� Bola de nieve

� Dirigida mediante heurísticas:

� Tópicos de interés

� Análisis de redes sociales

Dado un término o tópico ¿Cómo extraer de forma automática la comunidad asociada con ese tema?

“Diagnosis de sistema”

Web 2.0

Análisis de conceptos formales

Page 16: Sistemas de Inteligencia Web: Análisis de Redes Sociales

16/55

Calculo impacto temático

Page 17: Sistemas de Inteligencia Web: Análisis de Redes Sociales

17/55

Utilización de heurísticas

Grado PagerankRedundancia

Page 18: Sistemas de Inteligencia Web: Análisis de Redes Sociales

18/55

Comparativa con otros sistemas de extracción de redes sociales

� Microsoft Academic Search, Google Scholar y ArnetMiner: � uso intensivo de documentos

� aprendizaje supervisado, NER (corpus de entrenamiento)

� integración de fuentes bibliográfica (DBLP)

� Sistemas Web 2.0 (LinkedIn):� redes informales

Page 19: Sistemas de Inteligencia Web: Análisis de Redes Sociales

19/55

Trabajos relacionados

(emails, web, NER) 2004

(google scholar, FOAF,emails, web, NER)

(red egocéntrica, NER)

(google, lista de nombres, NER)

FLINK 2004, 2005

POLYPHONET 2003, 2006, 2007

REFERRAL WEB 1997

Lista de nombres

Utilización de heurísticas

Page 20: Sistemas de Inteligencia Web: Análisis de Redes Sociales

20/55

Web 2.0

Técnicas de análisis de redes

Fuentes

Google

CiteSeer

RSS

SpringerLink

Yahoo! finance

Twitter

Extracción

Redes sociales

Redes de etiquetas

Redes de términos

Análisis

Reconocimiento Automático de Términos

Co-ocurrenciasDiagramas estructurales

Clustering

DBLP

Documentos

Análisis de redes sociales

Visualización

Matrices estratégicas

TreeMap

Métricas

Ejemplos

Impacto temático

PFNET, MST, MDS

Reducción

Tesauros

Dinámicas

Estáticas

Basada en el ARS

� Diagramas estructurales

� patrones de comportamiento (micro)

� posicionamiento estratégico (meso)

Redes

Visión focalizada

Dada una red social ¿Cómo podemos analizar su estructura para intervenir en la red?

Análisis de conceptos formales

Page 21: Sistemas de Inteligencia Web: Análisis de Redes Sociales

21/55

Diagramas estructurales

Page 22: Sistemas de Inteligencia Web: Análisis de Redes Sociales

22/55

Diagrama estructural

Patrón núcleo

Patrón emergente

Patrón aislado

Patrón periférico

Page 23: Sistemas de Inteligencia Web: Análisis de Redes Sociales

23/55

Diagrama estructural + sociograma

Page 24: Sistemas de Inteligencia Web: Análisis de Redes Sociales

24/55

Métricas ARS

� Globales:� lejanía

� cercanía o centralidad

� autoridad o importancia

� intermediación

� Egocéntricas o locales:� grado

� densidad

� redundancia

Page 25: Sistemas de Inteligencia Web: Análisis de Redes Sociales

25/55

Aplicación de los diagramas estructurales

� Selección de expertos� Marketing viral (quienes son los actores más

influyentes)� Recursos humanos (a través de los emails se

puede analizar la estructura organizacional de una empresa y mejorarla)

� Otros datos representados en forma de grafos:� Enlaces entre páginas web� Ecosistemas� Dependencias en el código fuente

Page 26: Sistemas de Inteligencia Web: Análisis de Redes Sociales

26/55

Posicionamiento estratégico de los grupos de investigación

Page 27: Sistemas de Inteligencia Web: Análisis de Redes Sociales

27/55

Posicionamiento estratégico de los grupos de investigación

1º Cuadrante 2º Cuadrante

3º Cuadrante

4º Cuadrante

centralidad

densidad

Page 28: Sistemas de Inteligencia Web: Análisis de Redes Sociales

28/55

Aplicación de los diagrama estratégicos

� Relaciones de poder y las posiciones de afinidad y conflicto al plan de actuación en el Área protegida de la laguna de rocha (Santos et al 2008)

� Comportamiento de la dinámica grupal de los estudiantes en foros virtuales (Tió 2011)

� Dinámica de las redes de investigadores en el futuro:� Publicaciones realizadas en la Antártida (Bermúdez

2007)� Publicaciones en el Boletín Geológico y Minero

(Bermúdez 2010)

Page 29: Sistemas de Inteligencia Web: Análisis de Redes Sociales

29/55

Técnicas de visualización

Fuentes

Google

CiteSeer

RSS

SpringerLink

Yahoo! finance

Twitter

Extracción

Redes sociales

Redes de etiquetas

Redes de términos

Análisis

Reconocimiento Automático de Términos

Co-ocurrenciasDiagramas estructurales

Clustering

DBLP

Documentos

Análisis de redes sociales

Visualización

Matrices estratégicas

TreeMap

Métricas

Ejemplos

Impacto temático

PFNET, MST, MDS

Reducción

Tesauros

Dinámicas

Estáticas

� TwitterNets

Dada una etiqueta ¿Cómo extraer y visualizar de forma automática los centros de interés subyacentes?

Redes

Visión focalizada

Web 2.0

Análisis de conceptos formales

Page 30: Sistemas de Inteligencia Web: Análisis de Redes Sociales

30/55

Sistema TwitterNets

hashtagsretweets #intalio(1)#BPMS(3)

#auckland(1)

#BPM(1)

@AuraPortal_en(1)

@ScarletCoral(1)

@BPMInstituteorg(1)@intalioapac(1)

red de recomendaciones

red de etiquetas

Page 31: Sistemas de Inteligencia Web: Análisis de Redes Sociales

31/55

Sistema TwitterNets

Page 32: Sistemas de Inteligencia Web: Análisis de Redes Sociales

32/55

Consulta nosql

Red completa (compacta)

co-ocurrencias

frecuencia

Técnica de reducción

Page 33: Sistemas de Inteligencia Web: Análisis de Redes Sociales

33/55

Efecto descentralizado

� Aparece cuando la red generada está focalizada en un centro de interés (ejemplo: consulta de una etiqueta)

Red completa (compacta)

PFNET +

co-ocurrencias

PFNET +

frecuencia

centros de interés

dispersos

PFNET técnica de reducción

Page 34: Sistemas de Inteligencia Web: Análisis de Redes Sociales

34/55

Visión focalizada

Page 35: Sistemas de Inteligencia Web: Análisis de Redes Sociales

35/55

Análisis de etiquetas

� Determinar los centros de interés relacionados con la consulta:� Principales centros de interés:

� sql-nosql, bigdata� Soluciones tecnológicas:

� neo4j, riak, couchdb, mongodb, graphdb, cassandra, hbase,solr,redis

� Propiedades relevantes:� escalable, distribuida

� Conceptos relevantes:� bigtable, hypertable, topicmap, mapreduce (bigdata)

� Esta información puede ser útil en los procesos de toma de decisiones

Page 36: Sistemas de Inteligencia Web: Análisis de Redes Sociales

36/55

Índice

� Motivación� Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)� Sistemas de Inteligencia Web (SIW)

� Técnicas para extraer y analizar datos Web� Extracción de redes sociales� Diagramas estructurales� Visualización focalizada

� SIW basado en BPMS� Plataforma TREDAR

� Conclusiones y trabajos futuros� Difusión de Resultados

Page 37: Sistemas de Inteligencia Web: Análisis de Redes Sociales

37/55

Ciclo de vida de los SIC

Page 38: Sistemas de Inteligencia Web: Análisis de Redes Sociales

38/55

Herramientas standards para VTIC y ARS

� Herramientas de escritorio� No permiten ofrecer servicios de VTIC a través de la

Web � Código no reutilizable

� Sistemas cerrados:� Demasiado complejo modificar los procesos de

VTIC� Fuentes de información prefijadas (bibliométricas)

� Sistemas parciales (no cubren el ciclo completo de los sistemas de VTIC)

Page 39: Sistemas de Inteligencia Web: Análisis de Redes Sociales

39/55

WWW

Crawler

Wrapper BDSE

Índice

Otras redes

co-citas

Social networkanalysis

Multidimensional scaling

Extracción automática de términos

co-palabras Clustering

Formal conceptanalysis

Principal componentanalysis

Bases de datos bibliográficas o

de patentes

Búsqueda

Web 2.0

Fuentes Rastreo y extracción Análisis Difusión

Visualización

Modelo conceptual SIW

co-autor ías

Page 40: Sistemas de Inteligencia Web: Análisis de Redes Sociales

40/55

WWW

Crawler

Wrapper BDSE

Índice

Otras redes

co-citas

Social networkanalysis

Multidimensional scaling

Extracción automática de términos

co-palabras Clustering

Formal conceptanalysis

Principal componentanalysis

Bases de datos bibliográficas o

de patentes

Búsqueda

Web 2.0

Fuentes Rastreo y extracción Análisis Difusión

Problema de la integración de procesos

Visualización

Problema de la dinámica de la web y múltiples fuente s

Problemas del modelo SIW

co-autor ías

Page 41: Sistemas de Inteligencia Web: Análisis de Redes Sociales

41/55

Plataforma TREDAR

� Solución tecnológica basada en:� Aplicaciones wiki� Sistemas de gestión de procesos

aplicación de escritorio

aplicación web

sistema que permite implementar otros sistemas

Sistemas wiki Sistemas BPM

DiseñoImplementaciónControl y gestiónEjecuciónServicios web

ColaborativoInterpretado

combinar

Page 42: Sistemas de Inteligencia Web: Análisis de Redes Sociales

42/55

Modelo conceptual TREDAR

Fuentes de

información

Tareas de

rastreo

y extracción

Interfaces de usuarios, web 2.0, visualización

Tareas de

Análisis

Tareas de almacenamiento

Tareas de

difusiónDiseñar

procesos de

VTIC

(Tareas Wiki)

Aplicaciones

Wiki

Page 43: Sistemas de Inteligencia Web: Análisis de Redes Sociales

43/55

Sistema TwitterNets

Page 44: Sistemas de Inteligencia Web: Análisis de Redes Sociales

44/55

Aplicaciones wiki

/cfg/microp/examples/hw1/eval/cfg/microp/examples/hw1/edit

Edición de recursos (código fuente, plantillas, documentos html, etc)

Evaluación del recurso

Page 45: Sistemas de Inteligencia Web: Análisis de Redes Sociales

45/55

Diseño de procesos

Page 46: Sistemas de Inteligencia Web: Análisis de Redes Sociales

46/55

Gestión de procesos

variables

reglasseguimiento tarea

seguimiento proceso

microcharts

Page 47: Sistemas de Inteligencia Web: Análisis de Redes Sociales

47/55

Diseño de procesos VTICTareas VTIC prediseñadas

Page 48: Sistemas de Inteligencia Web: Análisis de Redes Sociales

48/55

Interacción con los procesos

Page 49: Sistemas de Inteligencia Web: Análisis de Redes Sociales

49/55

BPMS vs TREDAR

� Los BPMS tienen limitaciones en los tipos de aplicaciones que pueden ser implementadas:� Sistemas web 2.0� Motores de búsqueda� Visualización y análisis interactivo� Sistemas P2P� Foro de discusión

� TREDAR es más flexible y ágil:� a la hora de actualizar los crawlers y wrappers e incorporar nuevas

fuentes (aplicaciones wiki)� en los procesos de VTIC (tareas prediseñadas)� en la arquitectura (distribuido-centralizado, servidor-cliente, sw-apls)

Page 50: Sistemas de Inteligencia Web: Análisis de Redes Sociales

50/55

Índice

� Motivación� Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)� Sistemas de Inteligencia Web (SIW)

� Técnicas para extraer y analizar datos Web� Extracción de redes sociales� Diagramas estructurales� Visualización focalizada

� SIW basado en BPMS� Plataforma TREDAR

� Conclusiones y trabajos futuros� Difusión de Resultados

Page 51: Sistemas de Inteligencia Web: Análisis de Redes Sociales

51/55

Conclusiones

� Se ha propuesto:� Plataforma para implementar SIW flexibles y ágiles� Técnicas de extracción y análisis basadas en ARS

� Redes sociales� Diagramas estructurales� Visualización focalizada

� Extracción de redes sociales:� Metodología para modelar fácilmente las necesidades de

información en los procesos de VTIC� Adquirir sin un coste excesivo un buen corpus de

documentos para analizar

Page 52: Sistemas de Inteligencia Web: Análisis de Redes Sociales

52/55

Trabajos futuros

� Experimentar nuevas fuentes web� Integrar nuevos módulos de análisis

(TextRunner, buscador relacional)� Sistemas de alertas tempranas que

permitan la recogida incremental de datos en tiempo real para su posterior análisis temporal.

� Mejora del proceso de clareado de datos utilizando técnicas de extracción de datos

Page 53: Sistemas de Inteligencia Web: Análisis de Redes Sociales

53/55

Índice

� Motivación� Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)� Sistemas de Inteligencia Web (SIW)

� Técnicas para extraer y analizar datos Web� Extracción de redes sociales� Diagramas estructurales� Visualización focalizada

� SIW basado en BPMS� Plataforma TREDAR

� Conclusiones y trabajos futuros� Difusión de Resultados

Page 54: Sistemas de Inteligencia Web: Análisis de Redes Sociales

54/55

REDC 2005 (3/30)

(RESH 0,705)

Publicaciones

Revista española de documentación científica

REDES 2005 (18/130)

(RESH 0,067) REDES 2007 (18/130)

(RESH 0,067)

DEXA 2005

JCR (CORE B)

JISBD 2004

LNCS 2005 (SJR 0.377)

IJCAT 2008DX

I. J. of Computer Applications in Technology

Índice de citas Revistas Españolas de Ciencias Sociales y Humanas

Scientific Journal Rankings

TREDAR,

Proyectos

2003-2013

Page 55: Sistemas de Inteligencia Web: Análisis de Redes Sociales

55/55

Participación en proyectos

� Colaboración pública:� Automatización de la detección y diagnosis de fallos de sistemas

estáticos y dinámicos usando conocimiento semicualitativo. 2003-2006. Ministerio de Ciencia y Tecnología.

� Automatización de la detección, diagnosis y tolerancia a fallos en sistemas con incertidumbre y en sistemas distribuidos. 2006-2009. Ministerio de Educación y Ciencia.

� Opbus: Mejora de la calidad en procesos de negocio mediante tecnologías de optimización y tolerancia a fallos. 2009-2011. Junta de Andalucía.

� Técnicas para la diagnosis, confiabilidad y optimización en los sistemas de gestión de procesos de negocio. 2010-2013. Ministerio de Ciencia e innovación .

� Colaboración con empresas:� AVIOL: Asistente Virtual Interactivo: Información para orientación

laboral. Sadiel. 2007-2009.� ArchivaE: Archivo electrónico. Emergya. 2011-2013.