Upload
vuongdiep
View
218
Download
0
Embed Size (px)
Citation preview
Sistemas de Inteligencia Web: Análisis de Redes Sociales
Fco Fernando de la Rosa TroyanoSevilla 8 de junio de 2012
Dirigida por el Dr. Rafael Martínez Gasca
2/55
Índice
� Motivación� Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)� Sistemas de Inteligencia Web (SIW)
� Técnicas para extraer y analizar datos Web� Extracción de redes sociales� Diagramas estructurales� Visualización focalizada
� SIW basado en BPMS� Plataforma TREDAR
� Conclusiones y trabajos futuros� Difusión de Resultados
3/55
Motivación
� Estudiar los fundamentos de los procesos para la toma de decisiones a nivel estratégico.
� Existen gran cantidad de herramientas relacionadas con este problema: creatividad, marketing, VTIC, innovación, cuadro de mando, pensamiento visual, delphi, árboles lógicos, DAFO, etc.
Definir y analizar el problema
Generar alternativas
Valorar las alternativas
Elegir la mejor alternativa
Implantar la alternativa
Evaluar la eficacia de la decisión
4/55
Motivación
� Definición VTIC: Proceso de búsqueda, análisis y distribución de datos que permite obtener información relevante para los procesos de toma de decisionesalertando sobre las tendencias previsibles.
� El objetivo de la VTIC es evitar contratiempos en los procesos de toma de decisión. Por ejemplo, evitar:� Invertir en investigaciones o productos ya realizados� Perder oportunidades de negocio� Perder cuota de mercado
� Característica de la información generada:� Información +cualitativa -cuantitativa� Representa tendencias extraídas del entorno� Visión holística del escenario
5/55
Problemas planteados
� Desarrollar Sistema de Vigilancia Tecnológica e Inteligencia Competitiva (SIC) que utilicen fuentes de información Web (SIW).
� Desarrollar herramientas para extraer, analizar y visualizar grandes cantidades de datos Web
Sistema de InteligenciaCompetitiva
Sistema de InteligenciaWeb
Utiliza fuentes de información web
Heterogénea
Dinámica
Características
Semiestructurada
6/55
Índice
� Motivación� Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)� Sistemas de Inteligencia Web (SIW)
� Técnicas para extraer y analizar datos Web� Extracción de redes sociales� Diagramas estructurales� Visualización focalizada
� SIW basado en BPMS� Plataforma TREDAR
� Conclusiones y trabajos futuros� Difusión de Resultados
7/55
Ciclo de vida de los SIC
8/55
Clasificación de las tareas VTIC
Fuentes
CiteSeer
RSS (noticias)
SpringerLink
Yahoo! finance
Extracción
Redes sociales
Redes de etiquetas
Redes de términos
Análisis
Reconocimiento Automático de Términos
Co-ocurrencias
Análisis de conceptos formales
Diagramas estructurales
Clustering
DBLP
Documentos
Análisis de redes sociales
Visualización
Redes
Matrices estratégicas
TreeMap
Métricas
Ejemplos
Impacto temático
PFNET, MST, MDS
Reducción
Tesauros
Dinámicas
Estáticas
Aportaciones basada en el ARS
Web 2.0
Visión focalizada
9/55
Técnicas de extracción de redes sociales
Fuentes
CiteSeer
RSS
SpringerLink
Yahoo! finance
Extracción
Redes sociales
Redes de etiquetas
Redes de términos
Análisis
Reconocimiento Automático de Términos
Co-ocurrenciasDiagramas estructurales
Clustering
DBLP
Documentos
Análisis de redes sociales
Visualización
Redes
Matrices estratégicas
TreeMap
Métricas
Ejemplos
Impacto temático
PFNET, MST, MDS
Reducción
Tesauros
Dinámicas
Estáticas
� Bola de nieve� Dirigida mediante heurísticas:
� Tópicos de interés
� Análisis de redes sociales
¿Cómo extraer una red social haciendo consultas a motores de búsqueda?
Web 2.0
Análisis de conceptos formales
10/55
Extracción de semillas
Semillas (direcciones de correo):� Motor de búsqueda� Listas de distribución� Sitios web de una organización o
congreso� Bases de datos bibliográficas
11/55
Consultas al motor de búsqueda
contextos
clique
12/55
Análisis de los contextos
Proceso deexpansión
13/55
Análisis de los contextos
Proceso deexpansión
14/55
atc
lsi
auto
cs
dte
mat
fís
Visualización de redes sociales
15/55
Técnicas de extracción de redes sociales
Fuentes
CiteSeer
RSS
SpringerLink
Yahoo! finance
Extracción
Redes sociales
Redes de etiquetas
Redes de términos
Análisis
Reconocimiento Automático de Términos
Co-ocurrenciasDiagramas estructurales
Clustering
DBLP
Documentos
Análisis de redes sociales
Visualización
Redes
Matrices estratégicas
TreeMap
Métricas
Ejemplos
Impacto temático
PFNET, MST, MDS
Reducción
Tesauros
Dinámicas
Estáticas
Basada en el ARS
� Bola de nieve
� Dirigida mediante heurísticas:
� Tópicos de interés
� Análisis de redes sociales
Dado un término o tópico ¿Cómo extraer de forma automática la comunidad asociada con ese tema?
“Diagnosis de sistema”
Web 2.0
Análisis de conceptos formales
16/55
Calculo impacto temático
17/55
Utilización de heurísticas
Grado PagerankRedundancia
18/55
Comparativa con otros sistemas de extracción de redes sociales
� Microsoft Academic Search, Google Scholar y ArnetMiner: � uso intensivo de documentos
� aprendizaje supervisado, NER (corpus de entrenamiento)
� integración de fuentes bibliográfica (DBLP)
� Sistemas Web 2.0 (LinkedIn):� redes informales
19/55
Trabajos relacionados
(emails, web, NER) 2004
(google scholar, FOAF,emails, web, NER)
(red egocéntrica, NER)
(google, lista de nombres, NER)
FLINK 2004, 2005
POLYPHONET 2003, 2006, 2007
REFERRAL WEB 1997
Lista de nombres
Utilización de heurísticas
20/55
Web 2.0
Técnicas de análisis de redes
Fuentes
CiteSeer
RSS
SpringerLink
Yahoo! finance
Extracción
Redes sociales
Redes de etiquetas
Redes de términos
Análisis
Reconocimiento Automático de Términos
Co-ocurrenciasDiagramas estructurales
Clustering
DBLP
Documentos
Análisis de redes sociales
Visualización
Matrices estratégicas
TreeMap
Métricas
Ejemplos
Impacto temático
PFNET, MST, MDS
Reducción
Tesauros
Dinámicas
Estáticas
Basada en el ARS
� Diagramas estructurales
� patrones de comportamiento (micro)
� posicionamiento estratégico (meso)
Redes
Visión focalizada
Dada una red social ¿Cómo podemos analizar su estructura para intervenir en la red?
Análisis de conceptos formales
21/55
Diagramas estructurales
22/55
Diagrama estructural
Patrón núcleo
Patrón emergente
Patrón aislado
Patrón periférico
23/55
Diagrama estructural + sociograma
24/55
Métricas ARS
� Globales:� lejanía
� cercanía o centralidad
� autoridad o importancia
� intermediación
� Egocéntricas o locales:� grado
� densidad
� redundancia
25/55
Aplicación de los diagramas estructurales
� Selección de expertos� Marketing viral (quienes son los actores más
influyentes)� Recursos humanos (a través de los emails se
puede analizar la estructura organizacional de una empresa y mejorarla)
� Otros datos representados en forma de grafos:� Enlaces entre páginas web� Ecosistemas� Dependencias en el código fuente
26/55
Posicionamiento estratégico de los grupos de investigación
27/55
Posicionamiento estratégico de los grupos de investigación
1º Cuadrante 2º Cuadrante
3º Cuadrante
4º Cuadrante
centralidad
densidad
28/55
Aplicación de los diagrama estratégicos
� Relaciones de poder y las posiciones de afinidad y conflicto al plan de actuación en el Área protegida de la laguna de rocha (Santos et al 2008)
� Comportamiento de la dinámica grupal de los estudiantes en foros virtuales (Tió 2011)
� Dinámica de las redes de investigadores en el futuro:� Publicaciones realizadas en la Antártida (Bermúdez
2007)� Publicaciones en el Boletín Geológico y Minero
(Bermúdez 2010)
29/55
Técnicas de visualización
Fuentes
CiteSeer
RSS
SpringerLink
Yahoo! finance
Extracción
Redes sociales
Redes de etiquetas
Redes de términos
Análisis
Reconocimiento Automático de Términos
Co-ocurrenciasDiagramas estructurales
Clustering
DBLP
Documentos
Análisis de redes sociales
Visualización
Matrices estratégicas
TreeMap
Métricas
Ejemplos
Impacto temático
PFNET, MST, MDS
Reducción
Tesauros
Dinámicas
Estáticas
� TwitterNets
Dada una etiqueta ¿Cómo extraer y visualizar de forma automática los centros de interés subyacentes?
Redes
Visión focalizada
Web 2.0
Análisis de conceptos formales
30/55
Sistema TwitterNets
hashtagsretweets #intalio(1)#BPMS(3)
#auckland(1)
#BPM(1)
@AuraPortal_en(1)
@ScarletCoral(1)
@BPMInstituteorg(1)@intalioapac(1)
red de recomendaciones
red de etiquetas
31/55
Sistema TwitterNets
32/55
Consulta nosql
Red completa (compacta)
co-ocurrencias
frecuencia
Técnica de reducción
33/55
Efecto descentralizado
� Aparece cuando la red generada está focalizada en un centro de interés (ejemplo: consulta de una etiqueta)
Red completa (compacta)
PFNET +
co-ocurrencias
PFNET +
frecuencia
centros de interés
dispersos
PFNET técnica de reducción
34/55
Visión focalizada
35/55
Análisis de etiquetas
� Determinar los centros de interés relacionados con la consulta:� Principales centros de interés:
� sql-nosql, bigdata� Soluciones tecnológicas:
� neo4j, riak, couchdb, mongodb, graphdb, cassandra, hbase,solr,redis
� Propiedades relevantes:� escalable, distribuida
� Conceptos relevantes:� bigtable, hypertable, topicmap, mapreduce (bigdata)
� Esta información puede ser útil en los procesos de toma de decisiones
36/55
Índice
� Motivación� Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)� Sistemas de Inteligencia Web (SIW)
� Técnicas para extraer y analizar datos Web� Extracción de redes sociales� Diagramas estructurales� Visualización focalizada
� SIW basado en BPMS� Plataforma TREDAR
� Conclusiones y trabajos futuros� Difusión de Resultados
37/55
Ciclo de vida de los SIC
38/55
Herramientas standards para VTIC y ARS
� Herramientas de escritorio� No permiten ofrecer servicios de VTIC a través de la
Web � Código no reutilizable
� Sistemas cerrados:� Demasiado complejo modificar los procesos de
VTIC� Fuentes de información prefijadas (bibliométricas)
� Sistemas parciales (no cubren el ciclo completo de los sistemas de VTIC)
39/55
WWW
Crawler
Wrapper BDSE
Índice
Otras redes
co-citas
Social networkanalysis
Multidimensional scaling
Extracción automática de términos
co-palabras Clustering
Formal conceptanalysis
Principal componentanalysis
Bases de datos bibliográficas o
de patentes
Búsqueda
Web 2.0
Fuentes Rastreo y extracción Análisis Difusión
Visualización
Modelo conceptual SIW
co-autor ías
40/55
WWW
Crawler
Wrapper BDSE
Índice
Otras redes
co-citas
Social networkanalysis
Multidimensional scaling
Extracción automática de términos
co-palabras Clustering
Formal conceptanalysis
Principal componentanalysis
Bases de datos bibliográficas o
de patentes
Búsqueda
Web 2.0
Fuentes Rastreo y extracción Análisis Difusión
Problema de la integración de procesos
Visualización
Problema de la dinámica de la web y múltiples fuente s
Problemas del modelo SIW
co-autor ías
41/55
Plataforma TREDAR
� Solución tecnológica basada en:� Aplicaciones wiki� Sistemas de gestión de procesos
aplicación de escritorio
aplicación web
sistema que permite implementar otros sistemas
Sistemas wiki Sistemas BPM
DiseñoImplementaciónControl y gestiónEjecuciónServicios web
ColaborativoInterpretado
combinar
42/55
Modelo conceptual TREDAR
Fuentes de
información
Tareas de
rastreo
y extracción
Interfaces de usuarios, web 2.0, visualización
Tareas de
Análisis
Tareas de almacenamiento
Tareas de
difusiónDiseñar
procesos de
VTIC
(Tareas Wiki)
Aplicaciones
Wiki
43/55
Sistema TwitterNets
44/55
Aplicaciones wiki
/cfg/microp/examples/hw1/eval/cfg/microp/examples/hw1/edit
Edición de recursos (código fuente, plantillas, documentos html, etc)
Evaluación del recurso
45/55
Diseño de procesos
46/55
Gestión de procesos
variables
reglasseguimiento tarea
seguimiento proceso
microcharts
47/55
Diseño de procesos VTICTareas VTIC prediseñadas
48/55
Interacción con los procesos
49/55
BPMS vs TREDAR
� Los BPMS tienen limitaciones en los tipos de aplicaciones que pueden ser implementadas:� Sistemas web 2.0� Motores de búsqueda� Visualización y análisis interactivo� Sistemas P2P� Foro de discusión
� TREDAR es más flexible y ágil:� a la hora de actualizar los crawlers y wrappers e incorporar nuevas
fuentes (aplicaciones wiki)� en los procesos de VTIC (tareas prediseñadas)� en la arquitectura (distribuido-centralizado, servidor-cliente, sw-apls)
50/55
Índice
� Motivación� Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)� Sistemas de Inteligencia Web (SIW)
� Técnicas para extraer y analizar datos Web� Extracción de redes sociales� Diagramas estructurales� Visualización focalizada
� SIW basado en BPMS� Plataforma TREDAR
� Conclusiones y trabajos futuros� Difusión de Resultados
51/55
Conclusiones
� Se ha propuesto:� Plataforma para implementar SIW flexibles y ágiles� Técnicas de extracción y análisis basadas en ARS
� Redes sociales� Diagramas estructurales� Visualización focalizada
� Extracción de redes sociales:� Metodología para modelar fácilmente las necesidades de
información en los procesos de VTIC� Adquirir sin un coste excesivo un buen corpus de
documentos para analizar
52/55
Trabajos futuros
� Experimentar nuevas fuentes web� Integrar nuevos módulos de análisis
(TextRunner, buscador relacional)� Sistemas de alertas tempranas que
permitan la recogida incremental de datos en tiempo real para su posterior análisis temporal.
� Mejora del proceso de clareado de datos utilizando técnicas de extracción de datos
53/55
Índice
� Motivación� Vigilancia Tecnológica e Inteligencia Competitiva (VTIC)� Sistemas de Inteligencia Web (SIW)
� Técnicas para extraer y analizar datos Web� Extracción de redes sociales� Diagramas estructurales� Visualización focalizada
� SIW basado en BPMS� Plataforma TREDAR
� Conclusiones y trabajos futuros� Difusión de Resultados
54/55
REDC 2005 (3/30)
(RESH 0,705)
Publicaciones
Revista española de documentación científica
REDES 2005 (18/130)
(RESH 0,067) REDES 2007 (18/130)
(RESH 0,067)
DEXA 2005
JCR (CORE B)
JISBD 2004
LNCS 2005 (SJR 0.377)
IJCAT 2008DX
I. J. of Computer Applications in Technology
Índice de citas Revistas Españolas de Ciencias Sociales y Humanas
Scientific Journal Rankings
TREDAR,
Proyectos
2003-2013
55/55
Participación en proyectos
� Colaboración pública:� Automatización de la detección y diagnosis de fallos de sistemas
estáticos y dinámicos usando conocimiento semicualitativo. 2003-2006. Ministerio de Ciencia y Tecnología.
� Automatización de la detección, diagnosis y tolerancia a fallos en sistemas con incertidumbre y en sistemas distribuidos. 2006-2009. Ministerio de Educación y Ciencia.
� Opbus: Mejora de la calidad en procesos de negocio mediante tecnologías de optimización y tolerancia a fallos. 2009-2011. Junta de Andalucía.
� Técnicas para la diagnosis, confiabilidad y optimización en los sistemas de gestión de procesos de negocio. 2010-2013. Ministerio de Ciencia e innovación .
� Colaboración con empresas:� AVIOL: Asistente Virtual Interactivo: Información para orientación
laboral. Sadiel. 2007-2009.� ArchivaE: Archivo electrónico. Emergya. 2011-2013.