Upload
tere-ponce
View
223
Download
0
Embed Size (px)
Citation preview
Línea: Minería de Datos
Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica
Responsable:
Dr. Humberto Carrillo Calvet
Línea: Minería de Datos
Problemática
• La cantidad de datos que se genera y almacena hoy en día en cualquier área de conocimiento es tan vasta, que rebasa las capacidades de asimilación de cualquier ser humano.
• Este hecho ha ocasionado el nacimiento de nuevas disciplinas como la denominada “Descubrimiento de Conocimiento en Bases de Datos” (KDD), que se enfoca en la extracción de información a partir del procesamiento de grandes cantidades de datos.
Línea: Minería de Datos
Motivación
• Frente a este escenario, resulta apremiante contar con métodos y herramientas computacionales capaces de analizar de forma automática y eficiente la gran cantidad de información acumulada en cualquier disciplina.
Línea: Minería de Datos
Objetivo
• Investigar técnicas y algoritmos de la inteligencia computacional para basar en ellos el desarrollo de sistemas de software que faciliten el análisis de información y descubrimiento de conocimiento en grandes bases de datos. Particularmente se investigarán técnicas que permitan la visualización automática de información digital.
Línea: Minería de Datos
Objetivos Específicos
• Investigar técnicas y algoritmos de la inteligencia computacional que permitan la visualización automática de información digital.
• Diseñar metodologías, de análisis de información, basadas en técnicas de la inteligencia computacional.
• Diseñar y desarrollar prototipos de software que implementen las metodologías planteadas.
Línea: Minería de Datos
Antecedentes
• Desarrollo de la Metodología ViBlioSOM.• Aplicación de técnicas de Minería de Textos• Diseño e implementación de algoritmos que construyen
redes Bayesianas a partir de datos• Aplicaciones de redes Bayesianas en diferentes
dominios: medicina, bioinformática y educación
Línea: Minería de Datos
Metodología ViBlioSOMMetodología ViBlioSOM
Está basada en la utilización secuencial de una colección de sistemas de software que sirven para el procesamiento y análisis inteligente de datos de carácter cienciométrico, mediante el uso de redes neuronales del tipo SOM.
Línea: Minería de Datos
Base de Ficheros “PubMed”Base de Ficheros “PubMed”
La fuente de datos es la base de datos MedLine de la Biblioteca Nacional de Medicina de los Estados Unidos (National Library of Medice, NLM).
MedLine:
• Gratuita.• Contiene más de 14 millones de
registros.• Recupera referencias
bibliográficas de más de 4,500 revistas médicas desde el año de 1966.
Línea: Minería de DatosMeSH VocabularyMeSH Vocabulary
La ontología MeSH Vocabulary consta de aproximadamente
23, 000 conceptos.
Línea: Minería de Datos
Penetración de las Matemáticas en la BiomedicinaPenetración de las Matemáticas en la Biomedicina
83.98%
6.05%
4.65%
0.83%
Statistics
Mathematics
Algorithms
Mathematical Computing
Fourier Analysis
Nonlinear Dynamics
Finite Element Analysis
Game Theory
Fractals
Proporción de documentos indexados con algún término perteneciente a Mathematics (Total de documentos 1,109,035 )
2004
2001
1998
1995
1992
1989
1986
1983
1980
1977
1974
1971
1968
1965
1962
1959
1956
1953
1950
Nùm
ero
de d
ocum
ento
s
10000
8000
6000
4000
2000
0
Mathematics
Algorithms
Mathematical
Computing
Statistics
Línea: Minería de Datos
Visualización e interpretación de resultados arrojados por la red neuronal Visualización e interpretación de resultados arrojados por la red neuronal
Mapas de componentesMapas de componentes
Línea: Minería de Datos
Visualización e interpretación de resultados arrojados por la red neuronal Visualización e interpretación de resultados arrojados por la red neuronal
Mapas de componentesMapas de componentes
Línea: Minería de Datos
Visualización e interpretación de resultados arrojados por la red neuronal Visualización e interpretación de resultados arrojados por la red neuronal
Análisis de Conglomerados (Clustering)Análisis de Conglomerados (Clustering)
Línea: Minería de Datos
Relaciones entre componentesRelaciones entre componentesMathematics
Game Theory
Games Experimental
Fourirer Analysis
Fractals
Mathematical Computing
Algorithms
Decision Support Techniques
Decision Theory
Finite Element Analysis
Neural Networks
Decision Trees
Nonlinear Dynamics
Línea: Minería de Datos
Minería de Textos
• Desarrollo y explotación de corpus lingüísticos.• Reconocimiento de patrones lingüísticos.• Explotación de métodos y recursos estadísticos.
candidatos
Línea: Minería de Datos
Algoritmos que construyen Redes Bayesianas
Base de datos
X1 X2
X3 X4
algoritmo
El resultado: una red Bayesiana
Línea: Minería de Datos
Aplicaciones de Redes Bayesianas en diversos dominios
• Diagnóstico de cáncer de seno• Diagnóstico de cáncer cérvico-uterino• Evaluación del potencial de marcadores
genéticos para el diagnóstico y diferenciación de tipos de cáncer
• Evaluación de trayectorias escolares de alumnos universitarios
Línea: Minería de Datos
Resultados esperados
• El desarrollo de metodologías para la extracción de conocimiento en bases de datos bibliográficas.
• El desarrollo de metodologías para la clasificación no supervisada de documentos, basados tanto en el resumen (abstract) como en las palabras claves
Línea: Minería de Datos
Resultados esperados
• Un prototipo de software que implemente la metodología ViBlioSOM.
• Un prototipo de software para la minería de datos con Redes Bayesianas.
• Un prototipo de motor de extracción terminológica basado en reglas lingüísticas y métodos estadísticos
• El diseño de un sistema de software que integre la funcionalidad de los prototipos construidos.
Línea: Minería de Datos
Estrategia de trabajo
• Conformación de dos equipos de trabajo, uno para la construcción del software propuesto y otro para la transferencia e investigación de algoritmos para el pre-procesamiento, minería de datos, evaluación y visualización.
Línea: Minería de Datos
Estrategia para el Desarrollo de Software
• Diseño basado en componentes • Mejor manejo de código: reutilización, depuración,
mantenimiento, evolución.
Componente
Implementa la interfaz visual y con el usuario
Clase de objetos que sólo implementa algoritmos.
Paquete de clases
Paquete de clases
Paquete de componentes
Paquete de componentes
Línea: Minería de Datos
Fusión de métodos de minería de datos
• Utilizando componentes de software de manera natural se consigue que los datos de salida de un algoritmo que pertenece a una metodología se puedan usar como entrada de un algoritmo de otra metodología.
Mapas auto-organizados (SOM)
Mapas auto-organizados (SOM)
Redes bayesianasRedes bayesianas
Matriz de Datos
Línea: Minería de Datos
Reutilización en otros dominios
• Los distintos paquetes de componentes se podrán usar para construir aplicaciones en distintos dominios de investigación:
Mapas auto-organizados (SOM)
Mapas auto-organizados (SOM)
Redes bayesianasRedes bayesianas
Bibliometría
Bioinformática
Procesos Industriales
Bolsa de valores
Trayectoria Escolar
Control
Línea: Minería de Datos
Avances
• Se llevaron a cabo distintas aplicaciones experimentales con la metodología ViBlioSOM.
• Se diseñó y desarrolló un prototipo de software que implementa dicha metodología.
• Se están realizando distintas pruebas con este prototipo a partir del cual se planea realizar una segunda etapa de desarrollo.
Línea: Minería de Datos
Productos Obtenidos
• Prototipo de software que implementa la metodología ViBlioSOM.
• Tesis conjunta de licenciatura en Ciencias de la Computación.
• Tesis de Actuaría
Línea: Minería de Datos
Participantes
• Investigador Responsable: – Humberto Carrillo Calvet, (Facultad de Ciencias)
• Investigadores participantes (6):– Nieves Martínez de la Escalera Castells (Facultad de Ciencias)– Gerardo Sierra Martínez (Instituto de Ingeniería)– Alfonso Medina Urrea (Instituto de Ingeniería)– Nicandro Cruz Ramírez (Universidad Veracruzana)– María Victoria Guzmán Sánchez (Instituto Finlay)
• Técnicos participantes (5): – Luis Nava Fernández (Facultad de Ciencias)– José Luis Jiménez Andrade (Facultad de Ciencias) – Romel Calero (Instituto Finlay)– Mary Carmen Trejo Avila (Facultad de Ciencias)– Alexei Eleusis Díaz Vera (Facultad de Ciencias)
• Alumnos de Posgrado(4):– Elio Villaseñor García– Ernesto Ramírez Montalvo– Luis Alberto Barrón Cedeño– Ricardo Olvera