View
226
Download
0
Category
Preview:
Citation preview
Proceso KDD
MSc. Carlos Alberto Cobos Lozada
ccobos@unicauca.edu.co
http://www.unicauca.edu.co/~ccobos
Grupo de I+D en Tecnologías de la Información
Departamento de Sistemas
Facultad de Ingeniería Electrónica y Telecomunicaciones
Universidad del Cauca
Resumen Previo
¿Qué es minería de datos? ¿Por qué la minería de datos? ¿La minería de datos es totalmente automática? ¿Cómo se desarrolla un proyecto de minería de datos? Falacias de la minería de datos Tareas de la minería de datos
Descripción Clasificación – Estimación – Predicción Agrupamiento por similitud (Clustering) Reglas de Asociación
Aplicaciones
Proceso de Minería de Datos
Los algoritmos son sólo una parte de un proceso llamado Descubrimiento de Conocimiento por los Científicos de la Computación, y Minería de Datos por los estadísticos
El proceso comienza con el reconocimiento de un problema y termina con el control de una solución implementada
Todo el proceso debe ser soportado por una metodología exitosa
Metodologías para la Minería de Datos Fayyad et al. (Ciencias de la Computación)
WEKA SEMMA (SAS) (Estadísticos)
SAS Enterprise Miner CRISP-DM (SPSS, OHRA, …) (Negocios)
SPSS Clementine
http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm
Abril de 2004
Metodología de Fayyad
Datos
Datos Objetivo
Datos Procesados
Datos Transformados
Patrones
Conocimiento
Selección
Pre procesamiento y limpieza
Transformación y selección de características
Minería de datos
Interpretación y evaluación
Metodología SEMMA
Soportado por SAS Enterprise Mining
SAMPLE
Datos de entrada, Muestreo, Partición de datos
EXPLORE
Explorar distribuciones, Visualizar, Entender,Asociar,
Selección de variables
MODEL
Regresiones,Árboles de Decisión,Redes Neuronales,Inducción de reglas
MODIFY
Transformación de variables, Filtrar valores extremos (anómalos),
Agrupación, SOM / Kohonen
ASSESS
Evaluación,Puntuación,
Reporte
Metodología CRISP-DM
CRoss-Industry Standard Process for Data Mining Desarrollada por compañías de minería de datos (SPSS,
NCR, OHRA, ChryslerDaimler) y fundada por la Comisión Europea
Independiente de herramientas Independiente de la industria Modelo de proceso jerárquico
Fases Tareas genéricas Tareas específicas Instancias del proceso
Modelo de proceso CRISP Mapeo Proceso CRISP
Metodología CRISP-DM
Mapeo de modelos generales a especializados El Dominio de aplicación- área específica en la que se
desarrolla el proyecto El Tipo de Problema de minería de datos Aspectos Técnicos de cada proyecto (valores faltantes,
anómalos, otros) Las Herramientas y técnicas de minería de datos del
proyecto Existen dos tipos de mapeos:
Mapeando para el presente: Para un solo Proyecto, denominado sencillo
Mapeando para el Futuro: Para un contexto predefinido teniendo como base experiencias pasadas. Sirve para orientar proyectos de contextos similares
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Determinar objetivos del negocioBackgroundObjetivos del negocioCriterios de éxito del negocio
Evaluar la situaciónInventario de recursosRequerimientos, supuestos y restriccionesRiesgos y contingenciasTerminologíaCostos y beneficio
Determinar objetivos de la minería de datosObjetivos de la minería de datosCriterios de éxito de la minería de datos
Construir plan del proyectoPlan del proyecto Evaluación inicial de herramientas y técnicas.
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Recolección inicial de datosReporte de la recolección Inicial de datos.
Descripción de datosReporte de descripción de datos
Exploración de datosReporte de exploración de datos
Verificar la calidad de los datosReporte de calidad de los datos
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Selección de datosRazón para inclusión/exclusión
Limpieza de datosReporte de limpieza de datos
Construcción de datosAtributos derivadosRegistros generados
Integración de datosIntegración de datos
Formato de datosReformateo de datos
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Seleccionar la técnica de modeladoTécnica de modeladoSupuestos del modelado
Generar el diseño de testDiseño del test
Construir el modeloConfiguración de parámetrosModeloDescripción del modelo.
Evaluación del modeloEvaluación del modeloRevisión de la configuración de parámetros
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Evaluar los resultadosEvaluar los resultados de minería de datos Vs. los criterios de éxito del negocio.Aprobar modelos
Revisar el procesoRevisión del proceso
Determinar el siguiente pasoLista de posibles accionesDecisión
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Plan de desplieguePlan de despliegue
Plan de monitoreo y mantenimientoPlan de monitoreo y mantenimiento
Producir los reportes finalesReportes finalesPresentación final
Revisión del proyectoDocumentación de experiencias
Breve Comparación de Metodologías
Datos
Datos Objetivo
Datos Procesados
Datos Transformados
Patrones
Conocimiento
Selección
Pre procesamiento y limpieza
Transformación y selección de características
Minería de datos
Interpretación y evaluación
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
SAMPLE
Datos de entrada, Muestreo, Partición de datos
EXPLORE
Explorar distribuciones, Visualizar, Entender,Asociar,
Selección de variables
MODEL
Regresiones,Árboles de Decisión,Redes Neuronales,Inducción de reglas
MODIFY
Transformación de variables, Filtrar valores extremos (anómalos),
Agrupación, SOM / Kohonen
ASSESS
Evaluación,Puntuación,
Reporte
Referencias
1. Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2
2. Pete Chapman, Julian Clinton, Randy Kerber and other. CRISP-DM 1.0. Step-by-step data mining guide, 1999-2000. SPSS Inc.
3. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM.
4. Wang, John (Editor). Data Mining: Opportunities and Challenges. Hershey, PA, USA: Idea Group Inc., 2003.
Recommended