Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
CRoss Industry Standard Process for Data Mining
Es un modelo de proceso de data-mining que
es independiente de la herramienta, la
aplicación y la industria. La versión 1.0 de la
guía se publicó en 2000
El consorcio que promueve el uso de CRIPS
actualmente está inactivo, pero la metodología
todavía se encuentra en uso
CRISP-DM (http://www.crisp-dm.org/ *)
Marcelo A. Soria [email protected]
* Este sitio no se encuentra activo actualmente
La metodología CRISP es un modelo jerárquico compuesto por
cuatro niveles de abstracción:
Marcelo A. Soria [email protected]
• Fases: etapas del proceso
• Tareas genéricas: tareas generales, completas y estables
• Tareas especializadas: especificación de las tareas generales
• Instancias de procesos: acciones y decisiones concretas
Fases
Tareas genéricas
Tareas especializadas
Instancias de procesos
Marcelo A. Soria [email protected]
El modelo de referencia y la guía del usuario
Modelo de
referencia
Guía del usuario
Fases, descripción general de
las tareas del proyecto y salidas
esperadas
Instrucciones más detalladas de
cada fase y tarea
Las actividades de la referencia están
mapeadas en la guía
Marcelo A. Soria [email protected]
¿Cómo mapear tareas generales y tareas específicas?
Describir y analizar el contexto específico
de una aplicación
Eliminar detalles innecesarios y que no se
apliquen al contexto
Agregar aquellos detalles específicos del
modelo
Especializar las partes genéricas del
modelo de acuerdo al contexto
Marcelo A. Soria [email protected]
Area específica de aplicación del proyecto de
data mining (p.ej. bioinformática)
Objetivos del proyecto de data-mining (p.ej.,
clasificación)
Temas específicos de data-mining que se
refieren a las dificultades y particularidades
del proyecto (p.ej., localización de estrellas en
diferentes catálogos)
Herramientas y técnicas de data mining que
se utilizan en el proyecto (p.ej, k-medias,
PAM)
Contextos de data mining
Dominio de
aplicación
Tipo de problema
Aspectos técnicos
Técnicas y
herramientas
Mapeando tareas generales y específicas
Marcelo A. Soria [email protected]
Mapeando para el presente
Se aplica un modelo de procesos genéricos para resolver
un problema único. Se mapean los procesos genérícos a
tareas específicas para un único uso
Mapeando con contextos
Mapeando tareas generales y específicas
Mapeando para el futuro
Los procesos genéricos se especializan continuamente de
acuerdo a los requerimientos de un contexto pre-existente
o se generalizan las experiencias de casos únicos.
Marcelo A. Soria [email protected]
El modelo de referencia
Contiene las fases del proyecto, sus tareas respectivas y
algunas relaciones entre tareas.
A este nivel no es posible identificar todas las relaciones.
1. Comprensión del dominio
2. Comprensión de los datos
3. Preparación de los datos
4. Modelado
5. Evaluación
6. Despliegue / implementación
Fases
Marcelo A. Soria [email protected]
1. Comprensión del dominio
1. Determinar objetivos
1.1 Información general del dominio
1.2 Definir objetivos
1.3 Definir el criterio de éxito
2. Evaluar la situación
2.1 Recursos
2.2 Requerimientos, supuestos, condicionantes
2.3 Condiciones de riesgo y contingencias
2.4 Terminología
2.5 Determinar costos y beneficios
3. Objetivos de data mining
3.1 Determinar los objetivos
3.2 Definir el criterio de éxito
4. Producir el plan del proyecto
4.1 Redacción del proyecto
4.2 Evaluación inicial de técnicas y herramientas
Marcelo A. Soria [email protected]
2. Comprensión de los datos
1. Colección inicial de datos
Informe inicial de colección de datos
2. Describir los datos
Informe de descripción de datos
3. Exploración de datos
Informe de exploración de datos
4. Verificar la calidad de los datos
Informe de calidad de los datos
Marcelo A. Soria [email protected]
3. Preparación de los datos
1. Obtener / Seleccionar el conjunto inicial de datos
2. Limpiar datos
3. Construir datos
Crear atributos derivados
Crear nuevos registros
Aplicar transformaciones
4. Integración de los datos
5. Formateo de los datos
Conjunto de datos
listo para el análisis
Marcelo A. Soria [email protected]
4. Modelado
1. Seleccionar la técnica de modelado
2. Generar el diseño de prueba
Crear conjuntos de entrenamiento y de prueba
3. Construir el modelo
Determinar parámetros del modelo
Modelar
Describir el modelo
4. Analizar el modelo
Evaluación (comportamiento, ranking de modelos)
Reajuste de los parámetros del modelo
Modelos
Marcelo A. Soria [email protected]
5. Evaluación
1. Evaluación de resultados
Análisis de los resultados de DM
Selección de modelos
2. Proceso de revisión
3. ¿Próximos pasos?
Lista de posibles acciones
Decisiones
Marcelo A. Soria [email protected]
6. Despliegue / Implementación
1. Plan de despliegue / implementación
Análisis de los resultados de DM
Selección de modelos
2. Plan de monitoreo y mantenimiento
Informe de descripción de datos
3. Preparación del informe final
4. Revisión del proyecto
Proyecto terminado
Data Mining Group (http://www.dmg.org/)
Es otra iniciativa, en este caso activa, para establecer
estándares en DM.
Este consorcio no intenta producir una metodología de
data-mining, sino establecer estándares para las
herramientas y el modelado.
Algunos participantes del consorcio: IBM, MicroStrategy,
SAS, SPSS, Salford Systems, NASA, VISA, etc..
El producto principal de DMG es el Predictive Model
Markup Language (PMML), un estándar abierto para
representar modelos de Data Mining
PMML permite describir un modelo de análisis usando
esquemas XML, que luego se pueden exportar,
importar e implementar con cualquier herramienta que
lo soporte
PMML también sirve para representar los datos de
entrada y las transformaciones necesarias sobre los
datos.
La versión actual del estándar incluye definiciones de
modelos para:
• Regresión lineal y generalizada
• Reglas de asociación
• Modelos de clustering
• Naïve Bayes
• Árboles de decisión
• Series de tiempo
• SVM
• Análisis de textos
• etc.
Un ejemplo en R:
> install.packages("pmml")
> library("pmml")
> hyades.kmeans <- kmeans(hyades[,6:11], centers=6, nstart=10)
> km.pmml <- pmml(hyades.kmeans)
> saveXML(km.pmml, file="km_pmml.xml")
La función pmml genera el documento XML con la
descripción del procedimiento de k-medias sobre algunas
variables del dataframe de las Hyades.
El archivo XML junto con el conjunto de datos en formato
csv se pueden leer en otro programa, y repetir el
procedimiento.
Un ejemplo en R:
El paquete PMML soporta algunos de los modelos del estándar,
no todos, pero cada versión incorpora nuevos.
Algunos ejemplos (entre paréntesis se indica la función de R):
SVM
(ksvm)
Redes neuronales
(nnet)
Regresión
(lm/glm)
Clusters
(kmeans)
Asociación
(arules)
Árboles
(rtree)
Header
Data Dictionary
Data Transformations
Model
Mining Schema
Target
Información general del modelo,
incluyendo copyright y fecha
Tipos de variables (contínuos,
categóricos, ordinales), rangos,
válidos, inválidos y faltantes
Normalizaciones, discretizaciones,
agregados.
Definición, nombre, atributos
Datos usados para modelar,
valores predichos
Modificaciones post-procesado,
escalado
Estructura del documento PMML
Model specifics Salida específica del modelo
Estructura del documento PMML. Ejemplo
<?xml version="1.0"?>
<PMML version="3.2" xmlns="http://www.dmg.org/PMML-3_2" … >
<Header copyright="Copyright (c) 2011 marcelo"
description="KMeans cluster model">
<Extension name="user" value="marcelo" extender="Rattle/PMML"/>
<Application name="Rattle/PMML" version="1.2.27"/>
<Timestamp>2011-09-15 16:31:21</Timestamp>
</Header>
Header
<DataDictionary numberOfFields="6">
<DataField name="Vmag" optype="continuous" dataType="double"/>
<DataField name="RA" optype="continuous" dataType="double"/>
<DataField name="DE" optype="continuous" dataType="double"/>
<DataField name="Plx" optype="continuous" dataType="double"/>
<DataField name="pmRA" optype="continuous" dataType="double"/>
<DataField name="pmDE" optype="continuous" dataType="double"/>
</DataDictionary>
Data Dictionary
Estructura del documento PMML. Ejemplo
Model
<ClusteringModel modelName="KMeans_Model" functionName="clustering"
algorithmName="KMeans: Hartigan and Wong" modelClass="centerBased"
numberOfClusters="6">
<MiningSchema>
<MiningField name="Vmag" usageType="active"/>
<MiningField name="RA" usageType="active"/>
<MiningField name="DE" usageType="active"/>
<MiningField name="Plx" usageType="active"/>
<MiningField name="pmRA" usageType="active"/>
<MiningField name="pmDE" usageType="active"/>
</MiningSchema>
Mining Schema
<ComparisonMeasure kind="distance">
<squaredEuclidean/>
</ComparisonMeasure>
<ClusteringField field="Vmag" compareFunction="absDiff"/>
<ClusteringField field="RA" compareFunction="absDiff"/>
...
<Cluster name="1" size="245">
<Array n="6" type="real">7.78628571428571 61.7339183673469 16.1855918367347
22.4350204081633 106.275591836735 -26.8302857142857</Array>
</Cluster>
<Cluster name="2" size="20">
<Array n="6" type="real">9.404 63.542 15.4525 24.8535 -196.956 -360.564</Array>
</Cluster>
...
</ClusteringModel>
</PMML>
Estructura del documento PMML. Ejemplo
Model specifics
Otros estándares
Common Warehouse Metamodel (CWM)
http://www.cwmforum.org/
Una especificación para modelar metadatos de bases de
datos relacionales, no-relacionales y sistemas
multidimensionales y facilitar el intercambio de metadatos
entre herramientas de data warehousing y repositorios en
ambientes distribuidos y heterogéneos.
DataSpace Transfer Protocol (DTSP)
http://www.dataspaceweb.net/dstp.html
DSTP es un protocolo para la distribución, consulta y
recuperación de datos en forma remota y distribuida
etc.,etc. (JSR-73, SQL/MM, ...)
Gobernancia de datos
No es un estándar sino un sistema de buenas prácticas para
el manejo de datos dentro de la organización.
Una definición:
Es un sistema de derechos de decisión y
responsabilidades para procesos de información
ejecutados según modelos previamente acordados que
describen quién puede ejecutar qué acciones con cuál
información y cuando, bajo qué circunstancias y con
qué métodos.
Gobernancia de datos
Otra definición:
La gobernancia de datos se puede definir como una
aproximación organizacional al manejo de los datos y la
información que se formaliza como un conjunto de
políticas y procedimientos que abarcan el ciclo completo
de los datos, desde la adquisición al uso y al descarte.
¿Para qué sirve un esquema de gobernancia de
datos?
• Incrementar valor
• Manejar costos y complejidad
• Asegurar la persistencia e integridad de los datos en
atención al riesgo, regulaciones, privacidad y seguridad
Objetivos
• Permitir mejor toma de decisiones
• Reducir fricciones operacionales
• Proteger los necesidades de los interesados en los
datos
• Construir procesos estandarizados y repetibles
• Reducir costos y aumentar la efectividad a través de la
coordinación
• Asegurar la transparencia de procesos
Roles
• administrador / “ministro” de datos
• arquitecto de datos
• lider de calidad de datos
El ministro de datos
o Es el contacto primario
para todos los temas
relacionados con
datos.
o Es responsable por la
calidad y el uso
o Define métricas,
asegura el
cumplimiento de
regulaciones
o Conduce auditorias
El arquitecto de datos
o Es el responsable de
la definición,
modelado, diseño de
datos
o Es responsable del
mantenimiento de los
datos
o Se ocupa de resolver
los requerimientos de
datos
Lider de calidad de
datos
o Asegura que los
datos satisfacen los
requerimientos
o Realiza análisis de
errores
o Monitorea la calidad
Escenarios
• Gobernancia con un foco en políticas, estándares y
estrategias
• Gobernancia enfocada a la calidad de datos
• Gobernancia con foco en´privacidad, regulaciones y/o
seguridad
• Gobernancia con un foco en la arquitectura e integración
• Gobernancia de datos enfocada a data warehousing y
business intelligence
• Gobernancia enfocada al apoyo en la toma de
decisiones
Partes de un plan de gobernancia
• Autoridad para la toma de decisiones
• Políticas y procedimientos estandarizados
• Repositorios de datos
• Manejo del contenido de información
• Manejo de registros de datos
• Calidad de datos
• Acceso de datos
• Seguridad de datos y manejo del riesgo