Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

CRoss Industry Standard Process for Data Mining

Es un modelo de proceso de data-mining que

es independiente de la herramienta, la

aplicación y la industria. La versión 1.0 de la

guía se publicó en 2000

El consorcio que promueve el uso de CRIPS

actualmente está inactivo, pero la metodología

todavía se encuentra en uso

CRISP-DM (http://www.crisp-dm.org/ *)

Marcelo A. Soria [email protected]

* Este sitio no se encuentra activo actualmente

http://www.crisp-dm.org/



La metodología CRISP es un modelo jerárquico compuesto por

cuatro niveles de abstracción:


• Fases: etapas del proceso

• Tareas genéricas: tareas generales, completas y estables

• Tareas especializadas: especificación de las tareas generales

• Instancias de procesos: acciones y decisiones concretas

Fases

Tareas genéricas

Tareas especializadas

Instancias de procesos


El modelo de referencia y la guía del usuario

Modelo de

referencia

Guía del usuario

Fases, descripción general de

las tareas del proyecto y salidas

esperadas

Instrucciones más detalladas de

cada fase y tarea

Las actividades de la referencia están

mapeadas en la guía


¿Cómo mapear tareas generales y tareas específicas?

Describir y analizar el contexto específico

de una aplicación

Eliminar detalles innecesarios y que no se

apliquen al contexto

Agregar aquellos detalles específicos del

modelo

Especializar las partes genéricas del

modelo de acuerdo al contexto


Area específica de aplicación del proyecto de

data mining (p.ej. bioinformática)

Objetivos del proyecto de data-mining (p.ej.,

clasificación)

Temas específicos de data-mining que se

refieren a las dificultades y particularidades

del proyecto (p.ej., localización de estrellas en

diferentes catálogos)

Herramientas y técnicas de data mining que

se utilizan en el proyecto (p.ej, k-medias,

PAM)

Contextos de data mining

Dominio de

aplicación

Tipo de problema

Aspectos técnicos

Técnicas y

herramientas

Mapeando tareas generales y específicas


Mapeando para el presente

Se aplica un modelo de procesos genéricos para resolver

un problema único. Se mapean los procesos genérícos a

tareas específicas para un único uso

Mapeando con contextos

Mapeando tareas generales y específicas

Mapeando para el futuro

Los procesos genéricos se especializan continuamente de

acuerdo a los requerimientos de un contexto pre-existente

o se generalizan las experiencias de casos únicos.


El modelo de referencia

Contiene las fases del proyecto, sus tareas respectivas y

algunas relaciones entre tareas.

A este nivel no es posible identificar todas las relaciones.

1. Comprensión del dominio

2. Comprensión de los datos

3. Preparación de los datos

4. Modelado

5. Evaluación

6. Despliegue / implementación

Fases


1. Comprensión del dominio

1. Determinar objetivos

1.1 Información general del dominio

1.2 Definir objetivos

1.3 Definir el criterio de éxito

2. Evaluar la situación

2.1 Recursos

2.2 Requerimientos, supuestos, condicionantes

2.3 Condiciones de riesgo y contingencias

2.4 Terminología

2.5 Determinar costos y beneficios

3. Objetivos de data mining

3.1 Determinar los objetivos

3.2 Definir el criterio de éxito

4. Producir el plan del proyecto

4.1 Redacción del proyecto

4.2 Evaluación inicial de técnicas y herramientas


2. Comprensión de los datos

1. Colección inicial de datos

Informe inicial de colección de datos

2. Describir los datos

Informe de descripción de datos

3. Exploración de datos

Informe de exploración de datos

4. Verificar la calidad de los datos

Informe de calidad de los datos


3. Preparación de los datos

1. Obtener / Seleccionar el conjunto inicial de datos

2. Limpiar datos

3. Construir datos

Crear atributos derivados

Crear nuevos registros

Aplicar transformaciones

4. Integración de los datos

5. Formateo de los datos

Conjunto de datos

listo para el análisis


4. Modelado

1. Seleccionar la técnica de modelado

2. Generar el diseño de prueba

Crear conjuntos de entrenamiento y de prueba

3. Construir el modelo

Determinar parámetros del modelo

Modelar

Describir el modelo

4. Analizar el modelo

Evaluación (comportamiento, ranking de modelos)

Reajuste de los parámetros del modelo

Modelos


5. Evaluación

1. Evaluación de resultados

Análisis de los resultados de DM

Selección de modelos

2. Proceso de revisión

3. ¿Próximos pasos?

Lista de posibles acciones

Decisiones


6. Despliegue / Implementación

1. Plan de despliegue / implementación

Análisis de los resultados de DM

Selección de modelos

2. Plan de monitoreo y mantenimiento

Informe de descripción de datos

3. Preparación del informe final

4. Revisión del proyecto

Proyecto terminado

Data Mining Group (http://www.dmg.org/)

Es otra iniciativa, en este caso activa, para establecer

estándares en DM.

Este consorcio no intenta producir una metodología de

data-mining, sino establecer estándares para las

herramientas y el modelado.

Algunos participantes del consorcio: IBM, MicroStrategy,

SAS, SPSS, Salford Systems, NASA, VISA, etc..

El producto principal de DMG es el Predictive Model

Markup Language (PMML), un estándar abierto para

representar modelos de Data Mining

PMML permite describir un modelo de análisis usando

esquemas XML, que luego se pueden exportar,

importar e implementar con cualquier herramienta que

lo soporte

PMML también sirve para representar los datos de

entrada y las transformaciones necesarias sobre los

datos.

La versión actual del estándar incluye definiciones de

modelos para:

• Regresión lineal y generalizada

• Reglas de asociación

• Modelos de clustering

• Naïve Bayes

• Árboles de decisión

• Series de tiempo

• SVM

• Análisis de textos

• etc.

Un ejemplo en R:

> install.packages("pmml")

> library("pmml")

> hyades.kmeans <- kmeans(hyades[,6:11], centers=6, nstart=10)

> km.pmml <- pmml(hyades.kmeans)

> saveXML(km.pmml, file="km_pmml.xml")

La función pmml genera el documento XML con la

descripción del procedimiento de k-medias sobre algunas

variables del dataframe de las Hyades.

El archivo XML junto con el conjunto de datos en formato

csv se pueden leer en otro programa, y repetir el

procedimiento.

Un ejemplo en R:

El paquete PMML soporta algunos de los modelos del estándar,

no todos, pero cada versión incorpora nuevos.

Algunos ejemplos (entre paréntesis se indica la función de R):

SVM

(ksvm)

Redes neuronales

(nnet)

Regresión

(lm/glm)

Clusters

(kmeans)

Asociación

(arules)

Árboles

(rtree)

Header

Data Dictionary

Data Transformations

Model

Mining Schema

Target

Información general del modelo,

incluyendo copyright y fecha

Tipos de variables (contínuos,

categóricos, ordinales), rangos,

válidos, inválidos y faltantes

Normalizaciones, discretizaciones,

agregados.

Definición, nombre, atributos

Datos usados para modelar,

valores predichos

Modificaciones post-procesado,

escalado

Estructura del documento PMML

Model specifics Salida específica del modelo

Estructura del documento PMML. Ejemplo

<?xml version="1.0"?>

<PMML version="3.2" xmlns="http://www.dmg.org/PMML-3_2" … >

<Header copyright="Copyright (c) 2011 marcelo"

description="KMeans cluster model">

<Extension name="user" value="marcelo" extender="Rattle/PMML"/>

<Application name="Rattle/PMML" version="1.2.27"/>

<Timestamp>2011-09-15 16:31:21</Timestamp>

</Header>

Header

<DataDictionary numberOfFields="6">

<DataField name="Vmag" optype="continuous" dataType="double"/>

<DataField name="RA" optype="continuous" dataType="double"/>

<DataField name="DE" optype="continuous" dataType="double"/>

<DataField name="Plx" optype="continuous" dataType="double"/>

<DataField name="pmRA" optype="continuous" dataType="double"/>

<DataField name="pmDE" optype="continuous" dataType="double"/>

</DataDictionary>

Data Dictionary


Model

<ClusteringModel modelName="KMeans_Model" functionName="clustering"

algorithmName="KMeans: Hartigan and Wong" modelClass="centerBased"

numberOfClusters="6">

<MiningSchema>

<MiningField name="Vmag" usageType="active"/>

<MiningField name="RA" usageType="active"/>

<MiningField name="DE" usageType="active"/>

<MiningField name="Plx" usageType="active"/>

<MiningField name="pmRA" usageType="active"/>

<MiningField name="pmDE" usageType="active"/>

</MiningSchema>

Mining Schema

<ComparisonMeasure kind="distance">

<squaredEuclidean/>

</ComparisonMeasure>

<ClusteringField field="Vmag" compareFunction="absDiff"/>

<ClusteringField field="RA" compareFunction="absDiff"/>

...

<Cluster name="1" size="245">

<Array n="6" type="real">7.78628571428571 61.7339183673469 16.1855918367347

22.4350204081633 106.275591836735 -26.8302857142857</Array>

</Cluster>

<Cluster name="2" size="20">

<Array n="6" type="real">9.404 63.542 15.4525 24.8535 -196.956 -360.564</Array>

</Cluster>

...

</ClusteringModel>

</PMML>


Model specifics

Otros estándares

Common Warehouse Metamodel (CWM)

http://www.cwmforum.org/

Una especificación para modelar metadatos de bases de

datos relacionales, no-relacionales y sistemas

multidimensionales y facilitar el intercambio de metadatos

entre herramientas de data warehousing y repositorios en

ambientes distribuidos y heterogéneos.

DataSpace Transfer Protocol (DTSP)

http://www.dataspaceweb.net/dstp.html

DSTP es un protocolo para la distribución, consulta y

recuperación de datos en forma remota y distribuida

etc.,etc. (JSR-73, SQL/MM, ...)

http://www.cwmforum.org/

http://www.dataspaceweb.net/dstp.html

Gobernancia de datos

No es un estándar sino un sistema de buenas prácticas para

el manejo de datos dentro de la organización.

Una definición:

Es un sistema de derechos de decisión y

responsabilidades para procesos de información

ejecutados según modelos previamente acordados que

describen quién puede ejecutar qué acciones con cuál

información y cuando, bajo qué circunstancias y con

qué métodos.

Gobernancia de datos

Otra definición:

La gobernancia de datos se puede definir como una

aproximación organizacional al manejo de los datos y la

información que se formaliza como un conjunto de

políticas y procedimientos que abarcan el ciclo completo

de los datos, desde la adquisición al uso y al descarte.

¿Para qué sirve un esquema de gobernancia de

datos?

• Incrementar valor

• Manejar costos y complejidad

• Asegurar la persistencia e integridad de los datos en

atención al riesgo, regulaciones, privacidad y seguridad

Objetivos

• Permitir mejor toma de decisiones

• Reducir fricciones operacionales

• Proteger los necesidades de los interesados en los

datos

• Construir procesos estandarizados y repetibles

• Reducir costos y aumentar la efectividad a través de la

coordinación

• Asegurar la transparencia de procesos

Roles

• administrador / “ministro” de datos

• arquitecto de datos

• lider de calidad de datos

El ministro de datos

o Es el contacto primario

para todos los temas

relacionados con

datos.

o Es responsable por la

calidad y el uso

o Define métricas,

asegura el

cumplimiento de

regulaciones

o Conduce auditorias

El arquitecto de datos

o Es el responsable de

la definición,

modelado, diseño de

datos

o Es responsable del

mantenimiento de los

datos

o Se ocupa de resolver

los requerimientos de

datos

Lider de calidad de

datos

o Asegura que los

datos satisfacen los

requerimientos

o Realiza análisis de

errores

o Monitorea la calidad

Escenarios

• Gobernancia con un foco en políticas, estándares y

estrategias

• Gobernancia enfocada a la calidad de datos

• Gobernancia con foco en´privacidad, regulaciones y/o

seguridad

• Gobernancia con un foco en la arquitectura e integración

• Gobernancia de datos enfocada a data warehousing y

business intelligence

• Gobernancia enfocada al apoyo en la toma de

decisiones

Partes de un plan de gobernancia

• Autoridad para la toma de decisiones

• Políticas y procedimientos estandarizados

• Repositorios de datos

• Manejo del contenido de información

• Manejo de registros de datos

• Calidad de datos

• Acceso de datos

• Seguridad de datos y manejo del riesgo

Documents

Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,