29
CRoss Industry Standard Process for Data Mining Es un modelo de proceso de data-mining que es independiente de la herramienta, la aplicación y la industria. La versión 1.0 de la guía se publicó en 2000 El consorcio que promueve el uso de CRIPS actualmente está inactivo, pero la metodología todavía se encuentra en uso CRISP-DM (http://www.crisp-dm.org/ *) Marcelo A. Soria [email protected] * Este sitio no se encuentra activo actualmente

Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

CRoss Industry Standard Process for Data Mining

Es un modelo de proceso de data-mining que

es independiente de la herramienta, la

aplicación y la industria. La versión 1.0 de la

guía se publicó en 2000

El consorcio que promueve el uso de CRIPS

actualmente está inactivo, pero la metodología

todavía se encuentra en uso

CRISP-DM (http://www.crisp-dm.org/ *)

Marcelo A. Soria [email protected]

* Este sitio no se encuentra activo actualmente

Page 2: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

La metodología CRISP es un modelo jerárquico compuesto por

cuatro niveles de abstracción:

Marcelo A. Soria [email protected]

• Fases: etapas del proceso

• Tareas genéricas: tareas generales, completas y estables

• Tareas especializadas: especificación de las tareas generales

• Instancias de procesos: acciones y decisiones concretas

Fases

Tareas genéricas

Tareas especializadas

Instancias de procesos

Page 3: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Marcelo A. Soria [email protected]

El modelo de referencia y la guía del usuario

Modelo de

referencia

Guía del usuario

Fases, descripción general de

las tareas del proyecto y salidas

esperadas

Instrucciones más detalladas de

cada fase y tarea

Las actividades de la referencia están

mapeadas en la guía

Page 4: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Marcelo A. Soria [email protected]

¿Cómo mapear tareas generales y tareas específicas?

Describir y analizar el contexto específico

de una aplicación

Eliminar detalles innecesarios y que no se

apliquen al contexto

Agregar aquellos detalles específicos del

modelo

Especializar las partes genéricas del

modelo de acuerdo al contexto

Page 5: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Marcelo A. Soria [email protected]

Area específica de aplicación del proyecto de

data mining (p.ej. bioinformática)

Objetivos del proyecto de data-mining (p.ej.,

clasificación)

Temas específicos de data-mining que se

refieren a las dificultades y particularidades

del proyecto (p.ej., localización de estrellas en

diferentes catálogos)

Herramientas y técnicas de data mining que

se utilizan en el proyecto (p.ej, k-medias,

PAM)

Contextos de data mining

Dominio de

aplicación

Tipo de problema

Aspectos técnicos

Técnicas y

herramientas

Mapeando tareas generales y específicas

Page 6: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Marcelo A. Soria [email protected]

Mapeando para el presente

Se aplica un modelo de procesos genéricos para resolver

un problema único. Se mapean los procesos genérícos a

tareas específicas para un único uso

Mapeando con contextos

Mapeando tareas generales y específicas

Mapeando para el futuro

Los procesos genéricos se especializan continuamente de

acuerdo a los requerimientos de un contexto pre-existente

o se generalizan las experiencias de casos únicos.

Page 7: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Marcelo A. Soria [email protected]

El modelo de referencia

Contiene las fases del proyecto, sus tareas respectivas y

algunas relaciones entre tareas.

A este nivel no es posible identificar todas las relaciones.

1. Comprensión del dominio

2. Comprensión de los datos

3. Preparación de los datos

4. Modelado

5. Evaluación

6. Despliegue / implementación

Fases

Page 8: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Marcelo A. Soria [email protected]

1. Comprensión del dominio

1. Determinar objetivos

1.1 Información general del dominio

1.2 Definir objetivos

1.3 Definir el criterio de éxito

2. Evaluar la situación

2.1 Recursos

2.2 Requerimientos, supuestos, condicionantes

2.3 Condiciones de riesgo y contingencias

2.4 Terminología

2.5 Determinar costos y beneficios

3. Objetivos de data mining

3.1 Determinar los objetivos

3.2 Definir el criterio de éxito

4. Producir el plan del proyecto

4.1 Redacción del proyecto

4.2 Evaluación inicial de técnicas y herramientas

Page 9: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Marcelo A. Soria [email protected]

2. Comprensión de los datos

1. Colección inicial de datos

Informe inicial de colección de datos

2. Describir los datos

Informe de descripción de datos

3. Exploración de datos

Informe de exploración de datos

4. Verificar la calidad de los datos

Informe de calidad de los datos

Page 10: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Marcelo A. Soria [email protected]

3. Preparación de los datos

1. Obtener / Seleccionar el conjunto inicial de datos

2. Limpiar datos

3. Construir datos

Crear atributos derivados

Crear nuevos registros

Aplicar transformaciones

4. Integración de los datos

5. Formateo de los datos

Conjunto de datos

listo para el análisis

Page 11: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Marcelo A. Soria [email protected]

4. Modelado

1. Seleccionar la técnica de modelado

2. Generar el diseño de prueba

Crear conjuntos de entrenamiento y de prueba

3. Construir el modelo

Determinar parámetros del modelo

Modelar

Describir el modelo

4. Analizar el modelo

Evaluación (comportamiento, ranking de modelos)

Reajuste de los parámetros del modelo

Modelos

Page 12: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Marcelo A. Soria [email protected]

5. Evaluación

1. Evaluación de resultados

Análisis de los resultados de DM

Selección de modelos

2. Proceso de revisión

3. ¿Próximos pasos?

Lista de posibles acciones

Decisiones

Page 13: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Marcelo A. Soria [email protected]

6. Despliegue / Implementación

1. Plan de despliegue / implementación

Análisis de los resultados de DM

Selección de modelos

2. Plan de monitoreo y mantenimiento

Informe de descripción de datos

3. Preparación del informe final

4. Revisión del proyecto

Proyecto terminado

Page 14: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Data Mining Group (http://www.dmg.org/)

Es otra iniciativa, en este caso activa, para establecer

estándares en DM.

Este consorcio no intenta producir una metodología de

data-mining, sino establecer estándares para las

herramientas y el modelado.

Algunos participantes del consorcio: IBM, MicroStrategy,

SAS, SPSS, Salford Systems, NASA, VISA, etc..

Page 15: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

El producto principal de DMG es el Predictive Model

Markup Language (PMML), un estándar abierto para

representar modelos de Data Mining

PMML permite describir un modelo de análisis usando

esquemas XML, que luego se pueden exportar,

importar e implementar con cualquier herramienta que

lo soporte

PMML también sirve para representar los datos de

entrada y las transformaciones necesarias sobre los

datos.

Page 16: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

La versión actual del estándar incluye definiciones de

modelos para:

• Regresión lineal y generalizada

• Reglas de asociación

• Modelos de clustering

• Naïve Bayes

• Árboles de decisión

• Series de tiempo

• SVM

• Análisis de textos

• etc.

Page 17: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Un ejemplo en R:

> install.packages("pmml")

> library("pmml")

> hyades.kmeans <- kmeans(hyades[,6:11], centers=6, nstart=10)

> km.pmml <- pmml(hyades.kmeans)

> saveXML(km.pmml, file="km_pmml.xml")

La función pmml genera el documento XML con la

descripción del procedimiento de k-medias sobre algunas

variables del dataframe de las Hyades.

El archivo XML junto con el conjunto de datos en formato

csv se pueden leer en otro programa, y repetir el

procedimiento.

Page 18: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Un ejemplo en R:

El paquete PMML soporta algunos de los modelos del estándar,

no todos, pero cada versión incorpora nuevos.

Algunos ejemplos (entre paréntesis se indica la función de R):

SVM

(ksvm)

Redes neuronales

(nnet)

Regresión

(lm/glm)

Clusters

(kmeans)

Asociación

(arules)

Árboles

(rtree)

Page 19: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Header

Data Dictionary

Data Transformations

Model

Mining Schema

Target

Información general del modelo,

incluyendo copyright y fecha

Tipos de variables (contínuos,

categóricos, ordinales), rangos,

válidos, inválidos y faltantes

Normalizaciones, discretizaciones,

agregados.

Definición, nombre, atributos

Datos usados para modelar,

valores predichos

Modificaciones post-procesado,

escalado

Estructura del documento PMML

Model specifics Salida específica del modelo

Page 20: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Estructura del documento PMML. Ejemplo

<?xml version="1.0"?>

<PMML version="3.2" xmlns="http://www.dmg.org/PMML-3_2" … >

<Header copyright="Copyright (c) 2011 marcelo"

description="KMeans cluster model">

<Extension name="user" value="marcelo" extender="Rattle/PMML"/>

<Application name="Rattle/PMML" version="1.2.27"/>

<Timestamp>2011-09-15 16:31:21</Timestamp>

</Header>

Header

<DataDictionary numberOfFields="6">

<DataField name="Vmag" optype="continuous" dataType="double"/>

<DataField name="RA" optype="continuous" dataType="double"/>

<DataField name="DE" optype="continuous" dataType="double"/>

<DataField name="Plx" optype="continuous" dataType="double"/>

<DataField name="pmRA" optype="continuous" dataType="double"/>

<DataField name="pmDE" optype="continuous" dataType="double"/>

</DataDictionary>

Data Dictionary

Page 21: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Estructura del documento PMML. Ejemplo

Model

<ClusteringModel modelName="KMeans_Model" functionName="clustering"

algorithmName="KMeans: Hartigan and Wong" modelClass="centerBased"

numberOfClusters="6">

<MiningSchema>

<MiningField name="Vmag" usageType="active"/>

<MiningField name="RA" usageType="active"/>

<MiningField name="DE" usageType="active"/>

<MiningField name="Plx" usageType="active"/>

<MiningField name="pmRA" usageType="active"/>

<MiningField name="pmDE" usageType="active"/>

</MiningSchema>

Mining Schema

Page 22: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

<ComparisonMeasure kind="distance">

<squaredEuclidean/>

</ComparisonMeasure>

<ClusteringField field="Vmag" compareFunction="absDiff"/>

<ClusteringField field="RA" compareFunction="absDiff"/>

...

<Cluster name="1" size="245">

<Array n="6" type="real">7.78628571428571 61.7339183673469 16.1855918367347

22.4350204081633 106.275591836735 -26.8302857142857</Array>

</Cluster>

<Cluster name="2" size="20">

<Array n="6" type="real">9.404 63.542 15.4525 24.8535 -196.956 -360.564</Array>

</Cluster>

...

</ClusteringModel>

</PMML>

Estructura del documento PMML. Ejemplo

Model specifics

Page 23: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Otros estándares

Common Warehouse Metamodel (CWM)

http://www.cwmforum.org/

Una especificación para modelar metadatos de bases de

datos relacionales, no-relacionales y sistemas

multidimensionales y facilitar el intercambio de metadatos

entre herramientas de data warehousing y repositorios en

ambientes distribuidos y heterogéneos.

DataSpace Transfer Protocol (DTSP)

http://www.dataspaceweb.net/dstp.html

DSTP es un protocolo para la distribución, consulta y

recuperación de datos en forma remota y distribuida

etc.,etc. (JSR-73, SQL/MM, ...)

Page 24: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Gobernancia de datos

No es un estándar sino un sistema de buenas prácticas para

el manejo de datos dentro de la organización.

Una definición:

Es un sistema de derechos de decisión y

responsabilidades para procesos de información

ejecutados según modelos previamente acordados que

describen quién puede ejecutar qué acciones con cuál

información y cuando, bajo qué circunstancias y con

qué métodos.

Page 25: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Gobernancia de datos

Otra definición:

La gobernancia de datos se puede definir como una

aproximación organizacional al manejo de los datos y la

información que se formaliza como un conjunto de

políticas y procedimientos que abarcan el ciclo completo

de los datos, desde la adquisición al uso y al descarte.

Page 26: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

¿Para qué sirve un esquema de gobernancia de

datos?

• Incrementar valor

• Manejar costos y complejidad

• Asegurar la persistencia e integridad de los datos en

atención al riesgo, regulaciones, privacidad y seguridad

Objetivos

• Permitir mejor toma de decisiones

• Reducir fricciones operacionales

• Proteger los necesidades de los interesados en los

datos

• Construir procesos estandarizados y repetibles

• Reducir costos y aumentar la efectividad a través de la

coordinación

• Asegurar la transparencia de procesos

Page 27: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Roles

• administrador / “ministro” de datos

• arquitecto de datos

• lider de calidad de datos

El ministro de datos

o Es el contacto primario

para todos los temas

relacionados con

datos.

o Es responsable por la

calidad y el uso

o Define métricas,

asegura el

cumplimiento de

regulaciones

o Conduce auditorias

El arquitecto de datos

o Es el responsable de

la definición,

modelado, diseño de

datos

o Es responsable del

mantenimiento de los

datos

o Se ocupa de resolver

los requerimientos de

datos

Lider de calidad de

datos

o Asegura que los

datos satisfacen los

requerimientos

o Realiza análisis de

errores

o Monitorea la calidad

Page 28: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Escenarios

• Gobernancia con un foco en políticas, estándares y

estrategias

• Gobernancia enfocada a la calidad de datos

• Gobernancia con foco en´privacidad, regulaciones y/o

seguridad

• Gobernancia con un foco en la arquitectura e integración

• Gobernancia de datos enfocada a data warehousing y

business intelligence

• Gobernancia enfocada al apoyo en la toma de

decisiones

Page 29: Es un modelo de proceso de data-mining que es ... - Documentinba.agro.uba.ar/dm/files/standards_DM_2013.pdf · Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS,

Partes de un plan de gobernancia

• Autoridad para la toma de decisiones

• Políticas y procedimientos estandarizados

• Repositorios de datos

• Manejo del contenido de información

• Manejo de registros de datos

• Calidad de datos

• Acceso de datos

• Seguridad de datos y manejo del riesgo