35
Dr. Francisco J. Mata Dr. Francisco J. Mata 1 Metodologías para Metodologías para Minería de Datos Minería de Datos Tema 4 Tema 4

Metodologías para Minería de Datos

Embed Size (px)

DESCRIPTION

Metodologías para Minería de Datos. Tema 4. Temario. Introducción Metodología CRISP Metodología de Berry y Linoff Metodología SEMMA. Introducción. Minería de datos es una forma de aprender del pasado para hacer mejores decisiones en el futuro - PowerPoint PPT Presentation

Citation preview

Dr. Francisco J. MataDr. Francisco J. Mata 11

Metodologías para Metodologías para Minería de DatosMinería de Datos

Tema 4Tema 4

Temario Temario

► IntroducciónIntroducción►Metodología CRISPMetodología CRISP►Metodología de Berry y LinoffMetodología de Berry y Linoff►Metodología SEMMAMetodología SEMMA

Dr. Francisco J. Mata 2

IntroducciónIntroducción

►Minería de datos es una forma de Minería de datos es una forma de aprender del pasado para hacer aprender del pasado para hacer mejores decisiones en el futuromejores decisiones en el futuro

►Una metodología está basada en Una metodología está basada en mejores prácticasmejores prácticas

Dr. Francisco J. Mata 3

Metodologías de minería de Metodologías de minería de datosdatos

►Tratan de evitar dos resultados Tratan de evitar dos resultados indeseables en el proceso de indeseables en el proceso de aprendizajeaprendizaje Aprender cosas que no son ciertasAprender cosas que no son ciertas Aprender cosas que aunque ciertas no son Aprender cosas que aunque ciertas no son

útilesútiles

Dr. Francisco J. Mata 4

Aprender cosas que no son Aprender cosas que no son ciertasciertas

►Más peligroso que aprender cosas que Más peligroso que aprender cosas que no son útilesno son útiles Decisiones importantes pueden estar Decisiones importantes pueden estar

basadas en información o conocimiento basadas en información o conocimiento incorrectoincorrecto

Dr. Francisco J. Mata 5

Problemas que llevan a Problemas que llevan a conclusiones falsasconclusiones falsas

►Patrones en los datos pueden no Patrones en los datos pueden no representar reglasrepresentar reglas

►El modelo desarrollado puede no El modelo desarrollado puede no reflejar la población relevantereflejar la población relevante

►Los datos pueden estar en un nivel Los datos pueden estar en un nivel equivocado de detalleequivocado de detalle

Dr. Francisco J. Mata 6

Patrones en los datos pueden Patrones en los datos pueden no reflejar reglasno reflejar reglas

► Los seres humanos dependen tanto de Los seres humanos dependen tanto de patrones en sus vidas que tienden a verlos patrones en sus vidas que tienden a verlos aunque no existanaunque no existan Ejemplos de patronesEjemplos de patrones

► Alternancia de día y nocheAlternancia de día y noche► EstacionesEstaciones► Horas y días de programas en la TVHoras y días de programas en la TV

Dr. Francisco J. Mata 7

Patrones en los datos pueden Patrones en los datos pueden no reflejar reglasno reflejar reglas

► El desafío de la minería de datos es encontrar El desafío de la minería de datos es encontrar patrones que tengan valor predictivopatrones que tengan valor predictivo El partido que no tiene la presidencia tiende a ganar más El partido que no tiene la presidencia tiende a ganar más

puestos en el Congreso durante las elecciones de medio puestos en el Congreso durante las elecciones de medio periodoperiodo

► Razones políticasRazones políticas Cuando la Liga Americana gana la Serie Mundial, los Cuando la Liga Americana gana la Serie Mundial, los

Republicanos ganan la Casa BlancaRepublicanos ganan la Casa Blanca► No hay razón aparenteNo hay razón aparente

En las elecciones presidenciales, el hombre más alto ganaEn las elecciones presidenciales, el hombre más alto gana► Desde 1945Desde 1945

Carter versus FordCarter versus Ford Gore versus Bush Gore versus Bush

Dr. Francisco J. Mata 8

El modelo desarrollado El modelo desarrollado puede no reflejar la puede no reflejar la población relevantepoblación relevante

►Para hacer alguna predicción se crea Para hacer alguna predicción se crea un modelo de la situaciónun modelo de la situación

►Este modelo se desarrolla a partir de Este modelo se desarrolla a partir de una muestra de la poblaciónuna muestra de la población Muestras sesgadasMuestras sesgadas

Dr. Francisco J. Mata 9

Los datos pueden estar en un Los datos pueden estar en un nivel equivocado de detalle nivel equivocado de detalle

Dr. Francisco J. Mata 10

¿Cayeron las ventas en octubre?

Aprender cosas que aunque Aprender cosas que aunque ciertas no son útilesciertas no son útiles

►Aprender cosas que ya son conocidasAprender cosas que ya son conocidas►Aprender cosas que no pueden ser Aprender cosas que no pueden ser

utilizadasutilizadas

Dr. Francisco J. Mata 11

Aprender cosas que ya son Aprender cosas que ya son conocidasconocidas

►Muchos de los patrones en los datos Muchos de los patrones en los datos representan cosas que ya conocemosrepresentan cosas que ya conocemos Personas retiradas no responden a ofertas Personas retiradas no responden a ofertas

para planes de retiropara planes de retiro Personas que viven donde no hay torres Personas que viven donde no hay torres

de celular tienden a no comprar téléfonos de celular tienden a no comprar téléfonos celularescelulares

Dr. Francisco J. Mata 12

Aprender cosas que ya son Aprender cosas que ya son conocidasconocidas

►Aprender cosas que ya conocemos Aprender cosas que ya conocemos tiene sin embargo un propósito útiltiene sin embargo un propósito útil Demuestra que la minería de datos está Demuestra que la minería de datos está

funcionando y que los datos son funcionando y que los datos son razonablemente precisosrazonablemente precisos

Dr. Francisco J. Mata 13

Aprender cosas que no Aprender cosas que no pueden ser utilizadaspueden ser utilizadas

► La minería de datos puede descubrir La minería de datos puede descubrir relaciones que son tanto ciertas como relaciones que son tanto ciertas como desconocidas per difíciles de utilizardesconocidas per difíciles de utilizar Problemas regulatoriosProblemas regulatorios

► Historia de crédito de un cliente puede predecir futuros Historia de crédito de un cliente puede predecir futuros reclamos de seguro, pero la ley no permite discriminar a reclamos de seguro, pero la ley no permite discriminar a los clienteslos clientes

No se puede cambiar el ambiente en que se operaNo se puede cambiar el ambiente en que se opera► Un producto puede ser más apropiado para ciertos Un producto puede ser más apropiado para ciertos

climas que otros pero no se puede cambiar el climaclimas que otros pero no se puede cambiar el clima► Un servicio puede ser peor en ciertas condiciones Un servicio puede ser peor en ciertas condiciones

topografía pero no se puede cambiar estas condicionestopografía pero no se puede cambiar estas condiciones

Dr. Francisco J. Mata 14

Dr. Francisco J. Mata 15

CRISP-DMCRISP-DM

►Cross Industry Standard Process for Cross Industry Standard Process for Data MiningData Mining Desarrollada en 1996 porDesarrollada en 1996 por

► Daimler Benz (ahora Daimler Chrysler)Daimler Benz (ahora Daimler Chrysler)► ISL (ahora parte de SPSS), que lanzara en 1994 ISL (ahora parte de SPSS), que lanzara en 1994

Clementine (software para minería de datos)Clementine (software para minería de datos)► NCR creador de Teradata (software para bodega de datos)NCR creador de Teradata (software para bodega de datos)

Independiente de la herramientas de minería de Independiente de la herramientas de minería de datos utilizadosdatos utilizados

Guía CRISP-DM Versión 1.0 (Guía CRISP-DM Versión 1.0 (http://www.crisp-dm.org/CRISPWP-0800.pdf))

Dr. Francisco J. Mata 16

Divisiones de CRISP-DMDivisiones de CRISP-DM

Dr. Francisco J. Mata 17

Fases de CRISP-DMFases de CRISP-DM

Dr. Francisco J. Mata 18

Fases de CRISP-DMFases de CRISP-DM

►Entendimiento del negocioEntendimiento del negocio Comprender los objetivos y Comprender los objetivos y

requerimientos del proyecto desde la requerimientos del proyecto desde la perspectiva del negocioperspectiva del negocio

Este conocimiento es luego convertido en Este conocimiento es luego convertido en la definición de un problema de minería la definición de un problema de minería de datos y un plan preliminar es de datos y un plan preliminar es desarrollado para alcanzar estos objetivosdesarrollado para alcanzar estos objetivos

Dr. Francisco J. Mata 19

Fases de CRISP-DMFases de CRISP-DM

►Entendimiento de los datosEntendimiento de los datos Recolección inicial de datosRecolección inicial de datos Continúa con actividades paraContinúa con actividades para

►Familiarizarse con los datosFamiliarizarse con los datos►Identificar problemas con la calidad de los Identificar problemas con la calidad de los

datosdatos►Descubrir percepciones de su naturaleza Descubrir percepciones de su naturaleza

interna o detectar subconjuntos interesantes interna o detectar subconjuntos interesantes para formar hipótesispara formar hipótesis

Dr. Francisco J. Mata 20

Fases de CRISP-DMFases de CRISP-DM

►Preparación de datosPreparación de datos Actividades para construir el conjunto de Actividades para construir el conjunto de

datos final, el cual será utilizado como datos final, el cual será utilizado como entrada a las herramientas de modelajeentrada a las herramientas de modelaje

Las tareas se pueden aplicar múltiples Las tareas se pueden aplicar múltiples veces y sin un orden pre-establecidoveces y sin un orden pre-establecido

►Incluyen extracción, transformación y carga Incluyen extracción, transformación y carga (ETL)(ETL)

Dr. Francisco J. Mata 21

Fases de CRISP-DMFases de CRISP-DM

►ModeladoModelado Varias técnicas de modelado son Varias técnicas de modelado son

seleccionadas y aplicadas y sus seleccionadas y aplicadas y sus parámetros calibrados a valores óptimosparámetros calibrados a valores óptimos

►Existen varias técnicas de minería de datos Existen varias técnicas de minería de datos que se pueden aplicar a un mismo problemaque se pueden aplicar a un mismo problema

Dichas técnicas tienen diferentes requerimientos de Dichas técnicas tienen diferentes requerimientos de datos haciendo en muchas ocasiones necesario datos haciendo en muchas ocasiones necesario volver a la etapa de preparación de datosvolver a la etapa de preparación de datos

Fases de CRISP-DMFases de CRISP-DMModeladoModelado

Dr. Francisco J. Mata 22

Dr. Francisco J. Mata 23

Fases de CRISP-DMFases de CRISP-DM

►EvaluaciónEvaluación Determina si el modelo construido Determina si el modelo construido

satisface los objetivos del negociosatisface los objetivos del negocio►¿Existen aspectos del negocio que no hayan

sido considerados suficientemente?

Evaluar resultados►Resultados=Modelos+Descrubimientos

Dr. Francisco J. Mata 24

Fases de CRISP-DMFases de CRISP-DM

►Aplicación del modelo o sus resultadosAplicación del modelo o sus resultados Tan simple como generar un reporte o tan Tan simple como generar un reporte o tan

complejo como implementar un proceso complejo como implementar un proceso continuo de minería de datos a través de continuo de minería de datos a través de la empresala empresa

Dr. Francisco J. Mata 25

Tareas genéricasTareas genéricas

Dr. Francisco J. Mata 26

Tareas genéricas y salidas para Tareas genéricas y salidas para entender el negocioentender el negocio

Dr. Francisco J. Mata 27

Tareas genéricas y salidas para Tareas genéricas y salidas para entender los datosentender los datos

Dr. Francisco J. Mata 28

Tareas genéricas y salidas para Tareas genéricas y salidas para preparación de datospreparación de datos

Dr. Francisco J. Mata 29

Tareas genéricas y salidas para Tareas genéricas y salidas para modeladomodelado

Dr. Francisco J. Mata 30

Tareas genéricas y salidas para Tareas genéricas y salidas para evaluaciónevaluación

Dr. Francisco J. Mata 31

Tareas genéricas y salidas para Tareas genéricas y salidas para aplicación del modelo o sus aplicación del modelo o sus

resultadosresultados

Dr. Francisco J. Mata 32

Fases, tareas, salidas, Fases, tareas, salidas, actividadesactividades

►Guía del usuario para CRISP-DM Guía del usuario para CRISP-DM (página 35)(página 35)

Metodología de Berry y LinoffMetodología de Berry y Linoff

Dr. Francisco J. Mata 33

Metodología SEMMAMetodología SEMMA

►Desarrollada por SASDesarrollada por SAS SSample: Muestreoample: Muestreo EExplore: Exploraciónxplore: Exploración MModify: Modificarodify: Modificar MModel: Modelajeodel: Modelaje AAssess: Evaluarssess: Evaluar

►Apoyada por el Enterprise Data MinerApoyada por el Enterprise Data Miner

Dr. Francisco J. Mata 34

Comparación metodologíasComparación metodologías

Dr. Francisco J. Mata 35

Entendimiento del negocio

Entendimiento de los datos

Preparación de datos

Modelaje

Evaluación (objetivos del

negocio)

Puesta en operación

Traducir probl. negocio en probl.

minería

Seleccionar datos

Arreglar problema datos

Transformar datos

Puesta en operación

Evaluar resultados

Construir modelo

Evaluar modelo

Muestro

Exploración

Modelaje

Evaluación

Modificación

Berry y Linoff

CRISP

SEMMA