Introducción al Data Mining

www.datalytics.com Posgrado BI UTN - Introducción al Data Mining

@aeyherabide

Ing. Andrés Eyherabide

http://www.datalytics.com/




https://twitter.com/aeyherabide

Que es Datalytics?

Fundada en el año 2007, Datalytics es una empresa de servicios profesionales

independiente, orientada exclusivamente a las prácticas de:

Data Integration

Business Intelligence

Data Mining

Oficinas en las ciudades de Buenos Aires y Rosario (ARG) y Medellín (COL).

Equipo de trabajo interdisciplinario, con +30 profesionales de diversas áreas.

Implementaciones en Argentina, Chile, Brasil, Colombia, España y USA.

Nuestros servicios incluyen la consultoría, capacitación, implementación y el apoyo

necesario para asegurar una solución exitosa que soporte los procesos de negocios.

Datalytics ha certificado su Sistema de Gestión de calidad para la “Provisión de Servicios

de Business Intelligence y Data Mining” bajo la norma ISO 9001:2008 por Bureau

Veritas. Recertificación Septiembre 2012 aprobada.

Data Mining es la exploración y el análisis, por medios automáticos o semi-automáticos,

de grandes volúmenes de datos con la finalidad de descubrir reglas y patrones

significativas.

El objetivo es brindar información al negocio asistiendo a las empresas a mejorar sus

operaciones por medio de un mayor entendimiento de su entorno:

Que clientes es más probable que acepte una oferta?

Que cliente tiene mayor probabilidad de dejar de pagar?

Que cliente tiene alta probabilidad de pedir la baja del servicio?

Que demanda puedo esperar de mis productos para el próximo trimestre?

Estos análisis se basan en que los datos pasados sirven para predecir el futuro.

La calidad de los datos y el conocimiento del negocio son críticos en el análisis.

Los datos deben ser entendidos como un activo que le permitirá a las organizaciones

diferenciarse proporcionando proporcionar más y mejores servicios.

Introducción

Enormes volúmenes de datos están siendo recolectados y almacenados minuto a minuto:

Datos generados en la nube, redes sociales.

Compras en negocios con diversos departamentos: e-commerce, tiendas virtuales,

etc.

Transacciones bancarias / Tarjetas de Crédito.

Machine generated data: sensores, web logs, etc.

Frecuentemente hay información “oculta” en los datos que no es directamente evidente a

los ojos de un analista, o simplemente es tal el volumen de información que nunca llega a

ser analizada.

El GAP entre el volumen de información y el número de analista crece exponencialmente.

La presión competitiva es cada vez mayor, y los datos deben ser entendidos como un

activo que le permitirá a las organizaciones proporcionar más y mejores servicios, predecir

eventos futuros, anticiparse a ellos, etc.

Por que minar datos?

El ciclo de vida de los datos

Información

Extracción, transformación y carga Limpieza y calidad Almacenamiento Acceso en tiempo y forma Transformar datos en información

Conocimiento / Acción

Programas de retención Optimización acciones de MKT Análisis de riesgo y rentabilidad Detección de fraudes

Transaccionales Operacionales Demográficos Financieros Económicos Gubernamentales Asociaciones

Datos

Data Mining

No es un producto de SW que se compra sino una disciplina que debe ser dominada.

No es una solución mágica ni mucho menos instantánea a los problemas de negocio.

No es un fin en sí mismo, sino un proceso.

No es un dogma de fe, es una disciplina con sustento matemático y estadístico.

Algunos ejemplos de lo que NO es Data Mining:

Buscar en una base de datos todas las personas mayores a 20 años que viven en Medellín y no

han cursado estudios universitarios.

Determinar la bebida gaseosa más vendida en cada departamento.

Armar el forecast de ventas para el próximo año fiscal basado en políticas y reglas del negocio

(por ejemplo, ventas * 1,17).

Que NO es Data Mining?

Determinar la probabilidad de que un cliente solicite la baja de su servicio en los

próximos 3 meses.

Determinar que clientes son más propensos a responder afirmativamente a una

determinada acción de MKT con una oferta determinada.

Antes de otorgar un préstamo, determinar la probabilidad de que esa persona no pueda

hacer frente al pago del mismo en tiempo y forma, cayendo en mora.

Segmentar nuestra cartera de clientes para encontrar grupos de clientes con

características de comportamiento similares.

Analizar el comportamiento de compras de nuestros clientes para la confección de

ofertas de productos.

Que SI es Data Mining?

Donde encaja Data Mining?

Siebel PeopleSoft SAP R/3 XML

VSAM MQSeries AS/400

DB2 UDB Informix Oracle Microsoft ...

Archivos Planos FTP

Web Logs

DW OLAP & Reporting

DW ODS Data Mart

Extract Transform Clean Load

ETL

Data Mining

Datastage Informatica Oracle DI Pentaho DI SAS DIS Etc.

SAS, SPSS, Rapid Miner

Pentaho, Oracle/Hyperion, Microstrategy, SAS, Etc.

Oracle IBM DB2 SQL Server Teradata Sybase IQ Etc.

Metodologías de Trabajo

Objetivos / Entorno Supuestos, restricciones, riesgos y

contingencias Definir análisis a realizar

1. Conocimiento del Negocio Recolección y entendimiento de los datos. Exploración, evaluación de la calidad

2. Conocimiento de los datos

Selección, limpieza , personalización y agregación de los datos

3. Preparación de los datos

Definir la técnica más adecuada de Data Mining

Desarrollo del modelo / solución

4. Análisis & Modelado

Evaluar e interpretar resultados Auditar el proceso Definir próximos pasos

5. Evaluación

Desarrollo de plan de implementación

Auditoría de implemen- tación

Mantenimiento

6. Implementación

Extrae ideas de Aprendizaje Automático (machine learning/AI), pattern recognition,

estadística y sistemas de bases de datos.

Las técnicas tradicionales pueden ser inadecuadas debido a:

Gran volumen de datos

Alta dimensionalidad de los datos

Naturaleza heterogénea y distribuida de los datos

Orígenes del Data Mining

Estadística

Int. Artificial

Bases de Datos

DM

Data Mining y la Estadística:

Los métodos estadísticos son la base de muchas de las técnicas de minería de datos.

Originalmente muchas de estas técnicas fueron diseñadas con propósitos confirmatorios.

La estadística exploratoria aparece en los 70 con los aportes de J. Tuckey.

En DM no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones

entre ellas.

Los algoritmos estadísticos fueron adaptados para el procesamiento de grandes volúmenes de

datos.

Data Mining y la Inteligencia Artificial:

La Inteligencia Artificial se integra al DM a partir de las redes neuronales artificiales.

Se utilizan para construir modelos predictivos no lineales que aprenden a través de

entrenamiento y que se asimilan a los modelos de redes de neuronas biológicas.

Orígenes del Data Mining

Tipos de Análisis del Data Mining

Análisis Multivariados Tablas de Contingencia Correlaciones Rankings, Percentiles, etc.

Inteligencia (Valor Agregado)

Regresiones Lineales

Regresiones Logisticas

Clusters

Promedios Móviles Distribuciones Varianza Desvío Standard

Redes Neuronales

Series de Tiempo

Arboles de Decision

De

scri

pti

vos

Pre

dic

tivo

s Data M

inin

g

Procesos de Modelado Predictivo

Datos Históricos Horizonte Predicción

Actualidad

Entrenamiento y Validación

Datos Históricos Horizonte Predicción

Corrida real

Modelado: Tipos de Variables

Var. Descriptivas

En base a información histórica se generan distintos modelos

Var. de Clase / Target

Entrenamiento

Modelo

Clasifica

Entrenamiento del Modelo

Sexo Edad Estado Civil

Ingreso Anual

$ Credito

# Cuotas

Mora

M 24 Casado 120K 20K 4 Si

F 36 Casado 240K 34K 12 No

F 28 Casado 180K 60K 3 Si

M 32 Soltero 120K 12K 8 No

M 29 Soltero 134K 56K 12 No

M 46 Casado 182K 128K 14 No

M 34 Soltero 227K 134K 8 Si

F 44 Casado 132K 240K 12 No Sexo Edad Estado Civil

Ingreso Anual

$ Credito

# Cuotas

Mora

M 29 Casado 134K 27K 6 ?

F 46 Casado 182K 41K 12 ?

F 34 Casado 72K 26K 10 ?

M 44 Soltero 152K 42K 8 ?

Construir y entrenar el modelo

Y luego predecir

Datos de entrenamiento

Resumen de Modelado

Preparación Datos • Definición de Set de Datos • Tratamiento de Valores

Missing • División de Población

Training – Validación – Test • Detección de Outliers

(errores)

Desarrollo • Construcción de

Modelo • Evaluación del

Modelo

Implementación

Construcción de un Score

Presentar Resultados

Preselección de Variables

• Análisis Exploratorio • Personalización de Variables. • Transformación de Variables • Buscar patrones

(multivariados)

Scoring

Dado un conjunto de objetos de dato (puntos), cada uno con un conjunto de variables y

una medida de similitud entre ellos, hallar clusters/segmentos tal que:

Los objetos en un cluster son más similares entre sí.

Los objetos en clusters separados sean lo más distintos posibles entre sí.

Análisis Desriptivo: Clustering

Minimizar la distancia intracluster

Maximizar la distancia intercluster

Una segmentación muy conocida de clientes es la segmentación RFM:

Recency: cuando fue la última vez que compró?

Frequency: cuantas veces compró?

Monetary Value: cuanto dinero gastó?

En base a estas 3 variables, podemos segmentar nuestros clientes de acuerdo a su

comportamiento de consumo.

Caso real: el 78% de la facturación se concentra en el cluster A (27% de los clientes). Los

clientes de este cluster son personas casadas, con hijos, trabajadores autónomos con

ingresos superiores a $ 10.800.

Clustering: Segmentación de Mercado

Dado un conjunto de registros, Cada registro se define por un conjunto de variables,

siendo una de ellos la clase (también llamada target).

Objetivo: hallar un modelo para determinar la variable target como una función de los

valores de las otras variables.

El training set se usa para determinar la precisión del modelo. Usualmente, el conjunto

de datos dados se divide en training y test sets, con el training set usado para construir el

modelo y el test set usado para validarlo.

Desafío: el modelo debe ser capaz de “generalizar”. Es decir: determinar de manera

“aceptable” la variable target para registros desconocidos y nuevos casos.

Análisis Predictivo: Árboles de Decisión

Beneficios:

Fácil Interpretación e implementación

Las ramas del árbol definen directamente las reglas de asignación

Los resultados son operativos de forma inmediata

Minimiza el pre-tratamiento de los datos (no hay problema de outliers)

Análisis Predictivo: Árboles de Decisión

Antigüedad cliente

% Saldo Financiado

Respuesta: 65%

Respuesta: 13% Respuesta:47% Respuesta:30%

% Utilización Últimos 3 meses

Respuesta: 35%

Respuesta:5% Respuesta: 5%

10 -60%

Características de modelos Predictivos

Bueno Bueno Regular Poder de

Predicción

Mediano Mediano Rápido Rapidez de

Modelización

Bueno Bueno Muy Bueno Robustez ante

outliers

Regular Regular Muy Bueno Manejo de

Valores Missing

Mediano Fácil Facilidad de

Interpretación

Continua

Discreta

Regresión Logística

Continua

Continua

Regresión Lineal

Discreta Tipo de

predicción

Discreta Tipo de Variable

Target

Árbol de Decisión

Técnicas de Modelización

Mediano

Bueno

Regular

Continua

Continua y

Discreta

Red Neuronal

Mediano Difícil

Muy Bueno

Compañía financiera fundada en 2003, una de las más especializadas del mercado de

Factoring.

Presencia en Estados Unidos y Latinoamérica, bajo cuatro Unidades de Negocios y seis

áreas de Servicios Corporativos, con un equipo de 110 personas (24 ejecutivos).

Promotores de la legislación que favorece la unificación de la factura como título valor

con libre negociabilidad.

La empresa cuenta con diferentes productos, con una cartera de clientes que supera los

1.500 (62,5 clientes en promedio por ejecutivo de cuentas!).

Para maximizar el valor de la compañía, la empresa debe invertir en aquellos clientes que

le generan una mayor rentabilidad (visión a corto plazo), pero para mantener ese

crecimiento la empresa debe establecer (y mantener!) relaciones con aquellos clientes

que le aseguren una relación estratégica a lo largo del tiempo.

Presentación Caso de Negocio

La compañía decidió llevar adelante un proceso de segmentación de clientes basada en

modelos de minería de datos, y alinear la estrategia comercial de la compañía a dicha

segmentación.

Por su tiempo de implementación acelerado y la facilidad para interpretar los resultados,

se recurrió a una segmentación basada en el comportamiento denominada RFM:

Recency, Frequency, Money Value.

Definiciones previas:

Cliente activo: al menos 1 negocio en los últimos 180 días.

Cliente inactivo: sin negocios en los últimos 180 días.

Cliente recurrente: más de 1 negocio.

Principales métricas usadas:

Cantidad de Negocios (frecuencia y recurrencia).

Total Valor $, Valor $ Promedio (money value)

Fecha último Negocio (status), Fecha de primer Negocio (fidelidad).

Quien es quien?

Análisis Exploratorio

Activos vs. Inactivos y Recurrencia

# Clientes Activos = 70,31% del total de cuentas desde el 2010

# Clientes Activos no Recurrentes = 5,74%

# Negocios Clientes Activos = 5,37%

Valor $ (Millones) Clientes Activos = $ 150.940,65 (85,49%)

70%

30%

# Clientes

Activos

Inactivos

95%

5%

# Negocios

Activos

Inactivos

85%

14%

Valor $ (Millones)

Activos

Inactivos

VADs Activos

Fidelidad vs. Status

Estrategia de Segmentación

Segmentar por $ Valor (4 segmentos):

Segmentar por Fidelidad y Actividad (4 segmentos):

Cruzar ambos segmentos, y fusionar segmentos poco significativos.

Resultado Final

Resultado Final

0 – En desarrollo: valor $ medio y bajo, poco # de operaciones y siempre con -150 días

desde el primer negocio. Se destaca un pequeño subgrupo de mayor valor $ y # negocios.

Ej.: T3 Textiles S.A.S.

1 – Valor Bajo: clientes con +150 días de antigüedad, pocos negocios y bajo valor $. Ej.:

MetalPlastics S.A.S.

2 – Valor Medio: clientes con +150 días de antigüedad, mayor # negocios y valor $ medio.

En algunos casos, montos promedios importantes. Ej.: Industrias Bitor Ltda.

3 – Prometedores: muy similar al segmento 2 (Valor Medio) pero tienen menor

antigüedad por lo que tienen mayor potencial para desarrollarse y convertirse en cuentas

de Alto Valor o inclusive Premium. Ej.: Agroindustria Uve S.A.

4 – Valor Alto: clientes con +1 año de antigüedad, importante # negocios y valor $ Alto.

Ej.: C.I. Agrodex S.A.

5 – Premium: similar al segmento de Valor Alto, pero con mayor valor $. Ej.: Centurion

Foods S.A.S.

Es el vínculo entre las áreas de tecnología informática y las áreas de negocios.

Traduce los requerimientos de información en preguntas apropiadas para su análisis con

las herramientas de minería.

Realimenta el Data Warehouse de la compañía con los resultados de sus modelos. Por

ejemplo: segmento de cliente, score, canal de comunicación más efectivo, etc..

Habilidades:

Fuerte enfoque analítico con visión de negocio. No debe perder de vista el objetivo!

Conocimientos de estadística “avanzada”.

Conocimiento de técnicas de minería y análisis exploratorio.

Conocimiento de técnicas de manipulación de datos (SQL u otros).

Pero por sobre todo curiosidad y creatividad.

Y paciencia...

El Minero

El 80% de los esfuerzos de un proyecto de Data Mining se destinan a tareas de ETL.

El resultado de DM es mayor conocimiento, pero ese conocimiento debe ser analizado y

puesto en práctica por los usuarios.

La calidad de los modelos esta directamente relacionado con la calidad de los datos.

Problemas con los datos:

Pocos datos

Poca historia

Ruido, valores anómalos

Valores incompletos

Eficiencia y escalabilidad de algoritmos de Data Mining.

Y por último pero no menos importante… BIG DATA.

Desafíos

Que es BIG DATA?

Big Data es el nombre que se le da a conjuntos de información que crecen de una

manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con

métodos o técnicas tradicionales del mundo de base de datos relacionales.

Generada principalmente por la web 2.0, redes sociales, aplicaciones y dispositivos

móviles, machine generated data (logs, sensores, etc.) pero también sist. transaccionales.

Big Data son tres V’s y una C:

Velocidad: los datos se generan a un ritmo exponencial.

Volumen: la irrupción de Big Data dejó en el

pasado el Terabyte para hablar de Petabytes y

Zetabytes.

Variedad: datos estructurados y no estructurados,

proveniente de la web 2.0, sensores, logs, etc.

Complejidad: volumen de datos tal que no

permite procesarlo con técnicas tradicionales

El desafío de BIG DATA

(Gartner, December 2011)

80% DE LA INFORMACIÓN ES NO

ESTRUCTURADA

“El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y para almacenar, administrar, manipular, analizar, e integrar datos. ” J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011

(IDC Digital Universe Study, June 2011)

LOS DATOS SE

DUPLICAN CADA 2 AÑOS 40

35

30

25

20

15

10

5

0

2005 2010 2015 2020

ZB

LAS EMPRESAS MANEJARÁN

50X MÁS DATOS EN LA PRÓXIMA DÉCADA

(IDC Digital Universe Study, June 2011)

Muchas Gracias!

http://twitter.com/DatalyticsBI

https://www.facebook.com/DatalyticsBI

http://www.linkedin.com/company/datalytics

http://www.linkedin.com/groups?home=&gid=2523333

http://blog.datalytics.com/

Education

Introducción al Data Mining