Upload
andres-eyherabide
View
1.311
Download
0
Embed Size (px)
DESCRIPTION
Charla de Introducción al Data Mining dada en el Posgrado de BI de la UTN Regional Buenos Aires, el martes 23 de Octubre del 2012 (http://bitly.com/REorwN).
Citation preview
www.datalytics.com Posgrado BI UTN - Introducción al Data Mining
@aeyherabide
Ing. Andrés Eyherabide
Que es Datalytics?
Fundada en el año 2007, Datalytics es una empresa de servicios profesionales
independiente, orientada exclusivamente a las prácticas de:
Data Integration
Business Intelligence
Data Mining
Oficinas en las ciudades de Buenos Aires y Rosario (ARG) y Medellín (COL).
Equipo de trabajo interdisciplinario, con +30 profesionales de diversas áreas.
Implementaciones en Argentina, Chile, Brasil, Colombia, España y USA.
Nuestros servicios incluyen la consultoría, capacitación, implementación y el apoyo
necesario para asegurar una solución exitosa que soporte los procesos de negocios.
Datalytics ha certificado su Sistema de Gestión de calidad para la “Provisión de Servicios
de Business Intelligence y Data Mining” bajo la norma ISO 9001:2008 por Bureau
Veritas. Recertificación Septiembre 2012 aprobada.
Data Mining es la exploración y el análisis, por medios automáticos o semi-automáticos,
de grandes volúmenes de datos con la finalidad de descubrir reglas y patrones
significativas.
El objetivo es brindar información al negocio asistiendo a las empresas a mejorar sus
operaciones por medio de un mayor entendimiento de su entorno:
Que clientes es más probable que acepte una oferta?
Que cliente tiene mayor probabilidad de dejar de pagar?
Que cliente tiene alta probabilidad de pedir la baja del servicio?
Que demanda puedo esperar de mis productos para el próximo trimestre?
Estos análisis se basan en que los datos pasados sirven para predecir el futuro.
La calidad de los datos y el conocimiento del negocio son críticos en el análisis.
Los datos deben ser entendidos como un activo que le permitirá a las organizaciones
diferenciarse proporcionando proporcionar más y mejores servicios.
Introducción
Enormes volúmenes de datos están siendo recolectados y almacenados minuto a minuto:
Datos generados en la nube, redes sociales.
Compras en negocios con diversos departamentos: e-commerce, tiendas virtuales,
etc.
Transacciones bancarias / Tarjetas de Crédito.
Machine generated data: sensores, web logs, etc.
Frecuentemente hay información “oculta” en los datos que no es directamente evidente a
los ojos de un analista, o simplemente es tal el volumen de información que nunca llega a
ser analizada.
El GAP entre el volumen de información y el número de analista crece exponencialmente.
La presión competitiva es cada vez mayor, y los datos deben ser entendidos como un
activo que le permitirá a las organizaciones proporcionar más y mejores servicios, predecir
eventos futuros, anticiparse a ellos, etc.
Por que minar datos?
El ciclo de vida de los datos
Información
Extracción, transformación y carga Limpieza y calidad Almacenamiento Acceso en tiempo y forma Transformar datos en información
Conocimiento / Acción
Programas de retención Optimización acciones de MKT Análisis de riesgo y rentabilidad Detección de fraudes
Transaccionales Operacionales Demográficos Financieros Económicos Gubernamentales Asociaciones
Datos
Data Mining
No es un producto de SW que se compra sino una disciplina que debe ser dominada.
No es una solución mágica ni mucho menos instantánea a los problemas de negocio.
No es un fin en sí mismo, sino un proceso.
No es un dogma de fe, es una disciplina con sustento matemático y estadístico.
Algunos ejemplos de lo que NO es Data Mining:
Buscar en una base de datos todas las personas mayores a 20 años que viven en Medellín y no
han cursado estudios universitarios.
Determinar la bebida gaseosa más vendida en cada departamento.
Armar el forecast de ventas para el próximo año fiscal basado en políticas y reglas del negocio
(por ejemplo, ventas * 1,17).
Que NO es Data Mining?
Determinar la probabilidad de que un cliente solicite la baja de su servicio en los
próximos 3 meses.
Determinar que clientes son más propensos a responder afirmativamente a una
determinada acción de MKT con una oferta determinada.
Antes de otorgar un préstamo, determinar la probabilidad de que esa persona no pueda
hacer frente al pago del mismo en tiempo y forma, cayendo en mora.
Segmentar nuestra cartera de clientes para encontrar grupos de clientes con
características de comportamiento similares.
Analizar el comportamiento de compras de nuestros clientes para la confección de
ofertas de productos.
Que SI es Data Mining?
Donde encaja Data Mining?
Siebel PeopleSoft SAP R/3 XML
VSAM MQSeries AS/400
DB2 UDB Informix Oracle Microsoft ...
Archivos Planos FTP
Web Logs
DW OLAP & Reporting
DW ODS Data Mart
Extract Transform Clean Load
ETL
Data Mining
Datastage Informatica Oracle DI Pentaho DI SAS DIS Etc.
SAS, SPSS, Rapid Miner
Pentaho, Oracle/Hyperion, Microstrategy, SAS, Etc.
Oracle IBM DB2 SQL Server Teradata Sybase IQ Etc.
Metodologías de Trabajo
Objetivos / Entorno Supuestos, restricciones, riesgos y
contingencias Definir análisis a realizar
1. Conocimiento del Negocio Recolección y entendimiento de los datos. Exploración, evaluación de la calidad
2. Conocimiento de los datos
Selección, limpieza , personalización y agregación de los datos
3. Preparación de los datos
Definir la técnica más adecuada de Data Mining
Desarrollo del modelo / solución
4. Análisis & Modelado
Evaluar e interpretar resultados Auditar el proceso Definir próximos pasos
5. Evaluación
Desarrollo de plan de implementación
Auditoría de implemen- tación
Mantenimiento
6. Implementación
Extrae ideas de Aprendizaje Automático (machine learning/AI), pattern recognition,
estadística y sistemas de bases de datos.
Las técnicas tradicionales pueden ser inadecuadas debido a:
Gran volumen de datos
Alta dimensionalidad de los datos
Naturaleza heterogénea y distribuida de los datos
Orígenes del Data Mining
Estadística
Int. Artificial
Bases de Datos
DM
Data Mining y la Estadística:
Los métodos estadísticos son la base de muchas de las técnicas de minería de datos.
Originalmente muchas de estas técnicas fueron diseñadas con propósitos confirmatorios.
La estadística exploratoria aparece en los 70 con los aportes de J. Tuckey.
En DM no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones
entre ellas.
Los algoritmos estadísticos fueron adaptados para el procesamiento de grandes volúmenes de
datos.
Data Mining y la Inteligencia Artificial:
La Inteligencia Artificial se integra al DM a partir de las redes neuronales artificiales.
Se utilizan para construir modelos predictivos no lineales que aprenden a través de
entrenamiento y que se asimilan a los modelos de redes de neuronas biológicas.
Orígenes del Data Mining
Tipos de Análisis del Data Mining
Análisis Multivariados Tablas de Contingencia Correlaciones Rankings, Percentiles, etc.
Inteligencia (Valor Agregado)
Regresiones Lineales
Regresiones Logisticas
Clusters
Promedios Móviles Distribuciones Varianza Desvío Standard
Redes Neuronales
Series de Tiempo
Arboles de Decision
De
scri
pti
vos
Pre
dic
tivo
s Data M
inin
g
Procesos de Modelado Predictivo
Datos Históricos Horizonte Predicción
Actualidad
Entrenamiento y Validación
Datos Históricos Horizonte Predicción
Corrida real
Modelado: Tipos de Variables
Var. Descriptivas
En base a información histórica se generan distintos modelos
Var. de Clase / Target
Entrenamiento
Modelo
Clasifica
Entrenamiento del Modelo
Sexo Edad Estado Civil
Ingreso Anual
$ Credito
# Cuotas
Mora
M 24 Casado 120K 20K 4 Si
F 36 Casado 240K 34K 12 No
F 28 Casado 180K 60K 3 Si
M 32 Soltero 120K 12K 8 No
M 29 Soltero 134K 56K 12 No
M 46 Casado 182K 128K 14 No
M 34 Soltero 227K 134K 8 Si
F 44 Casado 132K 240K 12 No Sexo Edad Estado Civil
Ingreso Anual
$ Credito
# Cuotas
Mora
M 29 Casado 134K 27K 6 ?
F 46 Casado 182K 41K 12 ?
F 34 Casado 72K 26K 10 ?
M 44 Soltero 152K 42K 8 ?
Construir y entrenar el modelo
Y luego predecir
Datos de entrenamiento
Resumen de Modelado
Preparación Datos • Definición de Set de Datos • Tratamiento de Valores
Missing • División de Población
Training – Validación – Test • Detección de Outliers
(errores)
Desarrollo • Construcción de
Modelo • Evaluación del
Modelo
Implementación
Construcción de un Score
Presentar Resultados
Preselección de Variables
• Análisis Exploratorio • Personalización de Variables. • Transformación de Variables • Buscar patrones
(multivariados)
Scoring
Dado un conjunto de objetos de dato (puntos), cada uno con un conjunto de variables y
una medida de similitud entre ellos, hallar clusters/segmentos tal que:
Los objetos en un cluster son más similares entre sí.
Los objetos en clusters separados sean lo más distintos posibles entre sí.
Análisis Desriptivo: Clustering
Minimizar la distancia intracluster
Maximizar la distancia intercluster
Una segmentación muy conocida de clientes es la segmentación RFM:
Recency: cuando fue la última vez que compró?
Frequency: cuantas veces compró?
Monetary Value: cuanto dinero gastó?
En base a estas 3 variables, podemos segmentar nuestros clientes de acuerdo a su
comportamiento de consumo.
Caso real: el 78% de la facturación se concentra en el cluster A (27% de los clientes). Los
clientes de este cluster son personas casadas, con hijos, trabajadores autónomos con
ingresos superiores a $ 10.800.
Clustering: Segmentación de Mercado
Dado un conjunto de registros, Cada registro se define por un conjunto de variables,
siendo una de ellos la clase (también llamada target).
Objetivo: hallar un modelo para determinar la variable target como una función de los
valores de las otras variables.
El training set se usa para determinar la precisión del modelo. Usualmente, el conjunto
de datos dados se divide en training y test sets, con el training set usado para construir el
modelo y el test set usado para validarlo.
Desafío: el modelo debe ser capaz de “generalizar”. Es decir: determinar de manera
“aceptable” la variable target para registros desconocidos y nuevos casos.
Análisis Predictivo: Árboles de Decisión
Beneficios:
Fácil Interpretación e implementación
Las ramas del árbol definen directamente las reglas de asignación
Los resultados son operativos de forma inmediata
Minimiza el pre-tratamiento de los datos (no hay problema de outliers)
Análisis Predictivo: Árboles de Decisión
Antigüedad cliente
% Saldo Financiado
Respuesta: 65%
Respuesta: 13% Respuesta:47% Respuesta:30%
% Utilización Últimos 3 meses
Respuesta: 35%
Respuesta:5% Respuesta: 5%
10 -60%
Características de modelos Predictivos
Bueno Bueno Regular Poder de
Predicción
Mediano Mediano Rápido Rapidez de
Modelización
Bueno Bueno Muy Bueno Robustez ante
outliers
Regular Regular Muy Bueno Manejo de
Valores Missing
Mediano Fácil Facilidad de
Interpretación
Continua
Discreta
Regresión Logística
Continua
Continua
Regresión Lineal
Discreta Tipo de
predicción
Discreta Tipo de Variable
Target
Árbol de Decisión
Técnicas de Modelización
Mediano
Bueno
Regular
Continua
Continua y
Discreta
Red Neuronal
Mediano Difícil
Muy Bueno
Compañía financiera fundada en 2003, una de las más especializadas del mercado de
Factoring.
Presencia en Estados Unidos y Latinoamérica, bajo cuatro Unidades de Negocios y seis
áreas de Servicios Corporativos, con un equipo de 110 personas (24 ejecutivos).
Promotores de la legislación que favorece la unificación de la factura como título valor
con libre negociabilidad.
La empresa cuenta con diferentes productos, con una cartera de clientes que supera los
1.500 (62,5 clientes en promedio por ejecutivo de cuentas!).
Para maximizar el valor de la compañía, la empresa debe invertir en aquellos clientes que
le generan una mayor rentabilidad (visión a corto plazo), pero para mantener ese
crecimiento la empresa debe establecer (y mantener!) relaciones con aquellos clientes
que le aseguren una relación estratégica a lo largo del tiempo.
Presentación Caso de Negocio
La compañía decidió llevar adelante un proceso de segmentación de clientes basada en
modelos de minería de datos, y alinear la estrategia comercial de la compañía a dicha
segmentación.
Por su tiempo de implementación acelerado y la facilidad para interpretar los resultados,
se recurrió a una segmentación basada en el comportamiento denominada RFM:
Recency, Frequency, Money Value.
Definiciones previas:
Cliente activo: al menos 1 negocio en los últimos 180 días.
Cliente inactivo: sin negocios en los últimos 180 días.
Cliente recurrente: más de 1 negocio.
Principales métricas usadas:
Cantidad de Negocios (frecuencia y recurrencia).
Total Valor $, Valor $ Promedio (money value)
Fecha último Negocio (status), Fecha de primer Negocio (fidelidad).
Quien es quien?
Análisis Exploratorio
Activos vs. Inactivos y Recurrencia
# Clientes Activos = 70,31% del total de cuentas desde el 2010
# Clientes Activos no Recurrentes = 5,74%
# Negocios Clientes Activos = 5,37%
Valor $ (Millones) Clientes Activos = $ 150.940,65 (85,49%)
70%
30%
# Clientes
Activos
Inactivos
95%
5%
# Negocios
Activos
Inactivos
85%
14%
Valor $ (Millones)
Activos
Inactivos
VADs Activos
Fidelidad vs. Status
Estrategia de Segmentación
Segmentar por $ Valor (4 segmentos):
Segmentar por Fidelidad y Actividad (4 segmentos):
Cruzar ambos segmentos, y fusionar segmentos poco significativos.
Resultado Final
Resultado Final
0 – En desarrollo: valor $ medio y bajo, poco # de operaciones y siempre con -150 días
desde el primer negocio. Se destaca un pequeño subgrupo de mayor valor $ y # negocios.
Ej.: T3 Textiles S.A.S.
1 – Valor Bajo: clientes con +150 días de antigüedad, pocos negocios y bajo valor $. Ej.:
MetalPlastics S.A.S.
2 – Valor Medio: clientes con +150 días de antigüedad, mayor # negocios y valor $ medio.
En algunos casos, montos promedios importantes. Ej.: Industrias Bitor Ltda.
3 – Prometedores: muy similar al segmento 2 (Valor Medio) pero tienen menor
antigüedad por lo que tienen mayor potencial para desarrollarse y convertirse en cuentas
de Alto Valor o inclusive Premium. Ej.: Agroindustria Uve S.A.
4 – Valor Alto: clientes con +1 año de antigüedad, importante # negocios y valor $ Alto.
Ej.: C.I. Agrodex S.A.
5 – Premium: similar al segmento de Valor Alto, pero con mayor valor $. Ej.: Centurion
Foods S.A.S.
Es el vínculo entre las áreas de tecnología informática y las áreas de negocios.
Traduce los requerimientos de información en preguntas apropiadas para su análisis con
las herramientas de minería.
Realimenta el Data Warehouse de la compañía con los resultados de sus modelos. Por
ejemplo: segmento de cliente, score, canal de comunicación más efectivo, etc..
Habilidades:
Fuerte enfoque analítico con visión de negocio. No debe perder de vista el objetivo!
Conocimientos de estadística “avanzada”.
Conocimiento de técnicas de minería y análisis exploratorio.
Conocimiento de técnicas de manipulación de datos (SQL u otros).
Pero por sobre todo curiosidad y creatividad.
Y paciencia...
El Minero
El 80% de los esfuerzos de un proyecto de Data Mining se destinan a tareas de ETL.
El resultado de DM es mayor conocimiento, pero ese conocimiento debe ser analizado y
puesto en práctica por los usuarios.
La calidad de los modelos esta directamente relacionado con la calidad de los datos.
Problemas con los datos:
Pocos datos
Poca historia
Ruido, valores anómalos
Valores incompletos
Eficiencia y escalabilidad de algoritmos de Data Mining.
Y por último pero no menos importante… BIG DATA.
Desafíos
Que es BIG DATA?
Big Data es el nombre que se le da a conjuntos de información que crecen de una
manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
métodos o técnicas tradicionales del mundo de base de datos relacionales.
Generada principalmente por la web 2.0, redes sociales, aplicaciones y dispositivos
móviles, machine generated data (logs, sensores, etc.) pero también sist. transaccionales.
Big Data son tres V’s y una C:
Velocidad: los datos se generan a un ritmo exponencial.
Volumen: la irrupción de Big Data dejó en el
pasado el Terabyte para hablar de Petabytes y
Zetabytes.
Variedad: datos estructurados y no estructurados,
proveniente de la web 2.0, sensores, logs, etc.
Complejidad: volumen de datos tal que no
permite procesarlo con técnicas tradicionales
El desafío de BIG DATA
(Gartner, December 2011)
80% DE LA INFORMACIÓN ES NO
ESTRUCTURADA
“El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y para almacenar, administrar, manipular, analizar, e integrar datos. ” J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
(IDC Digital Universe Study, June 2011)
LOS DATOS SE
DUPLICAN CADA 2 AÑOS 40
35
30
25
20
15
10
5
0
2005 2010 2015 2020
ZB
LAS EMPRESAS MANEJARÁN
50X MÁS DATOS EN LA PRÓXIMA DÉCADA
(IDC Digital Universe Study, June 2011)