View
220
Download
0
Category
Preview:
Citation preview
Diplomado "Gestión de Negocios con Data Warehouse y Data
Mining".
Clase 3Proceso KDD
José Antonio Lipari A.
Proceso KDD Knowledge Discovery in Databases
“KDD es el proceso no-trivial de identificar patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos“
Transformación
DatosDatos se-leccionados
Preprocesamiento
Datos pre-procesados
Datos transformados
Data Mining
Patrones
Interpretación yEvaluación
Selección
Novedoso: que sea un aporte para el sistema o para el usuario
Valido: que sea repetible a futuro con nuevos datos
Útil:que pueda traducirse en acciones concretas
Comprensible: que se entienda es básico para cumplir las 3 características anteriores.
Proceso KDD Knowledge Discovery in Databases
KDD
Proceso KDD Knowledge Discovery in Databases
Selección:
Elección de bases de datos a utilizar y variables relevantes
Evaluar creación de Data Mart o Flat table y acumulación de información histórica
Exploración de datos a fin de chequear bondad de la información (datos erróneos, faltantes, sin consolidar)
Acordar objetivo del proyecto KDD y acordar con usuario variables relevantes para cumplir con el objetivo
Proceso KDD Knowledge Discovery in Databases
Preprocesamiento:
Identificar datos que se utilizarán y tienen problemas (erróneos, faltantes o fuera de rango)
Decidir modo de enfrentar datos con problemas: Eliminar registros, imputar registros
Desarrollo de modelos de imputación de registros con problemas
Proceso KDD Knowledge Discovery in Databases
Transformación:
Creación de nuevas variables e indicadores que podrían ser útiles para lograr el objetivo del proyecto KDD
Reuniones con los entendidos en el negocio, para discutir correlaciones encontradas
Analizar correlación entre variables (en general variables muy correlacionadas no aportan información)
Proceso KDD Knowledge Discovery in Databases
Data Mining:
Desarrollo de modelos predictivos utilizando variadas técnicas y definiendo parámetros del algoritmo de acuerdo a los conocimientos del modelador
Generación de muestreos aleatorios de ser necesario
División de datos en Entrenamiento Validación y Testeo
Proceso de KDD Knowledge Discovery in
Databases
Interpretación y evaluación:Se utiliza la base de testeo para verificar que el modelo es capaz de hacer una predicción
Se interpretan los resultados en conjunto con expertos del negocio
Se evalúa el nivel de la predicción con una visión clara de gestión que se realizará
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
• El primer paso, implícito necesario en el proceso KDD es definir el objetivo final
• El objetivo es identificar dentro de la base de Cuenta correntistas un conjunto de clientes interesados en adquirir una crédito de consumo
• Definir este objetivo es importante porque el proyecto debiera ser evaluado en función de este objetivo.
• Por ejemplo, aumentar las colocaciones del banco en 10% respecto a igual período del año pasado.
INICIO
SELECCIÓN
¿Preguntarse cuales de los datos disponibles por el banco podrían ser útiles para predecir la compra o adquisición de un crédito de consumo, y aún más importante, que datos relevantes no están disponibles y hay que solicitar?
Responder a esto probablemente requiera de algo de visión de negocio y experiencia en construcción de otros modelos
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
Campo Estado
Edad OK
Monto credito OK
Uso Línea C OK
Comuna donde Vive Solo hay un string con dirección
Saldo Promedio CC OK
Renta Está desactualizada alto%
Endeudamiento en Sbif OK, considerar no están incluidas casas comerciales
Fecha última solicitud de Crédito NO está disponible
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
SELECCIÓN
0% Datos Missing
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
SELECCIÓN
20% Datos Missing
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
SELECCIÓN
Campo Estado Acción
Edad Problemas carga Solicitar corrección de datos a administrador
Monto Crédito OK Nada
Uso Línea C Indefinición Dar coherencia, agregar campo posesión de productos
Comuna donde Vive
Solo hay un string con dirección Solicitar extracción campo Comuna
Saldo Promedio CC
OK Nada
Renta Está desactualizada alto% Solicitar renta estimada Riesgo
Endeudamiento en Sbif
OK, considerar no están incluidas casas comerciales
Solicitar Infor casas Comerciales
Fecha última solicitud de Crédito
NO está disponible Solicitar carga en sistemas de datos
Adicionalmente, si se pretende utilizar esta información períodicamente se requerirá la construcción de Un flat table con las modificaciones solicitadas y que se cargue períodicamente a través de ETL (extraction tranformation, load) que acumule información con historia.
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
SELECCIÓN
MES 1
MES 2
MES 3
MES N Historia acumulada de N meses en formato y contenido apropiado para análisis
ETLDW
Actualización periódica de el último tablón
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
SELECCIÓN
PREPROCESAMIENTOSe analizan las respuestas frente a solicitudes de cambio de datos y se procede a modificar los datos deacuerdo a los objetivos planteados por el proyecto.
Campo Respuesta de responsable de datos
Acción Data Mining
Edad Problema corregido Nada
Monto Credito OK Nada
Uso Línea C No es posible corregir Se imputan missisng con “NA”
Comuna donde Vive
No es posible corregir en corto plazo
Se programa identificador de comuna dentro de glosa
Saldo Promedio CC
OK Nada
Renta Se entrega estimación de Riesgo Nada
Endeudamiento en Sbif
La información de casas comerciales no está disponible
Nada, se renuncia a esa información
Fecha última solicitud de Crédito
Se cargará a partir del próximo mes
Se considera se existecia para análisis futuros
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
TRANSFORMACIONSe analizan los Datos corregidos y se buscan relaciones “interesantes” que según experiencia de gente de negocios y data mining podrían mejorar las correlaciones.
Por ejemplo: Construcción de variables derivadas
RAZON_ ENDEUDAMIENTO = ENDEUDAMIENTO/ RENTA
MONTO_CREDITO VS RAZON DE ENDEUDAMIENTO
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 2 4 6 8 10 12
RAZON_ENDEUDAMIENTO
MO
NT
O C
RE
DIT
O E
N M
ILE
S$
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
DATA MINING
Se construye una base orientada a conseguir el objetivo definido, esto implica definir la variable objetivo, una vez definida ésta, se aplican técnicas como sobremuestreo , muestreo aletorio etc para optimizar el manejo de datos. En este caso, es un modelo supervisado de clasificación
Variable ObjetivoIdentificador
Eliminar
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
Variables predictoras
Se construye una base orientada a conseguir el objetivo definido, esto implica definir la Variable objetivo, una vez definida ésta, se aplican técnicas como sobremuestreo , muestreo aletorio etc para optimizar el manejo de datos. En este caso, es un modelo supervisado de clasificación
10.000
Base Total Validación
5.000
Entrenamiento
5.000
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
DATA MINING
Se construye un modelo predictivo utilizando variadas técnicas de Data Mining, en la práctica el modelo buscará separar las bases en el perfil de los que compran vs el perfil de los que no compran utilizando las variables contenidas en la base de entrenamiento
Validación
Entrenamiento
Modelo Predictivo
Variadas técnicas:
•Árboles de decisión
•Redes neuronales
•Regresiones
•SVM
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
DATA MINING
INTERPRETACION DE RESULTADOS
Compra 50%
No compra 50%
Compra 30%
No compra 70%
Compra 75%
No compra 25%
Razon _endeudamiento >7
Compra 40%
No compra 60%
Compra 90%
No compra 10%
Edad <38 años
Una interpretación de este modelo podría llevar a la conclusión de que el perfil del cliente que se endeuda es alguien con tendencia a endeudarse y mas bien joven.
Hace sentido el resultado
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
Nota: Las tendencias aquí presentadas son únicamente referenciales, creadas a modo de ejemplo para la clase.
FIN
Recommended