Modelo Mono

Embed Size (px)

Citation preview

  • 8/13/2019 Modelo Mono

    1/129

    UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN - TACNA

    Facultad de Ingeniera

    Escuela Acadmico Profesional de Ingeniera en Informtica y Sistemas

    MI TITULI TITULO

    EXAMEN PROFESIONAL

    "APLICACIN DE MINERA DE DATOS PARA DETERMINAR

    CLIENTES CON RIESGO CREDITICIO"

    PRESENTADO POR:

    Bach. Maritza del Pilar Serrano Cahuana

    Para optar el Ttulo Profesional de:

    INGENIERO EN INFORMTICA Y SISTEMAS

    TACNA - PER

    2013

  • 8/13/2019 Modelo Mono

    2/129

    ii

    UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    FACULTAD DE INGENIERA

    JURADO CALIFICADOR Y CALIFICACIN DEL EXAMEN ORAL DEEXAMEN PROFESIONAL

    MONOGRAFA N ____ TITULO PROFESIONAL DE:Ingeniero en Informtica y Sistemas

    La Secretara Acadmica Administrativa de la Facultad de Ingeniera, certifica que porResolucin de Facultad N ____-2006-FACI/UNJBG, fueron designados como juradospara Sustentacin Oral del Examen de Suficiencia Profesional del tema: APLICACINDE MINERA DE DATOS PARA DETERMINAR CLIENTES CON RIESGOCREDITICIO.

    El mismo est conformado por:

    Presidente : MSc. Edilberto Pablo Mamani LpezSecretario : MSc. Juan Ubaldo Jimenez Castilla

    Vocal : Ing. Ivn Pino Telleria

    Para calificar la sustentacin del tema de la monografa en acto pblico el da 16 deMarzo del 2006.

    Presentada por la seorita Maritza del Pilar Serrano Cahuana de la Escuela AcadmicoProfesional de Ingeniera en Informtica y Sistemas.

    El Jurado Calificador en forma secreta e individual emiti su calificativo sobre el temamonogrfico expuesto y procedi a obtener el promedio que arrojo el calificativoAPROBADO / REGULAR con la nota de ONCE (11).

    Para ratificar lo detallado firman.

    MSc. Edilberto Pablo Mamani LpezPresidente

    MSc. Juan Ubaldo Jimenez CastillaSecretario

    Ing. Ivn Pino TelleriaVocal

  • 8/13/2019 Modelo Mono

    3/129

    iii

    DEDICATORA

    A mis Padres, quienes en todo momento han sido mi

    fortaleza y apoyo, guiando mis pasos para salir adelante,

    demostrndome que no hay nada que no se pueda conseguir

    con esfuerzo y dedicacin.

    A mi Hermano por su confianza y amor.

    A mi Novio que desde el Cielo me ha impulsado a lo lograr

    lo inimaginable.

    A mi Universidad y Profesores.

    Gracias por lo que hemos logrado.

    Mas la senda de los justos es como la luz de la aurora, que

    va en aumento hasta que el da es perfecto Proverbios

    4:18

  • 8/13/2019 Modelo Mono

    4/129

    iv

    CONTENIDO

    RESUMEN______________________________________________________ 1

    I. INTRODUCCIN ______________________________________________ 1

    II. OBJETIVOS __________________________________________________ 4

    2.1. Objetivo General _________________________________________ 4

    2.2. Objetivos Especficos _____________________________________ 4

    III. DESARROLLO DEL TEMA ___________________________________ 6

    3.1. Fundamento terico ______________________________________ 6

    3.1.1. Qu es minera de datos? _________________________________ 6

    3.1.2. Limitaciones de minera de datos __________________________ 10

    3.1.3. Diferencias entre minera de datos y estadstica _______________ 11

    3.1.4. Minera de datos y KDD _________________________________ 14

    3.1.5. Metodologas de minera de datos__________________________ 17

    3.1.6. Aplicaciones de la minera de datos ________________________ 27

    3.1.7. Tcnicas de la minera de datos ___________________________ 28

    3.1.8. Software para minera de datos ____________________________ 59

    3.2. Caso prctico ___________________________________________ 62

    3.2.1. Descripcin del problema ________________________________ 62

  • 8/13/2019 Modelo Mono

    5/129

    v

    3.2.2. Justificacin___________________________________________ 66

    3.2.3. Alcances _____________________________________________ 67

    3.2.4. Finalidad del proyecto ___________________________________ 67

    3.2.5. Evaluacin de la situacin ________________________________ 68

    3.2.6. Determinacin de criterios de xito ________________________ 71

    3.2.7. Entendimiento de los datos _______________________________ 75

    3.2.8. Generacin de modelos __________________________________ 79

    3.2.9. Evaluacin de los resultados _____________________________ 102

    IV. CONCLUSIONES __________________________________________ 107

    V. RECOMENDACIONES ______________________________________ 109

    VI. BIBLIOGRAFA ___________________________________________ 111

    VII. ANEXOS _________________________________________________ 120

  • 8/13/2019 Modelo Mono

    6/129

    vi

    NDICE DE FGURAS

    Figura N 01. Etapas del descubrimiento de conocimientos. ............................. 15

    Figura N 02. Fases de la metodologa SEMMA. .............................................. 17

    Figura N 03. Metodologa SEMMA. ................................................................ 20

    Figura N 04. Fases de metodologa CRISP-DM. .............................................. 22

    Figura N 05. Interrelacin entre las fases de las metodologas SEMMA y

    CRISPDM. ........................................................................................................ 26

    Figura N 06. Comparacin de clculo de distancias. ........................................ 35

    Figura N 07. rbol de decisin. ....................................................................... 38

    Figura N 08. rbol de ramificacin "Clima General". ..................................... 47

    Figura N 09. rbol final. .................................................................................. 48

  • 8/13/2019 Modelo Mono

    7/129

    vii

    NDICE DE TABLAS

    Tabla 1. Diferencia Minera de datos vs. Estadstica ......................................... 13

    Tabla 3. Informacin de climas para ejemplo. ................................................... 42

    Tabla 4. Tabla de probabilidades del ejemplo. .................................................. 52

    Tabla 5. Software de minera y sus tcnicas. ..................................................... 62

    Tabla 6. Objetivos Especficos vs. Criterios de xito ........................................ 72

    Tabla 7. Actividades Plan de Proyecto (Continuacin) ..................................... 74

    Tabla 8. Tabla de Atributos de Clientes. ........................................................... 77

    Tabla 9. Evaluacin Algoritmo J48. ................................................................ 103

    Tabla 10. Evaluacin del Algoritmo REPTree ................................................ 105

  • 8/13/2019 Modelo Mono

    8/129

    1

    RESUMEN

    El presente trabajo enfatiza el uso de la tecnologaData Mining (extraccin de

    informacin til o no evidente de grandes bases de datos)para el descubrimiento

    del conocimiento y su uso predominante en el nivel empresarial, a fin de

    contribuir en la toma de decisiones tcticas y estratgicas en una organizacin.

    Se parte definiendo Qu es Data Mining?, objetivos y caractersticas, fases

    para generar un proyecto, principales tcnicas que utiliza, y se termina indicando

    sus principales mbitos de aplicacin.

    Finalmente, se presenta el caso: Aplicacin de minera de datos para

    determinar clientes con riesgo crediticio, que permite analizar informacin

    relativa a clientes y su entorno, el mismo que se ha convertido en fuente de

    prevencin de riesgos crediticios durante el otorgamiento de crditos.

  • 8/13/2019 Modelo Mono

    9/129

    1

    I. INTRODUCCIN

    La Minera de Datos es una herramienta til y con creciente demanda en el

    mercado y consiste esencialmente en el proceso de extraccin, transformacin y

    anlisis de datos, con el fin de obtener conocimiento de los mismos.

    En sus inicios la minera de datos solo era utilizada en empresas dedicadas al

    anlisis de los datos con un campo de estudio muy especfico, sin embargo hoy en

    da la penetracin en todos los mbitos comerciales es muy significativa. Da con

    da ms empresas utilizan este proceso con el fin de conocer ms a sus clientes,

    dar un mejor servicio, identificar las reas de oportunidad, todo con el fin de ser

    ms competentes en el mercado.

    El presente trabajo tiene como objetivo introducir y guiar al lector al estudio

    de la minera de datos, mediante aplicaciones y ejemplos prcticos. Utilizando las

    tcnicas ms conocidas y las diferentes soluciones respecto a software que ofrecen

    las empresas lderes en este ramo.

  • 8/13/2019 Modelo Mono

    10/129

    2

    El capitulo dos se citan los objetivos planteados para el desarrollo de este

    proyecto, tanto objetivo general como objetivos especficos.

    En el captulo tres se refiere a la historia de la minera de datos, se citan

    diferentes definiciones de la minera de datos. Se menciona la diferencia entre la

    minera de datos y la estadstica, las etapas y proceso para el descubrimiento de

    conocimiento a partir de un conjunto de datos, se citan las metodologas ms

    usuales de la minera de datos: la metodologa SEMMA y CRISP-DM. Se

    mencionan algunas tcnicas ms usuales de la minera de datos:

    rboles de decisin.

    Redes Neuronales.

    Clustering o agrupamiento.

    Series temporales.

    Redes bayesianas.

    As tambin, se citan algunos software que contienen utilidades para

    preprocesamiento, clasificacin, agrupamiento, visualizacin, etctera; algunos de

    estos de uso libre. Se detalla los ms usuales como: Data Engine, Enterprise

    Miner, Clementine y Weka.

  • 8/13/2019 Modelo Mono

    11/129

    3

    Por ltimo, se define el problema para el caso asignado, se da a conocer los

    antecedentes del mismo, se justifica la necesidad, se determina el alcance del

    proyecto a desarrollar y se presenta un caso prctico de aplicacin de minera de

    datos haciendo uso de la Herramienta Weka, que genera un modelo y lo prueba

    clasificando los datos en un rbol de decisin, indicando el grado de certeza

    obtenido, el cual nos permite la clasificacin de clientes con riesgo crediticio.

    Finalmente, se da a conocer las conclusiones y recomendaciones a las cuales

    se llega al trmino del desarrollo del presente tema.

  • 8/13/2019 Modelo Mono

    12/129

  • 8/13/2019 Modelo Mono

    13/129

    5

    Clasificar a una persona que solicita un crdito en cliente moroso o cliente

    pagador.

    Generacin de un rbol de decisin basado en un algoritmo clasificatorio.

  • 8/13/2019 Modelo Mono

    14/129

    6

    III. DESARROLLO DEL TEMA

    3.1.Fundamento terico

    3.1.1.Qu es minera de datos?

    Existen varias definiciones de minera de datos, a continuacin se

    mencionaran algunas:

    Definicin 1. Minera de datos es el proceso por el cual generamos un

    modelo, que sirva para la prediccin, este modelo se genera con base en

    los datos que se encuentran en una base de datos aplicndoles algn

    algoritmo que construya el modelo.

    Definicin 2. La minera de datos es un proceso no trivial de

    identificacin vlida, novedosa, potencialmente til y entendible de

    patrones comprensibles que se encuentran ocultos en los datos (Vieria,

    Ortiz, & Ramirez, 2009, p.11).

  • 8/13/2019 Modelo Mono

    15/129

  • 8/13/2019 Modelo Mono

    16/129

  • 8/13/2019 Modelo Mono

    17/129

    9

    Las agrupaciones (encontrar y documentar visualmente grupos de

    hechos anteriormente desconocidos, como ubicacin geogrfica y las

    preferencias de marca).

    Los pronsticos (el descubrimiento de patrones a partir de los

    cuales se hacen predicciones en relacin con las actividades futuras,

    tales como, la prediccin de que las personas que pertenecen a un

    club de atletismo tome clases de ejercicio).

    Las principales caractersticas y objetivos de la minera de datos son:

    Explorar los datos para encontrar informacin valiosa que est

    oculta dentro de las grandes bases de datos.

    El entorno de la minera de datos suele tener una arquitectura cliente

    servidor, es decir la informacin se encuentra en un servidor con

    accesos restringidos y las consultas se hacen por medio de otra

    aplicacin independiente.

    Las herramientas de minera de datos ayudan a explotar los datos con

    los que se cuenta, para encontrar patrones, crear predicciones,

    etctera. La informacin obtenida a travs de la minera de datos

    ayuda a los usuarios a elegir cursos de accin y a definir estrategias

    competitivas, porque conocen informacin qu slo ellos emplean.

  • 8/13/2019 Modelo Mono

    18/129

    10

    Explorar, a menudo implica el descubrimiento de resultados

    valiosos e inesperados.

    Debido a la gran cantidad de datos, algunas veces resulta necesario

    usar procesamiento en paralelo para la minera de datos.

    La minera de datos es un proceso que invierte la dinmica del

    mtodo cientfico, el cual consiste en formular una hiptesis y luego se

    disea el experimento para confirmarla o refutarla; y en minera de datos

    primero se disea y realiza el experimento y finalmente se obtiene el

    nuevo conocimiento.

    3.1.2.Limitaciones de minera de datos

    Las limitaciones de la minera de datos son los primeros datos o

    datos puros, y no tanto la tecnologa o herramientas para el anlisis, es

    decir depende mucho de la limpieza de los datos y de la definicin de

    las variables, si los datos no estn correctos el modelo creado no

    servir. Del mismo modo la validez de los patrones descubiertos

    depende de cmo se apliquen al mundo real o a las circunstancias.

  • 8/13/2019 Modelo Mono

    19/129

    11

    3.1.3.Diferencias entre minera de datos y estadstica

    La minera de datos como enfoque para el anlisis y descubrimiento

    de la informacin o conocimiento a realizar en grandes bases de datos

    combina tcnicas como: Estadstica (anlisis factorial, discriminante,

    regresivo, de correlaciones), redes neuronales, sistemas expertos o

    basados en el conocimiento, sistemas de reglas de induccin, lgica

    difusa, algoritmos genticos, algoritmos matemticos (teora de

    fractales y del caos, simulacin).

    El uso de metodologas estadsticas y de minera de datos a veces

    suelen confundirse entre ellas.

    La minera de datos se presenta como una disciplina nueva, ligada a

    la Inteligencia Artificial y diferenciada de la Estadstica. Por otro lado,

    en el mundo estadstico ms acadmico, la minera de datos ha sido

    considerada en su inicio como una moda ms, conocida desde haca

    tiempo bajo el nombre de data fishing. sta conlleva la promesa de

    exploracin y el encuentro de relaciones subyacentes en los datos, por

    tanto se dice que la esencia de la minera de datos se encuentra en la

    posibilidad del descubrimiento de informacin insospechada, pero

  • 8/13/2019 Modelo Mono

    20/129

    12

    sumamente valiosa, esto significa que la minera de datos es

    exploratoria y las reas de la estadstica son confirmatorias (confirmar

    hiptesis).

    Con la estadstica se hacen manipulaciones de datos de manera

    directa; en minera de datos no es as, se necesita una serie de algoritmos

    numricos. Otra diferencia entre estadstica y minera de datos es que a la

    minera no le concierne la seleccin de la informacin y en la estadstica

    es cuestin fundamental el cmo seleccionar la muestra de la mejor

    manera, de tal forma que sea representativa de la poblacin, la minera de

    datos supone que los datos ya han sido recolectados y se aboca al

    descubrimiento de informacin o patrones.

    En la tabla 1 se muestran las caractersticas de la estadstica y la

    minera de forma comparativa para visualizar las diferencias entre

    ambas.

  • 8/13/2019 Modelo Mono

    21/129

    13

    Tabla 1. Diferencia Minera de datos vs. Estadstica

    Minera de Datos Estadstica Clsica

    Trabaja sobre grandes bases dedatos.

    Trabaja sobre muestras definidas.

    Los datos vienen dados, no procedende una experimentacin previa, son

    oportunistas.

    En muchas ocasiones los datosproceden de estudios prediseados.

    Hay multitud de valores noinformados e inconsistentes.

    Los datos estn depurados y nopresentan anomalas.

    Las variables siguen distribuciones noinvestigadas en la estadstica. Las variables siguen distribucionesestudiadas (normales, binomiales).Para predecir un evento se disponende cientos de variables explicativas.

    El nmero de variables explicativas esmuy bajo, no es necesaria una

    seleccin previa.El objetivo es disponer de un modelo

    que describa y prediga bien y consentido de negocio.

    El objetivo es obtener un modelo conalto rigor estadstico (usando

    contrastes de hiptesis, distribucionesestadsticas, etctera.).

    Las hiptesis son establecidasdespus de tabular los datos y son

    pragmticamente analizadas.

    Establece hiptesis para serempricamente contrastadas.

    Fuente: Elaboracin propia basada en revisin documental.

    En conclusin en la estadstica se desarrolla una hiptesis y, a

    continuacin se usan los datos para probar o refutar la hiptesis. La

    eficacia de este enfoque se ve limitado por la creatividad del usuario a

    desarrollar diversas hiptesis, as como la estructura del software que

    sea utilizado.

    En contraste, la minera de datos utiliza un enfoque de

    descubrimiento, en los algoritmos que son usados para examinar varias

    relaciones en bases de datos multidimensionales de manera simultnea,

    identificar a aquellos que se presentan con frecuencia.

  • 8/13/2019 Modelo Mono

    22/129

    14

    3.1.4.Minera de datos y KDD

    La minera de datos revela patrones o asociaciones que son

    desconocidos para el usuario, por sta razn, entra o se asocia con el

    contexto de Knowledge Discovery in Database (KDD) o

    descubrimiento de conocimientos en las bases de datos. ste trmino

    es originado de la Inteligencia Artificial (Al).

    Qu es conocimiento? Desde el punto de vista de las

    organizaciones, se define el conocimiento como aquella informacin

    que permite generar acciones asociadas a satisfacer las demandas del

    mercado, y apoyar las nuevas oportunidades a travs de la explotacin

    de las competencias centrales de la organizacin. El conocimiento es

    una combinacin de valores, informacin contextualizada y

    experiencias que proporcionan un marco para evaluar e incorporar

    nuevas experiencias e informacin. En las organizaciones, el

    conocimiento reside en documentos y bases de datos y tambin en los

    procesos, prcticas y normas corporativas.

  • 8/13/2019 Modelo Mono

    23/129

    15

    Figura N 01. Etapas del descubrimiento de conocimientos.

    Ntese que el proceso de minera de datos es solo una etapa del proceso de extraccindel conocimiento a partir de datos (KDD).

    Fuente: Elaboracin propia basada en revisin documental.

    La figura 1 muestra las etapas del descubrimiento de conocimientos.

    Segn Perz y Santn (2007, p. 4-5), el proceso de descubrimiento de

    conocimiento en bases de datos involucra varios pasos:

    a. Seleccin de datos. Es la primera etapa para extraer conocimiento,

    se define la fuente de datos a analizar y esto depende del objetivo

    del estudio, se parte de una pregunta o hiptesis. Los atributos o

    campos seleccionados son significativos para el conocimiento que

    se desea obtener, en cuanto al nmero de registros, a veces es

    suficiente realizar el anlisis sobre un subconjunto o muestra.

    b. Pre-procesar la informacin. sta etapa tiene por objetivo preparar

    los datos para que sean sometidos a la etapa siguiente del proceso.

    Dentro de las tcnicas para realizar el preprocesamiento cabe

    mencionar: limpieza de datos, a fin de remover ruido e

    inconsistencias ya que estos datos nos llevan a un modelo errneo;

    Informacin

    Datos

    Modelo

    Conocimiento

    Seleccin Preprocesado

    Transformacin

    de Informacin

    Minera de

    DatosEvaluacin

  • 8/13/2019 Modelo Mono

    24/129

    16

    integracin de datos, para generar un nico almacn de datos

    coherente en aquellos casos donde los datos provienen de diferentes

    fuentes; transformaciones de datos, para normalizarlos; y

    reduccin de datos, a fin de reducir el tamao de los datos, por

    ejemplo, eliminando caractersticas redundantes.

    c. Transformacin de la informacin. sta es la que insume mayor

    tiempo, aproximadamente el 60% del esfuerzo total; ya que es

    necesario tener el conocimiento del negocio, as como el objetivo

    del proyecto o hacia donde se quiere llegar.

    d. Patrones. Antes de comenzar con sta etapa, se define el tipo de

    conocimiento que se desea obtener, a partir de ste se elige la

    tcnica y finalmente el algoritmo. La minera tiene diferentes

    objetivos como predictivo (estimacin de valores futuros o

    desconocidos de variables de inters a partir de otras variables

    independientes) o descriptivo (identificacin de patrones en los

    datos que los explican o resumen).

    e. Conocimiento. Una vez que se tenga el modelo de minera de datos,

    se da un informe de los resultados obtenidos por medio de

    presentaciones, reportes, cuadros comparativos, graficas, etctera.

    Para evaluar si los resultados son los esperados.

  • 8/13/2019 Modelo Mono

    25/129

    17

    3.1.5.Metodologas de minera de datos

    Dentro de las principales metodologas utilizadas por los analistas

    en los proyectos de minera de datos se tiene:

    A. Metodologa SEMMA

    Segn Matignon (2005), SAS Institute desarrollador de sta

    metodologa, la define como el proceso de seleccin, exploracin y

    modelado de grandes cantidades de datos para descubrir patrones de

    negocio desconocidos (p. 233). El nombre de sta metodologa

    corresponde a sus letras inciales en ingls: Sample (Muestreo),

    Explore (Exploracin), Modify (Manipulacin), Model (Modelado)

    y Asses (Valoracin).

    Figura N 02. Fases de la metodologa SEMMA.Fuente: Elaboracin propia basada en revisin documental.

    Como se observa en la figura 2 el proceso se inicia con la

    extraccin de la poblacin muestral sobre la que se va a aplicar el

    Muestreo

    (SAMPLE)

    Exploracin

    (EXPLORE)

    Manipulacin

    (MODIFY)

    Modelado

    (MODEL)

    Valoracin

    (ASSES)

  • 8/13/2019 Modelo Mono

    26/129

    18

    anlisis. El objetivo de sta fase consiste en seleccionar una muestra

    representativa del problema en estudio.

    La metodologa establece que para cada muestra considerada para

    el anlisis del proceso asocia el nivel de confianza de la muestra. Una

    vez determinada una muestra o conjunto de muestras representativas

    de la poblacin en estudio, la metodologa indica que se procede a una

    exploracin de la informacin disponible con el fin de simplificar el

    problema y optimizar la eficiencia del modelo. Para lograr este

    objetivo se propone la utilizacin de herramientas de visualizacin

    de tcnicas estadsticas que ayuden a poner de manifiesto relaciones

    entre variables.

    La tercera fase de la metodologa consiste en la manipulacin

    de los datos, con los resultados de la exploracin realizada, de

    forma que se definan y tengan el formato adecuado de los datos que

    sern introducidos en el modelo.

    Una vez que se han definido las entradas del modelo, con el

    formato adecuado para la aplicacin de la tcnica de modelado, se

    procede al anlisis y modelado de los datos. El objetivo de sta fase

  • 8/13/2019 Modelo Mono

    27/129

    19

    consiste en establecer una relacin entre las variables explicativas y

    las variables objetivo, que posibiliten inferir el valor de las mismas

    con un nivel de confianza determinado.

    Las tcnicas utilizadas para el modelado de los datos incluyen

    mtodos estadsticos tradicionales (tales como anlisis

    discriminante, mtodos de agrupamiento, y anlisis de regresin),

    as como tcnicas basadas en datos tales como redes neuronales,

    tcnicas adaptativas, lgica difusa, rboles de decisin, reglas de

    asociacin y computacin evolutiva.

    Finalmente, la ltima fase del proceso consiste en la valoracin

    de los resultados mediante el anlisis de bondad del modelo o

    modelos, contrastado con otros mtodos estadsticos o con nuevas

    poblaciones mustrales. En la figura 3 se observa un esquema de la

    dinmica general de la metodologa.

  • 8/13/2019 Modelo Mono

    28/129

    20

    Figura N 03. Metodologa SEMMA.

    Fuente: Elaboracin propia basada en revisin documental.

    En conclusin, la metodologa consiste en los siguientes pasos:

    tomar los datos o una muestra en caso de que la cantidad de datos sea

    muy grande, se exploran, modifican, modelan y se evalan en el

    modelo o los modelos resultantes para elegir el ms adecuado.

    B. Metodologa CRISP-DM

    CRISP-DM es una organizacin europea creada por tres grandes

    jugadores en proyectos de minera de datos que son SPSS, NCR y

  • 8/13/2019 Modelo Mono

    29/129

    21

    Daimler Chrysler. Lo que trata sta metodologa es desarrollar los

    proyectos de minera de datos bajo un proceso estandarizado de

    definicin y validacin de tal forma que se desarrollen proyectos

    minimizando los costos que impliquen y con un alto impacto en el

    negocio.

    La metodologa CRISP-DM proporciona dos documentos

    distintos como herramienta de ayuda en el desarrollo del proyecto

    de minera de datos: el modelo de referencia y la gua del usuario.

    El documento del modelo de referencia describe de forma

    general las fases, tareas generales y salidas de un proyecto de

    minera en general.

    La gua del usuario proporciona informacin ms detallada

    sobre la aplicacin prctica del modelo de referencia a proyectos de

    minera de datos especficos, proporcionando consejos y listas de

    comprobacin sobre las tareas correspondientes a cada fase.

    Segn Gallardo (2000), la metodologa CRISP-DM estructura

    el ciclo de vida de un proyecto de minera de datos en seis fases, que

  • 8/13/2019 Modelo Mono

    30/129

    22

    interactan entre ellas de forma iterativa durante el desarrollo del

    proyecto (p. 4).

    Figura N 04. Fases de metodologa CRISP-DM.

    Fuente: Elaboracin propia basada en revisin documental.

    En la figura 4, las flechas indican relaciones ms habituales entre

    las fases, aunque podamos establecer relaciones entre cualquier fase.

    El crculo exterior simboliza la naturaleza cclica del proceso de

    modelado.

    La primera fase anlisis del problema, incluye la comprensin

    de los objetivos y requerimientos del proyecto desde una perspectiva

  • 8/13/2019 Modelo Mono

    31/129

    23

    empresarial, con el fin de convertirlos en objetivos tcnicos y en una

    planificacin.

    La segunda fase de anlisis de datos comprende la recoleccin

    inicial de datos, en orden a que se establezca un primer contacto con

    el problema, identificando la calidad de los datos y estableciendo las

    relaciones ms evidentes que permitan establecer las primeras

    hiptesis. Una vez realizado el anlisis de datos, la metodologa

    establece que se proceda la preparacin de los datos, de tal forma que

    sean tratados por las tcnicas de modelado. La preparacin de datos

    incluye las tareas generales de seleccin de datos a los que se va a

    aplicar la tcnica de modelado (variables y muestras), limpieza de los

    datos, generacin de variables adicionales, integracin de diferentes

    orgenes de datos y cambios de formato.

    La fase de preparacin de los datos, se encuentra muy

    relacionada con la fase de modelado. Independientemente de la

    tcnica de modelado, los datos necesitan ser procesados en

    diferentes formas. Por lo tanto las fases de preparacin y modelado

    interactan de forma sistemtica.

  • 8/13/2019 Modelo Mono

    32/129

    24

    En la fase de modelado se seleccionan las tcnicas de modelado

    ms apropiadas para el proyecto de minera de datos especfico.

    En la fase de evaluacin se evala el modelo escogido, no desde

    el punto de vista general, sino del cumplimiento de los objetivos del

    negocio. Se revisa el proceso teniendo en cuenta los resultados

    obtenidos, para repetir alguna fase en caso que se hayan cometido

    errores. Si el modelo generado es vlido en funcin de los criterios

    de xito establecidos en la primera fase y de la precisin del mismo,

    se procede al despliegue de ste en caso se requiera.

    La fase de explotacin es en la cual se muestra el resumen de

    evaluacin de los resultados, las relaciones y patrones encontrados

    para que stos sean utilizados en la traza de estrategias y toma de

    decisiones.

    C. Comparacin de Metodologas

    Las metodologas SEMMA y CRISP-DM comparten la misma

    esencia, estructurando el proyecto de minera de datos en fases que

  • 8/13/2019 Modelo Mono

    33/129

    25

    se encuentran interrelacionadas entre s, convirtiendo el proceso en

    iterativo e interactivo.

    La metodologa SEMMA se centra ms en las caractersticas

    tcnicas del desarrollo del proceso, mientras que la metodologa

    CRISP-DM, mantiene una perspectiva ms amplia respecto a los

    objetivos empresariales del proyecto. sta diferencia se establece ya

    desde la primera fase del proyecto de minera de datos donde la

    metodologa SEMMA comienza realizando un muestreo de datos,

    mientras que la metodologa CRISP-DM comienza realizando un

    anlisis del problema empresarial para su transformacin en un

    problema. Entonces la metodologa CRISP-DM est ms cercana al

    concepto real de proyecto, integrada con una Metodologa de

    Gestin de Proyectos especfica que completara las tareas

    administrativas y tcnicas.

    Otra diferencia significativa entre la metodologa SEMMA y la

    metodologa CRISP-DM radica en su relacin con herramientas

    comerciales. La metodologa SEMMA slo es abierta en sus

    aspectos generales ya que est muy ligada a los productos SAS

    donde se encuentra implementada. Por su parte la metodologa

  • 8/13/2019 Modelo Mono

    34/129

  • 8/13/2019 Modelo Mono

    35/129

    27

    3.1.6.Aplicaciones de la minera de datos

    La minera de datos se utiliza para varios pronsticos tanto en el

    sector pblico como privado, industrias como la banca, los seguros, la

    medicina, para la reduccin de costos, mejorar la investigacin, y

    aumentar las ventas (Ordoez, 2008, p. 11-15).

    Por ejemplo, las industrias de seguros y banca, usan aplicaciones de

    minera de datos para detectar el fraude y ayuda a la evaluacin del

    riesgo (credit scoring). Utilizando los datos de clientes recabados a lo

    largo de varios aos, las empresas desarrollan modelos que predicen si

    un cliente tienen alto riesgo crediticio (por ejemplo hoy en da se cuenta

    con el bur de crdito), o si un crdito es fraudulento y tiene que ser

    investigado ms a fondo.

    As tambin, la comunidad mdica a veces utiliza a la minera de

    datos para ayudar a predecir la eficacia de un procedimiento o

    medicamento. Las empresas farmacuticas usan la minera de datos de

    compuestos qumicos y material gentico para ayudar a guiar la

    investigacin en nuevos tratamientos para las enfermedades.

  • 8/13/2019 Modelo Mono

    36/129

    28

    3.1.7.Tcnicas de la minera de datos

    Segn Moreno, Quintales, Garcia y Polo (2001, p. 2),la minera de

    datos ha dado lugar a una paulatina sustitucin del anlisis de datos por

    un enfoque de anlisis de datos. La principal diferencia entre ambos se

    encuentra en que en el ltimo se descubre informacin sin necesidad de

    formular previamente una hiptesis. La aplicacin automatizada de

    algoritmos de minera de datos permite detectar fcilmente patrones en

    los datos, razn por la cual esta tcnica es mucho ms eficiente que el

    anlisis dirigido a la verificacin cuando se intenta explorar datos

    procedentes de repositorios de gran tamao y complejidad elevada.

    Segn Gutierrez (2010, p. 1), las tareas de la minera de datos se

    clasifican en:

    a. Predictivas: Estimacin de valores futuros o desconocidos de

    variables de inters (variables objetivo) a partir de otras variables

    independientes (predictivas). El objetivo de las tareas predictivas es

    generar modelos que me permitan realizar predicciones para nuevos

    ejemplos de datos. Por ejemplo el anlisis de ventas cruzadas, que

    descubre qu objetos tienden a ser comprados juntos para crear

  • 8/13/2019 Modelo Mono

    37/129

  • 8/13/2019 Modelo Mono

    38/129

  • 8/13/2019 Modelo Mono

    39/129

  • 8/13/2019 Modelo Mono

    40/129

    32

    datos bien para anlisis muy en particular, por ejemplo, para el

    descubrimiento de fraudes.

    B. Agrupamiento (Clustering)

    El anlisis de grupos (cluster) consiste en la divisin de los

    datos en grupos de objetos similares. Cuando se representan la

    informacin obtenida a travs de clusters se pierden algunos detalles

    de los datos, pero a la vez se simplifica dicha informacin.

    El agrupamiento de acuerdo a la similitud es una tcnica muy

    poderosa, la clave para esto es trasladar alguna medida intuitiva de

    similitud dentro de una medida cuantitativa.

    El objetivo es agrupar elementos en grupos de manera que los

    elementos dentro de un mismo grupo sean lo ms parecidos,

    mientras que elementos de distintos grupos sean lo ms diferentes

    (Vega, 2012, p. 2).

  • 8/13/2019 Modelo Mono

    41/129

    33

    La obtencin de dichos grupos depende del criterio o distancia

    considerados. Por ejemplo, una baraja de cartas espaolas se podra

    dividir de distintos modos:

    En cuatro grupos (los cuatro palos).

    En ocho grupos (los cuatro palos y segn sean figuras o

    nmeros).

    En dos grupos (figuras y nmeros).

    El agrupamiento presenta las siguientes etapas del anlisis:

    Eleccin de las variables: Los tipos de variables dependern del

    planteamiento del problema, stas son: variables cualitativas,

    ordinales (grado de estudio), nominales (grupo), variables

    cuantitativas, variables discretas (nmero de alumnos), variables

    continuas (estaturas).

    Eleccin de la medida de asociacin o similitud: En realidad,

    es bastante subjetivo el hecho de elegir una medida de similitud

    ya que depende de las escalas de medida. Las observaciones se

    agrupan segn la similitud expresada en trminos de una

    distancia.

  • 8/13/2019 Modelo Mono

    42/129

  • 8/13/2019 Modelo Mono

    43/129

    35

    obtiene mediante la ecuacin 3 (Rodriguez, lvarez, &

    Bravo, 2001, p. 47):

    )()()(),( 1 yxDCovyxyxsMahalanobi (3)

    Visualmente las distancias se observan en la figura 6.

    Figura N 06. Comparacin de clculo de distancias.

    Ntese que las lneas roja, azul y amarilla tienen la misma longitud(12 espacios). En la geometra Euclidiana, la lnea verde es el

    nico camino ms corto.Fuente: Elaboracin propia basada en revisin documental.

    Eleccin de las tcnicas de grupos: Existen diferentes tcnicas

    de grupo, la seleccin depender del resultado que se espera.

    Validacin de los resultados: Evaluar que tan bueno es el

    ajuste, es decir si el nmero de agrupaciones es el adecuado as

    como la contribucin de las variables al agrupamiento.

    Distancia Mahalanobis

  • 8/13/2019 Modelo Mono

    44/129

  • 8/13/2019 Modelo Mono

    45/129

  • 8/13/2019 Modelo Mono

    46/129

  • 8/13/2019 Modelo Mono

    47/129

    39

    cambio, si su antigedad es igual o mayor a 18 meses entonces el

    cliente es aceptado.

    Segn Bravo & Ruilova (2008, p. 2), se tienen los siguientes

    conceptos de la metodologa:

    o Entropa: Es la medida de la incertidumbre que hay en un

    sistema. Es decir, ante una determinada situacin, la

    probabilidad de que ocurra cada uno de los posibles

    resultados.

    o Ganancia de informacin: Es la diferencia entre la entropa de

    un nodo y la de uno de sus descendientes. Los atributos de

    prueba son seleccionados en base a una heurstica o medida

    estadstica.

    Segn Bravo y Ruilova (2008, p. 1), entre los algoritmos o

    tcnicas ms usuales se encuentra:

    o CART. Se basa en el lema "divide y vencers", son mtodos que

    construyen rboles binarios basados en el criterio de particin GINI

  • 8/13/2019 Modelo Mono

    48/129

    40

    y que sirven para clasificacin como para regresin. La poda se

    basa en una estimacin de la complejidad del error.

    El proceso general es:

    Paso 1. El nodo raz es dividido en subgrupos (dos o ms)

    determinados por la particin de una variable predictora

    elegida, generando nodos hijos.

    Paso 2. Los nodos hijos son divididos usando la particin de una

    nueva variable. El proceso recursivo se repite para los nuevos

    nodos hijos sucesivamente hasta que se cumpla alguna condicin

    de parada.

    Paso 3. Algunos de los nodos resultantes son terminales,

    mientras que otros nodos continan dividindose hasta llegar a

    un nodo terminal.

    Paso 4. En cada rbol se cumple la propiedad de tener un

    camino nico entre el nodo raz y cada uno de los dems nodos

    del rbol.

    o ID3. Propuesto por Quinlan en 1986, el ID3 es considerado el

    rbol de decisin ms simple, realiza divisiones sobre los

  • 8/13/2019 Modelo Mono

    49/129

  • 8/13/2019 Modelo Mono

    50/129

    42

    Tabla 3. Informacin de climas para ejemplo.

    Caso Clima_general Temperatura Humedad Viento Tipo_clase

    1 Soleado Caliente Alta No N

    2 Soleado Caliente Alta Si N

    3 Nublado Caliente Alta No P

    4 Lluvioso Templada Alta No P

    5 Lluvioso Fra Normal No P

    6 Lluvioso Fra Normal Si N

    7 Nublado Fra Normal Si P

    8 Soleado Templada Alta No N

    9 Soleado Fra Normal No P

    10 Lluvioso Templada Normal No P11 Soleado Templada Normal Si P

    12 Nublado Templada Alta Si P

    13 Nublado Caliente Normal No P

    14 Lluvioso Templada Alta Si N

    Fuente: Elaboracin propia.

    Analizando la informacin se ve que se tiene 9 con clase P y 5

    con clase N.

    Paso 1. Se calcula la informacin requerida para la clasificacin

    general con la ecuacin 4:

  • 8/13/2019 Modelo Mono

    51/129

  • 8/13/2019 Modelo Mono

    52/129

  • 8/13/2019 Modelo Mono

    53/129

    45

    Caliente p1= 2, n1= 2

    I (p1, n1)= (2/4) * log2 (2/4) (2/4) * log2 (2/4) =1

    Templada p2= 4 p1 = 4, n2= 2

    I (p2, n2)= (4/6) * log2 (4/6) (2/6) * log2 (2/6) = 0,918

    Fra p3= 3, n3=1

    I (p3, n3) = (3/4) * log2 (3/4) (1/4) * log2 (1/4) = 0,811

    Se calcula ahora la entropa del atributo temperatura.

    E (Temperatura)= [4*I(p1, n1)+6*(p2,n2)+4*l(p3,n3)]/14

    E (Temperatura)= [4 * (1)+ 6 * (0,918)+ 4 * (0,811)]/ 14 = 0,911

    Paso 6. Se calcula la ganancia.

    Ganancia (Temperatura) = 0,940E (Temperatura) = 0,029

    Ganancia (Temperatura) = 0,940 -0,911=0,029

    Paso 7. Ahora se contina con el atributo de humedad:

  • 8/13/2019 Modelo Mono

    54/129

    46

    Alta p1 = 3 , n1 = 4

    I (p1, n1) = (3/7) * log2 (3/7) (4/7) * log2 (4/7) = 0,985

    Normal p2= 6, n2=1

    I (p2, n2) = (6/7) * log2 (6 /7) (1/7) * log2 (1/7) = 0,591

    Paso 8. Se calcula su entropa.

    E (Humedad)= [7*I(p1, n1) + 7*I(p2,n2)] /14

    E (Humedad)= [7 * (0,985) + 7 * (0,591)] / 14 = 0,788

    Paso 9. Y finalmente su ganancia.

    Ganancia (Humedad) = 0,940E (Humedad) = 0,151

    Ganancia (Humedad)= 0,940-0,788=0,151

    Paso 10. Se hacen los clculos correspondientes para viento.

    Si p 1 = 3 , n1 = 3

    I (p1, n1) = (3/6) * log2 (3/6) (3/6) * log2 (3/6) = 0,1

    No p2= 6, n2= 2

    I (p2, n2) = (6/8) * log2(6/8) (2/8) * log2 (2/8) = 0,811

  • 8/13/2019 Modelo Mono

    55/129

  • 8/13/2019 Modelo Mono

    56/129

    48

    Paso 13. Este proceso se hace para cada nodo del rbol.

    Obteniendo un rbol final, como se observa en la figura 9:

    Figura N 09. rbol final.

    Fuente: Elaboracin propia basada en revisin documental

    o C4.5. Algoritmo que es la evolucin del ID3, presentado por

    Quinlan en 1993. Usa como criterio de separacin el radio de

    ganancia (gain ratio) o proporcin de ganancia. De esta manera se

    consigue evitar que las variables con mayor nmero de posibles

    valores salgan beneficiadas en la decisin. Permite trabajar con

    valores continuos para los atributos, separando los posibles

    resultados en dos ramas en funcin de un umbral. Los arboles son

    menos frondosos porque cada hoja no cubre una clase en particular

    sino una distribucin de clases (Piedra, 2005, p. 276).

  • 8/13/2019 Modelo Mono

    57/129

  • 8/13/2019 Modelo Mono

    58/129

    50

    El teorema de Bayes se presenta en la ecuacin 7 (Luceo &

    Gonzalez, 2004, p. 62):

    Entonces una red bayesiana es un grafo a cclico dirigido (GAD)

    tal que los nodos representan las variables del problema X =

    {X1,X2,..,Xn} y los arcos representan las dependencias

    probabilsticas, esto se representa en la ecuacin 8.

    P = {p(X1|pa(X1)),...p(Xn|pa(Xn))} (8)

    Es un conjunto de n distribuciones de probabilidad

    condicionada, una para cada variable, siendo pa(Xi) el conjunto de

    padres del nodo en el grafo D. Donde adems el clculo de la

    probabilidad conjunta del problema se obtiene mediante el producto

    de los elementos representado en la ecuacin 9, tal que:

    ))(()(1

    i

    n

    I

    i XpaxpxP

    (9)

    P* ( Y) = P( Y | X) =(P(X|Y)P(Y) (7)

    P(X)

  • 8/13/2019 Modelo Mono

    59/129

    51

    Con las redes bayesianas se hacen predicciones para problemas

    multiclase, en los cuales hay varios resultados posibles. Por

    ejemplo, se construye un modelo para averiguar si un cliente en una

    organizacin o empresa ser fiel o cambiar de proveedores.

    Como ejemplo de una red bayesiana se tiene que: A la salida de

    un congreso de 50 personas de 3 universidades distintas (23,18, 9)

    nos encontramos un profesor entonces se desea:

    a. Probabilidad de que sea de la tercera universidad?

    b. Y si es de Economa Cul sera?

    Se cuenta con la siguiente informacin:

    Congreso con 50 personas de 3 universidades (23,18, 9)

    1a. 30% Ciencias, 40% de Ingenieras, 25% humanidades y

    5% Economa.

    2a.25% Ciencias, 35% Ingenieras, 30% Humanidades y

    10% Economa.

    3a. 20% Ciencias, 50% Ingenieras, 10% Humanidades y

    20% Economa.

  • 8/13/2019 Modelo Mono

    60/129

    52

    Solucin:

    c. Se calcula la prioridad a priori: P(x) =9/50 = 0,18 = 18%.

    d. Se disea en la tabla 4: (x = universidad |y = especialidad)

    Tabla 4. Tabla de probabilidades del ejemplo.

    P(y|x) x^1 x^2 x^3

    y^c 0,3 0,25 0,2

    Y^i 0,4 0,35 0,5

    Y^h 0,25 0,3 0,1

    Y^e 0,05 0,1 0,2

    Fuente: Elaboracin propia.

    Aplicando Bayes, ecuacin 3, se tiene:

    x

    e

    e

    e

    xyPxP

    xyPxPyxPxP

    )(*)(

    )(*)()()(

    3

    33

    33

    (0,18*0,20)/(0,46*0,05+0,36*0,10+0,18*0,20) = 0,0379 = 37,9%

    E. Redes neuronales

    Una red neuronal es un sistema de procesadores paralelos

    conectados entre s en forma de grafo dirigido. Esquemticamente

    cada elemento de procesamiento (neuronas) de la red se representa

    como un nodo. Estas conexiones establecen una estructura

  • 8/13/2019 Modelo Mono

    61/129

    53

    jerrquica que tratando de emular la fisiologa del cerebro busca

    nuevos modelos de procesamiento para solucionar problemas

    concretos del mundo real (Flrez & Frnandez, 2008, p. 17).

    Lo importante en el desarrollo de la tcnica de las RNA o red

    neuronal artificial es su til comportamiento al aprender, reconocer

    y aplicar relaciones entre objetos y tramas de objetos propios del

    mundo real.

    Las entradas se representan por el vector de entrada x, y el

    rendimiento mediante el vector de pesos w, entonces el valor de

    salida es dado por aplicando la ecuacin 10:

    y = f ( i w i x i ) = f ( w , x ) = f ( w T x ) ( 1 0 )

    Donde f es la funcin de activacin. Cuando se tiene una red de

    neuronas, las salidas de unas se conectan con las entradas de otras.

    Si el peso entre dos neuronas es positivo, el efecto producido es de

    excitacin y si fuera negativo entonces es de inhibicin.

  • 8/13/2019 Modelo Mono

    62/129

    54

    El potencial de las redes neuronales proviene de la capacidad por

    proporcionar el empleo de muchas de stas unidades simples y

    robustas al actuar en paralelo.

    Segn Sanchz (2009, p. 285), las redes neuronales tienen dos

    fases principales de operacin: aprendizaje o entrenamiento,

    recuerdo o ejecucin o prueba.

    Durante el entrenamiento se aplican "ejemplos", generalmente

    un conjunto de datos conocidos que definen una solucin conocida,

    que mediante una regla de aprendizaje modifican los diferentes

    pesos de cada neurona en funcin de cmo difiera la respuesta de la

    red de la solucin esperada. Los valores de estos pesos representan

    el grado de conocimiento. El entrenamiento concluye cuando el

    margen de error entre la salida de la red y la salida real es aceptable.

    Despus, en la fase de ejecucin, se aplican nuevos datos con

    solucin desconocida y se espera que la red est preparada para dar

    una solucin verdadera con lo aprendido durante el entrenamiento.

    Generalmente en esta fase cesa el aprendizaje, por lo que no se

    modifican los pesos.

  • 8/13/2019 Modelo Mono

    63/129

  • 8/13/2019 Modelo Mono

    64/129

  • 8/13/2019 Modelo Mono

    65/129

  • 8/13/2019 Modelo Mono

    66/129

    58

    pronstico, se le asigna el mayor peso, y este peso disminuye en los

    valores de datos ms antiguos.

    o Suavizamiento exponencial: El suavizamiento exponencial

    emplea un promedio ponderado de la serie de tiempo pasada como

    pronstico; es un caso especial del mtodo de promedios mviles

    ponderados en el cual slo se selecciona un peso o factor de

    ponderacin: el de la observacin ms reciente.

    o Mtodos de pronstico ARIMA (Au toregressive I ntegrated

    Moving Average): usan patrones de datos, sin embargo a veces

    no son tan fcilmente visibles en la serie de tiempo. El modelo

    usa funciones de diferencias, auto correlacin y auto correlacin

    parcial para ayudar a identificar un modelo aceptable. El Modelo

    ARIMA se utiliza para modelar series de tiempo con o sin

    componentes de tendencia o estacionalidad y proporcionar

    pronsticos. El perfil de pronstico depende del modelo de

    ajuste. Tiene la ventaja de ser ms flexible que los mtodos de

    suavizamiento para el ajuste de los datos, sin embargo la

    identificacin del modelo adecuado consume tiempo y no es tan

    fcil automatizado.

  • 8/13/2019 Modelo Mono

    67/129

  • 8/13/2019 Modelo Mono

    68/129

    60

    bases de datos. Cuenta con una variedad de herramientas de anlisis,

    herramientas de bodegas de datos y algoritmos mltiples de minera

    de datos (Sarma, 2007, p. 1-2).

    o DataEngine: Es una herramienta para el anlisis inteligente de

    datos, es un producto de la empresa alemana MIT (Managment

    Intelligenter Technologien GmbH), algunos de sus clientes son

    BMW, Mercedes Benz o Deutsche Telecom. DataEngine funciona

    mediante el uso de redes neuronales, lgica difusa y mtodos

    estadsticos proporcionando las tcnicas ms avanzadas para el

    anlisis de datos.

    o Oracle Datamining:Es una herramienta de Oracle. Se accede a toda

    la funcionalidad minera de datos a travs de la API Java que

    incluye la base de datos, de manera que las aplicaciones puedan

    sacar el mximo partido de las funciones disponibles. Al estar

    integrado en la base de datos, Oracle Data Minig simplifica el

    proceso de extraccin de conclusiones basadas en grandes

    cantidades de datos, ya que se elimina la necesidad de movimientos

    de datos para el proceso de anlisis. Pero es una desventaja cuando

    se trabaja con otras bases como DB2, SQL Server.

    Existen varias aplicaciones de uso libre, siendo las ms usadas:

  • 8/13/2019 Modelo Mono

    69/129

  • 8/13/2019 Modelo Mono

    70/129

    62

    En la tabla 5 se muestra la lista del software comercial de ms uso

    con sus tecnicismos usuales para minera de datos.

    Tabla 5. Software de minera y sus tcnicas.

    Algoritmos/

    Software

    rboles

    deDecisin EstadsticaBayes

    Reglas deInduccin

    Series

    de

    Tiempo

    Descubrim.

    secuencial

    K Means

    (K-medias) Reglas deAsociacinMapa de

    Kohonen

    Clementine X x x x x x

    Enterprise

    MinerX x x x x x

    Intelligent X x x x x x

    Fuente: Elaboracin propia basada en revisin documental.

    3.2.Caso prctico

    3.2.1.Descripcin del problema

    A. Antecedentes

    Tomar mejores decisiones de negocios rpidamente es la llave

    para el xito en el mercado competitivo que se vive actualmente.

    Comprendiendo esto, las empresas estn buscando mejorar sus

    sistemas de toma de decisiones ya que pueden ser rebasados por el

  • 8/13/2019 Modelo Mono

    71/129

    63

    volumen y la complejidad de los datos disponibles provenientes de

    sus sistemas de produccin y transaccionales. El permitir que todos

    estos datos estn disponibles para toda la audiencia a lo largo de la

    empresa es hoy por hoy uno de los retos ms significativos para los

    profesionales involucrados en las tecnologas de informacin.

    A lo largo del tiempo en el desarrollo de sistemas, se ha tratado

    de dar solucin a esa necesidad intrnseca de la Alta Gerencia de

    poseer la informacin de manera resumida o digerida, que le permita

    en un vistazo corto y rpido, darse cuenta de todo lo que pasa en los

    sistemas transaccionales de los niveles bajos de la empresa, sin

    embargo, esto ya no es suficiente, ya que actualmente se requiere

    conocer lo que sucede en todos y cada uno de los procesos tanto

    crticos como triviales que se dan lugar en una empresa, ya que es el

    conocimiento de stos lo que da una visin clara de lo que ocurre en

    ella. Buscando la administracin de se conocimiento tan importante

    en nuestros das, surge una de las opciones que se han

    implementado para cubrir sta necesidad de las empresas, que es lo

    que se conoce desde hace tiempo como Data Warehouse (DWH), el

    cual, es el proceso de extraer datos de diferentes sistemas,

    funciones, y lugares de la empresa, agregando, filtrando,

  • 8/13/2019 Modelo Mono

    72/129

    64

    resumiendo, estandarizando, transformando y clarificando los datos

    extrados e integrarlos despus en una base consolidada.

    Cada vez ms investigaciones dentro de la inteligencia artificial

    estn enfocadas a la induccin de conocimiento en bases de datos.

    Consecuencia de esta creciente necesidad ha aparecido un nuevo

    campo de inters: la minera de datos (data mining), que incluye

    nuevos mtodos matemticos, herramientas y tcnicas para el

    anlisis inteligente de datos.

    Con esto, cada vez podemos aprovechar ms la tecnologa

    disponible para conocer mejor a los clientes a fin de discriminar los

    buenos de los malos prospectos al otorgar un crdito. Una de las

    necesidades ms importantes de las entidades financieras es contar

    con criterios confiables para determinar a quin y de que monto

    debe otorgarse un crdito; de ah la razn por la que es importante

    tener un instrumento con el cual medir el riesgo que se corre al

    otorgar un crdito y poder reducir lo ms posible este riesgo al

    aceptar nuevos clientes.

  • 8/13/2019 Modelo Mono

    73/129

    65

    B. Formulacin del problema

    La Caja Arequipa, es una Entidad Financiera, creada con el

    objetivo estratgico de constituirse en un elemento fundamental de

    descentralizacin financiera y democratizacin del crdito, su

    cobertura no slo es a las micro empresas urbanas sino tambin

    rurales, otorgando as crditos a ms de 10000 clientes en menos de

    4 aos.

    En la actualidad se encuentra inaugurando nuevas agencias en

    diversas ciudades del Per, y si bien es cierto que se ha dado curso

    de capacitacin intensiva a los nuevos ejecutivos de crditos, stos

    no cuentan con la experiencia en el campo requerida por lo que

    surge el temor de que se otorguen crditos de forma desmedida a

    clientes con un perfil de riesgo muy alto.

    Es por eso que se plantea la siguiente pregunta Cmo se puede

    ayudar a los nuevos ejecutivos de crditos para minimizar el

    otorgamiento de crditos a clientes con riesgo crediticio?

  • 8/13/2019 Modelo Mono

    74/129

    66

    Con el desarrollo de este proyecto se quiere evitar el riesgo

    crediticio que es la posibilidad de que la entidad incurra en prdidas

    y se disminuya el valor de sus activos, como consecuencia de que

    sus deudores o contraparte fallen en el cumplimiento oportuno o

    cumplan imperfectamente los trminos acordados en los contratos

    de crdito

    3.2.2.Justificacin

    Algo peor que no tener informacin disponible, es tener mucha

    informacin y no saber qu hacer con ella. La aplicacin de Data

    mining es la solucin a ese problema, pues por medio de dicha

    informacin podemos generar escenarios, pronsticos y reportes que

    apoyen a la toma de decisiones de la Alta Gerencia, como ventaja

    competitiva de una empresa.

    La clave para Data mining es la informacin y uno de sus mayores

    beneficios es la posibilidad de utilizarla en la toma de decisiones en las

    distintas reas de la empresa, tales como, crditos, marketing, etc.

  • 8/13/2019 Modelo Mono

    75/129

  • 8/13/2019 Modelo Mono

    76/129

  • 8/13/2019 Modelo Mono

    77/129

  • 8/13/2019 Modelo Mono

    78/129

    70

    tanto solo habr restricciones de registros que no sean necesarios

    para generar el anlisis, y se descartarn para una mejor compresin

    de la informacin.

    Es por eso que se desea aprovechar los datos almacenados en

    cuatro aos para poder definir reglas de clasificacin y poder

    predecir el riesgo que un potencial cliente puede tener.

    E. Riesgos

    El Riesgo siempre se encuentra presente en un proyecto, si bien

    se ha tratado de eliminar a travs de un proceso de limpieza y

    estandarizacin de la informacin, el principal riesgo para este

    proyecto es que no se encuentren los resultados esperados al generar

    un modelo de datos muy lejano de la realidad o incomprensible para

    la mayora de colaboradores de la empresa y que por lo tanto no se

    pueda lograr una buena interpretacin de los datos para la mejor

    toma de decisiones.

  • 8/13/2019 Modelo Mono

    79/129

  • 8/13/2019 Modelo Mono

    80/129

    72

    Tabla 6. Objetivos Especficos vs. Criterios de xito

    Objetivos Especficos Criterio de xito

    Minimizar los porcentajes de

    morosidad en los crditos que se

    otorguen a clientes en las zonas

    donde se inauguren nuevas agencias

    Etiquetar a los clientes como

    buenos o malos, permitir a los

    ejecutivos evaluar con mayor

    precisin la capacidad de pago

    para el crdito solicitado.Ayudar a resaltar aquellas debilidades

    u obstculos que ser necesario

    corregir y vencer para alcanzar los

    objetivos estratgicos, en el tiempo

    propuesto y con los recursos

    disponibles

    Los resultados de calificacin de

    clientes obtenidos, permitir a los

    ejecutivos de crditos lograr

    cumplir sus metas de

    colocaciones.

    Mantener un proceso continuo de

    calificacin y recalificacin de las

    operaciones crediticias.

    La retroalimentacin para el

    proceso de recalificacin ser en

    base a como un clienteetiquetado a travs del tiempo en

    el sistema financiero.

    Clasificar a una persona que solicita

    un crdito en cliente moroso o cliente

    pagador.

    El 100% de las personas

    solicitantes de un crdito sean

    etiquetadas como cliente moroso

    o como cliente pagador despus

    de la aplicacin del rbol de

    decisin.

    Generacin de un rbol de decisin

    basado en un algoritmo clasificatorio.

    Obtener un modelo predictivo con

    una certeza mayor o igual al 70%.

    Fuente: Elaboracin propia.

  • 8/13/2019 Modelo Mono

    81/129

    73

    B. Plan de Proyecto

    En la tabla 7 se procede a detallar las actividades que se

    desarrollaron como parte del presente proyecto.

    Tabla 7. Actividades Plan de Proyecto

    N Actividades Recursos

    Entrada Producto Dependencia

    1 Reunin con elGerente de TI y eladministrador dela BD.

    - - -Objetivos delproyecto

    -

    2 Definicin de

    requerimientos,restricciones yriesgos.

    -Evaluacin de

    la situacin

    1

    3 Definicin de losobjetivos DataMining concriterios de xito.

    Objetivos delproyecto

    -Listado deObjetivos y susrespectivoscriterios de xito

    2

    4 Reunin con eladministrador dela BD y el jefe decrditos.

    Listado deObjetivos deData Mining

    -Base de datosde los crditosotorgados

    3

    5 Estudio junto conel jefe de crditosde los atributos atomar en cuentaen un primermomento para lageneracin delmodelo.

    -BD

    -PC

    -Excel

    Base de datosde los crditosotorgados

    -Atributos parala generacindel archivo arff

    4

    Fuente: Elaboracin propia.

  • 8/13/2019 Modelo Mono

    82/129

    74

    Tabla 7. Actividades Plan de Proyecto (Continuacin)

    N Actividades Recursos Entrada Producto Dependencia

    6 Preparacin de losdatos para lageneracin delarchivo arff.

    -BD

    -PC

    -Excel

    -Notepad++

    -WEKA

    -Atributosseleccionados

    -Archivo .arff 5

    7 Reunin paradeterminar quealgoritmos utilizar.

    -PC

    -archivoarff

    -Atributosseleccionados

    -Algoritmos parala generacindel rbol dedecisin

    6

    8 Reunin con jefede crditos paradeterminaratributos a utilizarpara la generacin

    del modelo dedatos

    -PC

    -Excel

    -Archivo .arff

    -Algoritmos parageneracin derbol de

    decisin

    -Atributos msrelevantes

    7

    9 Generacin delrbol de decisin.

    -PC

    -Archivoarff

    -Weka

    -Algoritmosseleccionados

    -Atributos

    - rbol dedecisin.

    -Evaluacinestadstica delmodelorealizada porWEKA

    8

    10 Estudio yvalidacin de la

    evaluacinestadstica delmodelo realizadapor WEKA.

    -PC

    -Archivoarff

    -Weka

    - rbol dedecisin

    -Evaluacinestadstica delmodelo segnWEKA

    -Modelo dedatos validado

    9

    Fuente: Elaboracin propia.

  • 8/13/2019 Modelo Mono

    83/129

    75

    3.2.7.Entendimiento de los datos

    A. Conocimiento

    Para poder ayudar al nuevo personal de la institucin financiera,

    se desea extraer el conocimiento a partir de los datos almacenados

    en varias bases de datos, en s el conocimiento es el poder predecir

    si una persona que solicita un crdito podr devolverlo o no.

    B. Tarea

    La tarea a realizar es la clasificacin de los clientes, es una

    tarea de tipo predictiva ya que lo que se quiere es clasificar a un

    cliente como un cliente de riesgo o un cliente buen pagador al que se

    le puede otorgar crditos con seguridad de ser recuperados.

    C. Tcnica

    Para poder predecir si un cliente puede o no cancelar un crdito,

    se debe generar un conjunto de reglas predictivas en forma de

    rboles de decisin, se eligi esta tcnica porque lo que se quiere es

    que el personal de la institucin y no solamente el departamento de

    sistemas pueda comprender un modelo de datos sencillo.

  • 8/13/2019 Modelo Mono

    84/129

    76

    D. Algoritmo

    Considerando la herramienta WEKA disponible y segn los

    datos almacenados, hemos utilizado los algoritmos clasificadores

    J48yREPtree, ya que estos utilizan un solo atributo de tipo discreto

    que sirve para la prediccin que se le denomina variable objetivo.

    E. Recoleccin Inicial de los Datos

    Se obtuvieron un total de 15000 registros de los diferentes

    crditos otorgados en los aos 2005, 2006, 2007 y 2008, en los

    datos se les aplic el siguiente formato:

    Para las fechas se aplic el formato: AAAA-mm-dd.

    Para los valores numricos, se aplic el formato 9999,99 sin

    utilizar comillas.

    Para los valores de tipo string o discretos se revis que no

    tuvieran espacios y si algn valor tena 2 o ms palabras se

    unieron con un subguin, esto para simplificar el archivo arff ya

    que si un valor es compuesto debe ir entre comillas.

  • 8/13/2019 Modelo Mono

    85/129

    77

    En la tabla 8 se describe los principales atributos utilizados de la

    data de Clientes.

    Tabla 8. Tabla de Atributos de Clientes.

    Atributo Descripcin

    CUENTA Nmero de pagar

    CODIGO_CLIENTECdigo del cliente a quien se le otorg

    el crdito

    INGRESO_MENSUAL Ingreso bruto mensual del cliente

    ACTIVIDAD_ECONOMICAActividad econmica en la que se

    desempea el cliente

    TIPO_CREDITOTipo de crdito otorgado (normal,

    recurrente, paralelo, plus)

    DESCRIPCION_CREDITOSi es agrcola, pyme, para consumo,

    comercial, hipotecario.

    ANALISTA Analista que otorg el crdito

    FECHA_APROBACION Fecha de aprobacin del crdito

    TASA_INTERES Tasa de inters mensual pactada

    CAPITAL_PAGADO Capital cancelado por el cliente

    CAPITALMonto total prestado al cliente (no

    incluye intereses)

    TOTAL_CANCELADO

    Indica si se cancel el ntegro del

    crdito (SI/NO)

    La descripcin que corresponde a los atributos de esta tabla fue extrada desu diccionario de datos.Fuente: Base de Datos Caja Arequipa; Elaboracin propia.

    Se elimin un 13% aproximadamente del total de los registros

    obtenidos ya que tenan datos errneos o valores nulos.

  • 8/13/2019 Modelo Mono

    86/129

    78

    F. Criterios de Seleccin

    Teniendo ya definido qu algoritmos se van a utilizar para la

    generacin del modelo predictivo, se requiri la ayuda del jefe de

    crditos de la institucin junto con l se definieron los atributos ms

    relevantes.

    La herramienta WEKA permite modificar y escoger los atributos

    que el usuario considere conveniente, se gener el archivo

    crditos.arff, de los datos a ser utilizados para la generacin del

    modelo, se consideraron los siguientes atributos:

    Total_cancelado (variable objetivo): Variable de tipo discreto,

    describe si el crdito fue cancelado o no en su totalidad, los

    valores que puede tomar es {SI, NO}.

    Ingreso_mensual: Variable de tipo real, describe el ingreso

    promedio mensual del cliente.

    Actividad_economica: Variable de tipo discreto, describe la

    actividad econmica a la que se dedica el cliente que solicit el

    crdito, puede tomar los valores:

    {ADMINISTRACION_PUBLICA, AGRICULTURA_GANADERIA,

    ARTESANIA, COMERCIO, CONSTRUCCION, ENSENIANZA,

  • 8/13/2019 Modelo Mono

    87/129

    79

    HOGARES_PRIV_CON_SERV,

    HOSPEDAJE_Y_ALIMENTACION, INDUSTRIA,

    INMOBILIARIAS_EMP, INTERMEDIACION_FINANCIERA,

    MINERIA, PESQUERIA, SERV_OTROS, SERV_SOC_Y_SALUD,

    TRANSPORTE}.

    Tipo_credito: Variable de tipo discreto, describe el tipo de

    crdito que solicit el cliente, puede tomar los valores: {normal,

    paralelo, plus, recurrente}.

    Tasa_interes: Variable de tipo real, describe el porcentaje de

    inters otorgado a un crdito en un mes.

    Capital: Variable de tipo real, describe el monto que se prest al

    cliente.

    3.2.8.Generacin de modelos

    Utilizando la herramienta WEKA Explorer aplicamos la validacin

    simple y no la validacin cruzada porque disponemos de 15000

    registros los cuales hemos considerado como un conjunto grande de

    ejemplos.

  • 8/13/2019 Modelo Mono

    88/129

  • 8/13/2019 Modelo Mono

    89/129

    81

    | | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | CAPITAL 1350: SI (42,0/18,0)| | | | | | | TASA_INTERES > 1,6: NO (8,0)| | | | | TASA_INTERES > 1,65| | | | | | TASA_INTERES 2,9| | | | | | | TIPO_CREDITO = normal: NO (16,0/7,0)| | | | | | | TIPO_CREDITO = paralelo| | | | | | | | CAPITAL 2250| | | | | | | | | CAPITAL 3700: SI (3,0)| | | | | | | TIPO_CREDITO = plus: SI (0,0)| | | | | | | TIPO_CREDITO = recurrente: NO (38,0/16,0)| | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION: SI (0,0)| | | | ACTIVIDAD_ECONOMICA = ENSENIANZA| | | | | TIPO_CREDITO = normal: SI (1,0)| | | | | TIPO_CREDITO = paralelo: NO (2,0)| | | | | TIPO_CREDITO = plus: NO (0,0)| | | | | TIPO_CREDITO = recurrente| | | | | | INGRESO_MENSUAL 2362,5: NO (2,0)| | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV: SI (0,0)| | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION| | | | | INGRESO_MENSUAL 2520| | | | | | CAPITAL 2400| | | | | | | TIPO_CREDITO = normal| | | | | | | | TASA_INTERES 2,5: SI (15,0/5,0)| | | | | | | TIPO_CREDITO = paralelo| | | | | | | | TASA_INTERES 3,1: NO (2,0)| | | | | | | TIPO_CREDITO = plus: SI (0,0)| | | | | | | TIPO_CREDITO = recurrente| | | | | | | | CAPITAL 3550: NO (14,0/2,0)| | | | ACTIVIDAD_ECONOMICA = INDUSTRIA| | | | | CAPITAL 1507,3| | | | | | TIPO_CREDITO = normal

  • 8/13/2019 Modelo Mono

    90/129

    82

    | | | | | | | TASA_INTERES 2,2| | | | | | | | TASA_INTERES 2,9: NO (2,0)| | | | | | TIPO_CREDITO = paralelo| | | | | | | TASA_INTERES 2,2: NO (8,0/2,0)| | | | | | TIPO_CREDITO = plus: NO (0,0)| | | | | | TIPO_CREDITO = recurrente: NO (34,0/13,0)| | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP: SI (117,0/40,0)| | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA: SI (0,0)| | | | ACTIVIDAD_ECONOMICA = MINERIA: SI (2,0/1,0)| | | | ACTIVIDAD_ECONOMICA = PESQUERIA| | | | | TIPO_CREDITO = normal| | | | | | INGRESO_MENSUAL 2362,5: SI (6,0/1,0)| | | | | TIPO_CREDITO = paralelo: NO (3,0)| | | | | TIPO_CREDITO = plus: NO (0,0)| | | | | TIPO_CREDITO = recurrente: NO (4,0/1,0)| | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | TASA_INTERES 2| | | | | | TASA_INTERES 3,2| | | | | | | CAPITAL 3650: NO (22,0/7,0)| | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD| | | | | TASA_INTERES 3: NO (19,0/8,0)

    | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE: NO (36,0/9,0)| | | INGRESO_MENSUAL > 5040: SI (862,0/209,0)

  • 8/13/2019 Modelo Mono

    91/129

    83

    | | CAPITAL > 4858,94| | | CAPITAL

  • 8/13/2019 Modelo Mono

    92/129

  • 8/13/2019 Modelo Mono

    93/129

    85

    AGRICULTURA_GANADERIA: SI (1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA: SI (1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO| | | | | | | | | | | INGRESO_MENSUAL 7770: SI (37,0/11,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION: NO (0,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA: NO (0,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV:NO (0,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA =HOSPEDAJE_Y_ALIMENTACION| | | | | | | | | | | INGRESO_MENSUAL 8610: SI (4,0/1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA: SI (6,0/1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP: SI(4,0/1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA =INTERMEDIACION_FINANCIERA: NO (0,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA: NO (1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA: NO (4,0/1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | | | | | | | TASA_INTERES 1,9| | | | | | | | | | | | TASA_INTERES 1,95: SI (82,0/34,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD: NO

    (0,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE: NO (0,0)| | | | | | | | | INGRESO_MENSUAL > 16275: SI (46,0/2,0)| | | | | | | | CAPITAL > 15900: NO (161,0/45,0)| | | | | TASA_INTERES > 2,25| | | | | | TASA_INTERES 2,7| | | | | | | TASA_INTERES 3,2

  • 8/13/2019 Modelo Mono

    94/129

    86

    | | | | | | | | INGRESO_MENSUAL 12075| | | | | | | | | INGRESO_MENSUAL 20475: SI (12,0)| | | | INGRESO_MENSUAL > 21630| | | | | TASA_INTERES 1,8: SI (175,0/28,0)| | | CAPITAL > 20600| | | | TASA_INTERES 2,8| | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA: SI (0,0)| | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA: SI (1,0)| | | | | ACTIVIDAD_ECONOMICA = ARTESANIA: SI (0,0)| | | | | ACTIVIDAD_ECONOMICA = COMERCIO: SI (81,0/32,0)

    | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION: SI (0,0)| | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA: NO (1,0)| | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV: SI (0,0)| | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION| | | | | | INGRESO_MENSUAL 32865: SI (2,0)| | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA: SI (4,0/2,0)| | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP: NO (2,0)| | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA: SI(0,0)| | | | | ACTIVIDAD_ECONOMICA = MINERIA: NO (1,0)| | | | | ACTIVIDAD_ECONOMICA = PESQUERIA: NO (3,0/1,0)| | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS

    | | | | | | INGRESO_MENSUAL 38850: SI (3,0/1,0)

  • 8/13/2019 Modelo Mono

    95/129

    87

    | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD: SI (0,0)| | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE: SI (0,0)| TASA_INTERES > 3,3| | INGRESO_MENSUAL 5145| | | CAPITAL 7400: SI (16,0/2,0)TASA_INTERES > 3,5| TASA_INTERES 3,7: SI (3519,0/847,0)Number of Leaves : 231Size of the tree : 361

    Time taken to build model: 0,92 seconds

  • 8/13/2019 Modelo Mono

    96/129

    88

    ALGORITMO REPTREE=== Run information ===

    Scheme: weka.classifiers.trees.REPTree -M 2 -V 0.0010 -N 3 -S 1 -L -1Relation: creditos-weka.filters.unsupervised.attribute.Remove-R1-6,8,11-15,17-21Instances: 13118

    Attributes: 6INGRESO_MENSUALACTIVIDAD_ECONOMICATIPO_CREDITOTASA_INTERESCAPITALTOTAL_CANCELADO

    Test mode: evaluate on training data

    === Classifier model (full training set) ===

    REPTree============

    TASA_INTERES < 3,55| TASA_INTERES < 3,4| | CAPITAL < 4879,47| | | INGRESO_MENSUAL < 4777,5| | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : SI (1/0)[1/0]| | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI (21/5)[15/6]| | | | ACTIVIDAD_ECONOMICA = ARTESANIA| | | | | CAPITAL < 2500 : SI (3/1) [2/0]| | | | | CAPITAL >= 2500 : NO (5/0) [0/0]| | | | ACTIVIDAD_ECONOMICA = COMERCIO| | | | | CAPITAL < 1645| | | | | | INGRESO_MENSUAL < 1627,5

    | | | | | | | TIPO_CREDITO = normal| | | | | | | | CAPITAL < 1100 : SI (62/23) [28/15]| | | | | | | | CAPITAL >= 1100 : NO (34/12) [14/6]| | | | | | | TIPO_CREDITO = paralelo : SI (31/6) [18/7]| | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | | | TIPO_CREDITO = recurrente : SI (102/33) [53/21]| | | | | | INGRESO_MENSUAL >= 1627,5 : SI (176/33) [71/14]| | | | | CAPITAL >= 1645| | | | | | TASA_INTERES < 2,9| | | | | | | INGRESO_MENSUAL < 3158,51 : SI (353/138) [202/63]| | | | | | | INGRESO_MENSUAL >= 3158,51| | | | | | | | CAPITAL < 2400 : SI (21/0) [14/4]| | | | | | | | CAPITAL >= 2400

    | | | | | | | | | CAPITAL < 3375 : SI (43/9) [16/6]| | | | | | | | | CAPITAL >= 3375

  • 8/13/2019 Modelo Mono

    97/129

    89

    | | | | | | | | | | TIPO_CREDITO = normal : NO (23/9) [17/6]| | | | | | | | | | TIPO_CREDITO = paralelo : SI (32/8) [14/5]| | | | | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | | | TASA_INTERES < 2,1 : SI (12/3) [9/5]| | | | | | | | | | | TASA_INTERES >= 2,1| | | | | | | | | | | | INGRESO_MENSUAL < 4252,5 : SI (45/20) [21/5]| | | | | | | | | | | | INGRESO_MENSUAL >= 4252,5 : NO (8/3) [4/1]| | | | | | TASA_INTERES >= 2,9 : NO (31/10) [12/5]| | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (0/0) [0/0]| | | | ACTIVIDAD_ECONOMICA = ENSENIANZA| | | | | INGRESO_MENSUAL < 2362,5 : SI (2/1) [1/0]| | | | | INGRESO_MENSUAL >= 2362,5 : NO (2/0) [2/1]| | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0) [0/0]| | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION| | | | | CAPITAL < 3950| | | | | | INGRESO_MENSUAL < 2572,5| | | | | | | TIPO_CREDITO = normal| | | | | | | | INGRESO_MENSUAL < 1155 : NO (8/1) [4/2]| | | | | | | | INGRESO_MENSUAL >= 1155| | | | | | | | | CAPITAL < 1350 : SI (3/0) [1/0]| | | | | | | | | CAPITAL >= 1350 : NO (17/7) [10/4]| | | | | | | TIPO_CREDITO = paralelo : NO (8/1) [2/0]| | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | TIPO_CREDITO = recurrente : NO (39/18) [15/9]| | | | | | INGRESO_MENSUAL >= 2572,5| | | | | | | CAPITAL < 2450| | | | | | | | TIPO_CREDITO = normal : SI (6/0) [5/0]| | | | | | | | TIPO_CREDITO = paralelo| | | | | | | | | INGRESO_MENSUAL < 4147,5 : SI (10/1) [2/0]| | | | | | | | | INGRESO_MENSUAL >= 4147,5 : SI (3/2) [3/2]| | | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | | | | TIPO_CREDITO = recurrente : SI (8/2) [5/2]| | | | | | | CAPITAL >= 2450 : SI (55/22) [28/13]| | | | | CAPITAL >= 3950| | | | | | TIPO_CREDITO = normal : NO (2/0) [2/1]

    | | | | | | TIPO_CREDITO = paralelo : SI (6/2) [1/0]| | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | TIPO_CREDITO = recurrente : NO (12/1) [0/0]| | | | ACTIVIDAD_ECONOMICA = INDUSTRIA| | | | | TASA_INTERES < 2,05 : SI (4/0) [6/2]| | | | | TASA_INTERES >= 2,05| | | | | | TASA_INTERES < 2,23| | | | | | | TIPO_CREDITO = normal : NO (3/0) [1/0]| | | | | | | TIPO_CREDITO = paralelo : SI (2/1) [1/0]| | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | TIPO_CREDITO = recurrente : NO (4/1) [3/1]| | | | | | TASA_INTERES >= 2,23 : SI (84/35) [48/22]| | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI (72/20) [44/19]

    | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI (0/0)[0/0]

  • 8/13/2019 Modelo Mono

    98/129

    90

    | | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (0/0) [2/1]| | | | ACTIVIDAD_ECONOMICA = PESQUERIA| | | | | TIPO_CREDITO = normal : SI (5/0) [4/3]| | | | | TIPO_CREDITO = paralelo : NO (2/0) [1/0]| | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | TIPO_CREDITO = recurrente : NO (3/1) [1/0]| | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | CAPITAL < 2875| | | | | | CAPITAL < 2550| | | | | | | INGRESO_MENSUAL < 4515| | | | | | | | TASA_INTERES < 2,03| | | | | | | | | TASA_INTERES < 1,95 : SI (56/16) [34/12]| | | | | | | | | TASA_INTERES >= 1,95| | | | | | | | | | INGRESO_MENSUAL < 3176,25| | | | | | | | | | | CAPITAL < 2050 : SI (55/24) [33/12]| | | | | | | | | | | CAPITAL >= 2050 : NO (14/5) [8/3]| | | | | | | | | | INGRESO_MENSUAL >= 3176,25 : SI (3/0) [0/0]| | | | | | | | TASA_INTERES >= 2,03 : SI (125/33) [67/12]| | | | | | | INGRESO_MENSUAL >= 4515 : NO (2/0) [2/0]| | | | | | CAPITAL >= 2550 : SI (8/0) [4/4]| | | | | CAPITAL >= 2875 : SI (189/89) [79/22]| | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD| | | | | TASA_INTERES < 2,05 : SI (10/0) [3/1]| | | | | TASA_INTERES >= 2,05| | | | | | CAPITAL < 2750 : SI (10/3) [3/1]| | | | | | CAPITAL >= 2750 : NO (9/3) [3/1]| | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (20/5) [16/4]| | | INGRESO_MENSUAL >= 4777,5| | | | CAPITAL < 1865 : SI (145/18) [79/13]| | | | CAPITAL >= 1865| | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : SI (0/0)[0/0]| | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI (1/0)[2/1]| | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : SI (1/0) [0/0]| | | | | ACTIVIDAD_ECONOMICA = COMERCIO

    | | | | | | TASA_INTERES < 1,25 : SI (14/0) [8/2]| | | | | | TASA_INTERES >= 1,25| | | | | | | TASA_INTERES < 1,8| | | | | | | | TASA_INTERES < 1,42 : SI (51/15) [15/6]| | | | | | | | TASA_INTERES >= 1,42 : NO (11/4) [5/2]| | | | | | | TASA_INTERES >= 1,8| | | | | | | | TIPO_CREDITO = normal : SI (27/2) [10/0]| | | | | | | | TIPO_CREDITO = paralelo : SI (97/23) [43/13]| | | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | CAPITAL < 3400| | | | | | | | | | TASA_INTERES < 2,55 : SI (30/2) [18/1]| | | | | | | | | | TASA_INTERES >= 2,55

    | | | | | | | | | | | INGRESO_MENSUAL < 5512,5| | | | | | | | | | | | CAPITAL < 2850 : SI (5/1) [0/0]

  • 8/13/2019 Modelo Mono

    99/129

  • 8/13/2019 Modelo Mono

    100/129

    92

    | | | | | | | | | | | TIPO_CREDITO = recurrente : SI (4/1) [1/0]| | | | | | | TASA_INTERES >= 1,73| | | | | | | | TASA_INTERES < 1,92| | | | | | | | | INGRESO_MENSUAL < 6615| | | | | | | | | | INGRESO_MENSUAL < 5827,5 : SI (90/26) [47/13]| | | | | | | | | | INGRESO_MENSUAL >= 5827,5| | | | | | | | | | | TIPO_CREDITO = normal : SI (18/3) [11/5]| | | | | | | | | | | TIPO_CREDITO = paralelo| | | | | | | | | | | | TASA_INTERES < 1,88| | | | | | | | | | | | | CAPITAL < 5800 : SI (7/1) [1/0]| | | | | | | | | | | | | CAPITAL >= 5800 : SI (3/2) [5/3]| | | | | | | | | | | | TASA_INTERES >= 1,88 : SI (27/2) [12/3]| | | | | | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | | | | | | | TIPO_CREDITO = recurrente : SI (35/9) [14/6]| | | | | | | | | INGRESO_MENSUAL >= 6615 : SI (11/0) [7/3]| | | | | | | | TASA_INTERES >= 1,92| | | | | | | | | INGRESO_MENSUAL < 6825| | | | | | | | | | TIPO_CREDITO = normal : SI (11/5) [9/4]| | | | | | | | | | TIPO_CREDITO = paralelo : NO (5/1) [0/0]| | | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | | | | TIPO_CREDITO = recurrente : NO (25/10) [10/3]| | | | | | | | | INGRESO_MENSUAL >= 6825 : SI (26/4) [6/1]| | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (1/1) [1/0]| | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : SI (3/1) [3/2]| | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0)[0/0]| | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION| | | | | | | INGRESO_MENSUAL < 9712,5| | | | | | | | TASA_INTERES < 1,73 : NO (4/0) [2/0]| | | | | | | | TASA_INTERES >= 1,73| | | | | | | | | TIPO_CREDITO = normal : SI (8/4) [2/0]| | | | | | | | | TIPO_CREDITO = paralelo : NO (12/3) [4/1]| | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | | | TIPO_CREDITO = recurrente : NO (16/7) [5/2]| | | | | | | INGRESO_MENSUAL >= 9712,5 : SI (4/0) [1/1]| | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA

    | | | | | | | TASA_INTERES < 1,73 : NO (5/0) [2/1]| | | | | | | TASA_INTERES >= 1,73 : SI (30/15) [8/3]| | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI (16/8) [6/3]| | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI(0/0) [0/0]| | | | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (2/1) [1/0]| | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : SI (4/1) [3/3]| | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | | | TASA_INTERES < 2,03| | | | | | | | INGRESO_MENSUAL < 5512,5| | | | | | | | | TASA_INTERES < 1,78 : SI (2/0) [2/0]| | | | | | | | | TASA_INTERES >= 1,78| | | | | | | | | | TIPO_CREDITO = normal : NO (6/1) [8/3]

    | | | | | | | | | | TIPO_CREDITO = paralelo : NO (2/0) [3/2]| | | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]

  • 8/13/2019 Modelo Mono

    101/129

    93

    | | | | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | | | INGRESO_MENSUAL < 5344,5| | | | | | | | | | | | TASA_INTERES < 1,98| | | | | | | | | | | | | TASA_INTERES < 1,92| | | | | | | | | | | | | | TASA_INTERES < 1,88 : SI (5/3) [4/3]| | | | | | | | | | | | | | TASA_INTERES >= 1,88 : SI (2/1) [1/0]| | | | | | | | | | | | | TASA_INTERES >= 1,92 : NO (21/8) [15/7]| | | | | | | | | | | | TASA_INTERES >= 1,98 : SI (2/1) [1/0]| | | | | | | | | | | INGRESO_MENSUAL >= 5344,5 : NO (4/1) [1/1]| | | | | | | | INGRESO_MENSUAL >= 5512,5 : SI (67/28) [28/13]| | | | | | | TASA_INTERES >= 2,03 : SI (18/1) [14/3]| | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : SI (2/1) [1/0]| | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [1/0]| | | | | CAPITAL >= 6050| | | | | | TASA_INTERES < 1,53| | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : NO(0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI(2/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO| | | | | | | | TASA_INTERES < 1,48| | | | | | | | | TASA_INTERES < 1,27| | | | | | | | | | INGRESO_MENSUAL < 50925 : NO (28/0) [20/1]| | | | | | | | | | INGRESO_MENSUAL >= 50925| | | | | | | | | | | CAPITAL < 13950 : NO (2/0) [1/0]| | | | | | | | | | | CAPITAL >= 13950 : SI (2/1) [1/0]| | | | | | | | | TASA_INTERES >= 1,27 : NO (21/7) [16/5]| | | | | | | | TASA_INTERES >= 1,48 : NO (20/0) [6/1]| | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : NO(0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION :NO (4/0) [1/0]| | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : NO (3/0) [2/1]

    | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : NO (10/2)[4/0]| | | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA :NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS : NO (11/0) [6/0]| | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : NO (0/0)[0/0]| | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [0/0]| | | | | | TASA_INTERES >= 1,53| | | | | | | INGRESO_MENSUAL < 23152,5| | | | | | | | TASA_INTERES < 1,88

    | | | | | | | | | TASA_INTERES < 1,73| | | | | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA

  • 8/13/2019 Modelo Mono

    102/129

    94

    : NO (0/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA: NO (4/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : NO (0/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO| | | | | | | | | | | TIPO_CREDITO = normal : SI (9/4) [2/1]| | | | | | | | | | | TIPO_CREDITO = paralelo : NO (16/1) [12/4]| | | | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | | | | CAPITAL < 8500 : NO (2/0) [1/1]| | | | | | | | | | | | CAPITAL >= 8500| | | | | | | | | | | | | CAPITAL < 15750| | | | | | | | | | | | | | CAPITAL < 10500| | | | | | | | | | | | | | | INGRESO_MENSUAL < 14700 : SI (31/16) [16/10]| | | | | | | | | | | | | | | INGRESO_MENSUAL >= 14700 : SI (7/1) [3/0]| | | | | | | | | | | | | | CAPITAL >= 10500 : NO (72/30) [29/8]| | | | | | | | | | | | | CAPITAL >= 15750 : NO (2/0) [2/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (2/1)[0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (1/0) [1/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV :NO (0/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA =HOSPEDAJE_Y_ALIMENTACION : NO (26/8) [9/3]| | | | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA| | | | | | | | | | | TIPO_CREDITO = normal : NO (2/0) [0/0]| | | | | | | | | | | TIPO_CREDITO = paralelo : NO (8/1) [0/0]| | | | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | | | | TASA_INTERES < 1,58 : NO (8/3) [5/0]| | | | | | | | | | | | TASA_INTERES >= 1,58 : SI (7/1) [1/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : NO(11/3) [6/2]| | | | | | | | | | ACTIVIDAD_ECONOMICA =INTERMEDIACION_FINANCIERA : NO (0/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (3/2) [3/2]

    | | | | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (1/0) [1/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | | | | | | | CAPITAL < 9250 : SI (2/0) [1/0]| | | | | | | | | | | CAPITAL >= 9250 : NO (16/3) [5/1]| | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : NO(0/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [0/0]| | | | | | | | | TASA_INTERES >= 1,73| | | | | | | | | | INGRESO_MENSUAL < 6825 : SI (4/2) [1/0]| | | | | | | | | | INGRESO_MENSUAL >= 6825 : NO (61/1) [30/2]| | | | | | | | TASA_INTERES >= 1,88| | | | | | | | | CAPITAL < 15950| | | | | | | | | | INGRESO_MENSUAL < 16485

    | | | | | | | | | | | ACTIVIDAD_ECONOMICA =ADMINISTRACION_PUBLICA : NO (0/0) [0/0]

  • 8/13/2019 Modelo Mono

    103/129

    95

    | | | | | | | | | | | ACTIVIDAD_ECONOMICA =AGRICULTURA_GANADERIA : SI (1/0) [0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : SI (1/0) [0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO| | | | | | | | | | | | INGRESO_MENSUAL < 15744,75| | | | | | | | | | | | | CAPITAL < 7400| | | | | | | | | | | | | | TASA_INTERES < 1,95 : SI (6/1) [3/1]| | | | | | | | | | | | | | TASA_INTERES >= 1,95 : NO (15/5) [4/0]| | | | | | | | | | | | | CAPITAL >= 7400 : SI (20/6) [7/2]| | | | | | | | | | | | INGRESO_MENSUAL >= 15744,75 : SI (3/0) [4/1]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : NO (0/0)[0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (0/0)[0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA =HOGARES_PRIV_CON_SERV : NO (0/0) [0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA =HOSPEDAJE_Y_ALIMENTACION : NO (2/0) [4/3]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : SI (2/0) [4/1]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI(0/0) [4/1]| | | | | | | | | | | ACTIVIDAD_ECONOMICA =INTERMEDIACION_FINANCIERA : NO (0/0) [0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : NO (0/0) [1/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (2/1) [2/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | | | | | | | | CAPITAL < 12350| | | | | | | | | | | | | INGRESO_MENSUAL < 12279,75| | | | | | | | | | | | | | CAPITAL < 9350| | | | | | | | | | | | | | | INGRESO_MENSUAL < 10027,5| | | | | | | | | | | | | | | | INGRESO_MENSUAL < 6709,5 : NO (7/1) [4/1]| | | | | | | | | | | | | | | | INGRESO_MENSUAL >= 6709,5| | | | | | | | | | | | | | | | | CAPITAL < 6850 : SI (10/2) [6/1]| | | | | | | | | | | | | | | | | CAPITAL >= 6850| | | | | | | | | | | | | | | | | | INGRESO_MENSUAL < 7360,5: SI (24/12)[6/0]

    | | | | | | | | | | | | | | | | | | INGRESO_MENSUAL >= 7360,5| | | | | | | | | | | | | | | | | | | INGRESO_MENSUAL < 8058,75 : NO (8/1)[14/6]| | | | | | | | | | | | | | | | | | | INGRESO_MENSUAL >= 8058,75| | | | | | | | | | | | | | | | | | | | CAPITAL < 7775 : SI (4/1) [1/0]| | | | | | | | | | | | | | | | | | | | CAPITAL >= 7775 : NO (30/12) [27/13]| | | | | | | | | | | | | | | INGRESO_MENSUAL >= 10027,5 : SI (11/1) [5/1]| | | | | | | | | | | | | | CAPITAL >= 9350 : NO (74/27) [50/18]| | | | | | | | | | | | | INGRESO_MENSUAL >= 12279,75 : SI (5