PRACTICA ARBOLES VISUAL.pdf

Embed Size (px)

Citation preview

  • Minera de Datos con

    Visual Studio

    2013

    ARBOLES DE DECISIN

    CRISTIAN ALMEIDA - DANILO ANATOA - DAMIAN CAMINO

    TOSHIBA

  • ARBOLES DE DECISIN - VISUAL STUDIO ANTECEDENTES El crecimiento explosivo de Internet y particularmente de la World Wide Web (WWW), ha hecho cada vez ms necesario para las instituciones y empresas utilizar herramientas automatizadas para encontrar, extraer, predecir, filtrar y evaluar los recursos de informacin disponibles. La minera de datos (data mining) ha sido definida como una metodologa para la identificacin de patrones no triviales vlidos, nuevos, comprensibles y potencialmente tiles posibles de extraer de un conjunto enorme de datos. INTRODUCCION

    Se propone y desarrolla una aproximacin de lo que son los Arboles de Decisin, para ello se emplea una

    metodologa que propone la construccin del repositorio de datos (extraccin, transformacin y

    transportacin de los datos) para posteriormente implementar un algoritmo Decisin_Trees que es un

    algoritmo para la clasificacin y la regresin que se incluye con Microsoft SQL Server Analysis Services para

    el modelado predictivo de ambos atributos discretos y continuos.

    Para los atributos discretos, el algoritmo hace predicciones basadas en las relaciones entre las columnas

    de entrada en un conjunto de datos. Los valores, conocidos como estados, estas columnas se utilizan para

    estimar los estados de una columna designada como de confianza. En particular, el algoritmo identifica las

    columnas de entrada relacionadas con la columna de prediccin. DESARROLLO Creando un Proyecto de Analysis Services Se crear un nuevo proyecto de Analysis Services para utilizar los algoritmos de Minera de Datos de SQL Server 2012, para ello utilizamos Microsoft Visual Studio y creamos un nuevo proyecto desde el men Archivo, en tipos de proyecto seleccione Business Intelligence Projects y escogemos la plantilla Proyecto multidimensional y de minera de datos.

  • Explorador de soluciones de Analysis Services

    El explorador de soluciones, que se encuentra a la derecha del diseo, proporciona un mecanismo para navegar entre el diseo y administrar los elementos de un proyecto. Existen 3 objetos bsicos para aplicar modelos de Minera:

    - Orgenes de datos. Con este objeto, se crea la conexin hacia nuestra fuente de datos en SQL Server.

    - Vistas del origen de datos. Permite seleccionar cules sern las tablas de datos para el modelo

    de Minera a partir del Origen de dato creado previamente. - Estructuras de minera de datos. Una vez creada las vistas del origen de datos se procede a

    utilizar un Wizard (Asistente) para aplicar un modelo de Minera a los datos de las tablas.

    Definiendo los Orgenes de los datos

    El primer paso para aplicar un modelo de minera es definir la conexin hacia la Base de Datos de Microsoft SQL Server donde se tienen los datos, para ello da clic derecho en el objeto Orgenes de Datos del Proyecto. Damos clic en nuevo origen de datos para crear una nueva conexin. El asistente nos orienta paso a paso en el proceso que define la conexin hacia la Base de Datos. Damos clic en el botn siguiente para continuar. Luego definir la conexin a los datos, por defecto el sistema selecciona la opcin crear un origen de datos basado en una conexin nueva, seleccionamos la opcin nuevo origen de datos El proveedor predeterminado para una conexin nueva es el proveedor OLE DB nativo o SQL Server Native Client

  • En la pgina Informacin de suplantacin, ponemos nombre de usuario y la contrasea, clic en Siguiente.

    Definiendo una vista del origen de datos

    Una vez que se define el Origen de datos, se seleccionan las tablas con los datos a los que se les va a aplicar el modelo de Minera con el objeto Vista del origen de datos. Para crear una vista de origen de datos Seleccionar la fuente de datos (Orgenes de Datos) donde estn las tablas o las vistas que se quieren usar. Se selecciona el Origen de Datos previamente creado que apunta hacia la Base de Datos Master y que tiene las tablas que se quieren usar en el modelo de Minera. Seleccionar las tablas que van a estar disponibles en las vistas de orgenes de datos para ser usadas en el mtodo de Minera.

  • Agregando una Estructura de Minera de Datos al Proyecto

    Mediante el anlisis de los atributos se espera detectar los patrones que posteriormente se aplicarn

    dependiendo el negocio.

    Se utilizar el Asistente para minera de datos con el fin de crear la estructura de minera de datos con un

    modelo sencillo.

    Las estructuras de Minera de datos se pueden basar en orgenes de datos relacionales o de procesamiento analtico en lnea (OLAP). Las estructuras de Minera de datos relacionales describen los datos que estn almacenados en sistemas de bases de datos relacionales. Las estructuras de Minera de datos OLAP se generan utilizando un cubo OLAP que existe en la misma base de datos que la estructura de Minera de datos.

    En la pgina Crear la estructura de minera de datos, en Qu tcnica de minera de datos desea utilizar?,

    seleccione rboles de Decisin Microsoft.

  • Generar un escenario

    El departamento de Tecnologas de informacin del CNT desea identificar las caractersticas de los clientes

    anteriores que podran indicar si es probable que estos clientes adquirieran servicios adicionales en sus

    paquetes de telefona en el futuro. En las bases de datos existe informacin demogrfica que describe los

    clientes anteriores. Mediante el anlisis de esta informacin a travs del algoritmo de rboles de decisin

    de Microsoft, el departamento de marketing puede generar un modelo que predice si un cliente va a

    adquirir servicios especficos, con base en los estados de las columnas de notas sobre ese cliente, tales

    como las relativas a la informacin la demografa o las tendencias de compra anteriores.

    El algoritmo de rboles de decisin de Microsoft utiliza la funcin de seleccin de atributos como una gua

    para la seleccin de los atributos ms tiles. El atributo de la seleccin de caractersticas es utilizado por

    todos los algoritmos de minera de datos de Analysis Services para mejorar el rendimiento y la calidad del

    anlisis. La funcin de seleccin de atributos es importante para evitar que los atributos no importantes

    para utilizar el procesador. Si utiliza un nmero excesivo de entrada o atributos de prediccin en el diseo

    de un modelo de minera de datos, el desarrollo del modelo puede llevar mucho tiempo o de la memoria

    puede ser insuficiente. Los mtodos utilizados para determinar si desea dividir el rbol incluyen las mtricas

    estndar de la industria para la entropa y redes bayesianas.

    Se muestra la ventana Explorador de soluciones de Visual Studio y en la ficha Estructura de minera del modelo de minera de datos que se cre en los pasos anteriores.

  • Implementacin del algoritmo de rboles de Decisin de Microsoft

    Para crear la estructura de minera y el modelo respectivo usamos los atributos: si el telfono usa internet,

    si usa el telfono para correo, la instruccin de educacin, edad, regin, sector, estado civil, rea y como

    dato de prediccin fue si la persona usa redes sociales en su telfono. El rbol que nos dio fue el siguiente:

    En este nos podemos dar cuenta que los casos para la prediccin de s, es que deben tener contratado paquete de internet y correo ya que estos fueron los datos de dependencia que ms influenciaron en este caso.

  • En cuanto al grfico de elevacin nos dio que nuestro modelo se encuentra en un alto grado de probabilidad ya que se encuentra bastante cerca del modelo ideal y sobre el modelo sin una estructura.

    En el grfico de beneficios se observa que hay que hacer nfasis en campaas de llamadas a los clientes para proponerles un plan de redes sociales que no supere el 80 % de la poblacin de estudio a la que vamos a realizar esta campaa, y que su valor de prediccin este sobre el 4,74 % de probabilidad de prediccin.

  • La matriz de clasificacin:

    La primera celda de resultados, que contiene el valor 651, indica el nmero de verdaderos positivos para el

    valor si. Dado que si indica que el cliente adquiri servicios de redes sociales en su telfono, esta estadstica

    indica que el modelo predijo el valor correcto para quienes adquirieron este servicio en 362 casos.

    La celda situada al lado de esa, que contiene el valor 55, indica el nmero de falsos positivos, o nmero de

    veces que el modelo predijo que alguien adquirira el servicio cuando en realidad no lo hizo.

    La celda que contiene el valor 10 indica el nmero de falsos positivos para el si. Dado que si significa que

    el cliente adquiri el servicio, esta estadstica indica que, en 10 casos, el modelo predijo que alguien no

    comprara una bicicleta cuando s lo hizo.

    Finalmente, la celda que contiene el valor 189 indica el nmero de verdaderos positivos para el valor de

    destino si. En otras palabras, en 189 casos el modelo predijo correctamente que alguien adquiriera el

    servicio.

    Sumando los valores de las celdas contiguas diagonalmente, se puede determinar la exactitud total del

    modelo. Una diagonal indica el nmero total de predicciones exactas y la otra indica el nmero total de

    predicciones errneas.

    Para tener un mayor enfoque realizamos una comparacin con el modelo de bayes en el cual nos dimos cuenta que toma ms atributos de dependencia para realizar el anlisis.

  • Es decir este modelo de Bayes nos da ms atributos que permiten analizar qu es lo que adems del paquete de internet y correo influyen en la adquisicin de un paquete de redes sociales.

    Aqu nos damos cuenta que los atributos que influyen para que un cliente adquiera el servicio de redes sociales en su telfono son: Tiene que tener contratado internet y correo, es de la regin costa, del litoral, y un nivel de instruccin universitaria. En esta grfica lo que hacemos es comparar ambos modelos.