ProyectoBDWekaV2

Embed Size (px)

Citation preview

  • 8/18/2019 ProyectoBDWekaV2

    1/28

  • 8/18/2019 ProyectoBDWekaV2

    2/28

    1

    CONTENIDO

    Introducción ......................................................................................................................................................................... 2 

    ¿Qué es la Minería de Datos? ............................................................................................................................................. 3 

    Aplicaciones de la Minería de Datos ................................................................................................................................ 3 

    TÉCNICAS DE MINERÍA DE DATOS .................................................................................................................................... 4 La minería de Datos y el proceso de descubrimiento de conocimiento en bases de datos. ........................................... 6 

    Propiedades Deseables del conocimiento extraído. .................................................................................................... 6 

    Proceso del KDD ........................................................................................................................................................... 6 

    Fases del proceso de extracción del conocimiento ..................................................................................................... 7 

    weka ..................................................................................................................................................................................... 8 

    HISTORIA ......................................................................................................................................................................... 8 

    Que es WEKA? .................................................................................................................................................................. 8 

    Archivos ARFF ............................................................................................................................................................... 8 Características .................................................................................................................................................................. 9 

    ¿Donde descargar WEKA? .............................................................................................................................................. 10 

    Interfaz del usuario ....................................................................................................................................................... 10 

    Herramientas de WEKA .................................................................................................................................................. 12 

    tenicas de analisis DE WEKA ......................................................................................................................................... 13 

    Selección de la fuente de datos ................................................................................................................................. 13 

    CLASIFICACIÓN DE DATOS, ÁRBOL DE DECISIÓN ....................................................................................................... 15 

    Manejando Asociaciones ............................................................................................................................................... 21 Uso de Cluster. ............................................................................................................................................................... 23 

    CONCLUSIONES .................................................................................................................................................................. 26 

    Bibliografía ......................................................................................................................................................................... 27 

  • 8/18/2019 ProyectoBDWekaV2

    3/28

    2

    INTRODUCCIÓN

    En la actualidad, debido a la gran cantidad de información que generamos y almacenamos día a día,el proceso de extracción de información útil requiere la aplicación de técnicas de análisis de datosautomáticas que sean capaces de procesar grandes volúmenes de información.

    Para ello debemos apoyarnos en herramientas tales como la minería de datos la cual se define como el proceso de aplicar metodologías basadas en algoritmos computacionales, conceptos estadísticos y deadministración para extraer conocimiento útil de grandes volúmenes de información.

    Sin embargo pese a la popularidad del término Minería de Datos, éste es solo una etapa del proceso deextracción de conocimiento que se compone de varias fases e incorpora diferentes técnicas de loscampos del aprendizaje automático, la estadística, las bases de datos, los sistemas de toma de decisión,la inteligencia artificial y otras áreas de la computación y de la gestión de la información; para ellocuenta con dos grandes rubros de tareas, descriptivas y predictivas. Las tareas descriptivas identifican patrones en los datos que los explican o resumen, mientras que las tareas predictivas estiman valoresfuturos de las variables de interés, a partir de otras variables independientes. Dentro de las tareas

    descriptivas se puede identificar al agrupamiento, asociación y correlación y dentro de las tareas predictivas se encuentran la regresión y la clasificación. Así mismo, las tareas de Minería de Datoscuentan con métodos para solucionar un determinado problema y cada método cuenta con diversosalgoritmos o técnicas.

    En la actualidad se cuenta con software que ayudan a este proceso y que facilitan el proceso deextracción de información que es importante, tal como WEKA que es una herramienta Gratuita queademás al estar escrita en java se puede incrementar en cuanto a sus capacidades de procesamiento.Esta herramienta se distribuye gratuitamente en http://www.cs.waikato.ac.nz/ml/weka/

    El objetivo del presente trabajo es definir en primera instancia a que se refiere el término Minería deDatos, y la aplicación de este a través del Software WEKA, mismo que será abordado de maneraconceptual, en algunas de sus interfaces.

    http://www.cs.waikato.ac.nz/ml/weka/http://www.cs.waikato.ac.nz/ml/weka/

  • 8/18/2019 ProyectoBDWekaV2

    4/28

    3

    ¿QUÉ ES LA MINERÍA DE DATOS?

    En  (Clark P., 2000), se define la minería de datos como el proceso de extraer conocimiento útil ycomprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintosformatos.

    (Harjinder S. Gill, 1996)  define la Minería de Datos como el conjunto de técnicas y tecnologías que permiten realizar la exploración de grandes bases de datos, con la finalidad de encontrar patronesrepetitivos y comprensibles, que nos permitan entender el comportamiento de los datos dentro de uncontexto determinado; además reúne diferentes disciplinas como la Estadística, la InteligenciaArtificial y las Bases de Datos, haciendo uso de las herramientas y ventajas brindadas por cada unade ellas, con el fin de descubrir conocimiento novedoso y potencialmente útil dentro los datos.

    Sobre el objetivo de la Minería de Datos Hernández, Ramírez y Ferri sostienen “De una manerasimplista pero ambiciosa podríamos decir que el objetivo de la minería de datos es convertir datosen conocimiento” (2004, p. 6)

    APLICACIONES DE LA MINERÍA DE DATOS

    A.  Generación de Recomendaciones: sugerir un producto después de que el cliente seleccionó unoo más. El proceso lo requiere debido a la gran cantidad de clientes que pueden existir, y ala no evidente relación que existe en la preferencia de productos, la cual se puede basar ensemejanzas con otros clientes que han realizado más de una compra.

    B.  Detección de anomalías: La minería de datos puede detectar un dato anómalo, que puedecorresponder a datos no deseados o incluso peligrosos, como fraudes en cuentas bancarias.

    C.  Análisis de ”separación”: En operaciones financieras y bancarias, se refiere a la detección deun cliente que muestra un comportamiento temprano de que puede ser un signo de tendencia

    a cambiar sus preferencias o relaciones comerciales con las entidades actuales.D.  Administracion de riesgos: Determinar riegos en inversiones y créditos es de vital importancia,

     pues indicadores económicos y ventajas competitivas dependen de un cálculo adecuado de losriesgos en las operaciones.

    E.  Segmentación de clientes:  El conocimiento de las características de los clientes y elestablecimiento de grupos que compartan estas características permite administrar campañasdireccionadas a ciertos grupos que les permita situar mejor sus productos.

    F.  Publicidad dirigida:  De especial interés en Internet, donde es posible registrar las actividadesde los clientes en ciertas páginas (como Amazon o Facebook), establecer patrones decomportamiento y posibles intereses, de manera que se pueda ofrecer a los anunciantes garantíaque sus productos estarán a la vista de clientes o compradores potenciales.

  • 8/18/2019 ProyectoBDWekaV2

    5/28

    4

    TÉCNICAS DE MINERÍA DE DATOS

    Entre las técnicas de minería de datos que se pueden distinguir:

    A.  Técnicas predictivas: Donde las variables pueden clasificarse inicialmente en dependientese independientes. Lo cual permite realizar predicciones y así prever el comportamiento futurode algún tipo de entidad.

    B.  Técnicas descriptivas: En las que todas las variables tienen inicialmente el mismo estatus.Ayudan a entender la comprensión de lo que se está analizando.

    C.  Técnicas auxiliares:  Son herramientas de apoyo más superficiales y limitadas, empleadasnormalmente para propósitos de verificación de los resultados obtenidos con las otras técnicas(predictivas o descriptivas).

    En la fig. 1, se puede observar la clasificación de las técnicas de la Minería de Datos.

    fig. 1- Clasificación de Técnicas de Minería de Datos 

    Básicamente los algoritmos de minería de datos están clasificados en dos grandes categorías:supervisados o predictivos y no supervisados o de descubrimiento del conocimiento (fig. 2.)

    fig. 2 - Técnicas Supervisadas y No Supervisadas 

  • 8/18/2019 ProyectoBDWekaV2

    6/28

    5

    Los algoritmos supervisados o predictivos predicen el valor de un atributo (etiqueta) de un conjuntode datos, conocidos otros atributos (atributos descriptivos). A partir de datos cuya etiqueta se conocese induce una relación entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven pararealizar la predicción en datos cuya etiqueta es desconocida.

    Cuando una aplicación no es lo suficientemente madura no tiene el potencial necesario para unasolución predictiva, en ese caso hay que recurrir a los métodos no supervisados o de descubrimiento

    del conocimiento que descubren patrones y tendencias en los datos actuales (no utilizan datoshistóricos).

    Las técnicas de Data Mining que se utilizan en este trabajo corresponden a: Clasificación,Asociación y Segmentación o Clustering.

    Clasificación: En la clasificación, los métodos tienen la intención de aprender diferentes funcionesque clasifiquen los datos dentro de un conjunto predefinido de clases. Dado un nuevo número declases predefinidas, un número de atributos y un conjunto de datos de aprendizaje o entrenamiento,los métodos de clasificación pueden automáticamente predecir la clase de los datos previamente noclasificados. Las claves más problemáticas relacionadas con la clasificación son las evaluación delos errores de clasificación y la potencia de predicción. Las técnicas matemáticas más usadas para

    la clasificación son los árboles de decisión binarios, las redes neuronales, programación lineal yestadística. Utilizando un árbol de decisión binario, con un modelo de inducción de árbol en elformato Si-No, podremos posicionar los datos en las diferentes clases según el valor de sus atributos.Sin embargo, esta clasificación puede no ser óptima si la potencia de predicción es baja. Con el usode redes neuronales, se puede construir un modelo de inducción neuronal. En este modelo, losatributos son capas de entrada y las clases asociadas con los datos son las capas de salida. Entre lascapas de entrada y de salida hay un gran número de conexiones ocultas que aseguran la fiabilidadde la clasificación (como si fuesen las conexiones de una neurona con las de su alrededor).Elmodelo de inducción neuronal ofrece buenos resultados en muchos análisis de data mining, cuandohay un gran número de relaciones se complica la implementación del método por el gran número deatributos. Usando técnicas de programación lineal, el problema de la clasificación es visto como un

    caso especial de programación lineal. La programación lineal optimiza la clasificación de los datos, pero puede dar lugar a modelos complejos que requieran gran tiempo de computación. Otrosmétodos estadísticos, como la regresión lineal, regresión discriminante o regresión logística tambiénson populares y usados con frecuencia en los procesos de clasificación.

    Árboles de decisión:  El aprendizaje de árboles de decisión está englobado como unametodología del aprendizaje supervisado. La representación que se utiliza para lasdescripciones del concepto adquirido es el árbol de decisión, que consiste en unarepresentación del conocimiento relativamente simple y que es una de las causas por la quelos procedimientos utilizados en su aprendizaje son más sencillos que los de sistemasque utilizan lenguajes de representación más potentes, como redes semánticas,representaciones en lógica de primer orden etc. No obstante, la potencia expresiva de los

    árboles de decisión es también menor que la de esos otros sistemas. El aprendizaje de árbolesde decisión suele ser más robusto frente al ruido y conceptualmente sencillo, aunque lossistemas que han resultado del perfeccionamiento y de la evolución de los más antiguos secomplican con los procesos que incorporan para ganar fiabilidad. La mayoría de los sistemasde aprendizaje de árboles suelen ser no incrementales, pero existe alguna excepción.

  • 8/18/2019 ProyectoBDWekaV2

    7/28

    6

    Asociación: La relación entre un ítem de una transacción y otro ítem en la misma transacción esutilizada para predecir patrones. Por ejemplo, un cliente compra un ordenador (X) y a la vez compraun ratón (Y) en un 60% de los casos. Este patrón ocurre en un 5,6% de las compras de ordenadores.La regla de asociación en esta situación es que “X implica Y, donde 60% es el factor de confianza

    y 5,6% el factor de soporte. Cuando el factor de confianza y al factor de soporte están representados por las variables lingüísticas alto y bajo, la regla de asociación se puede escribir en forma de lógica

    difusa, como: “cuando el factor de soporte es bajo, X implica Y es alto”. Este sería el típico ejemplode datamining de estudio realizado en supermercados con la asociación entre la venta de pañales de bebé y cerveza. Usan los algoritmos de reglas de asociación y árboles de decisión.

    LA MINERÍA DE DATOS Y EL PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS.

    A la minería de datos se le conoce en inglés como Data Mining y también se le relaciona con eldescubrimiento del conocimiento en bases de datos conocido como Knowledge Data Discovery(KDD).

    En [Fayad et. Al 1996a], se define el KDD como “el proceso no trivial de identificar patrones válidos,novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos” 

    PROPIEDADES DESEABLES DEL CONOCIMIENTO EXTRAÍDO.

      Valido: hace referencia a que los patrones deben seguir siendo precisos para datos nuevos(con un cierto grado de certidumbre) y no solo para aquellos que han sido usados en suobtención.

      Novedoso: que aporte algo desconocido tanto para el sistema y preferiblemente para elusuario.

      Potencialmente útil:  la información debe conducir a acciones que reporten algún tipo de

     beneficio para el usuario.  Comprensible:  la extracción de patrones no comprensibles dificulta e imposibilita su

    interpretación, revisión, validación, y uso en la toma de decisiones. De hecho una informaciónincomprensible no proporciona conocimiento(al menos desde el punto de vista de su utilidad)

    PROCESO DEL KDD

    “El KDD es un proceso complejo que incluye no solo la obtención de modelos o patrones (el objetivode la minería de datos), sino también la evaluación y posible interpretación de los mismos”  (Hernández et al., 2004)

  • 8/18/2019 ProyectoBDWekaV2

    8/28

    7

    fig. 3 - Proceso del KDD

    FASES DEL PROCESO DE EXTRACCIÓN DEL CONOCIMIENTO .

    El proceso del KDD, según Hernández et al., se organiza en torno a cinco fases. Ver fig. 4

    fig. 4 - Fases del proceso de descubrimiento de conocimiento en bases de datos, KDD 

    Para apoyar en esta búsqueda de conocimiento podemos encontrar diferentes herramientas talescomo, Clementine/SPSS, Rapid Miner, SQL SERVER , WEKA, para nuestro objeto de estudio noscentraremos en WEKA.

  • 8/18/2019 ProyectoBDWekaV2

    9/28

    8

    WEKA

    HISTORIA

    En 1993, la Universidad de Waikato en Nueva Zelanda, inició el desarrollo de la versión original deWEKA, sin embargo fue hasta 1997 que se decidió escribir su código en java, adicionándole la

    implementación de nuevos algoritmos de modelado. En el 2005, WEKA recibe el galardón “DataMining and Knowledge Discovery Services” (Servicios de Minería de Datos y Descubrimiento

    del Conocimiento), por parte de ACM1. En 2006 Pentaho Corporation adquirió una licencia exclusiva para usar WEKA en Inteligencia de Negocios.

    QUE ES WEKA?

    Waikato Environment for Knowledge Analysis (WEKA), es un entorno para experimentación deanálisis de datos que permite aplicar, analizar y evaluar las técnicas más relevantes de análisis dedatos, principalmente las provenientes del aprendizaje automático, sobre cualquier conjunto de datos.

    Para ello únicamente se requiere que los datos a analizar se almacenen con un cierto formato,conocido como Attribute-Relation File Format (ARFF).

    ARCHIVOS ARFF

     Nativamente WEKA, trabaja con un formato denominado ARFF2, acrónimo de  Atribute-Relation File Format. Es un archivo de texto ASCII que describe una lista de instancias que comparten unconjunto de atributos.Un fichero con este formato, no solo contiene los datos desde donde vamos aefectuar el aprendizaje, además incluye meta-información sobre los propios datos, como por ejemploel nombre y tipo de cada atributo, así como una descripción textual del origen de los datos. Podemosconvertir ficheros en texto conteniendo un registro por línea y con los atributos separados porcomas(formatos csv) a fichero arff, mediante el uso de un filtro convertidor.

    Estos archivos al tener un formato de texto plano, es decir, se pueden visualizar y manipular,directamente, con cualquier editor de texto como notepad. Comúnmente, se usa el término deconjunto de datos (datasets) para referirse al contenido de los archivos ARFF.

    Los archivos arff, están compuestos por una estructura claramente diferenciada, ver detalle acontinuación:

    A.  Cabecera: Define el nombre de la relación.B.  Declaraciones de los atributos: en esta sección se declaran los atributos que conformaran nuestro

    archivo, junto a su tipo. Cada atributo tiene su @attribute el cual define el nombre del atributo y

    1 Asociación for Computing Machinery). Sociedad Científica Para el Desarrollo de la Computación Educacional. 

    2 Estos ficheros fueron desarrollados por el Proyecto de aprendizaje de máquinas del departamento de Ciencias de Computación de la Universidad deWaikato para el uso del software.

  • 8/18/2019 ProyectoBDWekaV2

    10/28

    9

    el tipo de dato. El orden en que son declarados los atributos indican la columna en que seencuentran los datos de dicho atributo en el @data.

    C.  Sección de Datos: se declaran los datos que componen la relación, separando entre comas losatributos y saltos de líneas las relaciones, para esto se usa la sentencia @data que denota elcomienzo del segmento de datos del archivo.

    fig. 5 -Formato Archivo Arff  

    CARACTERÍSTICAS

    a)  La licencia de Weka es GPL3, lo que sígnica que este programa es de libre distribución ydifusión.

     b)  Además, ya que Weka está programado en Java, es independiente de la arquitectura, ya quefunciona en cualquier plataforma sobre la que haya una máquina virtual Java disponible.

    c)  Contiene un conjunto de herramientas para el procesamiento de datos, algoritmos deaprendizaje y métodos de valuación.

    d)  Cuenta con una interface gráfica que permite la visualización de los datos, análisis gráfico.a)  Adicionalmente cuenta con la posibilidad de comparar los algoritmos de aprendizaje. b)  WEKA solo funciona con archivos planos, estos archivos son cargados a la herramienta por

    sistemas de ayuda que esta misma tiene, todos los archivos deben estar almacenados ynombrados con algunas características especiales, las extensiones que pueden ser cargadas

    son:ARFF, CSV, C4.5, BINARY.

    c)  Los datos pueden ser leídos desde una URL, o pueden estar almacenados en una base de datosSQL y ser leídos por la aplicación.

    d)  Soporta diversas fuentes de datos (ASCII. JDBC).e)  Posee una interfaz visual basada en procesos/flujos de datos(rutas)f)  Soporta muchas tareas estándar de la minería de datos en especial tareas de procesamiento de

    datos, regresión, clasificación, clustering entre otras, así mismo permite la visualización y laselección de los datos.

    g)  Todas las técnicas en WEKA están basadas en la sunción de datos que están disponibles enun fichero plano o una relación, en donde cada registro de datos esta descrito por un número

    fijo de atributos nominales o numéricos.

    3 GNU Public License. http://www.gnu.org/copyleft/gpl.html  

  • 8/18/2019 ProyectoBDWekaV2

    11/28

    10

    h)  Permite el acceso a otras instancias de bases de datos por medio de SQL, gracias al JDBC,además puede procesar un resultado generado a base de una consulta hecha a una base dedatos.

    ¿DONDE DESCARGAR WEKA?

    Las últimas versiones se pueden descargar del sitio web: http://www.cs.waikato.ac.nz/ml/weka/  

    INTERFAZ DEL USUARIO

    fig. 6- Interfaz Principal de Weka 

    La interfaz principal de Weka, cuenta con cuatro formas de acceso a las diferentes funcionalidadesde la aplicación.

  • 8/18/2019 ProyectoBDWekaV2

    12/28

    11

    Explorer: Entorno para la exploración de datos. Soporta pre- procesamiento de datos, selección de atributos, el aprendizaje yla visualización. Este entorno es el más usado y más descriptivo.

    Existen 6 sub-entornos de ejecución, una vez seleccionada laopción explorer, las cuales se pueden visualizar en la parte

    superior que corresponden adiferentes tipos de operaciones, en etapas independientes que se pueden realizar sobre los datos.A.  Preprocess: Selección de la fuente de datos y

     preparación (filtrado) Incluye las herramientas y filtros para cargar y manipular los datos.B.  Classification: Facilidades para aplicar esquemas de clasificación y regresión, entrenar modelos

    y evaluar supervisión.C.  Cluster: Integra varios métodos de agrupamiento.D.  Associate: Incluye unas pocas técnicas de reglas de negocio.E.  Select Attributes: Búsqueda supervisada de subconjuntos de datos representativos. Permite

    aplicar diversas técnicas para la reducción del número de atributos.

    F.  Visualice: En este apartado podemos estudiar el comportamiento de los datos mediante técnicasde visualización.

    Además de las pestañas descritas, en la parte inferior de la ventana aparecen dos elementos comunes.Uno es el botón Log, que al activarlo presenta una ventana textual donde se indica la secuencia detodas las operaciones que se han llevado a cabo dentro del Explorer, sus tiempos de inicio y fin, asícomo los mensajes de error más frecuentes, junto a este botón, aparece un icono de actividad(el pájaroWEKA, que se mueve cuando se esta realizando alguna tarea) y un indicador de status, que indicaque tarea se está realizando en ese momento dentro del Explorer.

    Experimenter:  permite la comparación sistemática de unaejecución de los algoritmos predictivos sobre una colección de

    conjunto de datos.

    fig. 7 - Experimenter 

  • 8/18/2019 ProyectoBDWekaV2

    13/28

    12

    1)  KnowledgerFlow: Permite generar proyectos deminería de datos, mediante la generación de flujos deinformación.

    fig. 8 - Knowlege Flow 

    2)  Simple CLI : ventana de comandos java para ejecutar lasclases de WEKA. Esta interfaz proporciona una consola para poder introducir comandos. A pesar de ser en apariencia simple,es extremadamente potente porque permite realizar cualquieroperación soportada por WEKA de forma directa, no obstante

    es muy complicada de manejar ya que es necesario unconocimiento completo de la aplicación. Actualmente solo esútil como una herramienta de ayuda en la fase de pruebas. 

    fig. 9 - Simple CLI 

    HERRAMIENTAS DE WEKA

    A.  Filtros de Preprocesamiento:  Los formatos soportados son ARFF, CSV, C4.5 y binarios, pero en un solo archivo.

      También se puede importar de URL o de una base de datos SQL.  Después de cargar los datos, los filtros de preprocesamiento se pueden utilizar para añadir

    o eliminar atributos, discretización, muestreo, aleatorización, etc.B.  Atributos de selección

      WEKA tiene una combinación muy flexible de búsqueda y métodos de evaluación de losatributos del conjunto de datos.

      Métodos de búsqueda incluyen Best-First, Ranker, Genetic-Search, Nearest neighbor, etc .Las medidas de evaluación incluyen: información de ganancia, relación de ganancia, relief,etc

    C.  Clasificación:   El objetivo previsto debe ser categórico. WEKA incluye métodos como árboles de decisión,

     Naïve Bayes y redes neuronales.  Los métodos de evaluación incluyen también los conjuntos de datos de prueba y validacióncruzada.

    D.  Clustering: El proceso de aprendizaje se produce a partir de GRUPOS de datos. Los métodos incluyen k-means,Cobweb y FarthestFirst.

  • 8/18/2019 ProyectoBDWekaV2

    14/28

    13

    E.  Regresión:   El objetivo previsto es continuo. Métodos como regresión lineal, redes neuronales y árboles de

    regresión se incluyen en la biblioteca.

    WEKA no genera secuencias predictivas. También requiere que los datos estén completamentecargados en memoria para trabajar.

    TENICAS DE ANALISIS DE WEKA

    SELECCIÓN DE LA FUENTE DE DATOS

    Para dar explicación al funcionamiento de la herramienta se dará la conceptualización de los procedimientos de selección del ejemplo que será manejado a lo largo del presente documento,mismo que fue extraído del siguiente sitio: http://www.hakank.org/weka/,  a continuación detalle delarchivo arff.

    El fichero de datos  titanic.arff : Corresponde a las características de los 2.201pasajeros del Titanic.Estos datos son reales y se Han obtenido de: "Report on the Loss of the ‘Titanic’ (S.S.)" (1990),British Board of Trade Inquiry Report_ (reprint), Gloucester, UK: Allan Sutton Publishing.

    Para este ejemplo sólo se van a considerar cuatro variables:

      clase (0 = tripulación, 1 = primera, 2 = segunda, 3 = tercera),  edad (1 = adulto, 0 = niño)  sexo (1 = hombre, 0 = mujer)  sobrevivió (1 = sí, 0 = no).

    Cargar archivo. arff

    Iniciar WEKA.

    Hacer clic en el botón Explorer. Ver fig. 10.

    fig. 10 – Ventana Explorer de WEKA 

    http://www.hakank.org/weka/http://www.hakank.org/weka/http://www.hakank.org/weka/

  • 8/18/2019 ProyectoBDWekaV2

    15/28

    14

    Presionamos el botón Open File y buscamos el archivo en nuestro sistema (fig. 11). Hacemos clicen el botón abrir.

    fig. 11 - Selección de Archivo

    A continuación se muestran los datos de los registros que contiene el fichero arff Titanic, el cual nosólo contiene los datos desde donde vamos a efectuar el demo de la aplicación, sino que ademásincluye meta-información sobre los propios datos, como por ejemplo el nombre y tipo de cadaatributo, así como una descripción textual del origen de los datos.

    fig. 12 - Datos del Registro 

    Desde esta ventana podemos observar cómo se habilitan todas las opciones de la parte inferior yvemos en la parte izquierda los diferentes atributos que contiene el registro: Clase, edad, sexo,sobrevivió. Si seleccionamos cada uno de los atributos, conoceremos más información del atributoen cuestión: tipo(nominal o numérico), valores distintos, registros que no tienen información de eseatributo, el valor máximo y mínimo (sólo en atributos numéricos), y finalmente un histograma coninformación sobre la distribución de los ejemplos para ese atributo, reflejando con el uso de colores

    la distribución de clases de cada uno de los registros, por ejemplo la clase tiene 325 registros de primer clase, 285 la segunda clase 706 de tercera y un total de 885 tripulantes.

    Pulsando en el botón Choose en Filter, tendremos acceso a multitud de herramientas para el pre procesamiento de datos. Estas herramientas permiten (entre otras muchas funcionalidades):

  • 8/18/2019 ProyectoBDWekaV2

    16/28

    15

    1)  Realizar un filtrado de atributos2)  Cambiar el tipo de los atributos (discretizar o numerizar)3)  Realizar muestreos sobre los datos.4)   Normalizar atributos numéricos.5)  Unificar valores de un mismo atributo

    CLASIFICACIÓN DE DATOS, ÁRBOL DE DECISIÓN

    Una vez cargado el fichero, ya estamos en disposición de aprender un modelo (en este caso un árbolde decisión). Para ello, seleccionamos en la pestaña Classify.

    Como podemos observar, el entorno cambia bastante con respecto a la ventana anterior.Pulsando en el botón choose de Classifier podemos configurar el método de clasificación o regresiónque queramos utilizar. Estos métodos se han agrupado a grandes rasgos en las siguientes familias:

    1)  Bayes. Métodos basados en el paradigma del aprendizaje de Bayes2)  Funciones. Métodos “matemáticos”: Redes neuronales, regresiones, etc.3)  Lazy. Métodos que utilizan el paradigma de aprendizaje perezoso, es decir no construyen un

    modelo.4) Meta. Métodos que permiten combinar diferentes métodos de aprendizaje. 5) Trees. Métodos que aprenden mediante la generación de árboles de decisión.  6) Rules. Métodos que aprenden modelos que se pueden expresar como reglas .

    Además en esta ventana podemos establecer como queremos efectuar la validación del modelo  aprendido.

    1)  Use training set. Con esta opción Weka entrenará el método con todos los datos disponibles y a

     posteriori realiza la evaluación sobre los mismos datos.2)  Supplied test set. Con esta opción podemos cargar un conjunto de datos (normalmente diferentesa los de aprendizaje) con los cuales se realizará la evaluación

    3)  Cross-validation. Se realiza la evaluación mediante la técnica de validación cruzada. En estecaso podemos establecer el número de pliegues a utilizar.

    4) Percentage split. Se define un porcentaje con el que se aprende el modelo. La evaluación serealiza con los datos restantes.

    Para el caso de ejemplo vamos a utilizar el algoritmo clásico de aprendizaje de árboles de decisiónC4.5 (J48 es el nombre que se le da en Weka), Para ello pulsamos Choose, seleccionamos J48 enTrees. Si pulsáramos sobre la ventana que contiene el nombre del método podríamos modificar los

     parámetros específicos de este método. En este caso dejaremos los valores por defecto. Ver fig. 13

  • 8/18/2019 ProyectoBDWekaV2

    17/28

    16

    fig. 13 - Ventana Clasificación y Selección del Algoritmo 

    Por último seleccionamos como opción de evaluación (test options ) la opción Use training set, yya estamos listos para ejecutar el método de aprendizaje. Para ello pulsamos el botón Startque despierta al pájaro WEKA de su letargo y realiza el aprendizaje del modelo predictivo, en estecaso un árbol de decisión.

    Si no ha habido problemas, el sistema nos muestra en la caja “Classifier Output” la siguienteinformación:

    === Run information ===

    Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2Relation: titanic.txtInstances: 2201Attributes: 4

    ClaseEdadSexoSobrevivió?

    Test mode: 10-fold cross-validation

    === Classifier model (full training set) ===

    J48 pruned tree

  • 8/18/2019 ProyectoBDWekaV2

    18/28

    17

    ------------------

    Sexo = 0| Clase = 0: 1 (23.0/3.0)| Clase = 1: 1 (145.0/4.0)| Clase = 2: 1 (106.0/13.0)| Clase = 3: 0 (196.0/90.0)Sexo = 1| Clase = 0: 0 (862.0/192.0)| Clase = 1| | Edad = 0: 1 (5.0)| | Edad = 1: 0 (175.0/57.0)| Clase = 2| | Edad = 0: 1 (11.0)| | Edad = 1: 0 (168.0/14.0)

    | Clase = 3: 0 (510.0/88.0)

     Number of Leaves : 10

    Size of the tree : 15

    Time taken to build model: 0.01 seconds

    === Stratified cross-validation ===

    === Summary ===

    Correctly Classified Instances 1737 78.9187 %Incorrectly Classified Instances 464 21.0813 %Kappa statistic 0.429Mean absolute error 0.312Root mean squared error 0.3959Relative absolute error 71.3177 %Root relative squared error 84.6545 %Coverage of cases (0.95 level) 99.7274 %Mean rel. region size (0.95 level) 96.3426 %Total Number of Instances 2201

    === Detailed Accuracy By Class ===

  • 8/18/2019 ProyectoBDWekaV2

    19/28

    18

    TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class0.987 0.624 0.768 0.987 0.864 0.503 0.746 0.822 00.376 0.013 0.930 0.376 0.535 0.503 0.746 0.680 1

    Weighted Avg. 0.789 0.427 0.820 0.789 0.758 0.503 0.746 0.777

    === Confusion Matrix ===

    a b

  • 8/18/2019 ProyectoBDWekaV2

    20/28

    19

    fig. 14 Porcentaje de error de los resultados 

    Un dato importante que debemos tener en cuenta son los resultados que nos arroja la matriz deconfusión:

    La cual se interpreta de la siguiente manera: muestra en la diagonales que tanto porcentaje de erroro de confiabilidad se puede tener en la diagonal entre mayor se al resultado de su respectiva letramayor es el grado de confiabilidad, en este caso vemos que 1470>441 y 270>20 por lo que losresultados obtenidos son confiables.

    Para poder visualizar el árbol de ejecución (fig. 15) damos click sobre el algoritmo y seleccionamosla opción visualize tree (fig. 16).

    fig. 15 - Método de Selección para visualizar el árbol 

  • 8/18/2019 ProyectoBDWekaV2

    21/28

    20

    fig. 16 Árbol de Decisión 

    Para generar el árbol no a partir de si sobrevivió o no, sino a partir del sexo (fig. 17).

    fig. 17 - Resultado a partir del sexo 

    Se puede apreciar la matriz de confusión donde los parámetros son mucha más precisos que losanteriores.

    Se aprecian 323 puntos buenos y solo 170 errores para a (sexo femenino), para b que es sexomasculino 147 errores y 1561 puntos buenos. Por los tanto podemos decir que los datos sonconfiables y si los podemos tomar en cuenta. El árbol de ejecución resulta (fig. 18):

  • 8/18/2019 ProyectoBDWekaV2

    22/28

    21

    fig. 18 - Árbol de Decisión a partir del sexo 

    Análisis

    Si una persona no sobrevivió:

      Sexo masculino: No sobrevivieron 126 de los 1490

    Si una persona es del sexo masculino:

    Claseo Tripulación: Sobrevivieron 20 de los 212 hombres

    o

      Edad   Niño: Sobrevivieron 1 de 6 hombres  Adulto: Sobrevivieron 57 de 197

    o Segunda Clase: Sobrevivieron 25 de 118 mujeres

    o Tercera Clase: Sobrevivieron 88 de 178 mujeres

    MANEJANDO ASOCIACIONES

    Podemos entrar a la opción de asociación de la siguiente forma nos dirigimos a la pestañassuperiores de la interfaz de Weka y damos click en la opción de asociación(Associate), clic enchoose, ver fig. 19

    fig. 19 Ventana Associate de Weka y Selección de Algoritmo 

  • 8/18/2019 ProyectoBDWekaV2

    23/28

    22

    Esta opción es una de las más interesantes ya que en ella podemos ver información oculta detrásde la información de todos los registros ingresados, primero que nada damos a seleccionar elalgoritmo de asociación A priori y hacemos clic en el botón start.

    Los resultados que debemos ver serán los siguientes, ver fig. 20:

    fig. 20 - Resultados de la Asociación

    En esta información podemos ver la cantidad de instancias, la relación, la cantidad de atributos,y la más importante es la que encontramos la final de los resultados:

    fig. 21 - Relaciones de Asociación 

    En estas líneas vemos que el algoritmo encontró 10 recomendaciones de información de larelación de todos los registros que ingresamos, el conf representa el porcentaje de acierto, por ejemplo la interpretación de la primera línea sería así:

  • 8/18/2019 ProyectoBDWekaV2

    24/28

    23

    1)  Las personas que tiene la clase tripulación es igual a adulto, esto quiere decir que todas las personas de la tripulación eran adultas con un 100% de certeza.

    2)  En la segunda vemos que todas las personas que sean de tripulación y de sexo masculinotodos son adultos con un 100% de certeza

    3)  Todas las personas del sexo masculino y que no sobrevivieron fueron adultas, esto con 0.97de certeza.

    4)  Todas las personas de la clase tripulación eran de sexo masculino, esto con un 0.97 decerteza.5)  Todas las personas de la clase tripulación y adultos eran de sexo masculino, esto con un 0.97

    de certeza.6)  Todas las personas de la clase tripulación, eran adultas y de sexo masculino, esto con un

    0.97 de certeza.7)  Todas las personas que no sobrevivieron, eran adultas, esto con un 0.97 de certeza.8)  Todas las personas de sexo masculino, eran adultos, esto con un 0.96 de certeza.9)  Todas las personas adultas que no sobrevivieron, eran de sexo masculino, esto con un 0.92

    de certeza.10) Todas las personas que no sobrevivieron, eran de sexo masculino, esto con un 0.92 de

    certeza.Podemos decir que estos datos son muy obvios pero cuando tenemos una gran cantidad deinformación este tipo de información a veces no se aprecia a simple vista.

    USO DE CLUSTER.

    La opción cluster, nos permite aplicar algoritmos de agrupamiento de instancias a nuestros datos.Estos algoritmos buscan grupos de instancias con características similares, según un criterio decomparación entre valores de atributos de las instancias definidas en los algoritmos.

    El mecanismo de selección, configuración y ejecución es similar a otros elementos: primero seseleccionar el algoritmo con Choose, se ajustan sus parámetros, seleccionando sobre el área dondeaparece y después se ejecuta.

    Pulsando la tercera pestaña, llamada Cluster, en la parte superior de la ventana accedemos a lasección dedicada al clustering(fig.22 )

    Selección y configuracióndel algoritmo

    Visualización de Resultados

    Clúster en textoEvaluación de resultado

  • 8/18/2019 ProyectoBDWekaV2

    25/28

    24

    fig. 22 - Modo Cluster dentro del Explorer 

    Una vez que se ha realizado la selección y configuración del algoritmo se puede pulsar el botónStart, que hará que se aplique sobre la relación de trabajo. Los resultados se presentaran en laventana de texto de la parte derecha, Además la ventana izquierda permite listar todos losalgoritmos y resultados que se hayan ejecutado en la sesión actual. Al seleccionarlos en esta listade visualización se presentan en la ventana de texto a la derecha, y además se permite abrirventanas graficas de visualización con el menú contextual que aparece al pulsar el botón derechosobre el resultado seleccionado.

    La caja de Cluster Modes sirve para seleccionar a que se le va a aplicar cluster, y como evaluar los

    resultados. Las primeras tres opciones, son iguales a los de clasificación. “USE training set,Supplied test set y percentage split” con la diferencia que los datos son asignados para Cluster, envez de tratar de predecir una clase específica. La cuarta opción o modo es el “Classes To Cluster

    Evaluation”, que compara qué tan bien el cluster elegido calza con clases pre-asignadas de datos.La caja drop down bajo estas opciones selecciona la clase, al igual que el panel “classify”. 

    Una opción propia de este apartado es la posibilidad de ver en forma grafica la asignación de lasmuestras en cluster. En la caja de cluster Mode, hay una opción adicional, la Store cluster forvisualization(guardar para visualizar) que determina si es posible o no visualizar los cluster cuandoel ejercicio sea completado.

    Si activamos la opción Store cluster for evaluation, hacemos clic en Start , seleccionamos en lalista de resultados, pulsando el botón derecho sobre el experimento en cuestión y marcamos laopción Visualize cluster assignments obtendremos una ventana similar a las del modo explorador para mostrar gráficas en el que nos mostrará el clustering realizado. Cuando se trabaje condatasets demasiado grandes, pueden existir problemas con la memoria, por lo que podría ser deayuda deshabilitar esta opción.

    Algunos atributos deberán ser ignorados cundo se hace “clustering”. El botón “Ignore attributes”

    genera una pequeña ventana que permite seleccioanr los atributos a ignorar. Al hacer clic en estaopción aparecen todos los atributos disponibles. Se pueden seleccionar con el botón izquierdosobre un atributo específico, o seleccionar grupos usando SHIFT para un grupo de atributoscontiguos y CONTROL para grupos de atributos sueltos. Para cancelar se hace con el botón“Cancel”, para activar se hace a través del botón “select”. Así, la próxima vez que se haga

    clustering, los atributos seleccionados serán ignorados.

  • 8/18/2019 ProyectoBDWekaV2

    26/28

    25

    EJEMPLO AGRUPAMIENTO SIMBÓLICO.

    El agrupamiento simbólico tiene la ventaja de efectuar un análisis cualitativo que construyecategorías jerárquicas para organizar los datos. Estas categorías se forman con un criterio probabilística de "utilidad", llegando a las que permiten homogeneidad de los valores de losatributos dentro de cada una y al mismo tiempo una separación entre categorías dadas por losatributos, propagándose estas características en un árbol de conceptos.

    Si aplicamos el algoritmo Cobweb con los parámetros por defecto sobre la muestra reducida deinstancias (dada la complejidad del algoritmo), se genera el siguiente resultado, ver fig. 23:

    fig. 23 - aplicacion cobweb 

    Si hacemos clic sobre la ventana de resultados, se puede visualizar el árbol gráficamente, ver fig.24

  • 8/18/2019 ProyectoBDWekaV2

    27/28

    26

    fig. 24 -Árbol de Decisión

    CONCLUSIONES

    Weka es una herramienta robusta, excelente a la hora de realizar implementaciones de minería dedatos con sus diferentes técnicas y múltiples algoritmos existentes, sin embargo la capacidad que provee WEKA en el análisis de patrones de información la convierte en una excelente herramienta deapoyo en la toma de decisiones.

    Las herramientas de minería de datos permiten extraer patrones, tendencias y regularidades paradescribir y comprender mejor los datos y para predecir comportamientos futuros.

    Para el modelo del árbol de decisiones implementado a través de WEKA, pudimos hacer el ejerciciode seleccionar distintos atributos como base para realizar el análisis, para el caso utilizamos lasvariables “sobrevivió” y “sexo” los cuales dan resultados diferentes, cada uno con su grado deexactitud, lo cual nos brinda una mayor posibilidad para analizar los datos y buscar los más correctos.

    También podemos decir que a través de la técnica de asociación utilizada mediante WEKA, para elcaso de ejemplo (titanic) se llegó a resultados muy obvios pero cuando tenemos una gran cantidad deinformación con una mayor cantidad de atributos este tipo de información a veces no se aprecia asimple vista.

    En general mediante la utilización de WEKA, se obtuvieron modelos de predicción precisos que nos permiten generar reglas con alto valor de certeza , dado que logran la caracterización de los datosanalizados, así como la creación de diseños de prueba eficientes para proceder con posterioresanálisis.

    http://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtmlhttp://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtml

  • 8/18/2019 ProyectoBDWekaV2

    28/28

    BIBLIOGRAFÍA

      Harjinder S. Gill, P. C. (1996). Data Warehousing "La integracion de la informacion para la

    mejor toma de decisiones". Mexico D.F., Mexico: Prentice Hall Hispanoamericaba.

      Machine Learning Group at the University of Waikato. Weka 3: Data Mining Software in

    Java; [Citado 2014 Enero 3] Disponible en: http://www.cs.waikato.ac.nz/ml/weka/ 

      http://www.ing.unlpam.edu.ar/home/archivos/mineria_datos.pdf

      Clark P., B. (2000). Data Minning, Practical Machine Learning Tools and Techniques with Java

    Implementations. Morgan Kaufmann Publishers. 

      Harjinder S. Gill, P. C. (1996). Data Warehousing "La integracion de la informacion para la mejor

    toma de decisiones". Mexico D.F., Mexico: Prentice Hall Hispanoamericaba.

      Ramirez, J. H. (2004). Introduccion a la Mineria de Datos. Madrid: Pearson Prentice Hall. 

    http://www.cs.waikato.ac.nz/ml/weka/http://www.cs.waikato.ac.nz/ml/weka/http://www.cs.waikato.ac.nz/ml/weka/http://www.cs.waikato.ac.nz/ml/weka/