9
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133 WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería de Datos Sánchez, J. 1 Ingeniería de Sistemas, Área de Ingeniería. Universidad Nacional Abierta. Araure-Venezuela. [email protected] . Resumen El WebApps permite a la Ingeniería Web el uso de diferentes medios (audio, video, multimedia entre otros), con el cual los usuarios tienen la posibilidad de acelerar su aprendizaje. Además, disminuye los costos de reproducción, publicación y distribución del material impreso, otra ventaja es que el acceso al contenido de este material, se hace en forma oportuna y confiable. La Minería de Datos (DM) es la tercera fase del KDD (Knowledge Discovery in Databases ), que es una rama de la Inteligencia Artificial; la DM es tan amplia y novedosa que la Universidad Nacional Abierta (UNA) debería incluirla en la asignatura “Introducción a la Inteligencia Artificial y Sistemas Expertos”, o ser una nueva asignatura de la carrera. WEKA, es uno de los programas que permite comprender y acercarse a la DM, fue desarrollado en la Universidad de Waikato, Nueva Zelanda, bajo licencia GNU e implementado en Java. Palabras clave: WebApps, KDD, Minería de Datos, WEKA. WEKA: program that allows to a greater understanding and approach to the Mining of Data Summary WebApps allows Engineering Web to use a lot of different means (audio, video, multimedia, among others), with which users have the possibility of accelerating their learning. In addition, it diminishes the costs of reproduction, publication and distribution of the printed material, another adventage is the access to content of this material is very opportune and reliable. Data Mining (DM) is the third phase of the KDD (Knowledge Discovery in Databases ), that is a branch of the Artificial Intelligence; the DM is so ample and novel that the Universidad Nacional Abierta (UNA) would have to include it in the subjet Introduction to the Artificial Intelligence and Expert Systems, or to be a new subjet of this degree course. WEKA, is a software that allow to understand and to approach to DM, it was developed in the University of Waikato, New Zealand, under license GNU and implemented in Java. Index terms: WebApps, KDD, Data Mining, WEKA. Introducción La reflexión planteada por Nichols (1995) permite comprender la sobrecarga de información a la que somos sometido actualmente: “Una edición semanal del New York Times contiene más información de lo que la persona promedio podría encontrar en toda su vida en la Inglaterra del siglo XVII. Se ha producido más información en los últimos 30 años que en los previos 5000 años. Cerca de 1000 libros se publican internacionalmente cada día, y el total del conocimiento impreso se dobla cada ocho años”. Gracias a los avances tecnológicos y en especial a la revolución digital, ha posibilitado que la captura de los datos sea fácil, además, el almacenamiento de los mismos posee un costo casi nulo. Con el desarrollo de software y hardware, grandes cantidades de datos son recogidas y almacenadas en base de datos. Por tanto, el análisis de estos datos a través de las herramientas tradicionales de gestión de datos o con técnicas estadísticas, no son adecuadas.

Articulo ICIEI

Embed Size (px)

DESCRIPTION

Articulo

Citation preview

Page 1: Articulo ICIEI

I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133

WEKA: Programa que Permite una mayor Comprensión y

Acercamiento a la Minería de Datos

Sánchez, J.1

Ingeniería de Sistemas, Área de Ingeniería. Universidad Nacional Abierta. Araure-Venezuela. [email protected].

Resumen

El WebApps permite a la Ingeniería Web el uso de diferentes medios (audio, video, multimedia entre otros), con el cual los usuarios tienen la posibilidad de acelerar su aprendizaje. Además, disminuye los costos de reproducción, publicación y distribución del material impreso, otra ventaja es que el acceso al contenido de este material, se hace en forma oportuna y confiable. La Minería de Datos (DM) es la tercera fase del KDD (Knowledge Discovery in Databases), que es una rama de la Inteligencia Artificial; la DM es tan amplia y novedosa que la Universidad Nacional Abierta (UNA) debería incluirla en la asignatura “Introducción a la Inteligencia Artificial y Sistemas Expertos”, o ser una nueva asignatura de la carrera. WEKA, es uno de los programas que permite comprender y acercarse a la DM, fue desarrollado en la Universidad de Waikato, Nueva Zelanda, bajo licencia GNU e implementado en Java.

Palabras clave: WebApps, KDD, Minería de Datos, WEKA.

WEKA: program that allows to a greater understanding and approach to the Mining of Data

Summary

WebApps allows Engineering Web to use a lot of different means (audio, video, multimedia, among others), with which users have the possibility of accelerating their learning. In addition, it diminishes the costs of reproduction, publication and distribution of the printed material, another adventage is the access to content of this material is very opportune and reliable. Data Mining (DM) is the third phase of the KDD (Knowledge Discovery in Databases), that is a branch of the Artificial Intelligence; the DM is so ample and novel that the Universidad Nacional Abierta (UNA) would have to include it in the subjet “Introduction to the Arti ficial Intelligence and Expert Systems”, or to be a new subjet of this degree course. WEKA, is a software that allow to understand and to approach to DM, it was developed in the University of Waikato, New Zealand, under license GNU and implemented in Java.

Index terms: WebApps, KDD, Data Mining, WEKA.

Introducción

La reflexión planteada por Nichols (1995) permite comprender la sobrecarga de información a la que somos sometido actualmente: “Una edición semanal del New York Times contiene más información de lo que la persona promedio podría encontrar en toda su vida en la Inglaterra del siglo XVII. Se ha producido más información en los últimos 30 años que en los previos 5000 años. Cerca de 1000 libros se publican internacionalmente cada

día, y el total del conocimiento impreso se dobla cada ocho años”.

Gracias a los avances tecnológicos y en especial a la revolución digital, ha posibilitado que la captura de los datos sea fácil, además, el almacenamiento de los mismos posee un costo casi nulo. Con el desarrollo de software y hardware, grandes cantidades de datos son recogidas y almacenadas en base de datos. Por tanto, el análisis de estos datos a través de las herramientas tradicionales de gestión de datos o con técnicas estadísticas, no son adecuadas.

Page 2: Articulo ICIEI

I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133

Por otra parte, con el advenimiento del Internet, la información presenta una ubicuidad sin precedente y crece de una manera acelerada, para verificar esto sólo basta usar un buscador como google e introducir la palabra información, cuyo resultado son 368000000 sitios posibles, si se pudiera examinar cada uno de los sitios anteriores en sólo un minuto el resultado serían 6133333 horas, en otras palabras tomaría 255555 días, el tiempo potencial total necesario: más de 700 años. Esto es imposible, y por lo tanto, existe una clara necesidad de disponer de tecnologías que efectúen procesos de búsquedas y aún más, de tecnologías que ayuden a comprender su contenido.

Debido al ya mencionado agigantado avance en el hardware y la mayor comprensión del software ha derivado la redefinición y actualización de conceptos fundamentales, entre ellos el de información, además, de su clasificación llamada “espectro de información”,

el cual está formado por: datos, información, conocimiento y sabiduría.

Figura 1. Espectro de Información.

Un dato es un conjunto discreto de factores

objetivos de un hecho real. El concepto de dato es definido por como un registro de transacciones. Un dato no dice nada sobre el porqué de las cosas, y por si mismo tiene poca o ninguna relevancia o propósito. A pesar de todo, los datos son importantes para las organizaciones, ya que son la base para la creación de la información.

Los investigadores que han estudiado el concepto de información, lo describen como un mensaje. Como cualquier mensaje tiene un emisor y un receptor. La información es capaz de cambiar la forma en que el receptor percibe algo, y de impactar sobre sus juicios de valor y

comportamiento. La palabra informar originalmente significa “dar forma a”, y es estrictamente el receptor quien decide si el mensaje que ha recibido es realmente información, es decir, si realmente le informa. Un informe lleno de tablas inconexas, puede ser considerado información por el que la escribe, pero a su vez puede ser juzgado como ruido por el que la recibe. A diferencia de los datos, la información tiene significado (relevancia y propósito). Los datos se convierten en información cuando su creador les añade significado.

Para Davenport y Prusak (1998) el conocimiento es una mezcla de experiencias, valores, información y saber hacer con la incorporación de nuevas experiencias e información y útil para la acción. El conocimiento es originado y aplicado en la mente de los expertos; lo que queda inmediatamente claro es que el conocimiento no es simple, es una mezcla de varios elementos. Es un flujo que tiene una estructura formalizada, es intuitivo y difícil de captar en palabras o de entender plenamente en forma lógica. El conocimiento existe dentro de las personas, como parte de la complejidad humana y de nuestra impredecibilidad.

La sabiduría que no es más que el procesamiento de conocimiento el cual a su vez produce nuevo conocimiento, no puede ser tratada o usada actualmente ya que no se poseen los recursos o herramientas computacionales para ello.

En la actualidad, la mayoría de los programas, aplicaciones, sistemas de información, es decir, el software existente se ha construido para procesar datos o información. Sólo la Inteligencia Artificial se ha dado a la tarea del tratamiento y uso del conocimiento.

Pero son las organizaciones quienes hacen un uso intensivo del software para el control y mantenimiento de las mismas, además, son estas quienes invierten en el desarrollo e investigación de los sistemas.

No es de extrañar que las organizaciones den diferentes niveles de uso a sus datos. Entre estos: a) Nivel operacional: se utilizan sistemas de información que monitorean las actividades y transacciones elementales. b) Nivel de administración: realiza las operaciones de captura masiva de datos y servicios básicos de tratamiento de datos, con tareas predefinidas. c) Nivel de conocimiento: realiza las actividades de análisis, seguimiento, control y toma de decisiones, realiza la consulta sobre información

Page 3: Articulo ICIEI

I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133

almacenada. d) Nivel estratégico: realiza las actividades de planificación a largo plazo, tanto del nivel de administración como de los objetivos que la empresa posee. Mira el futuro.

Ante todo lo anterior, los datos existen y además se les dan diferentes niveles de uso, pero estos son almacenados en las base de datos, estas últimas son una colección ordenada de datos organizada de tal forma que puede consultarse y actualizarse de manera eficiente.

Sobre el uso dado a los datos en el tiempo nace el OLTP (On-Line Transaction Processing, Procesamiento de Transacciones en Línea), dedicadas a la captura y almacenamiento de transacciones; y el OLAP (On-Line Analytical Processing, Procesamiento Analítico en Línea) permiten el análisis y navegación de los datos.

Conocido el nivel de uso en el tiempo de los datos, es entendible porque a las bases de datos se les puede extraer conocimiento de diversas formas como: a) Conocimiento evidente: fácilmente recuperable con SQL. b) Conocimiento multidimensional: considera los datos con cierta estructura y relevancia, se usa el OLAP. c) Conocimiento oculto: información evidente oculta a priori y potencialmente útil sólo se descubre con DM. d) Conocimiento profundo: información almacenada en la base de datos, pero que resulta imposible recuperar a menos que se disponga de alguna clave que oriente la búsqueda.

Figura 2. Conocimiento en la Base de Datos.

Son Fayyad, Piatesky y Smyth (1996)

quienes definen el KDD (Knowledge Discovery in Databases, Descubrimiento de Conocimiento en Base de Datos) como el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensible a partir de los datos.

El KDD es un conjunto de pasos interactivos e iterativos. Es interactivo porque el usuario es quien decide, supervisa y controla cada una de las fases del proceso, además, es iterativo debido a que se puede acceder desde y hacia cualquier fase en todo momento.

El KDD es un proceso complejo que incluye las siguientes fases: a) Integración y recopilación, b) Selección, limpieza y transformación, c) Minería de Datos, d) Evaluación e interpretación y e) Difusión y uso.

Observar las fases clarifica la conexión entre el KDD y la Minería de Datos; el KDD es el proceso global de descubrir conocimiento útil desde las bases de datos mientras la Minería de Datos se refiere a la obtención de patrones o modelos.

Figura 3. Fases del KDD.

Figura 4. Esfuerzo requerido en Fases del KDD.

Page 4: Articulo ICIEI

I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133

Siguiendo el mismo orden de las fases del KDD, se requerirá de esfuerzo: 15%, 60%, 20% y 5% (que agrupa la fase 4 y 5) respectivamente de dedicación para su culminación, esto se aprecia en la Figura 4.

La Minería de Datos es un área de cuyo objetivo es predecir resultados y/o descubrir relaciones en los datos. La Minería de Datos puede ser descriptiva (descubrir patrones que describen los datos), o predictivos (para pronosticar el comportamiento del modelo basado en los datos disponibles). Por tanto, permite entre muchas otras cosas: a) Explorar grandes cantidades de datos (generalmente relacionado al mercadeo o a los negocios), b) Búsqueda de modelos consistentes y/o relaciones sistemáticas entre las variables y c) Validar los resultados aplicando los modelos descubiertos a los nuevos subconjuntos de datos.

Las partes en las que se divide la Minería de Datos son: a) Fuente de datos, b) Pre-procesamiento, c) Exploración y Transformación, d) Reconocimiento de Patrones y e) Evaluación e Integración.

Figura 5. Partes de la Minería de Datos. Las técnicas en las que se fundamenta la

Minería de Datos son: a) Predicción: permite la obtención de tendencias y comportamientos en bases de datos (donde se utiliza: Regresión y Clasificación) y b) Descubrimiento de conocimiento: permite filtrar los datos contenidos en la bases de datos y con esto la identificación de patrones previamente desconocidos (básicamente comprende: Detección de desviaciones, Clustering, Reglas de asociación y Visualización). Esto se observa en la figura 6.

Figura 6. Técnicas de la Minería de Datos. La integración de las técnicas de Minería de

Datos en las actividades diarias se ha convertido en algo habitual, para ello sólo bastara con leer los siguientes ámbitos de aplicación que indican Ferri, C., Hernández, J. y Ramírez, M. (2004): a) En la banca y finanzas, b) Análisis de mercado, distribución y cualquier otro elemento constituyente del comercio, c) Salud pública y privada así como los diferentes tipos de seguros, d) Educación, e) Procesos de manufactura, servicios e industriales, f) Medicina, g) Biología y bioingeniería, h) Telecomunicaciones, i) Correo electrónico y agendas personales, j) Recursos humanos, k) Web, l) Turismo, m) Trafico, n) Hacienda, ñ) Policiales y de seguridad ciudadana, o) Deportes, p) Políticas, entre muchísimo otros.

Se nota la gran diversidad de aplicaciones de uso para la Minería de Datos, de all í que en la actualidad existan diferentes suites y herramientas especificas tanto bajo licencia de software privativo (SPSS Clementine, Kepler, Oracle Data Mining Suite, DBMiner, DB2 Intelligent Miner, SAS Enterprise Miner, STATISTICA Data Miner, sólo por nombrar algunas) como de software libre (WEKA, YALE, TariyKDD, JavaNNS); que permiten el preprocesado de los datos, varios modelo de análisis, facilidad para el diseño de las soluciones y de experimentos debido al soporte grafico amigable con que se presentan los resultados.

WEKA (Waikato Environment for Knowledge Analysis) fue desarrollada y es mantenida por un grupo de investigadores de la Universidad de Waikato (Nueva Zelanda).

Las cuatro (4) opciones de interfaz de trabajo con el programa son:

Explorer: es la opción que permite ejecutar los algoritmos de análisis y comparar resultados sobre un único conjunto de datos.

Page 5: Articulo ICIEI

I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133

Experimenter: es la opción que permite definir experimentos complejos y almacenar resultados.

Knowledge Flow: es la opción que permite llevar a cabo las mismas operaciones que Experimenter pero representado como un grafo dirigido.

Simple Cli: es “Command-Line Interfaz” es una ventana de comandos java para ejecutar las clases WEKA.

Al ahondar sobre la interfaz de trabajo Explorer se encuentran los siguientes seis (6) subentornos de ejecución:

Preprocess: permite el uso de las herramientas y filtros para cargar y manipular los datos.

Classify: permite el acceso a las técnicas de clasificación y regresión.

Cluster: permite integrar varios métodos de agrupamiento.

Associate: permite incluir las reglas de asociación.

Select Attributes: permite aplicar las técnicas de reducción de atributos.

Visualize: permite visualizar el comportamiento de los datos.

Además, los datos se pueden importar en varios formatos: ARFF, CVS, C.45, binarios, o pueden provenir desde un URL o de una base de datos (usando JDBC).

Al importar el ejemplo iris.arff en la interfaz de trabajo Explorer el subentorno de ejecución Preprocess en la opción Open File el programa nos mostrara la siguiente ventana:

Figura 7. Preprocess de iris.arff.

El WEKA permite hacer diferente tratamiento con los datos: a) Supervisados, que consideran la información de la clase y b) No supervisados: no consideran la información de la clase.

Al seleccionar el atributo class resulta:

Figura 8. Selección atributo class de iris.arff.

Si sobre la opción Filter se pulsa sobre el

boton choose y luego en el menú unsupervised y en el submenú attribute la opción Discretize y luego sobre el botón Filter resultara la siguiente ventana:

Figura 9. Menú unsupervised de iris.arff. Discretize, permite t ransformar los atributos

continuos a atributos nominales, es decir, la conversión de un tipo numérico a uno nominal que representa rangos. Ejemplo: Calificaciones entre el rango 0 a 10 que adquieren el significado de reprobado, muy deficiente, deficiente, regular, excelente.

Al pulsar sobre el botón Apply se mostrara:

Page 6: Articulo ICIEI

I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133

Figura 10. Resultado de aplicar Discretize. Al revisar el segundo subentorno de

ejecución el Clasify, presenta cuatro (4) opciones en el Test Options:

Use trainig set: la muestra es usada para entrenar y probar al mismo tiempo. Los resultados obtenidos no corresponden con la realidad.

Supplied test set: los at ributos de los datos son escritos en un nuevo archivo de formato ARFF sobre el cual se efectuará la clasificación.

Cross-validation: permite dividir la muestra en k partes, sobre estas se procede a entrenar el clasificador con las k-1 partes y evaluar con la parte k actual.

Percentage split: indica el porcentaje de la muestra que empleara para probar el clasificador.

Además, el WEKA ofrece ocho opciones para clasificar:

Bayes: métodos basados en el aprendizaje de Bayes.

Functions: métodos matemáticos. Lazy: métodos basados en el aprendizaje

del perezoso. Meta: métodos que resultan de la

combinación de diferentes métodos de aprendizaje.

Mi: métodos que aprenden mediante la variación de la densidad de los algoritmos.

Misc: métodos que aprenden como si leyeran los datos.

Trees: métodos que aprenden mediante arboles de decisión.

Rules: métodos que aprenden y esto se puede expresar como reglas.

Se pueden observar las ocho (8) opciones en la figura 11.

Figura 11. Opciones del subentorno Classify.

El tercer subentorno de ejecución el Cluster

presenta nueve (9) algoritmos para agrupar datos.

CobWeb: utiliza el algoritmo CobWeb. DBScan: utiliza el algoritmo DBScan. EM: utiliza el algoritmo EM. FarthestFirst: utiliza el algoritmo

FarthestFirst. FilteredCluster: agrupa los datos

arbitrariamente y luego son pasados por un filtro arbitrario.

MakeDensityBasedClusterer: los datos son envueltos en clases y devuelven su distribución y densidad.

OPTICS: utiliza el algoritmo OPTICS. SimpleKMeans: utiliza el algoritmo de k -

medias. XMeans: utiliza el algoritmo de x-medias. Esto se puede apreciar en la siguiente

figura:

Figura 12. Opciones del subentorno Cluster.

Page 7: Articulo ICIEI

I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133

El cuarto subentorno de ejecución el Associate y ofrece cinco (5) algoritmos para asociar datos:

Apriori: utiliza el algoritmo Apriori. FilteredAssociator: utiliza el algoritmo que

asocia los datos arbitrariamente además de filtrarlos arbitrariamente también.

GeneralizedSequentialPatterns: utiliza el algoritmo GSP.

PredictiveApriori: utiliza el algoritmo Apriori para hacer reglas de asociación.

Tertius: utiliza el algoritmo de Tertius.

Figura 13. Opciones del subentorno Associate.

La segunda interfaz de t rabajo Experimenter

posee tres (3) subentornos de ejecución. Setup: permite la carga de los archivos así

como la creación de los mismos. Run: permite ejecutar el archivo con los

algoritmos indicados en Setup. Analyse: permite configurar las pruebas

sobre los datos.

Figura 14. Opciones de Experimenter.

La tercera interfaz de trabajo Knowledge Flow consta de ocho (8) subentornos de ejecución:

DataSources: permite leer los datos en los diferentes tipos de archivos: ARFF, C45, CVS, LIBSVM, XRFF.

DataSkin: permite guardar los datos en los diferentes tipos de archivos: ARFF, C45, CVS, LIBSVM, XRFF.

Filters: permite efectuar el pre-procesamiento de los datos, se dividen supervisados y no supervisados.

Classifiers: permite efectuar la clasificación de los datos, se dividen en: bayes, functions, lazy, meta, mi, misc, trees y rules.

Clusterers: permite aplicar las técnicas de agrupamiento de datos.

Associations: permite aplicar las técnicas de asociación de los datos.

Evaluation: permite evaluar o designar el conjunto de datos para el entrenamiento.

Visualization: permite visualizar ya sea como texto o grafico el resultado de los algoritmos.

En la figura 15 se pueden observar los ocho (8) subentornos de ejecución presentes en la interfaz de trabajo.

Figura 15. Opciones de Knowledge Flow. La última interfaz de trabajo SimpleCLI está

compuesta por siete comandos posibles: java <classname> <args>. break. kill. cls. history. exit. help <command>

Page 8: Articulo ICIEI

I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133

Figura 16. Opciones de SimpleCLI.

No es más que un breve paseo de las

posibilidades que ofrece el WEKA, este hace uso de las técnicas de la Minería de Datos, como valor agregado por estar implementado en Java, no presenta problemas de portabilidad (el sistema operativo debe disponer de la máquina virtual apropiada para su funcionamiento).

Resultados

Las asignaturas de las carreras de la UNA, muy específicamente Introducción a la Inteligencia Arti ficial y Sistemas Expertos (347), no escapan de la carencia y poca disponibilidad de medios instruccionales orientados a potenciar las destrezas adquiridas y en especial los referidos al KDD del cual la Minería de Datos, constituye una fase muy importante, y de este modo responder a las exigencias del entorno laboral actual.

Es tan trascendental el tema que la llamada Inteligencia de los Negocios (Business Intelligence) que es el proceso de analizar los bienes de todo tipo (especialmente los datos) acumulados en la empresa y extraer de ellos conocimiento apoyándose justamente en las técnicas que suministra la Minería de Datos. Pentaho BI aprovecha la arquitectura, soporte, estándares, funcionalidad e innovación del software libre dispersas en diferentes áreas y entrelazándolas para obtener una plataforma de BI cuyos componentes son: Reportes (Pentaho Reporting Engine), servidor OLAP (Mondrian), integración de datos (Kettle), Minería de Datos (WEKA), y suite de BI.

En este sentido, WEKA por ser un sistema multiplataforma con arquitectura basada en componentes independientes, con una interfaz

grafica amigable donde intuitivamente el usuario puede usar cualquiera de los tres (3) interfaz de trabajo: Explorer, Experimenter y Knowledge Flow, así como sus respectivos subentornos de ejecución, por tanto son de fácil uso y comprensión; esta suite de Minería de Datos permite la inclusión de contenidos que sin software, quedarían sólo como una lectura y, en consecuencia, la adquisición de un conocimiento más completo y tangible en forma más didáctica, atractiva y sencilla.

Conclusiones

El KDD está compuesto por cinco (5) fases en las cuales curiosamente no es necesaria la misma dedicación. La segunda fase: Selección, limpieza y transformación abarca el 60% del tiempo total, esto es debido a su complejidad ya que garantiza la mayor corrección, exactitud y calidad de los datos, y elimina los datos erróneos (Outliers) o faltantes (missing values). Si los datos no cumplen las condiciones que garantizan su veracidad los patrones generados por la tercera fase: Minería de Datos no son confiables.

El WEKA es una colección de algoritmos para resolver los problemas planteados por las organizaciones a la Minería de Datos. Se presenta bajo licencia GNU GPL (General Public License) permitiendo que el software sea usado, copiado y redistribuido libremente, además el código fuente puede ser estudiado y modificado sin restricción alguna, este tipo de licencia posee las siguientes ventajas: a) Reducir costos, b) Flexibilidad en la adaptación de los componentes, c) El emprender un proyecto a bajos costos y permitiendo una alta escalabilidad y d) El desarrollo y mantenimiento del programa, así como, los repositorios provienen de diferentes fuentes. En la página web http://www.cs.waikato.ac.nz/~ml/weka/index.html puede descargarse las diferentes versiones: estable (última versión 3.6.0), libro (última versión 3.4.14) y para desarrolladores (última versión 3.7.0) en los siguientes sistemas operativos: Windows, Mac OS X y Linux, así como la documentación y los requisitos para la instalación. También en la página web se pueden descargar más de una docena de base de datos de diversos repositorios, por otra parte al menos cincuenta proyectos activos (WekaWiki) de diversas áreas de conocimiento.

Lo anterior garantiza el continuo mejoramiento, actualización y evolución del

Page 9: Articulo ICIEI

I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133

WEKA, por otra parte, la Constitución Nacional de la República Bolivariana de Venezuela en su artículo 110 y el decreto 3.390, indica que la Administración Pública Nacional empleará prioritariamente las herramientas de código abierto.

Agradecimientos

Este trabajo ha sido realizado parcialmente gracias al apoyo de la Universidad Nacional Abierta.

Referencias bibliográficas

Berthold, M. y Hand, D. (2003). Intelligent Data Analysis: An Introduction. Berlin: Springer.

Davenport, T. y Prusak, L. (1998). Work ing

Knowledge: How organizations manage what they know. Boston: Hardvard Business Scholl Press.

Fayyad, U., Piatesky-Shapiro, G. y Smyth, P. (1996). From Data Mining for Knowlegde Discovery: An Overview. Menlo Park:

American Association for Artificial Intelligence (AAAI/MIT).

Ferri, C., Hernández, J. y Ramírez, M. (2004). Introducción a la Minería de Datos. Madrid: Pearson Prentice Hall.

Nichols, J. (1995). Using Future Trends to Inform Planning/Marketing. Library Trends, 43(03), 349-366.

Pérez, C. y Santín, D. (2006). Data Mining Soluciones con Enterprise Miner. México D.F: Alfaomega Grupo Editor.

White, C. (1999). IBM Enterprise Analytics for the Intelligent e-Business. Morgan Hill: IBM Press.

Reseña curricular

J. Sánchez: Profesor de la Universidad Nacional Abierta, Venezuela. Ingeniero de Sistemas. Asesor Académico. Principal área de interés: Inteligencia Artificial.