Redes Bayesianas Mineria Datos 1193

Embed Size (px)

Citation preview

  • 7/24/2019 Redes Bayesianas Mineria Datos 1193

    1/8

    IMPLEMENTACIN DE MINERA DE DATOS BASADA EN REDES BAYESIANAS

    PARA LA TOMA DE DECISIONES EN LOS REGISTROS ACADMICOS

    Alex Fernando Bonilla Gordillo1, Miguel Angel Ojeda Schuldt2, Fabricio EcheverraBriones3

    1 Ingeniero en Computacin en Sistemas Tecnolgicos 2006.2 Ingeniero en Computacin en Sistemas de Informacin 2006.3 Director de Tpico, Ingeniero en Computacin, Escuela Superior Politcnica del Litoral,1998, Profesor de ESPOL desde el 2000, [email protected]

    RESUMEN

    La minera de datos es una actividad de extraccin cuyo objetivo es el descubrir hechoscontenidos en las bases de datos. En la mayora de los casos se refiere a un trabajoautomatizado. Si hay alguna intervencin humana a lo largo del proceso, este no es

    considerado como minera de datos.

    Se persigue desarrollar un modelo o conjunto de reglas que permita estimar y proyectar laapertura de paralelos para las distintas materias, este trabajo tiene como objetivos:

    Determinar un mtodo para encontrar las relaciones existentes en un conjunto dehechos.

    Determinar un mtodo para resolver las proyecciones probabilsticas que s deun almacn de datos.

    Sustentar el uso de la minera de datos para la toma de decisiones.

    SUMMARY

    Datamining is an extraction activity, its main goal is to discover facts contained in differentdatabases. In most cases we assume it as automatic processes. If there is any humanintervention during the whole process then its not considered as Datamining.

    This project wants to develop a model or set of rules which allow to estimate and planifyhow many courses from the different subjects should be openned, this project shouldcover the following goals:

    Determine a method to find relations inside a set of facts. Determine a method to solve the statement what if? from a Datawarehouse. Support the Datamining use for decission taking.

  • 7/24/2019 Redes Bayesianas Mineria Datos 1193

    2/8

    INTRODUCCION

    A lo largo de varios aos, se desarrollaron un gran nmero de mtodos de anlisis dedatos basados en la estadstica. Sin embargo, en la medida en que se incrementaba lacantidad de informacin almacenada en las bases de datos, estos mtodos empezaron aenfrentar problemas de eficiencia y escalabilidad y es aqu donde aparece el concepto de

    minera de datos.

    Gran parte de esta informacin es histrica, es decir, representa transacciones osituaciones que se han producido. Adems, ya que los datos pueden proceder de fuentesdiversas y pertenecer a diferentes dominios, parece clara la inminente necesidad deanalizar los mismos para la obtencin de informacin til para la organizacin.

    En muchas situaciones, el mtodo tradicional de convertir los datos en conocimientoconsiste en un anlisis e interpretacin realizada de forma manual. El especialista analizalos datos y elabora un informe o hiptesis que refleja las tendencias o pautas de losmismos. Este conocimiento, validado convenientemente, puede ser usado por lossuperiores para tomar decisiones importantes y significativas para la organizacin.

    Esta forma de actuar es lenta, cara y altamente subjetiva. De hecho, el anlisis manual esimpracticable en dominios donde el volumen de los datos crece exponencialmente: laenorme abundancia de datos desborda la capacidad humana de comprenderlos sin laayuda de herramientas potentes. Consecuentemente, muchas decisiones importantes serealizan, no sobre la gran cantidad de datos disponibles, sino siguiendo la propia intuicindel usuario al no disponer de las herramientas necesarias. Este es el principal cometidode la minera de datos: resolver problemas analizando los datos presentes en las basesde datos.

    Hasta no hace mucho, el anlisis de los datos de una base de datos se realizabamediante consultas efectuadas con lenguajes generalistas de consulta, como el SQL, y se

    produca sobre la base de datos operacional, es decir, junto al procesamientotransaccional en lnea (OLTP) de las aplicaciones de gestin. No obstante, esta manerade actuar slo permita generar informacin resumida de una manera previamenteestablecida, poco flexible y, sobre todo, poco escalable a grandes volmenes de datos.

    La tecnologa de bases de datos ha respondido a este reto con una nueva arquitecturasurgida recientemente: el almacn de datos (DataWarehouse). Se trata de un repositoriode fuentes heterogneas de datos, integrados y organizados bajo un esquema unificadopara facilitar su anlisis y dar soporte a la toma de decisiones. Esta tecnologa incluyeoperaciones de procesamiento analtico en lnea (OLAP), es decir, tcnicas de anlisiscomo pueden ser el resumen, la consolidacin o la agregacin, as como la posibilidad dever la informacin desde distintas perspectivas.

    Sin embargo, a pesar de que las herramientas OLAP soportan cierto anlisis descriptivo yde sumarizacin que permiten transformar los datos en otros datos agregados o cruzadosde manera sofisticada, no generan reglas, patrones, pautas, es decir, conocimiento quepueda ser aplicado a otros datos. No obstante, en muchos contextos, como los negocios,la medicina o la ciencia, los datos por s solos tienen un valor relativo. Lo que de verdades interesante es el conocimiento que puede inferirse a partir de los datos y, ms an, lacapacidad de poder usar este conocimiento.

  • 7/24/2019 Redes Bayesianas Mineria Datos 1193

    3/8

    Todos estos problemas y limitaciones de las aproximaciones clsicas han hecho surgir lanecesidad de una nueva generacin de herramientas y tcnicas para soportar laextraccin de conocimiento til desde la informacin disponible, y que se engloban bajo ladenominacin de minera de datos. El resultado de la minera de datos son conjuntos dereglas, ecuaciones, rboles de decisin, redes neuronales, redes bayesianas.

    Durante mucho tiempo, la Facultad ha hecho grandes esfuerzos para hacer coincidir laapertura de los paralelos versus la demanda real, en ciertos semestres existan paralelosdonde 8, 9 o 10 estudiantes se haban registrado, en algunos casos el paralelo no tenaestudiantes y permaneca abierto esperando llenarse. En otro caso, se necesitaba abrirotro paralelo debido a la gran cantidad de estudiantes que deseaban inscribirse en elcurso.

    Todos estos son hechos controlables y sin mucha trascendencia. Sin embargo el peorcaso que ha ocurrido es cuando el paralelo no cumple el mnimo de estudiantes inscritos ypor ende se lo cierra; eso genera una desviacin en el desarrollo acadmico delestudiante que se encontraba registrado en aquel paralelo, porque los retrasa en el flujode su carrera o porque descoordinan el horario que en un comienzo haban planificado

    para su semestre.

    De acuerdo a lo mencionado, el problema se encuentra en la planificacin de apertura deparalelos, ya que no existe una herramienta que permita equilibrar la prediccin sobredatos pasados contra la demanda real.

  • 7/24/2019 Redes Bayesianas Mineria Datos 1193

    4/8

    CONTENIDO

    Anlisis del Problema

    Para el problema en la planificacin de apertura de paralelos en un semestre acadmico,la toma de decisin sobre Cuntos paralelos deben abrirse? se verifica mediante datos

    del semestres anteriores, tales como:

    Alumnos que aprobaron la(s) materia(s) que es (son) requisito(s). Alumnos que cumplen con otros requisitos, como el nivel de la carrera u

    aprobacin de cursos especiales.

    Sin embargo, los resultados que aparecen despus de este pequeo anlisis de variables,no tienen un nivel de certeza alto. Esto se debe a la inconsistencia de los datos comocampos en blanco o datos mal ingresados, etc.

    Tambin se usan datos que ocurrieron en el mismo semestre pero en aos pasados,para comparar y ver cual es la tendencia que los estudiantes tienen al registrarse en una

    materia

    Como alternativa pueden medirse otras variables y calcular a partir de ellas mediante unmodelo adecuado la prediccin deseada. No obstante, en muchas ocasiones, no sedispone de dicho modelo porque se conocen slo las principales variables de entrada,pero no las relaciones existentes entre ellas. Para este tipo de problemas, la minera dedatos ayuda a encontrar un modelo que represente una aproximacin de las relacionescon un grado de probabilidad.

    Seleccin de Modelo

    Las redes bayesianas proveen una forma compacta de representar el conocimiento y

    mtodos flexibles de razonamiento basados en las teoras probabilsticas (teorema deBayes) capaces de predecir el valor de variables no observadas y explicar lasobservadas.

    Entre las caractersticas que poseen las redes bayesianas, se puede destacar quepermiten aprender sobre relaciones de dependencia y causalidad, permiten combinarconocimiento con datos, evitan el sobreajuste de los datos y pueden manejar bases dedatos incompletas. Existen muchas modelos de redes bayesianas, para este trabajo seusar un modelo Naive Bayes (NB)

    Nave Bayes es el modelo ms simple de clasificacin con redes bayesianas, ya queasume independencia entre todos los atributos dada una clase. NB es, por tanto, un

    modelo de atributos independientes. En este caso, la estructura de la red es fija y slo esnecesario aprender los parmetros (distribucin de probabilidades). El fundamentoprincipal del clasificador NB es la suposicin de que todos los atributos sonindependientes conocido el valor de la variable clase.

    A pesar de que asumir esta suposicin en el clasificador NB es sin duda bastante fuerte ypoco realista en la mayora de los casos, se trata de uno de los clasificadores msutilizados. Adems sus resultados son altamente competitivos contra los resultados deotras tcnicas

  • 7/24/2019 Redes Bayesianas Mineria Datos 1193

    5/8

    Diseo de la Solucin

    El mtodo bayesiano persigue relacionar las variables influyentes sobre un evento. Atravs de esta caracterstica, es posible construir varias redes bayesianas querepresentan las situaciones deseadas para la evaluacin de la variable clase, el evento

    del registro en la materia.

    Inicialmente, probamos plantear una pregunta sin condiciones, tan solo especificando lamateria: Cul es la probabilidad de que alguien se registre en la materia X? .Grficamente podemos verlo as:

    P(se registra) = 0.5P(no se registra) = 1 P(se registra) = 0.5

    Variable Clase Valor: se registra, no se registra

    C

    P(Sist. Operativos | se registra) = 0.7P(Sist. Operativos | no se registra) = 0

    Variable Materia Valor: cualquier materia

    Sistemas

    Operativos.05

    FIG 1. MODELO NB DE UNA VARIABLE

    Ahora, podramos realizar la misma pregunta agregando una condicin: Cul es laprobabilidad de que alguien se registre en la materia X, dado que este alguien pertenecea la carrera Y? Grficamente podemos verlo as:

    P(se registra) = 0.5Variable Clase C

    Valor: se registra, no se registra

    FIG 2. MODELO NB CON DE 2 VARIABLES

    De esta forma, podemos agregar algunas otras condiciones. A medida que agregamosms condiciones nuestra pregunta se hace ms especfica. Es as que podemos filtrarlas circunstancias bajo las cuales la variable registro muestra comportamientosdiferentes.

    SistemasOperativos

    P(no se registra) = 1 P(se registra) = 0.5

    P(Sist. Operativos, Sistemas Tecnolgicos | se registra) = 0.8P(Sist. Operativos, Sistemas Tecnolgicos | no se registra) = 0.02

    Variable Materia Valor: cualquier materia

    Variable Carrera Valor: cualquier

    SistemasTecnolgicos

  • 7/24/2019 Redes Bayesianas Mineria Datos 1193

    6/8

    Y, usando el Teorema de Bayes llegamos a obtener Cul es la probabilidad de que unestudiante se registre dado un conjunto de variables (de 1 a n variables)? este resultadoes directamente relacionado con la solucin al problema de Cuntos paralelos de unamateria especfica abrir?

    P(A|B) = P(B|A) . P(A)

    P(B)

    FORMULA 1. TEOREMA DE BAYES

  • 7/24/2019 Redes Bayesianas Mineria Datos 1193

    7/8

    CONCLUSIN

    Podemos decir que las redes bayesianas tienen un gran potencial en muchos campos y elacadmico no es la excepcin, al proveer informacin importante y necesaria sobre laapertura de paralelos de una o mas materias.

    Este mtodo se basa en valores estimados, en nuestro caso, con valores de registrosacadmicos pasados, de los cuales se analiza el comportamiento de los estudiantesfrente a la decisin de registrarse o no en una materia.

    Con la aplicacin de un software producto del anlisis y diseo de este proyecto de tesis,se puede dar soporte para la toma de decisin de cuntos paralelos abrir? y as reduciruno de los problemas ms comunes al momento del registro de un estudiante en unparalelo, como lo es la falta de cupo por estar lleno o el cierre del mismo por falta deestudiantes.

  • 7/24/2019 Redes Bayesianas Mineria Datos 1193

    8/8

    REFERENCIAS

    1. A. Bonilla, M. Ojeda, Implementacin de Minera De Datos Basada En RedesBayesianas Para La Toma De Decisiones En Los Registros Acadmicos (Tesis,Facultad de Ingeniera Electrica y Computacin, Escuela Superior Politcnica delLitoral, 2006)

    2. J. Hernndez, C. Ferri, Introduccin a la Minera de Datos (Valencia, Prentice Hall,19XX), 257p.

    3. R. Jonson, Probabilidad y Estadstica para Ingenieros (6. Edicin, Wisconsin,Prentice Hall, 19XX) 76p.