161
UNIVERSIDAD NACIONAL DE SAN LUIS FACULTAD DE CIENCIAS FÍSICO MATEMÁTICAS Y NATURALES Tesis para optar a la titulación de postgrado correspondiente a la Maestría en Ingeniería de Software Una Metodología para el Desarrollo de Aplicaciones Autoadaptativas basada en Business Intelligence. Aplicación en Medicina Marcelo Fabio Roldán Directores de Tesis: Mg. Ing. Germán Montejano Mg. Ing. Ana Funes San Luis 2012

Universidad Nacional de La Rioja - Universidad Nacional de San Marcelo Roldan.pdf · En estas disciplinas prevalecen las excepciones, ... ESTADO DEL ARTE Y JUSTIFICACIÓN SEMÁNTICA

  • Upload
    others

  • View
    18

  • Download
    0

Embed Size (px)

Citation preview

  • UNIVERSIDAD NACIONAL DE SAN LUIS

    FACULTAD DE CIENCIAS FÍSICO MATEMÁTICAS Y NATURALES

    Tesis

    para optar a la titulación de postgrado correspondiente a la

    Maestría en Ingeniería de Software

    Una Metodología para el Desarrollo

    de Aplicaciones Autoadaptativas

    basada en Business Intelligence.

    Aplicación en Medicina

    Marcelo Fabio Roldán

    Directores de Tesis: Mg. Ing. Germán Montejano

    Mg. Ing. Ana Funes

    San Luis

    2012

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 2

    Prólogo

    A partir de las obras de Fayaad, Shapiro-Pietrostsky, Smith y Uthurusamy [BRA98] [FAY96], quienes

    en 1996 acuñaron el término de KDD como búsqueda de conocimiento en grandes bases de datos,

    el mundo ha experimentado cambios en lo que respecta a la manera de explorar el conocimiento

    oculto.

    El devenir de los años, con el incremento constante de la tecnología, ha provocado aumentos

    exponenciales en el volumen de la información, que hacen imposible para el humano realizar esta

    búsqueda con métodos tradicionales.

    Para dar solución a este nuevo paradigma, el uso de las técnicas de aprendizaje de máquina,

    inteligencia artificial, estadística avanzada, computación neuronal y otras disciplinas emergentes, se

    han vuelto de uso cotidiano.

    Análogamente a estos avances, el almacenamiento de datos comienza a producir modelos de uso

    que permiten no solo el almacenamiento de enormes volúmenes de información - en el orden de

    los petabytes – sino también facilitan su acceso para el análisis a través de Internet, brindando de

    este modo una expansión impensada unos pocos años atrás.

    Todos estos cambios han requerido de una tecnología integradora que permita la utilización

    colaborativa de estas herramientas y que brinde resultados que permitan optimizar procesos,

    mejorar eficiencias, aumentar productividad, mejorar finanzas, evitar fraudes, entre muchas otras

    aplicaciones. Estos son los orígenes del Business Intelligence.

    Sin embargo, en este entorno del Business Intelligence, quedan desprotegidos aquellos proyectos,

    en los cuales el factor económico no representa de modo sustancial el núcleo de la existencia de

    una línea de investigación.

    Amén de todo esto, el aprendizaje logrado a partir de los datos no constituye el cenit de los

    objetivos, ya que los datos, tales como sucede en el mundo real, cambian, se actualizan, migran

    entre fronteras y también desaparecen, entonces, ¿Cómo seguirles la huella en este marco

    cambiante?

    La adaptabilidad como fuente de evolución aparece como la mágica tecnología que emula la

    inteligencia al proveer un artilugio, el que además de considerar los patrones que se hallan en los

    bancos de datos, será capaz luego de un tiempo, de reacomodarse, aprender nuevamente y

    optimizarse para su uso.

    Ante este escenario, quedan pendientes las definiciones de metodologías, que faciliten la

    producción de conocimiento a partir del aprendizaje y del descubrimiento, en especial cuando se

    trata de aquellas áreas de las ciencias, como las médicas, farmacéuticas, génicas o más

    inclusivamente llamadas ciencias de la vida, que conceptualmente se pueden considerar como

    alejadas del espíritu del Business Intelligence o del Adaptive Business Intelligence.

    Este trabajo plantea una solución eficaz a este dilema, a través de un itinerario donde se aborda el

    estado actual, sus concepciones teóricas, una serie de aplicaciones resueltas y un contraste con las

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 3

    metodologías existentes de mayor uso. La resultante es una metodología moderna, actualizada y

    adecuada, para su uso en áreas específicas de las ciencias con una fuerte visión hacia el Adaptive

    Business Intelligence.

    Ya desde su gran obra, Michaelewicsz [MIC07], parangonando el proceder de las aplicaciones

    adaptativas con las del magistral detective Sherlock Holmes, nos enseña que estas aplicaciones han

    venido para quedarse.

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 4

    Resumen

    La búsqueda constante por encontrar causas de enfermedades y mejorar las expectativas de vida

    de sujetos enfermos, así como la creciente innovación en especial en materia del desarrollo de

    nuevas tecnologías orientadas a la inteligencia artificial, a la minería de datos y a la extracción de

    conocimiento, sitúan al experto en sistemas en un entorno hostil debido a la variedad de

    herramientas con las que cuenta. Más aún se hace manifiesto en razón de la escasez de conceptos

    metodológicos claros en relación a su aplicación directa en campos como la medicina.

    Por consiguiente, el problema abordado facilita la identificación práctica de patrones característicos

    y distintivos de la base de datos médica, lo que permite una diferenciación clara de las etapas

    metodológicas a seguir para realizar aplicaciones adaptativas en el ámbito de la medicina.

    Para esto se realiza una aproximación desde el enfoque amplio que proporcionan algunas

    metodologías existentes orientadas al Business Intelligence, y se toman como referencia diversos

    casos prácticos, se clasifican y ordenan las etapas más significativas que estos procedimientos

    deben seguir para obtener un producto aplicable a esta rama específica de las aplicaciones de los

    sistemas de información.

    La información que brinda este estudio, se espera sirva para facilitar la realización ágil de

    aplicaciones adaptativas a través de esta metodología simplificada.

    Asimismo, para validar estas premisas, se emplea esta propuesta metodológica mediante el

    desarrollo de dos aplicaciones autoadaptativas orientadas al profesional médico, que le sirve para

    la toma de decisiones en dos casos específicos tomados como referencia.

    Se consideran aspectos de metodologías aplicadas actualmente, enfocados por sus autores desde

    puntos de vista dispares. Por esto se hace menester adecuarlas a la necesidad particular de las

    aplicaciones en la medicina así como en las ciencias de la vida. En estas disciplinas prevalecen las

    excepciones, evaluaciones estadísticas previas de los datos, certeza relativa en los resultados de

    predicción entre otras características propias.

    La generalización de las conclusiones obtenidas a partir de estos desarrollos de Business

    Intelligence, permiten deducir su aplicación real a otros campos y disciplinas médicas, con

    enfermedades tan diversas como diabetes, dermatitis, problemas de nutrición, epidemiología,

    aplicación de drogas entre otras.

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 5

    Agradecimientos

    “El que mucho abarca, poco aprieta”, este viejo refrán que mi padre solía repetirme de niño ha

    tomado vigencia en este trabajo, siendo el espíritu para abordar el análisis crítico de las

    metodologías que rigen actualmente la tecnología de Data Mining, en sus formas de SEMMA, KDD

    Process o CRISP-DM.

    De esta manera un refrán, que aunque no es compartido en lo personal, ha sido la fuente

    inspiradora para encontrar el talón de Aquiles de estas construcciones de la industria, ya que para

    problemas específicos no son eficientes por su generalidad.

    Esta generalidad se transmuta en un conocimiento disciplinar cuyos beneficios se espera, logren

    difundirse de manera efectiva, ya que el auge de esta tecnología, teniendo en cuenta las ciencias

    hacia las cuales está dirigida, seguramente representarán un beneficio a la humanidad.

    Y en especial …

    A mi esposa

    Y a mis hijas,

    Por las horas de felicidad robadas para concluir este trabajo.

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 6

    Tabla de contenidos

    PRÓLOGO _____________________________________________________________________________ 2 RESUMEN _____________________________________________________________________________ 4 AGRADECIMIENTOS _____________________________________________________________________ 5

    TABLA DE CONTENIDOS _______________________________________________________________ 6

    CAPITULO I ___________________________________________________________________________ 9

    INTRODUCCIÓN ________________________________________________________________________ 9 UNA METODOLOGÍA PARA EL DESARROLLO DE APLICACIONES AUTOADAPTATIVAS BASADA EN BUSINESS

    INTELLIGENCE. APLICACIÓN EN MEDICINA __________________________________________________ 10 FUNDAMENTOS _______________________________________________________________________ 11 HIPÓTESIS: ___________________________________________________________________________ 12 METODOLOGÍA DE TRABAJO: _____________________________________________________________ 12 ALCANCE DEL TRABAJO _________________________________________________________________ 13 OBJETIVOS DE LA TESIS _________________________________________________________________ 14

    Objetivo general: ___________________________________________________________________ 14 Objetivos particulares: _______________________________________________________________ 14

    DEMOSTRACIÓN EMPÍRICA DE LA TESIS _____________________________________________________ 14 ESTRUCTURA DE LA TESIS _______________________________________________________________ 16

    CAPITULO II _________________________________________________________________________ 18

    ANTECEDENTES _______________________________________________________________________ 19 LA BIOINFORMÁTICA ___________________________________________________________________ 20 LA INTELIGENCIA DE NEGOCIOS - BUSINESS INTELLIGENCE _____________________________________ 22 LAS DECISIONES BASADAS EN CONOCIMIENTO ________________________________________________ 25 ALGUNAS CONCEPCIONES TEÓRICAS A TENER EN CUENTA _______________________________________ 26 EXTRACCIÓN DE CONOCIMIENTO EN EL CAMPO DE LA SALUD: DEL DATA MINING AL BUSINESS INTELLIGENCE

    ___________________________________________________________________________________ 30 FUENTES DE INFORMACIÓN PARA EXTRACCIÓN DE CONOCIMIENTO ________________________________ 32 EL ASPECTO AUTOADAPTATIVO DE LAS APLICACIONES _________________________________________ 36 CONCLUSIONES _______________________________________________________________________ 40

    CAPITULO III ________________________________________________________________________ 41

    ESTADO DEL ARTE Y JUSTIFICACIÓN SEMÁNTICA ______________________________________________ 41 METODOLOGÍAS DE APLICACIÓN (CRISP-DM, SEMMA, KDD PROCESS) __________________________ 42 METODOLOGÍA CRISP-DM ______________________________________________________________ 43 METODOLOGÍA SEMMA ________________________________________________________________ 45 EL PROCESO DE EXTRACCIÓN DE CONOCIMIENTO DE GRANDES BASES DE DATOS (KDD PROCESS) ______ 47 DEFINICIONES DE LAS TÉCNICAS DEL DATA MINING ___________________________________________ 48

    Asociaciones o Reglas de asociación ____________________________________________________ 49 Patrones secuenciales ________________________________________________________________ 50 Clasificación _______________________________________________________________________ 50 Clustering o agrupamiento ____________________________________________________________ 51 Pronóstico _________________________________________________________________________ 51

    FUNDAMENTOS DE LA ELECCIÓN DE LAS METODOLOGÍAS INDICADAS ______________________________ 52 WEKA COMO HERRAMIENTA PARA EL ESTUDIO REALIZADO _____________________________________ 53 JUSTIFICACIÓN DEL DOMINIO DEL CONOCIMIENTO _____________________________________________ 56 CONCLUSIONES _______________________________________________________________________ 58

    CAPITULO IV ________________________________________________________________________ 59

    CASOS DE ESTUDIO _________________________________________________________________ 59

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 7

    PROCESO RESOLUTIVO DE ALGUNOS CASOS DE APLICACIÓN USANDO ADAPTIVE BUSINESS INTELLIGENCE__ 60 CASO DE ESTUDIO Nº 1: DIAGNÓSTICO DIFERENCIAL DEL ERITEMA ESCAMOSO EN DERMATOLOGÍA _______ 60

    Resultados esperados al finalizar el proyecto _____________________________________________ 61 Enfoque sistémico. Investigación sobre Dermatología aplicando BI ____________________________ 61 Extracción muestral y análisis exploratorio de los datos _____________________________________ 61 Los requerimientos __________________________________________________________________ 63 Preparación de la base de datos ________________________________________________________ 64 Modelo predictivo ___________________________________________________________________ 73 Entrenamiento del modelo ____________________________________________________________ 75 Validación del Modelo _______________________________________________________________ 76

    CASO DE ESTUDIO Nº 2: HEPATITIS ________________________________________________________ 80 Resultados esperados al finalizar el proyecto _____________________________________________ 80 Captura de requerimientos ____________________________________________________________ 80 Extracción muestral _________________________________________________________________ 81 Análisis exploratorio de los datos_______________________________________________________ 81 Pre-procesamiento y tratamiento de los datos _____________________________________________ 82 Búsqueda de patrones, reglas o grupos __________________________________________________ 83 Modelado predictivo _________________________________________________________________ 86 Validación comparativa del modelo _____________________________________________________ 87

    CASO DE ESTUDIO Nº 3: DIABETES _________________________________________________________ 87 Resultados esperados al finalizar el proyecto _____________________________________________ 87 Captura de requerimientos ____________________________________________________________ 87 Extracción muestral _________________________________________________________________ 88 Análisis exploratorio de los datos_______________________________________________________ 88 Pre-procesamiento y tratamiento de los datos _____________________________________________ 89 Búsqueda de patrones, reglas o grupos __________________________________________________ 90 Modelado predictivo _________________________________________________________________ 92 Validación del modelo _______________________________________________________________ 93

    CAPITULO V _________________________________________________________________________ 95

    PROPUESTA METODOLÓGICA ________________________________________________________ 95 INTRODUCCIÓN _______________________________________________________________________ 96 PROCESO METODOLÓGICO APLICADO PARA LA CONSECUCIÓN DE LOS OBJETIVOS DE ESTA TESIS _________ 96 APLICACIÓN DE LAS METODOLOGÍAS ANALIZADAS A CASOS DE ESTUDIO ___________________________ 97 APLICACIÓN DE CRISP-DM _____________________________________________________________ 97 APLICACIÓN DE SEMMA _______________________________________________________________ 99 APLICACIÓN DE KDD _________________________________________________________________ 100 SURGIMIENTO DE LA METODOLOGÍA PARA EL DESARROLLO DE APLICACIONES AUTOADAPTATIVAS BASADAS

    EN BUSINESS INTELLIGENCE ____________________________________________________________ 103 CICLO DE VIDA _______________________________________________________________________ 106 CORRESPONDENCIA ENTRE LAS ETAPAS METODOLÓGICAS Y EL CICLO DE VIDA ______________________ 106 ETAPAS CANÓNICAS DE LA METODOLOGÍA DESARROLLADA ____________________________________ 109 CONCLUSIONES ______________________________________________________________________ 121

    CAPITULO VI _______________________________________________________________________ 122

    EJE DEMOSTRATIVO DE LA METODOLOGIA __________________________________________ 122 APLICACIÓN AUTOADAPTATIVA – EJE DEMOSTRATIVO ________________________________________ 123 APLICACIÓN DE LA METODOLOGÍA – CASO Nº 1 ______________________________________________ 124 EL DOMINIO DEL EXPERTO. SCREENING DE SEPSIS INTRAHOSPITALARIA ___________________________ 124 ANÁLISIS DEL PROBLEMA EN EL DOMINIO DEL EXPERTO _______________________________________ 124 FASE 1: CAPTURA DE REQUERIMIENTOS____________________________________________________ 125 RESULTADOS ESPERADOS AL FINALIZAR EL PROYECTO ________________________________________ 125 ASPECTOS RELEVANTES DEL PROYECTO ____________________________________________________ 126

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 8

    FASE 2: EXTRACCIÓN MUESTRAL _________________________________________________________ 126 FASE 3: ANÁLISIS EXPLORATORIO DE LOS DATOS ____________________________________________ 127 INFORMACIÓN DE LOS ATRIBUTOS ________________________________________________________ 127 FASE 4: PRE-PROCESAMIENTO Y TRATAMIENTO DE LOS DATOS __________________________________ 128 FASE 5: BÚSQUEDA DE PATRONES, REGLAS O GRUPOS _________________________________________ 129 FASE 6: MODELADO PREDICTIVO _________________________________________________________ 132 FASE 7: VALIDACIÓN COMPARATIVA DEL MODELO ___________________________________________ 133 FASE 8: DESARROLLO DEL SOFTWARE PREDICTIVO ___________________________________________ 134 APLICACIÓN DE LA METODOLOGÍA – CASO Nº 2 ______________________________________________ 135 DOMINIO DEL EXPERTO. ENFERMEDAD HIPOTIROIDISMO. ______________________________________ 135 PRUEBAS Y EXÁMENES _________________________________________________________________ 136 ANÁLISIS DEL PROBLEMA EN EL DOMINIO DEL EXPERTO _______________________________________ 136 FASE 1: CAPTURA DE REQUERIMIENTOS____________________________________________________ 136 RESULTADOS ESPERADOS AL FINALIZAR EL PROYECTO ________________________________________ 136 ASPECTOS RELEVANTES DEL PROYECTO ____________________________________________________ 136 FASE 2: EXTRACCIÓN MUESTRAL _________________________________________________________ 137 FASE 3: ANÁLISIS EXPLORATORIO DE LOS DATOS ____________________________________________ 137 INFORMACIÓN DE LOS ATRIBUTOS ________________________________________________________ 137 FASE 4: PRE-PROCESAMIENTO Y TRATAMIENTO DE LOS DATOS __________________________________ 138 FASE 5: BÚSQUEDA DE PATRONES, REGLAS O GRUPOS _________________________________________ 140 FASE 6: MODELADO PREDICTIVO _________________________________________________________ 142 FASE 7: VALIDACIÓN COMPARATIVA DEL MODELO ___________________________________________ 142 FASE 8: DESARROLLO DEL SOFTWARE PREDICTIVO ___________________________________________ 144 CONCLUSIONES ______________________________________________________________________ 146

    CAPITULO VII _______________________________________________________________________ 147

    CONCLUSIONES Y TRABAJO A FUTURO _____________________________________________________ 147 APORTES ___________________________________________________________________________ 150 TRABAJO FUTURO ____________________________________________________________________ 152 BIBLIOGRAFÍA: ______________________________________________________________________ 155

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 9

    CAPITULO I

    Introducción

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 10

    Una Metodología para el Desarrollo de Aplicaciones

    Autoadaptativas basada en Business Intelligence. Aplicación en

    Medicina

    Los problemas del mundo real incluyen una diversidad de posibilidades, algunos de ellos con múltiples soluciones y multivariables de entradas o salidas. De manera general, las etapas metodológicas para el desarrollo de aplicaciones basadas en Adaptive Business Intelligence abarcan la comprensión del problema, de los datos, su preparación, modelado, búsqueda para acercarse a los objetivos e implementación a través de una aplicación de negocios. La interpretación correcta de estas etapas para el desarrollo de aplicaciones autoadaptativas basadas en técnicas de Business IntelIigence (Inteligencia de Negocios), dan lugar al uso óptimo de métodos de predicción y técnicas de optimización, los cuales aplicados a un problema de referencia, dan como resultado parámetros de mayor o menor precisión, error, nivel de confianza, consumo de recursos o tiempo de entrenamiento. Existen a los fines citados metodologías que facilitan el proceso de desarrollo de aplicaciones, tales como CRISP-DM, KDD Process [CIO07], y SEMMA [SAS12], entre otras. Cada una de estas metodologías presenta fortalezas y debilidades, principalmente en virtud de estar orientadas a procesos de negocios. Es de considerar por ejemplo una metodología como CRISP-DM (CRoss-Industry Standard Process for Data Mining) [CHA00]. Entre sus factores positivos propone un modelo de proceso estándar, no propietario y de libre disposición, a través de un consorcio con financiamiento de la Comisión Europea cuyas bases han comenzado a establecer un estándar en la industria y una aplicación neutral. Sin embargo, debido a la amplitud y complejidad de los problemas que las empresas y organizaciones pueden presentar, esta metodología puede resultar poco precisa a la hora de encarar la resolución de problemas más específicos. Entre estos problemas surgen los de aquellas disciplinas no orientadas directamente a la Inteligencia de Negocios. De manera similar a lo expuesto sucede con KDD Process y con SEMMA, cada una de ellas con sus ventajas y desventajas frente a problemas orientados a las ciencias de la vida. Teniendo en cuenta lo mencionado anteriormente, en el presente trabajo presentamos la formulación de una nueva metodología a partir del mapeo de las principales etapas para la solución de problemas. Para lograrlo, se toma como referencia Adaptive Business Intelligence, Business Intelligence y conceptos de Inteligencia Artificial avanzada, en donde a través de diversos casos de estudio se encontraron nuevos patrones metodológicos comunes. Buscamos así facilitar el desarrollo informático y, mediante la aplicación de esta metodología en un trabajo interdisciplinario, demostramos su eficacia en un marco orientado a herramientas autoadaptativas, usando problemas reales como eje de su aplicación.

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 11

    En particular los problemas de predicción en la medicina se han convertido en un desafío para la extracción de conocimiento de la información. Es así que la Adaptive Business Intelligence como una especialización de Business Intelligence proporciona un conjunto de soluciones basadas en métodos y técnicas variadas (Data mining, Prediction, Optimization, Adaptability). Todo esto complementado por herramientas de Inteligencia Artificial avanzadas, permiten la extracción de conocimiento científico en la medicina en particular así como en otras disciplinas en general. En uno de los problemas de aplicación, se aplica esta metodología para la elaboración de un sistema autoadaptativo, el cual permite predecir el screening de sepsis intrahospitalarias, asociadas o no a alteraciones genéticas en neonatos con peso mayor a 1Kg y edad gestacional mayor de 32 semanas. Asimismo, aplicamos la metodología a otro caso demostrativo, sobre una base de datos clínicos de hipotiroidismo. En este caso la metodología permite afrontar un número mayor de variables atributos y una cantidad muestral mayor, obteniendo así el conocimiento acerca de las clasificaciones de los atributos para determinar el estadio de la persona enferma, llevando luego este conocimiento a una aplicación autoadaptativa.

    Fundamentos

    La Inteligencia computacional se está convirtiendo en una de las tecnologías clave para los sistemas de salud, necesaria para seguir evolucionando [GRI08]. Las herramientas inteligentes, como las redes neuronales artificiales [IEE07], los sistemas multiagente [MOH04], los algoritmos genéticos [CHE07] colaboran con los sistemas que se comportan como seres humanos, una característica esencial para la asistencia sanitaria y que muchos sistemas deben tener. [VAI07] Adaptive Business Intelligence es la combinación de las disciplinas de predicción, optimización, y adaptabilidad en un sistema capaz de responder a dos preguntas fundamentales: ¿Qué es probable que ocurra en el futuro? y ¿Cuál es la mejor decisión en este momento? [ARJ09]. Adaptive Business Intelligence es una especialización natural de Business Intelligence, adaptando los sistemas de Business Intelligence a los tres componentes de predicción, adaptación y optimización que constituyen sus componentes básicos. Tal tecnología se aplica en áreas diversas tales como Ingeniería, Psicología, Física, Robótica, Finanzas, Logística y Transporte, Producción, Telecomunicaciones, Industria, Biología, Medicina, Desarrollo Sostenible, Arte y Entretenimiento, entre muchas otras. Los principales paradigmas de solución incluyen entre sus técnicas de optimización y métodos de predicción a las redes neuronales artificiales, la computación evolutiva, la inteligencia de enjambres, los sistemas difusos y los sistemas inmunitarios artificiales. Sin embargo, también incluyen otras categorías de soluciones, sean matemáticas, lógicas, de distancia o de heurística moderna, que

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 12

    por ejemplo abarcan Naive Bayes [MOH04], Modelos Markovianos [VRA08], Self Organizing Maps [MIC07], Hebbian Layer [CHE07] y muchos otros. Frente a este panorama, el especialista en sistemas, encuentra una gran barrera para determinar el método más adecuado para la resolución de su problema particular, especialmente cuando se trata de un campo como lo es la medicina. En este trabajo abarcamos el dominio de los problemas de predicción, incluyendo la regresión, la clasificación y el análisis de series temporales, y su configuración en una metodología, que facilite la aplicación del método o técnica más recomendable en base a la experiencia y conocimientos previos sobre la materia. Para ilustrar y demostrar el comportamiento de la metodología, como así también describir el trabajo metodológico interdisciplinario, elegimos dos problemas de connotaciones netamente humanitarias, como lo son el problema de la sepsis intrahospitalaria y el hipotiroidismo. Si bien esto último fundamenta la importancia de esta aplicación particular como caso de estudio, sólo representa un caso más en el mapa de aplicaciones posibles de este tipo de desarrollos. El caso de hipotiroidismo se presenta como una evidencia adicional de la relevancia de estas aplicaciones. Por todo esto, una metodología que simplifique y agilice la creación de sistemas adaptativos inteligentes a los desarrolladores, representa un gran avance en este campo. Tomando en cuenta en especial que las metodologías existentes son muy generales y pueden ser ambiguas para estos casos.

    Hipótesis:

    Es posible inferir una metodología simplificada para la creación de aplicaciones predictivas para entornos autoadaptativos a partir de otras metodologías y de casos de estudio.

    Es posible definir una metodología general para problemas que involucran Adaptive Business Intelligence en el campo de la medicina y afines.

    Es posible aplicar la metodología desarrollada para la creación de una aplicación autoadaptativa para problemas particulares del ámbito médico.

    Metodología de Trabajo:

    Se analizan las aplicaciones y características de los diversos métodos de predicción y técnicas de optimización, en especial aquellas orientadas a heurísticas modernas –como las redes neuronales, árboles de decisión, reglas de clasificación, entre otros-, incluyendo algunas metodologías de desarrollo. Se caracterizan las metodologías existentes orientada a determinar aquellos datos significativos a la investigación, identificando los de mayor relevancia y reduciendo

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 13

    las variables que sumen complejidad innecesaria, buscando permanentemente patrones metodológicos comunes a ellas. En un paso posterior a esto se construye el método que facilita la administración del flujo de trabajo para el desarrollador de aplicaciones en el dominio de los problemas de predicción. La metodología propuesta en esta tesis se enfoca en las etapas que describen de manera clara y concisa el proceso de resolución de un problema de Adaptive Business Intelligence y su validez es contrastada mediante la precisión obtenida en los casos de estudio. Para el desarrollo de la aplicación autoadaptativa de diagnóstico de sepsis, se recabaron datos de historias clínicas de pacientes (antecedentes hereditarios, signos clínicos, valores de los exámenes sanguíneos y otros) a través de un sistema informático y en el segundo caso (diagnóstico de estadio de hipotiroidismo) se utilizaron las muestras recogidas por un centro de salud disponible en un banco de datos. Luego se computaron en la aplicación las variables, eliminando, filtrando, agrupando, obteniendo nuevas variables resultado. En general, pre-procesando los valores de las variables para que el estudio sea estadísticamente representativo y confiable. La base de datos inicial se transformó en un almacén de datos desde el cual es posible realizar el procesamiento mediante las diversas técnicas del Adaptive Business Intelligence. Esto provee el entrenamiento y la clasificación inicial necesaria para evaluar los estadísticos resultantes. Mediante un juego de datos parciales o nuevos se realizó el testing de la fase de predicción de la metodología. Lo cual ha conformado una primera aproximación a lo que el experto en medicina puede validar con sus conocimientos del tema.

    Alcance del trabajo

    Para lograr su objetivo, el presente trabajo cubre los aspectos relacionados con los aportes metodológicos existentes, considerando para ello tres metodologías: CRISP-DM KDD Process [CIO07] y SEMMA [SAS12]. Estas metodologías sirven como referencia para la determinación de los pasos fundamentales a seguir cuando se trate de aplicaciones médicas, siempre en el entorno de Adaptive Business Intelligence. En este marco, se ha puesto énfasis en la búsqueda de conocimiento orientado a problemas de clasificación, regresión o series de tiempo, considerando el estado del arte de la inteligencia artificial y las aplicaciones autoadaptativas. Como resultado del seguimiento de los pasos metodológicos propuestos, se proporciona, además, el seudocódigo principal de un software aplicativo. Estas líneas de código permiten ejemplificar el comportamiento de la metodología con un producto final funcional, cuyo aporte a la medicina es válido.

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 14

    Para esto se plantean conceptos sintéticos de las diferentes técnicas de predicción y métodos de optimización, con una breve introducción en los aspectos exploratorios y de pre procesamiento de la información. El conocimiento de esta información, corresponde mayormente al dominio del especialista médico. En ambos casos, tanto sepsis como hipotiroidismo, se validan los modelos a través de controles de calidad que permiten asegurar el adecuado funcionamiento al realizar el despliegue de los mismos.

    Objetivos de la tesis

    Objetivo general:

    En este trabajo, nos hemos propuesto tomar como base tres metodologías primordiales para definir una nueva metodología para la creación de aplicaciones predictivas en entornos autoadptativos, basada en las estructuras conceptuales de Adaptive Business Intelligence, Business Intelligence e Inteligencia Artificial, la cual estará orientada en particular a problemas médicos y afines disciplinariamente tales como biotecnología, genómica, cuidado de la salud, ciencia y farmacéutica médica y otras ciencias de la vida. Objetivos particulares:

    Identificar las etapas principales que permitirán el desarrollo de una aplicación predictiva para entornos autoadaptativos, basándonos en metodologías existentes y en el estudio de casos.

    Proponer una metodología general simplificada y pragmática para la resolución de problemas que involucran Adaptive Business Intelligence, particularmente en el campo de la medicina y otras tales como biotecnología, genómica, cuidado de la salud, ciencia y farmacéutica médica.

    Contrastar las hipótesis a través de dos aplicaciones demostrativas reales que involucran el problema particular de la sepsis intrahospitalaria en neonatos y el hipotiroidismo.

    Demostración empírica de la tesis

    Conceptualmente se puede dividir esta tesis en tres etapas:

    Etapa Conceptual Etapa Analítica Etapa Demostrativa

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 15

    Para cumplir su propósito, en la primera instancia (conceptual) se precisan, con el nivel de detalle adecuado, aquellos aspectos teóricos del Adaptive Business Intelligence que son necesarios para pasar a la etapa analítica. En la etapa analítica se obtienen, a través de diferentes herramientas, aquellos conocimientos necesarios para determinar cuáles son las fases que una nueva metodología debe contar, para una sólida definición de las etapas a seguir durante el desarrollo de aplicaciones de Adaptive Business Intelligence. Finalmente, en el devenir de la etapa demostrativa, se enfoca en los aspectos teóricos relacionados con la directa aplicación de la nueva metodología a dos casos de estudio particulares. Estos casos son necesarios, toda vez que facilitan una comprensión que sirve como referencia, para una adecuada interpretación de los resultados que se obtienen de esta tesis. Estas precisiones son presentadas en el capítulo sexto y tienen una particularidad. Uno de estos casos, el relacionado con la sepsis, no es completamente exitoso en sus resultados reales, debido a cuestiones de índole estadística en la cantidad de individuos. Sin embargo la aplicación de la metodología aún así, resulta efectiva. Es de resaltar a modo anecdótico, que las expectativas previas del profesional de salud involucrado en el caso de sepsis, fueron más altas de lo que sus registros de pacientes (la base de datos en estudio) podían conferir como resultados. Y fue la aplicación de la metodología, la que indicó que la predicción en este escenario no era confiable, revelando la necesidad de continuar con los registros para incrementar los datos de aprendizaje del modelo. Lo citado previamente denota una fortaleza en los aspectos técnicos pretendidos durante la formulación de los objetivos del trabajo de tesis. Más específicamente aseveran la robustez de la nueva metodología. De esta manera, la metodología para el desarrollo de aplicaciones de Adaptive Business Intelligence, mediante la utilización de los pasos canónicos obtenidos en este trabajo, simplifican el uso interdisciplinario de una manera eficaz y de sencilla aplicación. Esto último se contrapone al uso de aquellas metodologías tradicionales que pueden requerir de especialistas para su aplicación. En relación con el desarrollo del software predictivo, el resultado de la aplicación de la metodología facilita de manera clara las reglas necesarias para un modelado eficaz. Surge como síntesis de esta etapa demostrativa, la utilidad que una metodología de este tipo puede proveer al análisis de las bases de datos, especialmente médicas o similares. Por lo tanto facilita encontrar patrones ocultos que se traducen en información predictiva, manteniendo siempre presente el apropiado nivel de confiabilidad que estas aplicaciones deben tener como premisa.

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 16

    Estructura de la tesis

    Esta tesis se desarrolla en ocho capítulos (además de un apartado de referencias), cuya estructura, luego del primer capítulo de introducción, es la siguiente:

    El primer capítulo constituye una introducción a este trabajo, involucra los fundamentos, hipótesis y la metodología a desarrollar. Se formulan además los alcances y se precisan los objetivos, tanto generales como particulares.

    En el capítulo segundo se ofrece una revisión de los conceptos de Bioinformática planteando sus avances y sus complicaciones. A partir de estas debilidades, se presenta al Business Intelligence como una alternativa que coincidentemente brinda una solución aplicable, esquematizando sus aspectos principales y justificando su utilidad. A continuación, se confrontan los aspectos técnicos relativos a las decisiones basadas en conocimiento para una utilización efectiva en los ámbitos de las ciencias médicas. Se precisan, también en este capítulo, aquellas concepciones teóricas que facilitarán la comprensión acerca del porqué de Adaptive Business Intelligence aplicado en medicina. Como es de esperar, el data mining tiene un rol protagónico en este apartado, magnificando su correlación con los procesos metodológicos adoptados por KDD Process y Business Intelligence. Se consideran además fuentes de información específicas que pueden ser utilizadas para trabajos similares. Este capítulo finaliza, explicitando las características autoadaptativas de las aplicaciones a desarrollar.

    En el capítulo tercero se describen brevemente, las metodologías escogidas como referencia: CRISP-DM, SEMMA y KDD Process, y su relación con el Adaptive Business Intelligence. Se han incluido definiciones acerca de las técnicas utilizadas para capturar conocimiento a través de algoritmos de aprendizaje de máquina con ejemplos de simple comprensión. Ha sido identificada y comentada la herramienta WEKA [WAI11] y sus ventajas afines al trabajo desarrollado para finalizar con una justificación que demuestra la importancia del campo de acción seleccionado para la metodología desarrollada.

    A lo largo del cuarto capítulo se abordan tres casos de estudio, cuya realización permitirá obtener conclusiones acerca del desarrollo de las aplicaciones de Autoadaptive Business Intelligence. Se trata del diagnóstico diferencial del eritema escamoso en dermatología, un caso que presenta una línea difusa en su resolución complicando al profesional quien depende de variables cuyos valores se asemejan para diferentes tipos de enfermedades. Se aborda su resolución utilizando paralelamente dos herramientas, WEKA y Peltarion Synapse para su proceso resolutivo. Luego de ello se trata del caso de hepatitis donde se aplican modelos y comparativamente se demuestra su resolución. Para finalizar realiza el proceso resolutivo sobre casos de diabetes y utilizando validadores basados en error para comprobar su calidad.

    Este quinto capítulo se enfoca directamente sobre las inferencias de la lógica utilizada para la resolución de los casos explicitados en el capítulo IV, además de su contraste sobre plantillas de las metodologías usadas como

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 17

    referencia. De esta manera se describen aquellas etapas de CRISP-DM, SEMMA y KDD Process, que tienen activa participación en la resolución de casos, en el ámbito de las ciencias reflejadas como casos de estudio. En un intento de síntesis comparativa que refuerza las fortalezas y reduce las falencias, se plasman las relaciones entre ellas, las que dan lugar a la nueva metodología de desarrollo para Adaptive Business Intelligence. A continuación, se explicitan los detalles que forman la parte constitutiva de esa nueva metodología, sus características, así como su ciclo de vida, sus actividades clarificadas y los pasos que el proceso metodológico ofrece. Los mismos se amplían con aquellas plantillas de trabajo que pueden utilizarse en cada caso.

    El capítulo VI refleja los objetivos alcanzados a través de la demostración pragmática, con la aplicación efectiva de la metodología de desarrollo para Adaptive Business Intelligence. Esto se describe paso a paso con explicaciones adicionales, que complementan cada etapa abordándolas con un criterio realista. Para una mayor calidad de las aplicaciones se han utilizado los algoritmos de aprendizaje de máquina más adecuados al campo disciplinar, logrando una validación más efectiva a través de la curva ROC.

    En el capítulo séptimo, se desarrollan las conclusiones, la forma de implementar los resultados obtenidos y las líneas de trabajo futuro.

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 18

    CAPITULO II

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 19

    Antecedentes

    En lo que respecta al aspecto médico, el presente trabajo representa el complemento para la finalización de la tesis de doctorado en medicina de una profesional de nuestro medio por lo cual no se abordará la temática acerca del problema de la sepsis en este apartado, ya que el mismo es considerado ampliamente en el mencionado trabajo científico e involucra cuestiones médicas y estadísticas demostrativas ajenas al interés del presente.

    Los datos procesados durante el análisis del hipotiroidismo provienen de un Centro de Salud denominado Garavan Institute y J. Ross Quinlan. Sydney, Australia y son utilizados para validar la metodología desarrollada en un ámbito de datos certeros. De esta manera se usan a modo de contraste facilitando la aplicación completa del método. Con relación a Business Intelligence, la tecnología de la información se ha convertido en un soporte a las decisiones. El trabajo es dinámico y el cambio permanente [ARJ09]. Business Intelligence está siendo ampliamente utilizado, especialmente para describir las aplicaciones analíticas. Se trata de un proceso que incluye dos actividades principales: la obtención de datos de entrada y la obtención de datos de salida. La obtención de datos de entrada, tradicionalmente conocida como datawarehousing, consiste en mover datos de un conjunto de sistemas fuentes en un almacén de datos integrados. La obtención de datos de salida ofrece un valor limitado para una empresa, y sólo cuando los usuarios y las aplicaciones tienen acceso a los datos y los utilizan para tomar decisiones, la organización puede obtener el máximo valor de su almacén de datos. Por lo tanto, la obtención de datos de salida, recibe la mayor atención por parte de las organizaciones. [IEE07]

    En una primera instancia, esta área no parece nueva ya que existe en la literatura un gran número de publicaciones en el área de Business Intelligence, Data Mining, métodos de predicción, técnicas de optimización y otras. Sin embargo, a diferencia de lo que ocurre con los problemas del campo empresarial para el cual Business Intelligence ha sido concebida (Almacenes de datos, Procesamiento Analítico en Línea, Descubrimiento de conocimiento en Bases de Datos y Minería de Datos, Análisis estadístico entre otros), este material no explica de una manera sencilla cómo combinar estas tecnologías o adecuarse a la utilización de una u otra, para que sea posible realizar predicción, optimización o adaptabilidad y llevarlo adelante pragmáticamente, en un trabajo de desarrollo en el campo de la medicina.

    Más que una combinación de datos y de tecnología, Business Intelligence ayuda a crear conocimiento a partir de una gran cantidad de información. Al obtener los datos correctos, descubrir su potencial, y compartir el valor agregado del mismo, transforma la información en conocimiento. Business Intelligence permite proveer la información en manos del usuario correcto, en el momento adecuado, para apoyar el proceso de toma de decisiones.

    Más aún, en el contexto de la Adaptive Business Intelligence, la bibliografía es escasa en lo referente a la aplicación de las diferentes etapas metodológicas y menos en lo que respecta a la selección y aplicación adecuada de herramientas para cada una de ellas en un campo como el de la medicina.

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 20

    Si bien existen diversas publicaciones que hacen mención a usos de Adaptive Business Intelligence, como es el caso de [REI00], mencionando aplicaciones en la industria, aseguramiento de la calidad, finanzas y seguridad, industria de las telecomunicaciones, industrias manufactureras, dejan completamente de lado su uso en el campo que se aborda en el presente trabajo, el de los aspectos metodológicos en el campo de la medicina.

    Febles Rodríguez [FEB11] describe sintéticamente los componentes básicos de la minería de datos y su aplicación en una emergente y trascendental actividad científica: la bioinformática, sin embargo no realiza aportes en el sentido de este trabajo de tesis.

    Otros trabajos, tales como [AYA06],[MOS03],[IEE07],[LOP05],[REI00], [SAN90], ofrecen diferentes enfoques de aplicaciones, uso y arquitecturas que, sistemáticamente, presentan contenidos significativos del estado del arte del Business Intelligence, la Inteligencia Artificial o el Adaptive Business Intelligence, sin embargo no plantean el tema central de este trabajo de tesis y tampoco lo mencionan.

    En [AIM05] se incorpora una vasta cantidad de bibliografía sin contemplar información alguna acerca de metodologías de trabajo referentes a Adaptive Business Intelligence en Medicina.

    Chapman, Kerber, Khabaza, Reinartz, Shearer y Wirth [CHA00] aborda la temática de la metodología desde la perspectiva de negocio proponiendo un uso secuencial de la metodología CRISP-DM. Algunas de estas etapas permitirán al presente trabajo su incorporación y adecuación al ámbito de la medicina.

    Este trabajo de tesis pretende ejemplificar complementariamente, en una disciplina diferente a la Informática, el uso real de las técnicas de Inteligencia Artificial avanzada de las que se nutre el Business Intelligence. Debe tenerse en cuenta que los sistemas de información complementan cada vez más diferentes disciplinas a través de sus múltiples sistemas, dando soporte para tareas de planificación, acción, control, toma de decisiones, comunicaciones, recursos humanos, etc.

    La bioinformática

    La bioinformática se encuentra en la intersección entre las ciencias de la vida y de la información, proporciona las herramientas y recursos necesarios para favorecer la investigación biomédica. Como campo interdisciplinario, comprende la investigación y el desarrollo de sistemas útiles para entender el flujo de información desde los genes a las estructuras moleculares, su función bioquímica, su conducta biológica y, finalmente, su influencia en las enfermedades y en la salud. [FEB11]

    Sin embargo, el volumen de información a interpretar por el especialista excede ampliamente su capacidad humana y en el momento de realizar evaluaciones o análisis de estos volúmenes de informes, posiblemente se pueden generar errores.

    La bioinformática es, como tal, una disciplina académica y de investigación joven, pero que ya ha demostrado sus posibles y grandes implicaciones para la futura comprensión de una gran gama de problemas médicos, moleculares y biológicos. Se puede definir como la aplicación de técnicas computacionales a la gestión de la

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 21

    información biológica y el uso de métodos derivados de disciplinas tales como matemáticas aplicadas, ciencias de la computación (informática), estadística, inteligencia artificial, ciencias de la salud. Esta nueva disciplina aporta numerosas áreas de investigación que van desde el modelado de ciclos de células, hasta biología computacional y genética, pasando por biofísica, genómica, proteómica, análisis de secuencias y biología de sistemas. [AGU11]

    En etapas tempranas se encuentran en este ámbito de la bioinformática, la búsqueda de la solución y la profundización de los modelos matemáticos que rigen el funcionamiento celular y molecular, e incluso las relaciones existentes entre las distintas drogas y medicamentos aplicables en ámbitos médicos. Muchos de estos modelos se ven influenciados en gran medida por el transcurso del tiempo, lo que dificulta observaciones, mediciones y obtención de conclusiones. Tal es el caso de algunas enfermedades por ejemplo, cuyas cepas introducen un factor de retardo en la investigación.

    Es el tiempo el que juega un rol protagónico en algunas aplicaciones de la bioinformática, toda vez que la aplicación de un medicamento buscando remediar una enfermedad, se ve reflejado con un lapso de retardo. Este periodo dificulta aún más el descubrimiento de información directa en las disciplinas médicas o científicas relacionadas con ella, tal el caso de las aplicaciones farmacéuticas, íntimamente relacionadas con drogas y sus efectos. Es por esto que se requiere de una tecnología “inteligente” que supere estos obstáculos asociados con los grandes volúmenes de datos, el tiempo, los objetivos poco definidos o las soluciones múltiples.

    Sin embargo, la inteligencia computacional es más que el estudio del diseño de agentes inteligentes, en particular, en los dominios de aplicación. También incluye el estudio de los problemas para los cuales no hay algoritmos eficaces, ya sea porque no se les puede formular o porque no son eficaces en las aplicaciones de la vida real. El ser humano (o los organismos biológicos) puede resolver estos problemas todos los días con diferentes grados de competencia: extraer el significado de la percepción, la comprensión del lenguaje, y la solución de problemas definidos como la visión por computador. Por lo tanto, el objetivo central de la inteligencia computacional científica es comprender los principios que hacen posible un comportamiento inteligente, ya sea en lo natural o en sistemas artificiales. El objetivo central de ingeniería de la inteligencia computacional, es especificar los métodos para el diseño de artefactos útiles, inteligentes. De hecho, los métodos fundamentales de cálculo de la computación neuronal, los sistemas difusos, y la evolución informática, han surgido recientemente como herramientas prometedoras para el desarrollo, aplicación e implementación de sistemas inteligentes en el cuidado de la salud. Estas herramientas de inteligencia computacional han ofrecido muchas ventajas en la automatización y la emulación de la capacidad de un médico en el cuidado de la salud. [VAI07]

    Actualmente el ser humano se encuentra abocado a detectar mediante herramientas informáticas, aquellos aspectos que faciliten el reconocimiento de las personas, potenciales peligros, patentes, explosivos y otros, estos conceptos también se aplican en el reconocimiento de formas y patrones que permiten la detección temprana de enfermedades como el cáncer. Es en estas aplicaciones donde se contextualizan nuevos datos, en forma de imágenes en 2D o 3D, las que

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 22

    deberán ser procesadas de modos diferentes o más eficaces. Surge así el campo específico de las aplicaciones biométricas.

    Un sistema biométrico es esencialmente, un sistema de reconocimiento de patrones que hace una identificación personal, mediante la determinación de la autenticidad de una característica específica, fisiológicas o de comportamiento que posee la persona. Normalmente, las características personales tales como las formas de onda de voz, imágenes de rostros, huellas digitales, o la cara en 3-D o formas geométricas a mano se obtienen a través de un sensor y se introducen en un discriminador (motor de reconocimiento de patrones) para devolver un resultado de éxito o fracaso. [ZHA06]

    Tal como se plantea, el panorama de aplicaciones computacionales que pueden involucrar aprendizaje de máquina es amplio, diversificándose a medida que la ciencia avanza sobre nuevos campos de investigación. Esto provoca enormes cantidades de datos, que a través de los métodos descriptivos clásicos, resulta prácticamente imposible de utilizar de manera ventajosa para la toma de decisiones.

    La magnitud de la información que generan las investigaciones realizadas sobre el genoma humano es tal que, probablemente, supera la generada por otras investigaciones en otras disciplinas científicas. Como se sabe, la vida es la forma más compleja de organización de la materia que se conoce. En estos momentos ordenadores no aptos para uso civil, los más potentes del mundo, (en Celera y en Oak Ridge Nacional Laboratory, por ejemplo, con una capacidad de cálculo cercana a los 2 Teraflops, billones de operaciones por segundo) están dedicados a la investigación biológica, concretamente a la obtención y al análisis de las secuencias de nucleótidos de los genomas conocidos. [FEB11]

    Una metodología que provea etapas simples y efectivas al momento de utilizar estas sofisticadas herramientas y tecnologías, seguramente redundará en una mayor producción de conocimiento. Esto favorecerá una curva de aprendizaje exponencial, evitando así que el minero de datos centre su atención en la herramienta, para pasar a utilizar su conocimiento específico en la captura del nuevo conocimiento, el cual surge de los teraflops de datos a los cuales actualmente tenemos acceso.

    La Inteligencia de Negocios - Business Intelligence

    Las empresas recogen enormes cantidades de datos cada día: información sobre los pedidos, inventario, cuentas por pagar, punto de venta, transacciones y, por supuesto, clientes. Las empresas también adquieren datos, tales como la demografía y listas de correo, desde fuentes externas. Consolidar y organizar los datos para mejorar la toma de decisiones de negocio, puede conducir a una ventaja competitiva, y aprender a descubrir y aprovechar esas ventajas, es de lo que la inteligencia de negocios se trata. Esta cantidad de datos empresariales crece exponencialmente. De hecho, se duplica cada dos o tres años. Más información significa más competencia. En la era de la explosión de la información, los ejecutivos, gerentes, profesionales, y todos los trabajadores deben ser capaces de tomar mejores decisiones y más rápido. Porque ahora, más que nunca, el tiempo es dinero. Mucho más que una combinación de datos y tecnología, el

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 23

    Business Intelligence ayuda a crear conocimiento a partir de un mundo de información. Obtiene los datos correctos, descubre su poder, y comparte el valor de los mismos, transforma la información en conocimiento. Business Intelligence es la aplicación que coloca la información correcta en manos del usuario correcto en el momento adecuado para apoyar el proceso de toma de decisiones. [REI00]

    ¿Quién mejor que un científico, un médico, un profesional bioquímico o un genetista, podría utilizar este paradigma tecnológico para alcanzar el conocimiento oculto detrás de esos datos? Los beneficios que provee el Business Intelligence se aplican no solamente en los ámbitos empresariales, donde por demás está decir las ventajas que reditúa. Esta alternativa para la toma de decisiones se ve potenciada cuando se complementa con la característica autoadaptativa de las aplicaciones, de las cuales se detallarán los elementos fundamentales más adelante.

    Sin embargo, el desafío para el minero de datos no solo radica en encontrar aquellas pepitas que favorezcan a la Gerencia al científico relacionado con la medicina, como se plantea, sino también requiere de una infraestructura previa. Esta dará soporte a la construcción de este tipo especial de aplicaciones, y permitirá posteriormente, el procesamiento automatizado de los datos que se necesiten, orientados en todo caso hacia un horizonte objetivo que es el producto de alguna hipótesis previa.

    Una vez que los datos y su uso se identifican, deberá construirse una arquitectura de Business Intelligence para dar soporte a la infraestructura necesaria. La manera más simple de ver la arquitectura de inteligencia de negocios es a través de tres segmentos:

    • Recopilación de los datos importantes.

    • Descubrimiento y análisis de los datos, mientras se los transforma en información

    pertinente.

    • Entrega de la información.

    El segundo segmento se refiere al análisis de los datos sobre los clientes y prospectos (aquellos consumidores o empresas que tienen un interés en comprar un producto o servicio) a través de Data mining y del desarrollo del modelo.

    El tercer segmento también incluye el análisis de datos, junto con otras técnicas de explotación de la información que proporcionan información acerca de empleados, clientes y socios. El segmento más complejo es probablemente el primero, la recopilación de los datos importantes. Diferentes terminologías han sido utilizadas para describir la recolección de los datos y del almacenamiento de los aspectos de un entorno de Business Intelligence. El término primario, Datawarehousing, tiene una metamorfosis de sí mismo. A continuación, le añadimos términos como Datamart, Repositorio Central, Metadatos, y otros. [PAR01]

    Todos estos elementos conviven de manera equivalente en aquellas aplicaciones con una orientación hacia los ámbitos de la medicina y afines. Bancos de de datos, fuentes de información primaria como los análisis, fórmulas y datos complementarios producto de la experiencia del especialista, sirven también como parte de este repositorio.

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 24

    A partir de estos datos almacenados comienza un proceso, cuyas características inician la búsqueda de patrones, los cuales permiten obtener los principales aspectos distintivos, existentes a un nivel subyacente en esos bancos de datos.

    Sin embargo, no alcanza con aplicar a ciegas las técnicas de extracción de conocimiento, específicamente las de Data mining, ya que se puede obtener información que simula una aproximación a la realidad, pero que está disimulada en errores estadísticos o en parámetros de medición de calidad fuera de lo esperado.

    Se suma a esto que en la mayoría de los casos, la información resultante puede estar expresada de manera numérica, lo que adiciona un componente de complejidad al proceso.

    En consecuencia, el objetivo general de la mayoría de los sistemas de Business Intelligence es el siguiente: (1) acceder a los datos de una variedad de fuentes diferentes; (2) transformar estos datos en información, y luego en el conocimiento, y (3) proporcionar una interfaz gráfica fácil de usar para mostrar este conocimiento. En otras palabras, un sistema de Business Intelligence es responsable de recoger y digerir los datos y presentar el conocimiento de una manera amistosa (mejorando así la capacidad del usuario final para tomar decisiones correctas). El siguiente diagrama ilustra los procesos que sustentan un sistema de inteligencia de negocios tradicional:

    Figura 1: La extracción de conocimiento. [MIC07]

    Porque el conocimiento es un componente esencial de cualquier proceso de toma de decisiones (como dice el viejo refrán, "El conocimiento es poder"), muchas empresas han visto el conocimiento como el objetivo final. Pero parece que el conocimiento ya no es suficiente. Una empresa puede "saber" mucho de sus clientes -que pueden tener cientos de tablas y gráficos que organizan a sus clientes por edad, preferencias, ubicación geográfica y la historia de ventas- pero la Gerencia puede todavía estar insegura de qué decisión tomar. Y aquí radica la diferencia entre el "soporte a las decisiones" y "la toma de decisiones": todo el conocimiento del mundo no garantiza la decisión correcta o la mejor. [MIC07]

    Los ejemplos y citas utilizadas, hasta acá, en este apartado tienen el propósito de subrayar la importancia del Business Intelligence. Pero, ¿qué sucede en la práctica, donde el mundo real es totalmente cambiante y requiere de permanentes

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 25

    ajustes de este sistema modelizado, de acuerdo a las pautas del Business Intelligence? Se necesita en este caso un modelo alternativo que sea capaz de superar este obstáculo, con aprendizaje de máquina, inteligencia artificial, adaptabilidad, algoritmos de computación neuronal u otros.

    No cabe lugar a dudas que los diferentes sistemas de software que pueden tomar decisiones y adaptarse a los cambios que se producen en el mercado, constituyen el futuro de la industria en lo referente al aprendizaje de máquina. Muchos problemas del mundo real tienen características similares a los problemas que se abordarán en el contexto de este trabajo: un enorme número de posibles soluciones, restricciones múltiples y complejas, o posiblemente con el agregado de un entorno de tiempo cambiante.

    Por lo tanto, durante este trabajo, vamos a presentar varios problemas relativos al ámbito de las ciencias médicas, y buscar posibles soluciones metodológicas desde el punto de vista de la Adaptive Business Intelligence.

    Las decisiones basadas en conocimiento

    En los últimos años del presente siglo, la minería de datos, soporte de actividades como la gestión de las relaciones de una organización con sus clientes, ha evolucionado. Su fin es explorar y analizar las bases de datos disponibles para ayudar a la toma de decisiones en las organizaciones permitiendo, a su vez, la extracción de la información existente en textos, así como la creación de sistemas inteligentes capaces de entenderlos, a lo que se conoce comúnmente como minería de textos. El surgimiento de técnicas como la minería de datos está asociado con la necesidad de procesar y analizar grandes volúmenes de datos, a fin de obtener información y conocimiento (mediante la consolidación de los datos), útiles a la toma de decisiones, y construir una experiencia, a partir de los millones de transacciones que registra una corporación en sus sistemas informáticos [FEB11]

    Toda esta información puesta al alcance del especialista, seguramente incrementará su acervo cultural y de conocimiento, más aún tratándose de información que complementa las bases que ya posee. Pero esto no sucede todo el tiempo, ya que, debido a estos enormes volúmenes de datos, es probable que el efecto de aprendizaje o de acumulación de experiencia sea negativo, pasando de la comprensión a la confusión.

    Debe tenerse en cuenta que no solo influyen aspectos matemáticos o disciplinares en este cúmulo de datos, sino también aspectos geográficos que contextualizan el problema a una región.

    Esto provoca que en ocasiones el conocimiento no sea transferible directamente hacia otros especialistas, los cuales deberán entonces construir su propia experiencia.

    Hoy en día, tanto en organizaciones grandes y pequeñas se crean millones de registros de datos sobre todos los aspectos de su negocio. Sin embargo, estos datos están bloqueados y la mayoría de las veces no están completamente accesibles. Como resultado, el equipo directivo tiene acceso a sólo una pequeña fracción de la información que está disponible en las organizaciones. Para resolver

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 26

    este problema, muchas empresas han optado por implementar sistemas de Business Intelligence basados en la tecnología de almacenamiento de datos (datawarehouse), la cual consiste en extraer, almacenar y analizar datos de una amplia variedad de fuentes, y transformarla en conocimiento significativo que permite una mejor toma de decisiones [TAA08].

    En tal sentido, se han creado bancos de datos donde se depositan grandes recopilaciones de registros referidas a múltiples fuentes que permiten partir de una colección inicial. Esto, evidentemente, facilita a los especialistas el acceso a casos de estudio que les permiten acelerar la captura del conocimiento. Aún así se requieren preparaciones preliminares para que estos datos se agreguen a las nuevas fuentes de información,sean propias de las nuevas pruebas o experimentos que se desean realizar.

    “Hoy en día, la mayoría de los gerentes de empresas se dan cuenta que existe una brecha entre tener el conocimiento adecuado y tomar la decisión correcta. Esta carencia afecta la capacidad de gestión para responder a las preguntas fundamentales del negocio …, el futuro de la inteligencia de negocios se encuentra en los sistemas que pueden ofrecer respuestas y recomendaciones, en lugar de pilas de conocimiento en forma de informes. El futuro de Business Intelligence se encuentra en los sistemas que pueden tomar decisiones!” [MIC07]

    De este modo, una droga o tratamiento podría ser administrado con mayor seguridad y eficacia. El profesional o el especialista tendrían a su alcance la capacidad del cálculo y del procesamiento de volúmenes de información. El real acceso a fuentes diversas que sirven de entrada para estos sistemas autoadaptativos se está convirtiendo en una realidad, a esto se suma la adaptabilidad de aquellos sistemas que no solo se ajustan al conocimiento adquirido, sino también se reajustan y adecúan a los nuevos escenarios en estos datos cambiantes a lo largo del tiempo.

    Esta capacidad analítica, brinda el soporte necesario para facilitar implementaciones impensadas hace un corto tiempo atrás donde las inferencias estaban limitadas a las limitaciones propias de las conclusiones basadas meramente en la estadística descriptiva.

    El desafío se presenta también en las tecnologías existentes que permiten acceder a enormes cantidades de datos, plataformas diversas, análisis gráficos o poderosos filtros que delimitan adecuadamente el acceso a la información.

    Algunas concepciones teóricas a tener en cuenta

    El conocimiento es un recurso estratégico para el desarrollo económico y social contemporáneo. La información es el elemento básico principal en el proceso de adquisición, generación, gestión y transmisión del conocimiento. Las tecnologías, métodos y herramientas asociadas con estos procesos se han desarrollado notablemente en los últimos años. La aparición de Internet ha facilitado compartir, en puntos distantes, los resultados científicos. Los análisis en línea (en inglés, On-Line Analytical Processing, o OLAP), un enfoque novedoso, ha tomado gran fuerza en los últimos tiempos. El aumento continuo de la disponibilidad de datos, en particular, a partir de las redes de comunicaciones y la aplicación de la computación de alto desempeño, con proezas como la descripción del genoma

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 27

    humano, convierten en imprescindible el empleo de técnicas y herramientas que le den sentido y utilidad a la información existente. [FEB11]

    Sin embargo esta información no puede permanecer volátil, por lo que una vez que se ha identificado la tecnología OLAP adecuada para el ámbito de los datos que se han de manejar en el entorno de trabajo, cuáles son los modelos de datos que se desean construir y cuáles serán las dimensiones que se desean alcanzar con su implementación, surge entonces el problema del almacenamiento. Este problema es amplio e incluye elementos tales como el aspecto transaccional, una de sus cuestiones se refiere a como se almacenarán los datos. Este almacenamiento puede ser realizado en crudo o se pueden establecer relaciones entre los datos para que estos sean sintéticos y el acceso a ellos más rápido.

    Los sistemas autoadaptativos, en sus etapas de búsqueda de patrones y relaciones entre sus datos, involucran correlaciones que en ciertas ocasiones se ven deformadas cuando los datos son redundantes o repetitivos. Esto se profundiza si estos datos incorporan errores tales como la ausencia de los mismos (datos faltantes). En tal caso, la tecnología de almacenamiento debe estar preparada para adecuar el formato o los datos a fin de no incorporar variables erróneas en el sistema.

    Entonces, ¿cuál es la relación de estas tecnologías con el Business Intelligence y más aún, con sus aspectos autoadaptativos? Esta pregunta refleja la necesidad de incorporar cálculos y posibilidades de relaciones entre entidades diversas, más allá de la simple idea de utilizar las clásicas tuplas bidimensionales. A través de las herramientas de Extracción, Transformación y Carga (ETL), es posible entonces acceder a las diferentes plataformas, gestores de datos, datamarts, datawarehouses, facilitando la automatización de tareas y el uso de metadatos.

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 28

    Figura 2: Diagrama esquemático del proceso del Business Intelligence [MOS03]

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 29

    Consolidando el acceso a los datos mediante las herramientas ETL, es posible manipular los datos en los diferentes modos que faciliten la construcción, desarrollo y administración del sistema que involucra el Data mining como una de las etapas orientadas al desarrollo de aplicaciones autoadaptativas.

    On-Line Analytical Processing (OLAP) es una categoría de tecnología de software que permite a los analistas, gerentes y ejecutivos profundizar en los datos mediante acceso rápido, constante e interactivo para una gran variedad de puntos de vista posible de la información que ha sido transformada desde datos sin procesar para reflejar la dimensión real de la empresa tal como la entiende el usuario. La funcionalidad de OLAP se caracteriza por la dinámica de las múltiples dimensiones de análisis de datos de la empresa consolidadas apoyando las actividades del usuario final para el análisis y navegación, incluidos:

    • Los cálculos y modelos aplicados a través de dimensiones, a través de las

    jerarquías y / o entre los miembros

    • Análisis de tendencias en periodos de tiempo secuenciales

    • Cortar subconjuntos para su visualización en pantalla

    • Drill-down a niveles más profundos de consolidación

    • Alcanzar a través de los datos detalles subyacentes

    • Rotación a nuevas comparaciones dimensionales en el área de visualización

    OLAP se lleva a cabo en un modo cliente/servidor multi-usuario, y ofrece siempre una respuesta rápida a las consultas, independientemente del tamaño de la base de datos y la complejidad. OLAP ayuda al usuario a sintetizar la información de la empresa mediante la visualización comparativa y personalizada, así como mediante análisis de datos históricos y proyectados en varios modelos de datos "what-if". Esto se logra mediante el uso de un servidor OLAP. [REI00]

    Estas características sirven como complemento necesario para la extracción de conocimiento oculto en esos volúmenes de datos.

    Para ello se utilizan, otras herramientas que son capaces de mostrar los datos adquiridos en diferentes formatos, por lo general se las encuentra también disponibles como open source, como sucede con el paquete JasperSoft [JAS12].

    A partir de allí, se inicia el proceso de Data mining, con la finalidad de extraer o procesar la información y organizarla de manera tal que permita la toma de decisiones.

    En todos estos casos, el horizonte buscado siempre estará en relación directa con el objetivo que se pretende alcanzar a través de la aplicación de estas tecnologías, lo cual por lo general deriva en conocimiento útil a la toma de decisiones.

    Como ya se ha visto anteriormente, no alcanza con obtener conocimiento, es necesario compartirlo, en niveles que superen las individualidades, inclusive en los aspectos geográficos, siendo compartidos entre diferentes sectores de la empresa, delegaciones o sedes que tuviere, para ser vistos como parte de un solo conjunto al cual se puede acceder mediante esta tecnología.

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 30

    Uno de los factores distintivos de las herramientas OLAP multidimensionales, a diferencia de las herramientas convencionales de consulta, es la forma en que presentan la información. Las medidas o datos se presentan generalmente en un formato multidimensional, como las columnas de una tabla de datos o de las celdas de un cubo. Estas columnas y celdas contienen datos numéricos precalculados sobre un área funcional y están relacionados con objetos de negocio (tablas de dimensiones) asociados con la materia. Otro término para el análisis multidimensional es el análisis multivariado. Este término se deriva de un aspecto específico de este tipo de análisis, es decir, para analizar las medidas (los datos) desde la perspectiva de múltiples variables o características. Estas variables (características) suelen describir los objetos de negocio o dimensiones. [MOS03]

    Como sucede con los problemas del mundo real, más allá de las teorías que explican los modelos, los mismos se ven perturbados, influenciados o alterados por variables que son parte de la complejidad natural de esta realidad.

    En aquellos casos, el experto en el dominio del área de conocimiento será quien puede aportar el asesoramiento necesario para la incorporación de aquellos nuevos atributos a considerar durante el desarrollo del proyecto. En el devenir del mismo, será posible determinar el grado de sensibilidad de los resultados objetivos para la consecución exitosa de la extracción de conocimiento.

    Extracción de conocimiento en el campo de la salud: del data

    mining al Business Intelligence

    La minería de datos es apropiada cuando la pregunta inicial es vaga y hay que evaluar las muchas relaciones posibles entre los atributos, por ejemplo “¿Qué grupos de clientes tienden a comprar X?”. En cambio, si la pregunta es más específica, por ejemplo “¿Cuántos clientes compraron X?”, los métodos estadísticos clásicos son los más adecuados para emprender el estudio.[SAL05]

    El nivel en el que se debe detallar una base de datos para que su efecto sea lo suficientemente útil al proyecto, es una decisión que el desarrollador o el minero de datos deben ser capaces de afrontar. Téngase en cuenta que esta aproximación o planificación inicial favorecerá, en gran medida, posteriores acciones que deben realizarse sobre el proyecto desarrollado: su mantenimiento, su exploración o la búsqueda de conocimiento se verán favorecidos o no, de manera acorde al nivel de detalle, complejidad relacional y, lógicamente, de cuán “oculto” queden las decisiones en esa base de datos o en el datawarehouse construido, diferenciándose simplemente en la manera que es abordado el problema a resolver. En muchas ocasiones, soluciones simples proveen resultados prontos.

    Otro ámbito de aplicación en el campo de la salud, lo representa la aparición de nuevas tecnologías que han hecho posible el desarrollo de la genómica, al hacer posible el estudio de las interacciones de los genes y su influencia en el desarrollo de enfermedades. Todo esto influye en el diagnóstico clínico, la investigación de nuevos fármacos, epidemiología e informática médica. En los últimos años, la minería de datos ha experimentado un incremento como un apoyo a las filosofías de gestión de la información y el conocimiento, así como por el descubrimiento del significado de los datos almacenados en los grandes bancos. Esto permite explorar y analizar las bases de datos disponibles para ayudar en el proceso de toma de

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 31

    decisiones y también facilita la extracción de la información existente en los textos así como para crear sistemas inteligentes capaces de entenderlos. Esto se conoce comúnmente como Data mining. Los componentes básicos del Data mining y su aplicación a una actividad científica emergente y trascendente, la bioinformática, están asociados. [FEB11]

    Nos encontramos por ejemplo, con métodos que simplemente se basan en obtener una muestra de orina, mientras otros métodos necesitan obtener un fragmento de tejido. Pero de igual forma, los parámetros de cada muestra por analizar varían según su naturaleza: mientras que en una muestra de orina se puede analizar la forma de las células ahí encontradas, a un tumor pueden analizársele los patrones de la secuencia de nucleótidos de los que está constituido. Si bien los parámetros que describen la forma de una célula pueden ser menos de una decena, los parámetros que describen una cadena de nucleótidos pueden ser varios cientos de miles o millones, no obstante, la DM, ofrece técnicas y métodos que permiten analizar los datos provenientes tanto de la forma de la célula como de la cadena de nucleótidos y en ambos casos, transformar esos datos en conocimiento. Sin embargo, la investigación Bioinformática e Informática Médica, comúnmente tienden a minimizar el uso de técnicas invasivas y maximizar el de no invasivas o estadísticas, no sólo porque con ello se reduce el impacto físico que representan para las personas, sino porque al detectar y diagnosticar cáncer con técnicas no invasivas o estadísticas, se implica y posibilita la detección y diagnóstico de cáncer en etapas más tempranas, lo que ocasiona una reducción en los costos de los mismos diagnósticos y tratamientos. [EGU07]

    En el contexto general de la búsqueda de conocimientos, el objetivo de las bases de datos Business Intelligence es constituirse como las fuentes para aplicaciones de minería de datos. Contienen una gran cantidad de datos internos reunidos y consolidados a través de fronteras comerciales, validados y limpiados en el proceso de extracción / transformación / carga (ETL). Las Bases de datos de Business Intelligence también pueden contener valiosos datos externos, como las normativas, la demografía, o información geográfica. La combinación de datos externos con los datos internos de la organización ofrece una base magnífica para la minería de datos.

    Las herramientas de la minería de datos, en teoría, podrían acceder a las bases de datos operacionales y bases de datos de Business Intelligence objetivo directamente, sin la construcción de bases de datos de minería de datos en primer lugar, siempre y cuando las estructuras de base de datos sean compatibles con la herramienta (por ejemplo, relacionales como Oracle, jerárquica como IMS, o incluso un archivo plano como VSAM).

    La bioinformática como puente y convergencia entre la biotecnología y la informática constituye una de las tecnologías sobre las cuales se sustentará la futura sociedad del conocimiento. La bioinformática como tecnología estratégica está siendo determinada por los avances alcanzados en las ciencias de la vida en esta primera mitad de la década actual y, sin duda, de las siguientes de este siglo XXI. El desarrollo de la biología molecular que busca explicar el funcionamiento de los seres vivos a partir de las moléculas, requiere de grandes capacidades de procesamiento de cálculo y almacenamiento de datos, junto con técnicas

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 32

    informáticas de almacenamiento de datos (datawarehousing) y de minería de datos (data mining y webmining). [AGUI11]

    Cabe destacar que la posibilidad de predecir el comportamiento de una enfermedad utilizando los datos históricos presenta una relevancia trascendental, toda vez que se utilizarían datos para su determinación en lugar de tejidos o muestras. Evidentemente estas muestras continuarán existiendo más allá de los conocimientos que se puedan extraer a partir de aquellos datos, pero sin lugar a dudas los beneficios que esta tecnología aporta redundan exponencialmente en capacidades de aporte de nuevas teorías ventajosas a la sociedad en su conjunto, sea cual fuere el ámbito de aplicación.

    Esta capacidad del Data mining no es algo que se puede comprar directamente. Data mining requiere la construcción de una aplicación de Business Intelligence para el apoyo a las decisiones, en concreto una aplicación de minería de datos, utilizando una herramienta de Data mining. Si esta herramienta se ve complementada por la adaptabilidad, se genera un contexto que con gran seguridad obtendrá el conocimiento del sistema.

    La aplicación de la minería de datos puede entonces utilizar una sofisticada mezcla de componentes clásicos y avanzados como la inteligencia artificial, reconocimiento de patrones, bases de datos, las estadísticas tradicionales, y los gráficos para presentar las relaciones y patrones ocultos en la fuente de datos de la organización [MOS03].

    El impacto de KDD y DM para las empresas puede ser muy amplio, ya que su utilidad potencial depende de los resultados del análisis de datos. Pequeñas variaciones en los valores de los parámetros pueden producir resultados muy generales o demasiado particulares. Sin embargo, si se definen bien cuáles serán los datos de entrada y los datos de salida, se puede acotar el campo de estudio del análisis y definir el alcance del resultado que se espera obtener al utilizar KDD.

    Fuentes de información para extracción de conocimiento

    El diseño de medicamentos, el estudio del genoma, y otros estudios, tienen como característica un enorme volumen de información; existe una “explosión en el mundo de los datos” y la necesidad de convertir ese inmenso volumen de datos, primero en información disponible y luego en conocimiento, para una adecuada e idónea toma de decisiones. Esta importante información no puede por supuesto ser publicada, solamente empleando los medios tradicionales bajo la forma de artículos en revistas científicas. Por esta razón aparece un nuevo tipo de literatura científica basada en computadoras, donde los datos son distribuidos mediante bases y almacenes de datos. Así nace la bioinformática, es decir, la aplicación de los computadores en el manejo de la información biológica que forma parte de la infraestructura que soportan todas las investigaciones en biología y en el área biomédica. Para lograr un manejo universal de todo este caudal de información, base de la generación de innumerables e inimaginables cantidad de conocimiento, fue necesario implementar sistemas de almacenamiento y manipulación de los mismos. Hoy, bases de datos públicas como, el DNA Database of Japan, DDBj o el European Molecular Biology Laboratory, EMBL,… contienen todas las secuencias

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 33

    de proteínas y nucleótidos conocidas, con las respectivas anotaciones bibliográficas y biológicas debidamente soportadas [AGUI11].

    El conocimiento adquirido por el hombre a través del procesamiento, sea mediante data mining, KDD o Business Intelligence se constituye como un nuevo estadio en la determinación empírica de la existencia de patrones que, como se ha mencionado anteriormente, deben ser compartidos, no solo en los ámbitos científicos o institucionales, sino de manera global. Solamente de esta manera el conocimiento se constituirá en un capital incremental para la humanidad.

    Sin embargo, esto plantea dos problemas fundamentales al momento de utilizar estos datos. Ya que de manera similar al conocimiento científico, se requieren ciertos atributos que deben ser validados para garantizar su correctitud y utilidad.

    Surge entonces por una parte, el problema de la confiabilidad de los datos, de dónde han surgido (un prestigioso hospital, una sala de atención primaria de barrio o un hospital provincial rural), quién o quiénes los han recopilado (un científico, una enfermera con conocimientos limitados de informática o un operador de PC), de qué institución provienen (pública o privado), cuál ha sido la manera de almacenarlos (base de datos, datawarehouse, texto plano, etc).

    Por otra parte, aparecen las dificultades asociadas a los datos que son propias de la regionalización, idiosincrasia o contexto geográfico que ellos conllevan.

    “Venezuela cuenta con una rica y compleja diversidad sociocultural. Los grupos aborígenes adquieren relevancia en algunos estados y municipios fronterizos como Zulia (municipio Páez, con 88,9% de la población indígena, y Mara, con 32%), Delta Amacuro (municipio Antonio Díaz con 82,9% de población indígena y Pedernales, con 40,5%), y Amazonas (a excepción de Atures, todos los demás municipios tienen población indígena). El resto de las etnias indígenas se asientan en los estados de Monagas y Anzoátegui. Los problemas médico-sanitarios investigados son la gastroenteritis y la disentería, la malaria, la hepatitis B y la oncocercosis, todas ellas enfermedades endémicas graves que afectan a las poblaciones indígenas en el Estado Amazonas.” Fuente: http://www.paho.org/spanish/sha/prflven.htm - OMS

    Las características de determinada enfermedad (y por ende sus datos), no presentarán valores similares entre sociedades diferentes, toda vez que cualquier estudio de la realidad, implica el uso de variables que podrían no haber sido consideradas en los mismos, debido a la complejidad propia que esto deriva. De este modo, los patrones resultantes de cualquier aprendizaje, deberían ser obtenidos a través de tratamientos o estrategias diferentes. Siendo por lo tanto dificultosa su implementación de manera globalizada. Como menciona [MOS03], las organizaciones suelen extraer los datos de minería de datos según sea necesario, a partir de sus bases de datos de BI (por Business Intelligence) objetivo y desde sus archivos operativos y bases de datos de Data mining de propósito especial. De allí se desprende que, si de fuentes de datos se tratare, más aún correspondiendo a organizaciones comerciales privadas, aquellos son considerados como un capital, el cual se constituye como un acervo de carácter

  • Maestría en Ingeniería de Software UNSL

    Tesis de Maestría Marcelo Fabio Roldán Pág 34

    secreto y propio por lo cual, seguramente no permitirán el acceso público a los mismos. Aún así, existe un interés general y cada vez más difundido para