67
1 USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y PREVENCIÓN DE COMPLICACIONES DE ENFERMEDADES EN EL SISTEMA DE SALUD COLOMBIANO LUIS JAVIER BAUTISTA MÉNDEZ UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIERÍA DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN BOGOTÁ D.C. JUNIO 2010

USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

1

USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y PREVENCIÓN

DE COMPLICACIONES DE ENFERMEDADES EN EL SISTEMA DE SALUD

COLOMBIANO

LUIS JAVIER BAUTISTA MÉNDEZ

UNIVERSIDAD DE LOS ANDES

FACULTAD DE INGENIERÍA

DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

BOGOTÁ D.C.

JUNIO 2010

Page 2: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

2

USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y PREVENCIÓN

DE COMPLICACIONES DE ENFERMEDADES EN EL SISTEMA DE SALUD

COLOMBIANO

LUIS JAVIER BAUTISTA MÉNDEZ

Tesis de Grado presentada como requisito para optar por el título de

Ingeniero de Sistemas y Computación

Director: PhD. María del Pilar Villamil Giraldo

Profesora Asistente

UNIVERSIDAD DE LOS ANDES

FACULTAD DE INGENIERÍA

DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

BOGOTÁ D.C.

JUNIO 2010

Page 3: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

3

Contenido

Resumen ........................................................................................................................................ 7

1. Introducción ....................................................................................................................... 8

2. Descripción General ......................................................................................................... 10

2.1 Objetivos ...................................................................................................................... 10

2.1.1 Objetivo General .................................................................................................. 10

2.1.2 Objetivos Específicos ............................................................................................ 10

2.2 Contexto....................................................................................................................... 10

2.2.1 Metodología CRISP-DM ......................................................................................... 10

2.2.2 Minería de Datos .................................................................................................. 13

2.2.3 Negocio ................................................................................................................ 19

2.3 Antecedentes ............................................................................................................... 22

2.3.1 Data mining for Improved Cardiac Care ................................................................. 23

2.3.2 Drug Exposure Side Effects from Mining Pregnancy Data ..................................... 25

2.3.3 Uso de minería de datos en la descripción de hospitalizaciones prolongadas ........ 28

2.4 Identificación del problema .......................................................................................... 28

3. Diseño y Especificaciones ................................................................................................. 29

3.1 Definición del problema ............................................................................................... 29

3.2 Especificaciones............................................................................................................ 29

3.2.1 Entradas ............................................................................................................... 29

3.2.2 Precondiciones ..................................................................................................... 29

3.2.3 Salidas .................................................................................................................. 29

3.3 Restricciones ................................................................................................................ 30

4. Desarrollo del Diseño ....................................................................................................... 31

4.1 Estrategia de diseño ..................................................................................................... 31

4.2 Recolección de información .......................................................................................... 31

4.3 Alternativas de diseño .................................................................................................. 46

4.4 Diseño de la solución .................................................................................................... 48

5. Implementación ............................................................................................................... 49

5.1 Descripción de la implementación ................................................................................ 49

5.2 Resultados Obtenidos ................................................................................................... 57

Page 4: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

4

6. Validación ........................................................................................................................ 62

6.1 Métodos ....................................................................................................................... 62

6.2 Validación de resultados ............................................................................................... 62

7. Conclusiones .................................................................................................................... 65

7.1 Discusión ...................................................................................................................... 65

7.2 Trabajo futuro .............................................................................................................. 66

8. Referencias ...................................................................................................................... 67

Page 5: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

5

Listado de Figuras

Figura 1 - Descomposición de Tareas CRISP-DM ........................................................................... 11

Figura 2 - Etapas Metodología CRISP-DM ..................................................................................... 11

Figura 3 - Secciones del Proyecto en CRISP-DM ............................................................................ 13

Figura 4 - Proceso: Descubrir Conocimiento ................................................................................. 14

Figura 5 - Cálculo de Centroides ................................................................................................... 16

Figura 6 - Fragmento de la jerarquía de reglas. Consumo de Antidepresivos y Alcohol ................. 27

Figura 7 - Diagrama de ETL para la tabla Urgencias 2004 .............................................................. 45

Figura 8 - Configuración de Campos para ejecutar el modelo ....................................................... 52

Figura 9 – Parámetros del Algoritmo de Clustering ....................................................................... 53

Figura 10 – Configuración de campos para ejecutar el Modelo (Modelo 1) ................................... 54

Figura 11 – Parámetros del algoritmo de Reglas de Asociación (Modelo 1) ................................... 55

Figura 12 – Configuración de campos para ejecutar el Modelo (Modelo 2) ................................... 56

Figura 13 - Parámetros del algoritmo de Reglas de Asociación (Modelo 2) ................................... 57

Figura 14 - Resultados de Clustering............................................................................................. 58

Figura 15 - Resultados Modelo 1 (Grafo) ...................................................................................... 59

Figura 16 - Resultados Modelo 2 (Grafo) - Consecuente: NEUMONIA ........................................... 60

Figura 17 - Resultados Modelo 2 (Grafo) - Consecuente: BRONCONEUMONIA ............................. 60

Figura 18 - Resultados Modelo 2 (Grafo) - Consecuente: BRONQUITIS ......................................... 61

Figura 19 - Resultados Modelo 2 (Grafo) - Consecuente: CRONICAS BAJAS ................................... 61

Page 6: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

6

Listado de Tablas

Tabla 1 - Resultados de Precisión de Diagnósticos. Sistema vs. Equipo Médico ............................. 25

Tabla 2 – Descripción de campos compartidos en las tablas de los RIPS ....................................... 32

Tabla 3 - Estructura de Consultas ................................................................................................. 35

Tabla 4 - Estructura de Hospitalizaciones ..................................................................................... 38

Tabla 5 - Estructura de Procedimientos ........................................................................................ 39

Tabla 6 - Estructura de Urgencias ................................................................................................. 41

Tabla 7 - Fragmento de Tabla de Diagnósticos de Afecciones Respiratorias .................................. 49

Tabla 8 - Rangos de edad propuestos ........................................................................................... 50

Tabla 9 - Tabla Maestra de los Modelos ....................................................................................... 51

Tabla 10 - Reglas de Asociación de mayor Calidad (Modelo 1) ...................................................... 62

Tabla 11 - Reglas de Asociación de mayor Calidad (Modelo 2) ...................................................... 63

Page 7: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

7

Resumen

La minería de datos va de la mano con el entendimiento de la información, y la generación

de conocimiento a partir de la misma. Este proyecto se orienta al uso de técnicas de

minería de datos para determinar con que probabilidad, un paciente del sistema de salud

colombiano puede complicarse, y además establecer que aspectos influyen

principalmente en la aparición de una complicación. Como técnica principal se utilizó la

generación de reglas de asociación, con lo que se pretende mostrar los casos en los que el

padecimiento previo de una afección y su posterior tratamiento pueden llegar a influir en

la aparición de complicaciones. Los resultados obtenidos después del estudio muestran la

relación entre las complicaciones de un paciente con su información clínica, al igual que la

relación entre el ámbito demográfico de los pacientes con la probabilidad de padecer una

complicación.

Page 8: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

8

1. Introducción

La minería de datos va de la mano con el entendimiento de la información, y la generación

de conocimiento a partir de la misma. Desde hace mucho tiempo se ha utilizado la minería

de datos para entender qué hay detrás de grandes volúmenes de datos, es por esto que la

minería de datos como tal, hace parte de un proceso de generación de conocimiento.

En la sociedad colombiana existen grandes dificultades con los sistemas públicos, entre

estos, el sistema de protección social, sistema que, según el artículo 1 de la ley 789 del

año 2002, “se constituye como el conjunto de políticas públicas orientadas a disminuir la

vulnerabilidad y a mejorar la calidad de vida de los colombianos, especialmente de los más

desprotegidos. Para obtener como mínimo el derecho a: la salud, la pensión y al trabajo”.

(Congreso de Colombia, 2002).

El ministerio de protección social, es una entidad que nace en el año 2002, mediante la ley

790, ley en la cual se expiden ciertas disposiciones para reestructurar el sector público,

entre estas la fusión del ministerio de trabajo y el ministerio de seguridad social. El

siguiente año, se expide el decreto 205, en el cual se presentan como objetivos

primordiales del ministerio de protección social, “la formulación, adopción, dirección,

coordinación, ejecución, control y seguimiento del Sistema de la Protección Social,

establecido en la Ley 789 de 2002, dentro de las directrices generales de la ley, los planes

de desarrollo y los lineamientos del Gobierno Nacional”. (Ministerio de la Protección

Social, 2003).

Por otro lado, centrándonos más en la información que es nuestra materia prima, en el

año 2000, la ministra de Salud Sara Ordoñez, expidió la resolución número 3374 de 2000,

en la que se reglamentan los datos básicos que se deben reportar con respecto a los

servicios de salud prestados en el país. En esta resolución se define claramente lo que es

prestación individual de servicios de salud, entidades administradoras de planes de

beneficios, registro individual de prestación de servicios de salud – RIPS, procesos

informáticos y epicrisis.

Desde esa época, el ministerio de Salud parte del actual ministerio de protección social,

reglamentó los datos básicos que se deben reportar, informando para cada paciente

aspectos tales como las consultas, procedimientos, hospitalizaciones, urgencias, datos de

recién nacidos y datos relacionados con la formulación y entrega de medicamentos.

Teniendo en cuenta todo esto, y los problemas que se presentan actualmente en cuanto a

la reforma social planteada por el gobierno en el decreto 133 de 2010 (emergencia social),

se quiere realizar un estudio utilizando técnicas de minería de datos para identificar

complicaciones en la salud de los colombianos y encontrar relaciones entre los

Page 9: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

9

diagnósticos previstos y la prestación de servicios por parte de las entidades

correspondientes.

El documento se distribuye de la siguiente manera: la sección 2 describe los objetivos que

dieron lugar al proyecto, dando una breve contextualización de este en el sector de la

salud colombiano. Por otro lado, en esa sección se hace una breve contextualización del

problema en cuanto al fundamento teórico relacionado, y en cuanto a los trabajos

desarrollados en el mismo ámbito. La sección 3 da una visión del problema más específica,

abordando aspectos específicos de este, así como las restricciones que se presentan en el

momento de iniciar el proyecto con el fin de enmarcar la solución. La sección 4 esboza lo

que es el diseño del proyecto en función a la metodología a seguir. Además, en esta

sección se muestra brevemente el origen de los datos que se van a utilizar para el

desarrollo y se presentan las reglas de asociación como la técnica particular de minería de

datos que se utilizará para desarrollar el problema. La sección 5 describe la manera en la

cual fue construido el modelo de minería y posteriormente se muestran los resultados

obtenidos después de la ejecución del modelo concebido anteriormente. La sección 6

muestra la manera en la que se van a evaluar los resultados, además ilustra la forma de

validar la ejecución del modelo de minería y posteriormente se especifican los

comentarios de los resultados después de la reunión con el experto. La sección 7 presenta

las conclusiones del proyecto, así como posibles alternativas para continuar con el

proyecto o con trabajos relacionados en el futuro.

En este proyecto, se desarrollaron modelos de reglas de asociación con el fin de encontrar

relaciones entre los diagnósticos de los pacientes de los servicios de salud colombianos,

prescritos a lo largo de su historia clínica y las complicaciones de salud que hubiesen

podido presentar. Para el desarrollo de estos modelos, se utilizaron datos de los RIPS,

provenientes de la recopilación que realiza el ministerio de protección social a nivel

nacional. Cabe resaltar que, según la información proporcionada por el ministerio, los

datos utilizados para el proyecto son aproximadamente los recopilados en el 20% de las

instituciones. De las instituciones que reportaron datos, se estima que cada una

proporcionó el 50% de los datos que le correspondería reportar.

Los resultados obtenidos en este proyecto se presentarán como relaciones de causa y

consecuencia, en donde como causas se tendrán aspectos demográficos de los pacientes,

así como diagnósticos previos y como consecuencias se tendrán diagnósticos relacionados

con complicaciones de enfermedades, en este caso de afecciones respiratorias.

Adicionalmente, se tendrá un perfil epidemiológico parcial, generado a partir de los

registros de salud proporcionados para este proyecto.

Page 10: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

10

2. Descripción General

2.1 Objetivos

2.1.1 Objetivo General

Este proyecto pretende abarcar complicaciones relacionadas con enfermedades del

sistema respiratorio encontradas en el sector salud en Colombia, utilizando minería de

datos para su detección. Inicialmente, estas dificultades se enmarcan en un ámbito

médico y en un ámbito administrativo.

2.1.2 Objetivos Específicos

En cuanto al ámbito médico, podemos plantear los siguientes objetivos específicos:

• Determinar parcialmente perfiles epidemiológicos (teniendo en cuenta

características demográficas) basados en enfermedades respiratorias.

• Analizar con qué probabilidad una persona, o un perfil epidemiológico de las

personas que padecen una enfermedad respiratoria puede complicarse y llegar a

padecer afecciones críticas.

En cuanto al ámbito administrativo, podemos plantear el siguiente objetivo específico:

• Determinar si existen relaciones entre los diagnósticos que presentan los pacientes

y las entidades que prestan los servicios

2.2 Contexto

2.2.1 Metodología CRISP-DM

Para llevar a cabo un proceso de planeación para el desarrollo del proyecto, se tomó como

referencia la metodología CRISP-DM1, la cual es un estándar en la actualidad para la

gestión de proyectos en el ámbito de la minería de datos. Con base a las etapas que

presenta esta metodología, se desarrolló gran parte de la planeación del proyecto,

adicionando tareas referentes al control del estado del proyecto.

Cuando hablamos de CRISP-DM (Chapman, 2000), debemos tener claro que esta

metodología orienta el desarrollo a un proceso jerárquico, en el cual podemos encontrar

tareas que se van descomponiendo desde lo más general hasta tareas lo más granulares

posibles. El modelo plantea el orden jerárquico presentado en la figura 1.

1 CRoss Industry Standard Process for Data Mining

Page 11: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

11

Figura 1 - Descomposición de Tareas CRISP-DM

Dentro de las fases que se tienen en cuenta a la hora de aplicar la metodología a un

proyecto encontramos 5 etapas, que son: entendimiento del negocio, entendimiento de

los datos, preparación de los datos, modelado, evaluación y despliegue. Las etapas son

parte de un ciclo, que puede llegar a ser iterativo. Este se ilustra en la figura 2.

Figura 2 - Etapas Metodología CRISP-DM

Page 12: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

12

Entendimiento del negocio

La idea en esta fase es entender los objetivos y los requerimientos que se quieren

satisfacer con el proyecto a nivel del negocio. Seguido a esto, es necesario migrar todo

este análisis a una perspectiva más técnica, generando a partir de esta primera etapa un

problema de minería de datos y un plan preliminar para lograr los objetivos propuestos.

Entendimiento de los datos

En esta fase se busca que el ejecutor del proyecto logre apropiarse de los datos, seguido a

esto se busca familiarizarse con dichos datos para identificar problemas de calidad que

pueden surgir en el momento de revisarlos más detenidamente, y además empezar a ver

qué tipos de hipótesis o ideas pueden surgir al respecto.

Preparación de los datos

En esta fase se define el conjunto de datos que se va a utilizar finalmente en el proyecto.

Esta fase incluye todo el proceso de ETL de los datos.

Modelado

En esta fase se aplican varias técnicas a los datos. Adicionalmente, se requiere volver a la

fase de preparación de datos, debido a que ciertas técnicas requieren formatos especiales

en los datos.

Evaluación

En esta fase se genera un modelo en el cual se espera tener alta calidad proveniente del

análisis de datos. Antes de continuar a la siguiente fase es importante evaluar si después

de ejecutar las fases que se han descrito hasta el momento es posible alcanzar los

objetivos planteados al inicio del proyecto. En esta fase es importante considerar si existe

algún problema en el negocio que no se haya considerado. Al final de la evaluación se

debe decidir si se usan los resultados obtenidos del proceso de minería.

Despliegue

Partiendo del modelo, el conocimiento generado como consecuencia de la aplicación de

este, debe ser organizado, de tal manera que el experto del negocio pueda sacar provecho

de este.

En el proyecto, podemos identificar las fases de la metodología de la siguiente manera:

Page 13: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

13

Figura 3 - Secciones del Proyecto en CRISP-DM

2.2.2 Minería de Datos

La minería de datos va de la mano con el entendimiento de la información, y la generación

de conocimiento a partir de la misma.

Según el Grupo Gartner, “la minería de datos es el proceso de descubrir correlaciones,

patrones y tendencias significativas explorando en grandes cantidades de datos

almacenados en repositorios, usando tecnologías de reconocimiento de patrones tales

como técnicas estadísticas y matemáticas”.

Por otro lado en (Kantardzic, 2002) se afirma que la minería de datos es utilizada para

llevar a cabo dos tipos diferentes de actividades, que son:

• Minería Predictiva: “Produce un modelo que describe un sistema definido por un

conjunto de datos”

• Minería Descriptiva: “Produce información nueva, no trivial basada en un conjunto

de datos”

Desde hace mucho tiempo se ha utilizado la minería de datos para entender que hay

detrás de grandes volúmenes de datos, es por esto que (según (Bramer, 2007)), la minería

de datos como tal, hace parte de un proceso de generación de conocimiento dividido en

etapas, las cuales se ilustran a continuación:

Page 14: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

14

Figura 4 - Proceso: Descubrir Conocimiento2

Para generar o extraer conocimiento (que es el objetivo principal de la minería de datos),

esta debe hacer uso de otros aspectos, referentes al campo tecnológico en diferentes

áreas para cumplir dicho objetivo. La minería de datos utiliza tecnologías antes usadas en

el campo de la estadística para analizar los datos, por otro lado, la minería de datos tiene

un segmento tecnológico aliado, el cual corresponde al acceso a grandes volúmenes de

datos. En este segmento de sistemas informáticos, podemos encontrar los Sistemas

Manejadores de Bases de Datos (SMBD), los sistemas de visualización de datos, entre

otros.

La minería de datos comprende variedad de tareas, que son llevadas a cabo mediante la

aplicación de diversas técnicas. Según (Kantardzic, 2002), dentro de las tareas de la

minería de datos podemos encontrar:

1. Clasificación: Descubrimiento de una función predictiva, que clasifica los datos en

un conjunto predefinido.

2. Regresión: Descubrimiento de una función, que relaciona un ítem a un valor real

de una variable de predicción.

2 La figura 4 es una reproducción del modelo presentado en la página 2 de (Bramer, 2007)

Page 15: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

15

3. Clustering: Tarea descriptiva en la que se busca identificar un conjunto de

categorías o clústeres para describir los datos.

4. Resumen: Tarea descriptiva en la que se quiere buscar una descripción compacta

para un conjunto (o subconjunto) de datos

5. Modelaje de Dependencias: Se pretende buscar un modelo que describe las

dependencias significativas entre variables o valores de una característica de un

conjunto de datos, o entre partes del mismo conjunto.

6. Detección de Cambios y Desviaciones: Descubrimiento de los cambios más

significativos del conjunto de datos.

Clustering

Como se afirma en (Berry & Linoff, 1997), La técnica de clustering consiste en “segmentar

una población heterogénea en subgrupos más homogéneos llamados clústeres. La

diferencia del clustering con respecto a la clasificación es que en la técnica de clustering no

existen clases predefinidas. (…). Los registros son agrupados basándose en la similaridad

que presentan. Es parte del usuario interpretar que significan las agrupaciones. (…). La

técnica puede ser usada como una técnica previa al uso de otra técnica o modelaje.”

Para realizar clustering, existen diversos algoritmos, entre estos, el algoritmo de K-medias,

el cual será de interés para el proyecto.

K-medias3

El algoritmo de k-medias es uno de los algoritmos más usados para hallar clústeres en un

conjunto de datos. Este algoritmo requiere que le sea especificado un numero K, el cual

corresponde a la cantidad de clústeres que se van a generar, basándose en la proximidad

de puntos (registros). El algoritmo puede ser descrito en tres pasos. En el primer paso, el

algoritmo selecciona aleatoriamente k puntos para tomarlos como semillas de los k

clústeres.

En el siguiente paso se asigna cada uno de los registros a la semilla más cercana. Una

manera de hacer esto es definiendo los límites de cada clúster, los cuales se establecen en

los puntos que están igual de cerca a más de un clúster. Sabiendo que cada característica

(campo) es una dimensión de los registros, los límites de cada uno de los clústeres pueden

ser considerados híper-planos de dimensión N-1, donde N es el número de dimensiones.

El tercer paso consiste en calcular el centroide de cada uno de los clústeres. Esto logra una

mejor caracterización de cada clúster que la conseguida en el momento de definir

aleatoriamente las semillas de estos.

3 Tomado de (Berry & Linoff, 1997), Capitulo 11

Page 16: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

16

Figura 5 - Cálculo de Centroides4

El algoritmo es iterativo, así que los centroides son tomados como las nuevas semillas, y

se repite el proceso desde el paso 2.

En la práctica, el algoritmo logra estabilizar los clústeres después de una docena de

iteraciones aproximadamente.

Globalmente, esta es la explicación del algoritmo de k-medias, se podrán encontrar

detalles acerca de cómo se determina la similaridad entre registros en el capítulo 11 de

(Berry & Linoff, 1997).

Reglas de Asociación5

Las reglas de asociación son una técnica de minería de datos que permite determinar qué

aspectos van juntos, es por esto que esta técnica está enmarcada dentro del market

basket analysis, en donde se busca encontrar que productos van juntos en una compara

para obtener conocimiento útil para ventas cruzadas, entre otros.

4 Figura tomada de (Berry & Linoff, 1997), Capitulo 11

5 Basado en (Larose, 2004), Capitulo 10

Page 17: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

17

Las reglas de asociación deben ser entendibles, ya que en base a estas se tomaran

decisiones importantes de negocio.

Las reglas de asociación están fuertemente ligadas con el análisis de afinidad, debido a

que buscan encontrar atributos o características que están asociados frecuentemente. Los

métodos de afinidad, también conocidos como market basket analysis, buscan descubrir

asociaciones entre atributos, todo con el fin de calificar dichas relaciones.

Las reglas de asociación están conformadas de la siguiente manera: “Si antecedente,

entonces consecuente”, teniendo en cuenta dos medidas que permiten evaluar la calidad

de cada regla. Estas dos medidas son el soporte y la confianza asociados a la regla. A

continuación se ilustrara el significado de cada una de estas medidas:

• Soporte:

El soporte, para una regla de asociación de la forma � → �, se define como la

proporción de las transacciones en � ������ que contienen a � y a �. De una

manera más formal tenemos:

����� � ��� ∩ �� �# �� ���������� ��� ������ � � �

# ��� �� ����������

Esta medida permite conocer que tan significativa puede ser la regla con respecto a la

totalidad de los datos.

• Confianza:

La confianza, para una regla de asociación de la forma � → �, se define como una

medida de precisión de la regla, en la que se indica la proporción de las transacciones

en � que contienen �, dado que contienen �. En otras palabras, se puede expresar

como la probabilidad condicional de � dado �. De una manera más formal tenemos:

��������� � ���|�� � ��� ∩ ��

# �� ���������� ��� �������� �

Aunque las reglas de asociación mantienen como medias básicas el soporte y la confianza,

algunos autores hablan de una tercera medida, denominada lift, o importancia.

Page 18: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

18

• Importancia6:

Se calcula dividiendo la probabilidad de que ocurran bajo una misma transacción � ∧ �

entre el producto de la probabilidad de que ocurra A y B independientemente. De una

manera más formal tenemos:

!�� � ��� ⋀ ��

���� # ����

Este cálculo permite saber que tan buena es la regla con respecto un mecanismo que

averigüe la ocurrencia de A dado B al azar; un valor para la importancia de 1 implica que

las probabilidades de ocurrencia de A y B son independientes y por lo tanto ésta no tiene

mayor valor. Un valor mayor a 1 indica que la aparición de ambos ítems esta

correlacionada y por contraposición un valor menor a 1 sería un indicador de correlación

negativa entre los ítems A y B.

Por otro lado, los autores de (Berry & Linoff, 1997), en el capítulo 9, describen que las reglas de

asociación pueden ser clasificadas en tres tipos:

• Procesables:

Las reglas procesables son aquellas que proporcionan información importante (de alta

calidad) para tomar decisiones de negocio. Estas son las reglas más útiles que se

pueden generar en un modelo de minería de datos.

• Triviales:

Las reglas triviales, son aquellas que proporcionan información ya conocida por los

expertos del negocio. Aunque son útiles en un modelo para validar la calidad de este,

se espera que no sean los únicos resultados importantes que genere el modelo

después de su ejecución.

• Inexplicables:

Las reglas inexplicables, son aquellas que no sugieren información importante para

tomar medidas en el negocio, debido a que no tiene fundamento alguno

(aparentemente).

Para inferir reglas de asociación, existen diversos algoritmos, entre estos, el algoritmo A-

priori, el cual difiere de los demás por su capacidad de reducir el número de iteraciones.

6 Tomado del proyecto (Cadena, 2009)

Page 19: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

19

A-priori

El algoritmo A-priori es un algoritmo tradicional en la generación de reglas de asociación

en modelos de minería de datos. Este algoritmo tiene una propiedad importante, la cual lo

hace muy usable:

El Algoritmo hace uso de la propiedad de clausura hacia debajo de los conjuntos de ítems

(downward closure for items) que expone que si un conjunto de ítems no cumple con un

determinado umbral (generalmente el soporte escogido por el usuario), ningún conjunto

más grande que lo contenga ha de satisfacerlo.

Básicamente, según los autores de (Larose, 2004), el algoritmo opera de la siguiente

manera:

1. En primer lugar, se generan todos los subconjuntos de .

2. A continuación, tomando como el subconjunto de que no es vacío.

o Tenga en cuenta la regla de asociación $: ⇒ � ' �, donde � ' �

indica el conjunto sin .

o La regla $ será generada, si esta cumple con el requisito mínimo de

confianza.

o Esta operación se lleva a cabo para cada uno de los subconjuntos que se

puedan extraer de .

2.2.3 Negocio

En esta sección se mostrara la información conceptual para poder enmarcar el proyecto

dentro de un contexto de negocio claro con respecto a la salud.

CIE

El CIE corresponde a la clasificación estadística internacional de enfermedades, y

problemas relacionados con la salud, publicada por la OMS 7 . Actualmente, esta

clasificación ya se encuentra en su décima revisión, por lo que también es denominada

CIE-10.

El CIE-10 presenta la siguiente estructura:

• Código: Es un campo que representa en el sistema a un diagnóstico de manera

única. Para esta décima revisión, el código está compuesto de una letra, la cual

categoriza el diagnostico, y tres números, o en algunos casos, de una letra, dos

números y otra letra (por la general una X). Por ejemplo, B673 o C53X.

7 OMS – Organización Mundial de la Salud

Page 20: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

20

• Descripción: Es un campo en el que se muestra la denominación medica del

diagnóstico. En ciertos casos, esta descripción es acompañada del sitio en el que

ocurre la afección.

• Sexo: Es un campo en el que se especifica para que genero aplica el diagnostico en

cuestión. Los posibles valores de este campo son: Femenino, masculino o ambos

(F, M o A respectivamente).

• Límite inferior: Se refiere a la edad mínima aceptada para que ocurra el evento por

dicha causa.

• Límite superior: Se refiere a la edad máxima aceptada para que ocurra el evento

por dicha causa.

• No son afección principal: Es una bandera, con la cual se indica si un diagnóstico es

una afección principal o no.

• Observaciones: En este campo hay información adicional del diagnóstico.

CUPS

Los CUPS corresponden a la Clasificación Única de Procedimientos en Salud, presentada

por el Ministerio de protección social. Esta clasificación busca “un ordenamiento lógico y

detallado de los procedimientos e intervenciones que se realizan en Colombia,

identificados por un código y descritos por una nomenclatura validada por los expertos del

país, independientemente de la profesión o disciplina del sector salud que los realice así

como del ámbito de realización de los mismos.”8

EPS

Las EPS (entidades promotoras de salud), también son conocidas como EAPB (entidades

administradoras de planes de beneficios). Estas entidades prestan servicios de atención

en salud con infraestructura propia, en algunos casos de terceros. Estas entidades son las

que reciben los recursos del estado destinados a salud y los administran, realizando los

pagos respectivos a las IPS. En el sistema de saludo Colombiano, existen EPS que

pertenecen al régimen contributivo y EPS pertenecientes al régimen subsidiado.

IPS

Las IPS son Instituciones Prestadoras de Servicios de Salud. Estas instituciones son las

entidades, asociaciones y/o personas de carácter público, privado o de economía mixta,

catalogadas y autorizadas para que presten parcial o totalmente el Plan Obligatorio de

Salud POS.

8 Tomado de (Ministerio de Salud, 2001)

Page 21: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

21

RIPS9

Cada RIPS es el conjunto de datos mínimos y básicos que el Sistema General de Seguridad

Social en Salud requiere para los procesos de dirección, regulación y control, y como

soporte de la venta de servicio, cuya denominación, estructura y características se ha

unificado y estandarizado para todas las entidades a que hace referencia el artículo

segundo de la presente Resolución. Los datos de este registro se refieren a la

identificación del prestador del servicio de salud, del usuario que lo recibe, de la

prestación del servicio propiamente dicho y del motivo que originó su prestación:

diagnóstico y causa externa.

El Registro Individual de Prestación de Servicios de Salud -RIPS- está conformado por tres clases de datos:

• De identificación

• Del servicio de salud propiamente dicho

• Del motivo que originó su prestación Los datos de identificación son los de la entidad administradora del plan de beneficios, los del prestador del servicio y los de la transacción, reportados en una factura de venta de servicios. Los datos del Registro Individual de Prestación de Servicios de Salud – RIPS -, son los relacionados con las consultas los procedimientos, el servicio de urgencia, de hospitalización y de medicamentos, las características de dichos datos y los valores para cada uno de ellos. Los datos de consulta son aplicables a todo tipo de consulta, programada o de urgencia, médica general y especializada, odontológica general y especializada y las realizadas por otros profesionales de la salud. Los datos de procedimientos son aplicables a todos ellos, trátese de procedimientos diagnósticos o terapéuticos, de detección temprana o de protección específica. Los datos de hospitalización son los generados cuando haya lugar a ella, cualquiera sea el motivo que la origine, e incluye las consultas, procedimientos y estancias. La transferencia de dichos datos se hará en archivos separados. Los datos correspondientes a la prestación individual de servicios de salud de urgencia, incluye las consultas, procedimientos y estancia en observación. La transferencia de dichos datos se hará en archivos separados.

9 Esta sección fue tomada de la resolución 3374 del año 2000

Page 22: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

22

Los datos de recién nacidos corresponden individualmente a los de las condiciones y características al nacer de uno o más niños o niñas. Los datos de medicamentos están relacionados con la denominación y forma farmacológica de éstos.

2.3 Antecedentes

El problema que se pretende solucionar en este proyecto, nació debido a que se quería

ver qué relación existe entre la información de los usuarios del sistema de salud y los

diagnósticos prescritos por parte de los médicos, además de la probabilidad con la que

estos se vuelven crónicos, con el fin de controlar estas involuciones para la salud de los

seres humanos, en este caso de los ciudadanos Colombianos. Este proyecto es

importante, debido a que el sistema de salud Colombiano, actualmente no cruza por uno

de sus mejores momentos, y sería pertinente proporcionar conocimiento, con el que se

puedan tomar decisiones y lograr controlar la evolución de las enfermedades de los

pacientes con el fin de mejorar la calidad de vida de estos, y disminuir costos para el

sistema.

La minería de datos y la salud han estado relacionadas a lo largo del tiempo, debido a la

gran cantidad de conocimiento que en muchas ocasiones se ha podido generar en base a

registros de información médica que jamás habían sido analizados con el fin de obtener

nueva información. En esta sección se mostraran algunos ejemplos en los que la minería

de datos está fuertemente conexa con la investigación en el área de la salud.

Según Raymond y Pai en (Ng & Pei, 2007), en el campo de la medicina y de la salud como

tal, es posible identificar cuatro campos clave en los cuales la minería de datos juega un

papel importante: Diagnósticos, Pronósticos, Optimización de Tratamientos,

Entendimiento de los mecanismos en enfermedades.

• Diagnósticos:

Si hablamos de diagnósticos, es posible detectar ciertas enfermedades que no son

detectables utilizando medidas convencionales. Por ejemplo, hay enfermedades

que no presentan sintomatología rápidamente, pero por medio del estudio del

genoma y de las marcas que encontremos en este es posible detectarlas a tiempo.

Estos estudios no serían realizables por sistemas comunes si no se contara con la

minería de datos, ya que el genoma nos proporciona millones de datos imposibles

de procesar, debido a los volúmenes que se manejan.

Page 23: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

23

• Pronósticos:

Por otro lado, tenemos los pronósticos médicos. Al hablar de pronósticos es más

claro identificar la relación de estos con la minería de datos, ya que en muchos

casos, las técnicas de minería se utilizan con el fin de realizar pronósticos (p.e.

pronósticos financieros, forecasting, etc.). En la medicina más concretamente, se

puede hablar de pronósticos sobre la evolución de los pacientes después de

haberles aplicado cierto tratamiento, o después de haber llevado a cabo un

trasplante (evolución en el tiempo). Es en estos casos en los cuales el uso de la

minería mejora la calidad de vida de los pacientes y puede llegar a evitar

problemas en el futuro (mediano y largo plazo).

• Optimización de Tratamientos

Seguido a esto encontramos la optimización de tratamientos, en los cuales se

busca predecir las respuestas que tiene el organismo ante la aplicación de ciertas

terapias o tratamientos. Como enuncian Raymond y Pai en su artículo (Ng & Pei,

2007), “para ciertos tipos de cáncer, los bio-marcadores pueden ser usados para

predecir si un cierto régimen de quimioterapia podría ser efectivo o no. El genoma

en los fármacos es un área activa de investigación en entender como los

farmacéuticos y los medicamentos pueden afectar el perfil de genes de un

paciente”. Estos son solo dos ejemplos de los que existen en el área de

investigación médica para justificar el uso de la minería de datos en pro de

mejorar.

• Entendimiento de los mecanismos en enfermedades

Finalmente podemos enunciar el entendimiento de los mecanismos en

enfermedades. En este campo, la minería de datos permite identificar ciertos

patrones que presenta el ser humano como reacción ante ataques virales o

enfermedades, con lo que es posible identificar las condiciones que requiere una

enfermedad para desarrollarse, al igual que la sintomatología que se puede

presentar cuando se padece de esta.

2.3.1 Data mining for Improved Cardiac Care10

Un ejemplo digno de mencionar, es tratado por el grupo de diagnóstico médico de

Siemens, conformado por R. Bharat Rao, Sriram Krishnan and Radu Stefan Niculescu,

quienes muestran como la minería de datos puede aportar para que las personas cuiden

mejor su salud y su sistema cardiaco.

10 Basado en (Rao, Krishnan, & Niculescu, 2006)

Page 24: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

24

En este documento se hace un recorrido acerca del impacto que tienen los infartos en la

mortalidad a nivel mundial, aunque se hace énfasis especial de la situación de este hecho

en los Estados Unidos. Seguido a esto y después de constatar que los gastos en los que se

incurren para brindar los tratamientos y las campañas preventivas de las afecciones

cardiacas, se habla de lineamientos que han surgido para llevar registro y control de las

enfermedades cardiovasculares, en donde se hace énfasis en la cantidad de lineamientos

que surgen y de lo poco relacionados que pueden estar a la hora de tener que ejecutar

alguna acción de emergencia. Por otro lado se habla de los registros médicos electrónicos,

los cuales vienen siendo desarrollados por las instituciones médicas internacionales con el

fin de automatizar procesos de selección de lineamientos de acuerdo con el perfil de los

pacientes, aunque ni el mejor de estos registros proporciona la información necesaria

para lograr hacer cruces de datos y conseguir la selección de un lineamiento adecuado.

Estos registros médicos electrónicos (de aquí en adelante RME), cuentan con información

financiera y médica. Lo que los autores denominan información financiera, hace

referencia a la información del paciente que se requiere para documentar su diagnóstico y

los procedimientos practicados, con el fin de que su compañía aseguradora o el gobierno

hagan el reembolso correspondiente. Esta información incluye diagnósticos estándar, de

acuerdo a las definiciones establecidas en el ICD (International Classification of Diseases).

Muchos de los criterios que se utilizan para determinar si un paciente es apto para seguir

ciertas pautas, se basan en la información de diagnóstico, lo que presenta a estos

diagnósticos como una fuente de datos apropiada para ser sometida a minería de datos,

pero muchos estudios (Zaki, Wang, & Toivonen, 2002) revelan que la información

obtenida por medio de este estándar muestra una precisión del 60% al 80%, debido a que

estos datos dejan ver los intereses financieros más que los médicos. Todo esto hace parte

del análisis de estos expertos, que concluye con la propuesta de un sistema de manejo de

datos en el que: se ejecuta un proceso de ETL para lograr tener información que permita

agregar valor al análisis, luego se realizan procesos que permitan relacionar la información

recolectada y por último se aplican técnicas de inferencia, por medio de las cuales se

obtienen datos de alta calidad.

Finalmente se presentan los resultados obtenidos al utilizar un sistema de manejo de

información contra los resultados del análisis realizado por un equipo médico, obteniendo

los siguientes datos:

Page 25: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

25

Tratamiento Precisión (%) N=327

Sistema Equipo Médico

Aspirina 319 (97%) 314 (96%)

Bloqueadores beta

319 (97%) 316 (97%)

Inhibidores ACE/ARB

300 (92%) 310 (95%)

Glicoproteína IIb/IIIa

300 (92%) 290 (89%)

Tabla 1 - Resultados de Precisión de Diagnósticos. Sistema vs. Equipo Médico

De esta manera podemos ver una de las aplicaciones de la minería de datos en la

medicina, más específicamente en el manejo del cuidado del sistema cardiovascular,

aunque los expertos afirman que un sistema como este está en la capacidad de ser

entrenado con información de cualquier tipo de enfermedad para lograr prestar un mejor

servicio a la comunidad médica y científica.

2.3.2 Drug Exposure Side Effects from Mining Pregnancy Data 11

Los autores usan técnicas de minería de datos para analizar datos provenientes de

mujeres embarazadas. Los autores proponen ciertas reglas de asociación para determinar

los efectos de ciertos medicamentos en las dichas mujeres en distintas etapas del

embarazo. En este artículo los autores pretenden explicar cómo el sometimiento a ciertos

medicamentos y tratamientos durante el periodo de embarazo puede causar

malformaciones o complicaciones al bebe. Los autores hablan de cómo los estudios en

epidemiología han sido generados por años pero no han sido sometidos a análisis. Seguido

a esto presentan algunos factores por medio de los cuales determinan que el análisis de

estos datos es complicado, debido a que los datos provenientes de embarazos son difíciles

de tratar. Dentro de estos factores encontramos: Los efectos secundarios, la sensibilidad

temporal, Secuencias de datos. En cuanto a los efectos secundarios, las mujeres

embarazadas por lo general no presentan síntomas secundarios de los medicamentos

debido a su estado. Por el lado de la sensibilidad temporal, se tienen casos en los que

ciertos medicamentos afectan al bebe en ciertas etapas de su desarrollo, mientras que en

otras no causan ningún efecto, y finalmente en cuanto a las secuencias de datos, se tienen

casos en los que ciertos medicamentos pueden ser nocivos solo en los casos en los que

anteriormente se haya consumido otro tipo de medicamento, por lo que se evidencia que

el uso de los medicamentos en esta etapa no es un evento independiente. Estos aspectos

son las causas principales para que se decida realizar minería de datos a los datos

11 Basado en (Chen, Pedersen, Chu, & Olsen, 2007)

Page 26: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

26

provenientes de embarazos, con el fin de prevenir el consumo de ciertos medicamentos

en esta etapa.

Seguido a esto, los autores proponen el uso de un algoritmo de minería de datos (reglas

de asociación) denominado SmartRule, el cual es útil para hacer minería sobre estos datos

ya que:

• El algoritmo puede generar conjuntos de datos a partir de datos tabulares sin

necesidad de realizar conversiones de tipos de datos.

• El usuario puede usar subconjuntos de datos para incluir atributos que pueden ser vistos como variables objetivo en el momento de generar las reglas, con lo que se pueden generar solo reglas que permitan identificar netamente la variable objetivo.

• Debido al alto número de reglas que se pueden generar, el algoritmo cuenta con una clasificación jerárquica de reglas, las cuales se ubican en un árbol y usa hojas de cálculo para mostrar dichas reglas.

Este algoritmo puede evidenciar el número más pequeño de casos que reflejen los efectos

secundarios del consumo de un medicamento. A diferencia de los métodos tradicionales,

esta técnica puede generar todas las reglas posibles con bajo soporte y nivel de confianza,

sin embargo, estas reglas pueden ser significantes a la hora de hablar de mujeres

embarazadas. Las reglas pueden incluir relaciones entre el tiempo de consumo de un

medicamento y la seguridad del bebe. El método permite manejar granularidad temporal

al antojo del analista.

Para sustentar los estudios realizados, los autores realizaron minería de datos sobre el

conjunto de datos proveniente de las estadísticas en Dinamarca en cuanto a los

nacimientos. Los estudios se hicieron específicamente para analizar la influencia de los

antidepresivos durante el periodo del embarazo.

Dentro del conjunto de datos inicial, los investigadores cuentan con datos de diagnóstico

de los pacientes, secuencias de los medicamentos suministrados en el proceso de

embarazo y además ciertos datos que pueden ser factores de confusión, incluyendo

consumo de complejos vitamínicos, estrés, consumo de cigarrillo, alcohol, entre otros.

Con los datos descritos anteriormente se quiere analizar la influencia de los antidepresivos

y los factores de confusión en el nacimiento prematuro de los bebes. A continuación se

describe el experimento realizado tal y como lo enuncian los autores:

“Para representar el tiempo de exposición al medicamento, dividimos el periodo prenatal

en tres trimestres, y tomamos la exposición en cada trimestre. Tenemos cerca de 4454

pacientes embarazadas en este subconjunto de datos el cual comprende mujeres con

Page 27: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

27

enfermedades mentales y un grupo de control de mujeres sin enfermedades mentales. A lo

largo de estos pacientes, aproximadamente 1000 mujeres padecían de depresión y/o

expuestas a medicamentos activos usados para la depresión como por ejemplo los

antidepresivos, con variación en tiempo y en secuencia. Con la técnica de minería de datos

SmartRule, podemos generar un gran número de reglas en términos de muchos aspectos

de este subconjunto. Debido a la prevalencia de los efectos de los medicamentos, el nivel

de confianza generado por las reglas es usualmente bajo. Como sea, en los estudios, estos

efectos suelen ser importantes aunque tengan niveles de confianza bajos, si la naturaleza

del efecto es seria y la asociación es de causa. En los siguientes ejemplos, solo

demostraremos que estas reglas están relacionadas con el consumo al citalopram (un

antidepresivo) durante el periodo prenatal, para mostrar sus efectos en nacimientos

prematuros. Estas reglas coinciden con las reglas generadas por el análisis tradicional de la

regresión logística”.

Después de realizar el estudio, la jerarquía de reglas obtenida se puede ver de la siguiente

manera:

Figura 6 - Fragmento de la jerarquía de reglas. Consumo de Antidepresivos y Alcohol

En esta jerarquía podemos encontrar cada una de las reglas derivadas de la aplicación de

minería, y de cada una de estas se muestra el nivel de soporte y de confianza que se

encontró. Podemos identificar datos como los siguientes:

Page 28: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

28

“Los niveles de confianza sugieren que el consumo de citolapram y alcohol en el periodo

prenatal pueden estar asociados con un incremento en el riesgo de un embarazo

prematuro. Si observamos las reglas, podemos observar que el alcohol es el factor más

importante asociado con el consumo de citolapram. Algunos hallazgos no fueron

descubiertos inicialmente en los estudios, pero luego se confirmaron mediante análisis.

Finalmente los autores presentan los resultados de sus estudios y realizan una

comparación entre los análisis generado a partir de la minería de datos y los análisis

estadísticos tradicionales, y afirman que la minería de datos permite la consecución de

reglas y resultados sin necesidad de contar con grandes volúmenes de datos, y que las

técnicas de minería no desprecian las reglas por su nivel de confianza, debido a que cada

una de estas puede ser determinante a la hora de clasificar.

2.3.3 Uso de minería de datos en la descripción de hospitalizaciones prolongadas12

En este proyecto, desarrollado por Verónica Gómez, “se busca utilizar la minería de datos

para identificar las causas de un problema del sector de la salud. Se desea comprender por

qué las hospitalizaciones a cargo de medicina interna general tienen duraciones más

prolongadas que las de otras especialidades en una institución hospitalaria”.

En este trabajo se utilizan reglas de asociación y después de la aplicación de los modelos

de minería propuestos, se obtienen las siguientes conclusiones:

• Entre los factores que determinan la duración de una hospitalización “se destacan

como más importantes el nivel de medicación del paciente durante la

hospitalización y su edad. Así mismo, los expertos en el negocio identificaron los

hallazgos que consideraron más útiles. Entre estos se encuentra el hecho de que las

hospitalizaciones prolongadas si existen en otras instituciones” (teniendo en

cuenta que el estudio original se pretendía hacer en base a la información

proporcionada por la Fundación Santa Fé, ubicada en Bogotá, Colombia.

Como podemos ver, hay bastante interés de las ciencias de la salud por dejar que las

tecnologías de información tomen un lugar importante en el ejercicio médico, y es por

esto que se decidió enmarcar este proyecto dentro de esta temática.

2.4 Identificación del problema

El problema a analizar en este proyecto es conocer cómo se relacionan los diagnósticos a

lo largo de la historia clínica de un paciente que padece afecciones respiratorias para

determinar con que probabilidad estos diagnósticos evolucionan hasta ser crónicos y así

poder determinar qué tipos de pacientes (perfiles epidemiológicos) pueden ser

12 Tomado de (Gomez, 2008)

Page 29: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

29

vulnerables a esto. Este análisis permitirá en un futuro brindar elementos para mejorar la

calidad de vida de los pacientes y disminuir los costos relacionados con el tratamiento y

seguimiento, que genera actualmente el sistema de salud al país.

3. Diseño y Especificaciones

3.1 Definición del problema

Dado un conjunto de registros en los que se encuentra la información de cada uno de los

servicios prestados a un paciente en una IPS (RIPS), registros en los que se almacena

principalmente información referente a consultas, hospitalizaciones, urgencias,

procedimientos realizados; se quiere identificar diversos perfiles epidemiológicos de los

pacientes, que en este caso particular han padecido afecciones respiratorias y que han

podido complicarse. Por otro lado, se quiere asociar a dichos perfiles la prescripción de

ciertos diagnósticos, con el fin de relacionar un diagnóstico previo, con la complicación de

una enfermedad.

3.2 Especificaciones

3.2.1 Entradas

Se tienen como entradas la información demográfica y personal de cada paciente (municipio y

departamento de residencia habitual, EPS, IPS, género y edad), los registros de las consultas, las

urgencias, las hospitalizaciones y los procedimientos practicados durante el periodo comprendido

entre el año 2004 y el año 2008.

3.2.2 Precondiciones

• Los registros utilizados como entradas solo comprenden los relacionados con pacientes

que alguna vez han padecido afecciones respiratorias.

• Las inconsistencias de los datos han sido tratadas previamente para garantizar la

efectividad del modelo de minería.

• Los campos que no serán usados en el modelo se han eliminado, con el fin de mejorar los

tiempos de ejecución del modelo.

3.2.3 Salidas

Para el modelo de clustering, se esperan n agrupaciones de pacientes que han padecido

afecciones respiratorias, dichas agrupaciones están basadas en el perfil epidemiológico de

estos y contienen sus características demográficas y personales.

Para el modelo de reglas de asociación, se espera como salida un conjunto de

antecedentes y consecuentes que permitan obtener conocimiento acerca de

características relacionadas con los pacientes que tienen o han tenido afecciones

respiratorias.

Page 30: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

30

3.3 Restricciones Dentro de las restricciones del modelo podemos enunciar que los datos sobre los que se está

diseñando el modelo no son de la totalidad de la población. Los datos entregados son del 20% de

las EPS del país, y de estos se presume que solo se cuenta con el 50% de registros de estas EPS.

Por otro lado, el éxito de los resultados del modelo depende de la calidad de los datos que están

siendo usados para su ejecución. Pueden existir errores de quienes reportan que no se hayan

identificado.

Page 31: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

31

4. Desarrollo del Diseño

4.1 Estrategia de diseño

El diseño del modelo se va a realizar siguiendo lo propuesto por la metodología CRISP.

Teniendo en cuenta los objetivos de este proyecto, se decidió utilizar una combinación de

clustering y reglas de asociación, debido a que es necesario identificar ciertos perfiles

epidemiológicos en los que se divide la población para clasificarla, y posteriormente

encontrar por medio de las reglas de asociación las relaciones que existen entre las

características de dichos perfiles, con los diagnósticos referentes a complicaciones del

sistema respiratorio.

4.2 Recolección de información

Corresponde a la etapa de entendimiento de los datos planteada en CRISP-DM. La

descripción de esta etapa se encuentra en la sección 2 de este documento.

Los datos de los RIPS que fueron usados para la concepción del modelo de minería, fueron

entregados en archivos planos, y se usó el sistema manejador de bases de datos SQL

Server 2008 para su manipulación.

El primer paso fue el de identificar las tablas con las que se contaba para el análisis, e

identificar los campos con información valiosa para el modelo. A continuación se muestra

la descripción general de las tablas en las que se basa el modelo13.

Descripción de campos comunes entre tablas:

Nombre de Campo Tipo de

Dato

Longitud Descripción Valores Permitidos

ID VARCHAR 20 Número del documento de identificación del usuario o el que le asigne la entidad administradora del plan de beneficios. Cuando un vinculado no presente documento de identificación asignar el número de historia clínica

13 La descripción de las tablas fue tomada de (Ministerio de Salud, 2001)

Page 32: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

32

COD_EAPB VARCHAR 10 Código asignado por

el sistema general de seguridad social en salud a los prestadores de servicio de la salud (EPS, Cajas de compensación, etc.)

Valores Alfanuméricos.

COD_IPS VARCHAR 10 Código de la institución o persona que realizó la consulta.

Valores Alfanuméricos.

FACTURA VARCHAR 20 Número que corresponda al sistema de numeración consecutiva según las disposiciones de la DIAN.

Valores Alfanuméricos.

COD_DPTO NUMBER 3 Código del departamento de residencia habitual del paciente.

COD_MPIO NUMBER 3 Código del municipio de residencia habitual del paciente.

SEXO VARCHAR 1 Género del paciente

M = Masculino F = Femenino

EDAD NUMBER 3 Edad del paciente

TIPO_USUARIO NUMBER 1 Identificador para determinar la condición del usuario en relación con el SGSSS

1 = Contributivo 2 = Subsidiado 3 = Vinculado 4 = Particular 5 = Otro

Tabla 2 – Descripción de campos compartidos en las tablas de los RIPS

Page 33: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

33

Tabla Consultas:

Consultas

Nombre de Campo Tipo de

Dato

Longitud Descripción Valores Permitidos

ID (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_EAPB (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_IPS (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

FACTURA (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

FECHA_CONSUL DATE Fecha de la Consulta.

COD_CONSUL NUMBER 8 Código de la consulta definido en el sistema, según los codificadores vigentes.

FINALIDAD_CONSUL NUMBER 2 Objetivo con el cual se realiza la consulta. Aplicable solo para las consultas relacionadas con promoción y prevención.

01 = Atención del parto (puerperio) 02 = Atención del recién nacido 03 = Atención en planificación familiar 04 = Detección de alteraciones de crecimiento y desarrollo del menor de diez años 05 = Detección de alteración del desarrollo joven 06 = Detección de alteraciones del embarazo 07 = Detección de alteraciones del adulto 08 = Detección de alteraciones de agudeza visual 09 = Detección de enfermedad profesional 10 = No aplica

Page 34: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

34

CAUSA_EXTERNA NUMBER 2 Identificador de la causa externa que origina el servicio de salud.

01 = Accidente de trabajo 02 = Accidente de tránsito 03 = Accidente rábico 04 = Accidente ofídico 05 = Otro tipo de accidente 06 = Evento catastrófico 07 = Lesión por agresión 08 = Lesión auto infligida 09 = Sospecha de maltrato físico 10 = Sospecha de abuso sexual 11 = Sospecha de violencia sexual 12 = Sospecha de maltrato emocional 13 = Enfermedad general 14 = Enfermedad profesional 15 = Otra

COD_DIAG_PRIN VARCHAR 4 Código del diagnóstico confirmado o presuntivo, según el CIE 10.

COD_DIAG_R1 VARCHAR 4 Código del diagnóstico confirmado o presuntivo, según el CIE 10.

COD_DIAG_R2 VARCHAR 4 Código del diagnóstico confirmado o presuntivo, según el CIE 10.

Page 35: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

35

COD_DIAG_R3 VARCHAR 4 Código del diagnóstico confirmado o presuntivo, según el CIE 10.

TIPO_DIAG NUMBER 1 Identificador para determinar si el diagnóstico es confirmado o presuntivo.

1 = Impresión diagnóstica 2 = Confirmado nuevo 3 = Confirmado repetido

VALOR_CONSUL NUMBER 15 Valor de la consulta de acuerdo al tarifario utilizado.

Se utilizará como separador de decimales el punto (.).

VALOR_CUOTA NUMBER 15 Valor de la cuota moderadora.

Se utilizará como separador de decimales el punto (.).

VALOR_NETO NUMBER 15 Valor neto a pagar. Se utilizará como separador de decimales el punto (.).

COD_DPTO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_MPIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

SEXO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

EDAD (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

TIPO_USUARIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

Tabla 3 - Estructura de Consultas

Tabla Hospitalizaciones:

Hospitalizaciones

Nombre de Campo Tipo de

Dato

Longitud Descripción Valores Permitidos

ID (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_EAPB (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_IPS (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

(Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

VIA_INGRESO NUMBER 1 Identificador para determinar las

1 = Urgencias 2 = Consulta externa

Page 36: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

36

puertas de entrada del usuario a la institución.

ó programada 3 = Remitido 4 = Nacido en la institución

FECHA_INGRESO DATE Fecha de ingreso del usuario a la institución.

HORA_INGRESO TIME Hora de ingreso del usuario a la institución.

CAUSA_EXTERNA NUMBER 2 Identificador de la causa externa que origina el servicio de salud.

01 = Accidente de trabajo 02 = Accidente de tránsito 03 = Accidente rábico 04 = Accidente ofídico 05 = Otro tipo de accidente 06 = Evento catastrófico 07 = Lesión por agresión 08 = Lesión auto infligida 09 = Sospecha de maltrato físico 10 = Sospecha de abuso sexual 11 = Sospecha de violencia sexual 12 = Sospecha de maltrato emocional 13 = Enfermedad general 14 = Enfermedad profesional 15 = Otra

DIAG_PRIN_INGRE VARCHAR 4 Código del diagnóstico al ingreso del usuario, según el CIE 10.

Page 37: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

37

DIAG_PRIN_EGRE VARCHAR 4 Código del diagnóstico al egreso del usuario, según el CIE 10.

DIAG_EGRE1 VARCHAR 4 Código del diagnóstico, según el CIE 10.

DIAG_EGRE2 VARCHAR 4 Código del diagnóstico, según el CIE 10.

DIAG_EGRE3 VARCHAR 4 Código del diagnóstico, según el CIE 10.

DIAG_COMPLI VARCHAR 4 Código del diagnóstico de la complicación, si la hubo, según el CIE 10.

ESTADO_SALIDA NUMBER 1 Identificador para determinar la condición de salida del usuario.

1 = Vivo 2 = Muerto

DIAG_MUERTE VARCHAR 4 Código de la causa básica de muerte si la hubo, según el CIE 10. Debe ser igual a la causa básica de muerte registrada en el registro de defunción.

FECHA_EGRESO DATE Fecha de egreso del usuario a la institución.

HORA_EGRESO TIME Hora de egreso del usuario a la institución.

NRO_RADICACION NUMBER 8 Numero de Radicación de la hospitalización.

COD_DPTO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_MPIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

SEXO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

Page 38: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

38

EDAD (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

TIPO_USUARIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

Tabla 4 - Estructura de Hospitalizaciones

Tabla Procedimientos

Procedimientos

Nombre de Campo Tipo de

Dato

Longitud Descripción Valores Permitidos

ID (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_EAPB (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_IPS (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

FACTURA (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

FECHA DATE Fecha en la que se realizó el procedimiento.

COD_PROCI NUMBER 6 Código del procedimiento realizado al paciente según la codificación actual.

Se le conocen como esta codificación como CUPS (Código Único de Procedimientos en Salud).

AMBITO NUMBER 1 Determina el ámbito de realización del procedimiento según la ubicación funcional donde éste se realiza.

1 = Ambulatorio 2 = Hospitalario 3 = En Urgencia

FINALIDAD NUMBER 1 Determina la finalidad con que se realiza el procedimiento.

1 = Diagnóstico 2 = Terapéutico 3 = Protección específica 4 = Detección temprana de enfermedad general 5 = Detección temprana de enfermedad profesional

PERSONAL NUMBER 1 Identificador para determinar el personal que atiende el procedimiento.

1 = Médico (a) especialista 2 = Médico (a) general 3 = Enfermera (o)

Page 39: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

39

Diligenciable obligatoriamente cuando es un procedimiento de parto

4 = Auxiliar de enfermería 5 = Otro

DIAG_PRIN VARCHAR 4 Código del diagnóstico previo a la realización del procedimiento, según el CIE-10.

Aplicable sólo a procedimientos Quirúrgicos.

DIAG_R1 VARCHAR 4 Código del diagnóstico posterior a la realización del procedimiento, según el CIE-10.

Aplicable sólo a procedimientos Quirúrgicos.

COMPLICACION VARCHAR 4 Código del diagnóstico de la complicación, si la hubo, según el CIE 10.

VALOR NUMBER 15 Valor del procedimiento.

Se utilizará como separador de decimales el punto (.).

NRO_RADICACION NUMBER 8 Numero de Radicación de la hospitalización.

COD_DPTO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_MPIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

SEXO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

EDAD (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

TIPO_USUARIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

Tabla 5 - Estructura de Procedimientos

Tabla Urgencias

Urgencias

Nombre de Campo Tipo de

Dato

Longitud Descripción Valores Permitidos

ID (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_EAPB (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_IPS (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

Page 40: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

40

FACTURA (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

FECHA_INGRESO DATE Fecha en la que aconteció la urgencia.

CAUSA_EXTERNA NUMBER 2 Identificador de la causa externa que origina el servicio de salud.

01 = Accidente de trabajo 02 = Accidente de tránsito 03 = Accidente rábico 04 = Accidente ofídico 05 = Otro tipo de accidente 06 = Evento catastrófico 07 = Lesión por agresión 08 = Lesión auto infligida 09 = Sospecha de maltrato físico 10 = Sospecha de abuso sexual 11 = Sospecha de violencia sexual 12 = Sospecha de maltrato emocional 13 = Enfermedad general 14 = Enfermedad profesional 15 = Otra

COD_DIAG_PRIN VARCHAR 4 Código del diagnóstico al ingreso del usuario, según el CIE 10.

COD_DIAG_R1 VARCHAR 4 Código del diagnóstico de salida del usuario, según el CIE 10.

COD_DIAG_R2 VARCHAR 4 Código del diagnóstico de

Page 41: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

41

salida del usuario, según el CIE 10.

COD_DIAG_R3 VARCHAR 4 Código del diagnóstico de salida del usuario, según el CIE 10.

DESTINO NUMBER 1 Destino del usuario a la salida de observación.

1 = Alta de urgencias 2 = Remisión a otro nivel de complejidad 3 = Hospitalización

ESTADO NUMBER 1 Identificador para determinar la condición de salida del usuario.

Se utilizará como separador de decimales el punto (.).

CAUSA_MUERTE VARCHAR 4 Código de la causa básica de muerte, si ocurrió, según el CIE-10.

FECHA_SALIDA DATE Fecha de Salida del Usuario de Observación.

NRO_RADICACION NUMBER 8 Numero de Radicación de la urgencia.

COD_DPTO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

COD_MPIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

SEXO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

EDAD (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

TIPO_USUARIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)

Tabla 6 - Estructura de Urgencias

Page 42: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

42

Tablas Adicionales

Tabla Descripción

Departamentos Tabla con el código de cada departamento y su nombre.

Municipios Tabla con el código de cada municipio y su nombre.

CUPS Tabla con los códigos de cada procedimiento, su nombre y su tipo.

CIE10 Tabla con los códigos de cada diagnóstico, su descripción, el género al que aplica, la edad mínima y la edad máxima contempladas por el diagnóstico.

Tabla 7 - Tablas Adicionales

Información Adicional

En la tabla 8 se muestra la información con respecto a la cantidad de registros para cada

una de las tablas descritas.

En las gráficas 1, 2 y 3 se muestra un perfilamiento de los datos de cada una de las tablas

con respecto a los diagnósticos encontrados en estas (para el año 2006).

• Cantidad de Registros en cada tabla:

Año Consultas Hospitalizaciones Procedimientos Urgencias TOTAL

2004 15.073.279 638.089 43.641.656 1.082.218 60.435.242

2005 18.428.917 788.204 27.319.158 1.117.805 47.654.084

2006 20.130.663 1.279.593 32.946.593 1.525.103 55.881.952

2007 18.853.580 917.371 31.129.110 1.263.031 52.163.092

2008 8.963.883 548.416 17.262.828 573.937 27.349.064

TOTAL 81.450.322 4.171.673 152.299.345 5.562.094 243.483.434

Tabla 8 - Resumen de Tablas

Page 43: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

43

• Perfilamiento de Datos14

Gráfica 1 - Distribución Diagnósticos Consultas

En la gráfica anterior podemos observar los diagnósticos generados en las consultas por

las IPS. Al validar esta información con la presentada por la OMS, podemos observar que

es coherente, debido a que en los informes oficiales que la entidad presenta, la

hipertensión es la enfermedad más común de los colombianos.

14

Realizado en conjunto con Diego Fernando Roa, autor de (Roa, 2010)

0.00%

1.00%

2.00%

3.00%

4.00%

5.00%

6.00%

% D

ato

s e

n R

IPS

Porcentaje de datos en CONSULTAS

Page 44: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

44

Gráfica 2 – Distribución Diagnósticos Urgencias

En la gráfica 2, podemos observar que los diagnósticos más presentados cuando los

pacientes llegan por urgencias son los asociados a complicaciones de alguna enfermedad,

o simplemente afecciones comunes, como son diarrea, fiebre, gripa, entre otras.

Gráfica 3 - Distribución Diagnósticos Hospitalizaciones

0.00%0.50%1.00%1.50%2.00%2.50%3.00%3.50%4.00%4.50%5.00%

Diarrea ygastroenteritis

Fiebre Doloresabdominales no

especificados

Infección viralno especificada

Rinofaringitisaguda

(Resfriadocomún)

% D

ato

s en

RIP

S

Porcentaje de datos en URGENCIAS

0.00%

0.50%

1.00%

1.50%

2.00%

2.50%

3.00%

3.50%

% D

ato

s d

e lo

s R

IPS

Porcentaje de datos en HOSPITALIZACIONES

Page 45: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

45

En la tabla de hospitalizaciones, podemos observar que la mayor proporción de ingresos

se dan debido a partos. Por otro lado podemos ver que hay más diagnósticos relacionados

con intervenciones (como apendicitis) y también con afecciones respiratorias.

Exploración de los Datos

Inicialmente se intentó especificar una llave para las tablas, pero dada la organización de

estas, se determinó que por el momento, la única llave que podría existir seria la

combinación de la totalidad de los campos.

Seguido a esto, se inició la identificación de las anomalías de los datos mediante el

perfilamiento de estos. Después de ejecutar la tarea de perfilamiento para cada una de las

tablas se encontraron aspectos como: los valores de los campos están entre comillas y

tienen espacios al inicio y al final, en los campos correspondientes a valores y costos, se

encontraron valores negativos, en los campos correspondientes a todo lo que tiene que

ver con diagnósticos, se observaban valores vacíos, o valores no válidos según la

codificación del CIE-10, en los campos de información geográfica (municipio y

departamento) también se observaron valores nulos. En campos como el de estado, en las

tablas de urgencias, se encontraron valores diferentes a los permitidos.

Tratamiento de los Datos

Para llevar a cabo el tratamiento de los datos y lograr algunas reglas de integridad en la

información se realizaron tareas de ETL con el fin de limpiar ciertas inconsistencias. En la

figura 7 se ilustra de manera general las etapas de la limpieza.

Figura 7 - Diagrama de ETL para la tabla Urgencias 2004

Page 46: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

46

A continuación se enuncian las medidas que se tomaron para manejar las inconsistencias

encontradas en la fase de exploración de los datos:

1. Para los campos monetarios (valor de consulta, valor de bono, valor de

procedimiento, etc.), se decidió llevar a 0 los valores negativos con el fin de que no

influyeran ni negativa ni positivamente en los datos generados a partir de estos

campos. Debido a que ya existían valores con valor en cero, este cambio puede

afectar un futuro análisis por costos, ya que no existe forma de diferenciar que

valores estaban en cero originalmente y que valores quedaron en cero después de

la corrección propuesta.

2. Para los campos que estaban relacionados con información diagnóstica

(diagnósticos de ingreso, diagnósticos de egreso, diagnósticos complementarios,

etc.), se decidió no tener en cuenta los registros que no tuvieran un código valido o

no tuvieran esta información, debido a que el propósito del proyecto está

fuertemente relacionado con los diagnósticos, aunque a los registros que no

tuvieran esta información, se les asigno el valor 0000 para respetar las reglas de

integridad referentes a los tipos de datos.

3. Para los campos relacionados con información geográfica, aquellos registros que

no tuvieran correspondencias en la tabla de departamentos y municipios, se asignó

el valor 0, con el fin de utilizar los registros en el análisis de diagnósticos, mas no

en el análisis demográfico.

4. Para los campos de información personal como el género, se alteraron los valores

de los registros que no corresponden a un género valido (“M” ó “F”), y se les puso

el valor “N”.

Aunque se solucionaron gran parte de los problemas de integridad de los datos de las

fuentes de información, es importante resaltar que el hecho de que estos datos

provengan de diferentes fuentes de datos (previo a la ‘integración’ realizada por el

ministerio), causa ciertos problemas en la semántica de los registros. Debido a las

inconsistencias de diagnósticos descartamos algunos registros, por lo que es posible que

se vean afectados los resultados del modelo. Se espera que estos efectos no sean de gran

impacto, debido a que el volumen de datos descartado no supera el 5% de la totalidad de

los datos.

4.3 Alternativas de diseño

En primera instancia se elaboró un modelo en el que se tomaban como datos de entrada

la información demográfica de los pacientes con el fin de determinar la relación de esta

información con los diagnósticos prescritos por los profesionales de la salud. Al analizar

Page 47: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

47

esta información, se identificó que podría tender a ser estadística y a presentar

información valiosa pero no suficiente para satisfacer los planteamientos del proyecto. En

segundo lugar, se determinó que se debían tener en cuenta datos acerca de diagnósticos

previos para ver la relación entre estos y el diagnostico actual de un paciente. La idea fue

generar reglas de asociación basadas en esta información, pero, debido a la granularidad

de los registros (persona), se optó por la generación de clústeres, todo esto con el fin de

segmentar la población según las características comunes y así ver la influencia de estas

con este nuevo nivel de granularidad (clústeres de la población con información de rangos

de edad, información de departamentos mas no de municipio, información de EPS).

Posteriormente, para generar los antecedentes del modelo de reglas de asociación, se

tomaron estos clústeres junto con la historia diagnostica del paciente y la información

relacionada a los diagnósticos (ámbitos, fechas).

Para lograr más claridad en los resultados, se ejecutaran dos modelos de reglas de

asociación con el fin de mostrar la probabilidad de complicación basándose en la

información demográfica de las personas, y otro con el fin de mostrar qué tipo de

complicación se pude padecer dependiendo de los valores derivados.

Hablando de alternativas, también tenemos que mencionar los distintos caminos que

surgieron al momento de seleccionar una herramienta para llevar a cabo la concepción y

ejecución de los modelos.

Dentro de las herramientas con las que contábamos para ejecutar nuestros modelos

teníamos Intelligent Miner de IBM, PASW Modeler, de SPSS (ahora propiedad de IBM) y

SQL Server 2008 (junto con sus componentes: Integration Services y Analysis Services).

Intelligent Miner, es una herramienta que ya no se utiliza a nivel comercial, debido a que

es bastante limitada en cuanto al tamaño de los orígenes de datos, y además ya no se

puede encontrar soporte, debido a la antigüedad de esta.

PASW Modeler presenta muchas opciones en cuanto a la ejecución de modelos, además

es una herramienta que permite modelar todo el proceso de minería como un data flow

semejante a los de los procesos de negocio actuales. Una desventaja de la herramienta es

la dificultad de licenciamiento, además de la poca información disponible al público con

respecto a su utilización.

SQL Server 2008 ofrece bastantes alternativas en cuanto a la ejecución de modelos de

minería, Para el desarrollo del proyecto, se consideró la herramienta más precisa, debido

a que se tenía la experiencia en esta, y además se contaba con bastante información de

soporte en medios electrónicos. Por otra parte, esta herramienta nos permite realizar las

tareas de una manera más familiar, debido a la facilidad que da de emplear SQL. En

Page 48: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

48

cuanto a la conexión con la fuente de datos, esta se hace de manera directa, debido a que

los datos fueron cargados inicialmente en un motor de bases de datos SQL Server.

4.4 Diseño de la solución

Como podemos observar en la sección 4.3, el análisis entre las alternativas de diseño fue

incremental, ya que en cada iteración se iban refinando detalles en la elaboración del

modelo. Finalmente se optó por terminar la etapa de análisis del modelo.

Finalmente se mantuvieron las técnicas pensadas inicialmente, debido a que se consideró

que la mejor manera de realizar análisis de antecedentes y consecuentes con fines

predictivos son las reglas de asociación. En cuanto a la herramienta que se pretende

utilizar para la consecución de los resultados, ya se ha expresado la preferencia por SQL

Server 2008.

Page 49: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

49

5. Implementación

5.1 Descripción de la implementación

Después de identificar los modelos con los que se va a trabajar finalmente, es necesario

adecuar los datos para conseguir resultados importantes después de la construcción y

posterior ejecución del modelo. Las tareas realizadas para cumplir con las precondiciones

del modelo se enuncian a continuación:

1. Se creó una tabla que contenía información acerca de los diagnósticos de

afecciones respiratorias (id, descripción, es_complicacion y categoría)15.

COD DESCRIPCION es_complicacion categoría16

J172 NEUMONIA EN MICOSIS 1 NEUMONIA

J173 NEUMONIA EN ENFERMEDADES PARASITARIAS

1 NEUMONIA

J178 NEUMONIA EN OTRAS ENFERMEDADES CLASIFICADAS EN OTRA PARTE

1 NEUMONIA

J180 BRONCONEUMONIA, NO ESPECIFICADA 1 BRONCONEUMONIA

J181 NEUMONÍA LOBAR, NO ESPECIFICADA 1 NEUMONIA

J182 NEUMONIA HIPOSTATICA, NO ESPECIFICADA

1 NEUMONIA

J188 OTRAS NEUMONIAS, DE MICROORGANISMO NO ESPECIFICADO

1 NEUMONIA

J189 NEUMONIA, NO ESPECIFICADA 1 NEUMONIA

J200 BRONQUITIS AGUDA DEBIDA A MYCOPLASMA PNEUMONIAE

1 BRONQUITIS

J201 BRONQUITIS AGUDA DEBIDA A HAEMOPHILUS INFLUENZAE

1 BRONQUITIS

Tabla 7 - Fragmento de Tabla de Diagnósticos de Afecciones Respiratorias

2. Se tomaron los pacientes que alguna vez en su historia clínica registraron

afecciones respiratorias.

3. Una vez obtenidos los id de estos pacientes, se buscó la información demográfica y

personal de estos.

4. Después de obtener la información demográfica, se generó una columna que

aplicaba un rango de edad a cada uno de los pacientes, con el fin de aumentar la

probabilidad de encontrar relaciones en los datos.

15

El campo categoría se definió, debido a que muchos de los diagnósticos se podían agrupar debido a su relación patológica (p.e. tipos de bronquitis se juntan en la categoría BRONQUITIS). 16

Las categorías posibles son: BRONCONEUMONIA, BRONQUITIS, CRONICAS BAJAS, INS. RESP. AGUDA, INS. RESP. AGUDA CRONICA, NEUMONIA, RESPIRATORIAS.

Page 50: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

50

Rango Edades

1 Menores de 15 años (niños)

2 Entre 15 y 45 años (edad reproductiva)

3 Entre 45 y 65 años

4 Mayor de 65 años (adultos mayores)

Tabla 8 - Rangos de edad propuestos17

5. Teniendo ya la información demográfica de los pacientes, se procedió a

relacionarlos con la información de complicaciones respiratorias, y se determinó

qué pacientes habían sufrido complicaciones y de qué tipo.

6. Como se quieren incluir datos de tiempo en el modelo, se procedió a insertar la

información acerca de la fecha en la que se había diagnosticada una complicación

para cada paciente (de los que se complicaron).

7. Se asoció cada paciente con su primer diagnóstico en la historia, junto con la fecha

en la que fue diagnosticado.

8. Teniendo las fechas enunciadas en los puntos 6 y 7, se procedió al cálculo del

tiempo transcurrido entre el primer diagnóstico de un paciente y el momento en el

que se complicó.

9. Se calculó el número de veces que un paciente había sido sometido a una consulta,

a un procedimiento o a una hospitalización antes de diagnosticársele una

complicación.

10. Se calculó el número de veces que un paciente había sido sometido a una consulta,

a un procedimiento o a una hospitalización después de diagnosticársele una

complicación.

11. Se obtuvo para cada persona el último diagnostico registrado, junto con la fecha

de diagnóstico, con el fin de observar su evolución.

12. Se generó un campo que muestra si un paciente evolucionó18 o no, después de

sufrir una complicación.

Definición de los campos derivados:

Al evaluar el tipo de reglas que se esperaban del modelo, se determinaron ciertos campos

con el fin de facilitar el entendimiento de las reglas que surgieran del modelo.

17

Los rangos de Edad fueron sugeridos por el Doctor Oscar Bernal, coordinador del área de salud pública de la Universidad de Los Andes. 18 Dejo de padecer una complicación y su nuevo diagnostico no es crítico ni crónico.

Page 51: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

51

• Se complicó: Este campo se establece en verdadero en el caso en el que un

paciente, durante toda su historia clínica, alguna vez se le haya diagnosticado una

afección respiratoria complicada.

• Evolucionó: Este campo se establece en verdadero, en el caso en el que un

paciente, después de haber padecido una complicación respiratoria, haya vuelto a

un diagnostico no complicado.

• Tiempo transcurrido entre su primer diagnóstico y la complicación: Este campo se

calcula, con el fin de determinar en un futuro, qué tipos de personas y con qué

características de duración pueden llegar a complicarse.

• Campos de cantidades19: Estos campos se calculan con el fin de observar las

relaciones entre estas frecuencias y la presencia de complicaciones.

Tabla 9 - Tabla Maestra de los Modelos

Luego de definir la tabla con la que se iba a trabajar en los modelos, se pasó a caracterizar

a la población que padece afecciones respiratorias, para lo cual se utilizó la técnica de

clustering.

A en la figura 8 se muestran los parámetros con los que se construyó la estructura:

19

Hace referencia a cantidad de consultas, hospitalizaciones y procedimientos antes y después de detectarse una complicación.

Page 52: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

52

Figura 8 - Configuración de Campos para ejecutar el modelo

Para efectos de clasificación, se definieron como campos de entrada los campos que

permiten caracterizar a un paciente. Los campos calculados se ignoraron, debido a que se

utilizarán posteriormente en el modelo de reglas de asociación.

Como paso siguiente se realizó la configuración de los parámetros del algoritmo de

clustering.

En este paso se pueden definir parámetros como la cantidad de clústeres, que para

nuestro caso se estableció en 0 (indefinida), con el fin de lograr que el algoritmo calculara

automáticamente la cantidad de clústeres que se generarían. Además se definió como

algoritmo de clustering, el algoritmo de las k-medias. Los demás parámetros se dejaron en

su valor por defecto, debido a que no se buscaba fijar la cantidad de semillas de un clúster

ni la cantidad de atributos que soportaba el modelo con el fin de lograr una

caracterización general del perfil demográfico de los pacientes. En la figura 9 se muestra

claramente el ajuste de estos parámetros.

Page 53: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

53

Figura 9 – Parámetros del Algoritmo de Clustering

En la sección 5.2 del documento se mostrarán los resultados obtenidos después de la

ejecución del modelo de clustering.

Seguido a esto se definió la segunda estructura de minería de nuestro proyecto,

estructura que dividimos en dos modelos con el fin de mejorar los resultados, la cual

corresponde a la técnica de reglas de asociación. Esta estructura nace con el fin de saber

con qué probabilidad una persona que tiene ciertas características ha llegado a

complicarse, y por otro lado con que probabilidad una persona que ha seguido ciertos

patrones y que ha padecido de alguna enfermedad respiratoria puede llegar a padecer

una complicación especifica.

Page 54: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

54

Modelo 1:

En la figura 10 se muestran los parámetros con los que se construyó la estructura:

Figura 10 – Configuración de campos para ejecutar el Modelo (Modelo 1)

Con el fin de tener unos resultados de calidad, los campos que van a ser las entradas del

modelo de reglas de asociación son todos aquellos que muestran información que

caracteriza a una persona, y de igual manera que permita determinar ciertos ámbitos de

esta. Como predicción se coloca el campo de “se complicó”, con el fin de que tomando

todas las entradas como antecedentes, se genere un consecuente de ese tipo.

Como paso siguiente se realizó la configuración de los parámetros del algoritmo de reglas

de asociación.

En este paso se pueden definir parámetros como los valores máximos y mínimos para el

soporte, la confianza deseada, el número de ítems que soportan cada regla. El soporte fue

establecido en 0, ya que se quiere ver la totalidad de las reglas, sin importar el número de

datos que las respalden. El valor seleccionado para la confianza, fue del 40%, con el fin de

encontrar una gran cantidad de reglas. Finalmente se ajustó el número de ítems máximo

para los patrones a 11, con el fin de que se puedan generar reglas que incluyan como

Page 55: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

55

antecedente la totalidad de los campos de entrada (como límite inferior se puso uno, ya

que se quieren identificar relaciones entre un campo particular y el consecuente

respectivo). En la figura 11 se muestra más claramente el ajuste de estos parámetros:

Figura 11 – Parámetros del algoritmo de Reglas de Asociación (Modelo 1)

Page 56: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

56

Modelo 2

En la figura 12 se muestran los parámetros con los que se construyó la estructura:

Figura 12 – Configuración de campos para ejecutar el Modelo (Modelo 2)

Con el fin de mejorar la calidad de los resultados, los campos que van a ser las entradas

del modelo de reglas de asociación son todos aquellos que muestran información que

caracteriza a una persona, además de los que permitan determinar ciertos ámbitos de

esta, tales como la frecuencia de consultas, la frecuencia de realización de procedimientos

(antes y después de sufrir afecciones respiratorias), entre otros. Como predicción se

coloca el campo de “categoría”, con el fin de que tomando todas las entradas como

antecedentes, se genere un consecuente de ese tipo.

Como paso siguiente se realizó la configuración de los parámetros del algoritmo de reglas

de asociación.

En este paso se pueden definir parámetros como los valores máximos y mínimos para el

soporte, la confianza deseada, el número de ítems que soportan cada regla. El soporte fue

Page 57: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

57

establecido en 0, ya que se quiere ver la totalidad de las reglas, sin importar el número de

datos que las respalden. El valor seleccionado para la confianza, fue del 40%, con el fin de

encontrar una gran cantidad de reglas. Finalmente se ajustó el número de ítems máximo

para los patrones a 11, con el fin de que se puedan generar reglas que incluyan como en el

antecedente la totalidad de los campos de entrada (como límite inferior se puso uno, ya

que se quieren identificar relaciones entre un campo particular y el consecuente

respectivo). En la figura 13 se muestra más claramente el ajuste de estos parámetros:

Figura 13 - Parámetros del algoritmo de Reglas de Asociación (Modelo 2)

5.2 Resultados Obtenidos

En primer lugar se mostrarán los resultados obtenidos después de ejecutar el modelo de

clustering sobre los pacientes que presentan afecciones respiratorias. Estos resultados se

relacionarán con los resultados obtenidos del modelo de reglas de asociación, con el fin de

enriquecer dichos resultados.

Page 58: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

58

Figura 14 - Resultados de Clustering

En cuanto a la caracterización de la población que ha padecido afecciones respiratorias

durante su historia clínica, podemos decir lo siguiente (de manera muy general):

• La distribución de la totalidad de la población está caracterizada por lo siguiente:

o El 24 % de la población se ubica en Bogotá, el 16% de la población se ubica

en Antioquia, el 10% de la población se ubica en el Valle del Cauca, la

población restante se ubica en otros departamentos del país.

o El COD_EAPB es cambiante, y su variación está relacionada fuertemente

con el código del departamento.

o Las personas predominantes son las menores de 15 años, con un 47.9%,

seguidas de las personas de 15 a 45 años, con un 34.3%. Las personas de 45

a 65 años representan un 11.6% de la población y los mayores de 65

representan un 6.2%.

o El 71.5% de la población que ha padecido problemas respiratorios presento

complicaciones en su historia clínica, mientras que el 38.5% restante

solamente sufrió de afecciones respiratorias no crónicas ni agudas.

o En cuanto al género, la diferencia no es muy significativa. Encontramos un

56.3% de hombres y un 43.7% de mujeres.

Page 59: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

59

En cuanto a los modelos de reglas de asociación, podemos decir que los resultados,

aunque no son tan poderosos como esperábamos, pueden darnos una guía y unos datos

en cuanto a lo que queremos determinar en el proyecto.

Modelo 1

Figura 15 - Resultados Modelo 1 (Grafo)

En la figura 15, podemos observar todos20 aquellos antecedentes que apuntan a que un

paciente tenga complicaciones respiratorias.

20

Aquellos que cumplen con los parámetros establecidos antes de ejecutar el modelo.

Page 60: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

60

Modelo 2

Figura 16 - Resultados Modelo 2 (Grafo) - Consecuente: NEUMONIA

Figura 17 - Resultados Modelo 2 (Grafo) - Consecuente: BRONCONEUMONIA

Page 61: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

61

Figura 18 - Resultados Modelo 2 (Grafo) - Consecuente: BRONQUITIS

Figura 19 - Resultados Modelo 2 (Grafo) - Consecuente: CRONICAS BAJAS

En las figuras 16, 17, 18 y 19, podemos observar todos aquellos antecedentes que

apuntan a que un paciente tenga complicaciones respiratorias en la categoría de

NEUMONÍA, BRONCONEUMONÍA, BRONQUITIS y CRÓNICAS BAJAS respectivamente.

Page 62: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

62

A continuación se mostraran los resultados más importantes obtenidos en cada uno de los

modelos, y se realizara la validación de estos.

6. Validación

6.1 Métodos

Los resultados se van a evaluar en dos etapas. La primera se centra en la validación de las

reglas generadas por los modelos, basándose en le revisión de la calidad de estas por

medio de la evaluación de las medidas correspondientes (soporte, confianza, importancia

o lift). La segunda etapa de validación corresponde a los comentarios del experto acerca

de los resultados del modelo y el aporte de estos al problema.

6.2 Validación de resultados

Modelo 1

En cuanto al a primera etapa de la validación, tenemos lo siguiente:

# Confianza Importancia Regla

1 0,735 0,412159556621572 COD EAPB = 17000, Rango Edad >= 3, Sexo = M -> Se Complico = SI

2 0,734 0,411606080700254 COD EAPB = 17000, Rango Edad >= 3, Cod Dpto = 12 - 38, Sexo = M -> Se Complico = SI

3 0,449 0,202615749078971 Cod Dpto = 62 - 73, Rango Edad >= 3 -> Se Complico = SI

4 0,909 0,103179552242298 COD EAPB = EPSI01, Cod Dpto = 38 - 62, Rango Edad < 3 -> Se Complico = NO

5 0,903 0,100461844608725 COD EAPB = EPS023, Cod Dpto = 12 - 38, Rango Edad < 3 -> Se Complico = NO

6 0,747 0,118860304743012 Rango Edad < 3 -> Se Complico = NO

Tabla 10 - Reglas de Asociación de mayor Calidad (Modelo 1)

En la tabla 12 podemos observar las 6 reglas de mayor confianza generadas por el modelo

1, en el que se pretendía determinar qué antecedentes implican que una persona se le

diagnostique una complicación a nivel respiratorio.

Las reglas de asociación generadas presentan buenas medidas de calidad, a excepción de

la regla 3, en la que la confianza es del 44.9 %. Por otro lado, si observamos la regla 2, esta

es una extensión de la regla 1, ya que sus antecedentes son los mismos, a excepción del

código del departamento, antecedente que disminuye la confianza en un 0.1 %, pero nos

proporciona más información.

Al interpretar las reglas generadas por el modelo 1, podemos decir que:

Page 63: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

63

• El 73.5% de los hombres que pertenecen a la EPS Dirección Departamental e Salud

de Caldas (cod_eapb = 17000) y que tienen más de 45 años son los más propensos

a padecer complicaciones respiratorias.

• El 73.4% de los hombres que residen el Caldas y que tienen más de 45 años son los

más propensos a padecer complicaciones respiratorias.

o Si observamos las reglas anteriores podemos decir que es muy bajo el

porcentaje de hombres que residen en Caldas pero que no están afiliados a

la EPS Dirección Departamental de Salud de Caldas.

• El 44.9% de la población que reside en Quindío, Risaralda, Sucre y Tolima; y que

tiene más de 45 años, es propensa a padecer complicaciones respiratorias.

• El 90.9% de las personas menores de 45 años, que reciben sus servicios de la EPS

Asociación de Cabildos Indígenas del Cesar, no se complican.

• El 90.3% de los usuarios de la EPS Cruz Blanca y que son menores de 45 años. No

se complican.

• El 74.7% de la población menor de 45 años no se complica.

Modelo 2

En cuanto a la validación relacionada con la calidad de las reglas de asociación, tenemos lo

siguiente:

# Confianza Importancia Regla

1 0,247 0,896915450556623 COD EAPB = 05000, Tiempo Transcurrido 1 < 2, Proc Previos Complicacion < 3, Se Complico = SI, Hosp Previas Complicacion = 0 - 1, Cod Dpto < 12, Rango Edad < 3 -> Categoria = BRONCONEUMONIA

2 0,382 1,14532064599367 COD EAPB = EPS030, Cod Dpto = 38 - 62, Consultas Previas Complicacion < 1, Proc Previos Complicacion < 3, Se Complico = SI, Hosp Previas Complicacion = 0 - 1, Rango Edad < 3 -> Categoria = NEUMONIA

3 0,601 0,76737698806456 COD EAPB = CCF018, Proc Previos Complicacion < 3, Se Complico = SI, Hosp Previas Complicacion = 0 - 1, Cod Dpto < 12, Rango Edad < 3 -> Categoria = BRONQUITIS

Tabla 11 - Reglas de Asociación de mayor Calidad (Modelo 2)

En la tabla 13 podemos observar las 3 reglas de mayor confianza generadas por el modelo

2, en el que se pretendía determinar que antecedentes implican que una persona padezca

alguna de las enfermedades pertenecientes a las categorías definidas en el modelo.

Las reglas de asociación generadas en este modelo no presentan muy buenas medidas de

calidad, a excepción de la regla 3, en la que la confianza es del 60.1 %.

Page 64: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

64

Al interpretar las reglas generadas por el modelo 2, podemos decir que:

• El 24.7% de la población que pertenece a la EPS Dirección Departamental de Salud

de Antioquia, que se les diagnostico una complicación un mes después de padecer

una afección respiratoria y que es menor de 45 años, se les presenta como

complicación BRONCONEUMONÍA.

• El 38.2% de la población de Nariño, que pertenece a la EPS Cóndor S.A, y que son

menores de 45 años, se les presenta como complicación NEUMONÍA.

• El 60.1 % de la población de Bogotá, que pertenece a la EPS de CAFAM y que son

menores de 45 años, se les presenta como complicación BRONQUITIS.

Aunque los resultados de este modelo no parecen ser tan convenientes como los del

modelo anterior, debemos considerar los comentarios del experto.

Tanto para el modelo 1 como para el modelo 2, se generaron 2000 reglas. Es importante

resaltar que, debido a que la máxima cantidad de parámetros permitidos en una regla fue

11, muchas de estas reglas pueden ser subconjuntos de otras.

Comentarios del Experto:

El doctor Oscar Bernal dijo que los resultados obtenidos en el proyecto fueron

“interesantes”. Planteo que se debía tener en cuenta otra categorización en las

enfermedades respiratorias, debido a que las complicaciones de estas no necesariamente

eran siempre otras enfermedades que afectaran el sistema respiratorio. Por otro lado

planteó que se podrían obtener resultados con más soporte si se analizaran

independientemente los grupos de edades, debido a que para los niños se debían tener

consideraciones diferentes que para los adultos. Adicionalmente a esto hizo énfasis en

que aún no se contaban con la totalidad de los datos, por lo que se podrían presentar

resultados diferentes a los esperados.

Page 65: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

65

7. Conclusiones

7.1 Discusión

En este proyecto se buscó encontrar con que probabilidad un paciente podía padecer una

complicación, dado que padecía una enfermedad respiratoria previamente. Además se

buscaron relaciones entre las complicaciones y las entidades que atendían a los pacientes.

Se propuso el uso clustering y reglas de asociación como técnicas de minería de datos para

dar solución al problema que se concibió inicialmente. Se decidió implementar un modelo

de clustering, con el fin de caracterizar la población sobre la cual se pretendía resolver el

problema. Se definieron ciertos datos generados a partir de la información existente en

los datos de entrada, con el fin de determinar la relacionen entre la frecuencia del uso de

servicios médicos y el padecimiento de complicaciones. En base a esto, se diseñó un

proceso de minería, en el que se pretendía tomar como antecedentes estos valores y

algunas características usadas en el clúster de caracterización para poder identificar qué

tipo de complicación se presentaba en los consecuentes.

En cuanto a los resultados encontrados después de la ejecución de los modelos, es

pertinente resaltar que hay características que resultan interesantes frente a la posible

complicación de una enfermedad respiratoria en determinados segmentos de la población

colombiana. Muchos de estos aspectos están relacionados con la ubicación geográfica de

los pacientes y la edad de los mismos, por lo que sería pertinente realizar un estudio de las

condiciones de estas zonas para identificar qué aspectos pueden influir en la aparición de

enfermedades respiratorias comunes y crónicas.

Como en la mayoría de los proyectos que tienen que ver con minería de datos, en el

desarrollo de este se encontraron dificultades en la manipulación de los datos, debido al

volumen y a la calidad de estos, lo cual afecto el tiempo de implementación y la calidad de

los modelos generados. En este tipo de proyectos, es necesario contar con cierta

infraestructura que soporte el tipo de ejecuciones que se van a llevar a cabo para evitar

retrasos en el desarrollo del proyecto.

Este proyecto se ajusta a la metodología CRISP-DM, y se puede evidenciar en el desarrollo

que se llevó a cabo un proceso iterativo, debido a la necesidad de refinar el modelo en

función de los objetivos iniciales.

Las experiencias plasmadas en este documento, se esperan sean de utilidad para quienes

proyecten realizar trabajos similares, debido a que la relación entre la medicina y la

minería de datos es un aspecto en el que existen muchas posibilidades de crecimiento y

colaboración mutua en pro del bienestar de la humanidad.

Page 66: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

66

Adentrándonos un poco más en la metodología, es pertinente resaltar que hay etapas en

las que se debe tener especial cuidado, debido a que son la columna vertebral del proceso

completo. Entre estas etapas podemos encontrar la del entendimiento del negocio,

debido a que en el momento de trasladar un problema de negocio a un problema que se

pueda solucionar con minería de datos, se pueden cometer errores que pueden desviar

totalmente el curso del proyecto. Por otro lado, vale la pena mencionar la etapa de

preparación de datos, debido a que es una de las etapas que más toma tiempo, ya que es

importante realizar un perfilamiento claro de los datos con el fin de no alterar los

resultados de manera significativa en el momento de corregir ciertas inconsistencias.

Finalmente se debe resaltar la importancia de la validación de los resultados, y más aún, la

participación de un experto en esta validación, ya que puede que para un experto en

minería de datos las reglas generadas sean suficientes para el negocio, mientras que para

el experto puede que no.

7.2 Trabajo futuro

Este proyecto da pie a grandes trabajos en el futuro, todos con el fin de mejorar la labor

de los diferentes actores participantes en sistemas de salud como el colombiano. La

propuesta de trabajo futuro a corto plazo es la de extender el modelo a otros diagnósticos

que no hagan parte de las afecciones respiratorias. Además de esto se puede extender el

modelo considerando relación entre afecciones de diferentes categorías (p.e. afecciones

respiratorias con complicaciones dermatológicas). Por otro lado, este modelo puede

extenderse hacia adelante, contemplando las mejoras de los pacientes y los diagnósticos

posteriores a las complicaciones.

Para trabajos futuros también es necesario mejorar el proceso de preparación de los datos

con ayuda de un experto, debido a que cuando se da lugar a la limpieza, puede que se

estén discriminando datos que pueden llegar a ser importantes para el modelo.

Otro trabajo futuro interesante podría ser el de relacionar la información registrada en los

RISP con información de ciertos “ámbitos de los pacientes” 21 , los cuales pueden

enriquecer el modelo de minería.

En cuanto al manejo de la metodología CRISP-DM, es pertinente darle un buen tiempo a

las tareas de extracción y limpieza de datos, ya que este es un punto que puede

convertirse en un cuello de botella para la evolución del proyecto. Además, si es posible,

se debe estimar que tipo de recursos se utilizaran (Hardware y Software), ya que esto

también es un aspecto que influye notoriamente en el tiempo del proyecto.

21 Ámbitos adicionales podrían ser extraídos de encuestas aplicadas a nivel nacional.

Page 67: USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y

67

8. Referencias

Berry, M. J., & Linoff, G. (1997). Data Mining Techniques: For Marketing, Sales, and Customer

Support. Wiley.

Bramer, M. (2007). Principles of Data Mining. Springer.

Cadena, J. S. (2009). Identificación de sospechosos de lavado de activos en el sector asegurador

colombiano aplicando técnicas de minería de datos.

Chapman, P. e. (2000). CRISP-DM 1.0 - Step by Step Data Mining Guide.

Chen, Y., Pedersen, L. H., Chu, W. W., & Olsen, J. (2007). Drug Exposure Side Effects from Mining

Pregnancy Data. ACM SIGKDD Explorations Newsletter, 22-29.

Congreso de Colombia. (2002). Ley 789.

Gomez, V. (2008). Uso de minería de datos en la descripción de hospitalizaciones prolongadas.

Kantardzic, M. (2002). Data Mining: Concepts, Models, Methods, and Algorithms. Wiley-IEEE Press.

Larose, D. T. (2004). Discovering Knowledge in Data: An Introduction to Data Mining. Wiley-

Interscience.

Ministerio de la Protección Social. (2003). Decreto 205.

Ministerio de Salud. (2000). Resolucion Numero 3374.

Ministerio de Salud. (2001). Resolución Número 1896. Primera Actualización de la clasificación

única de procedimientos en salud. Bogotá, Colombia.

Ng, R. T., & Pei, J. (2007). Introduction to the Special Issue on Data Mining for Health Informatics.

ACM SIGKDD Explorations Newsletter, 1-2.

Rao, R. B., Krishnan, S., & Niculescu, R. S. (2006). Data mining for Improved Cardiac Care. ACM

SIGKDD Explorations Newsletter, 3-10.

Roa, D. (2010). Análisis de los Antecedentes y Consecuentes de las Personas con Hipertensión

Arterial en el Sector Salud Colombiano Usando Técnicas de Minería de Datos.

Zaki, M. J., Wang, J. T., & Toivonen, H. T. (2002). BIOKDD 2002: recent advances in data mining for

bioinformatics. ACM SIGKDD Explorations Newsletter, 112-114.