Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
1
USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y PREVENCIÓN
DE COMPLICACIONES DE ENFERMEDADES EN EL SISTEMA DE SALUD
COLOMBIANO
LUIS JAVIER BAUTISTA MÉNDEZ
UNIVERSIDAD DE LOS ANDES
FACULTAD DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN
BOGOTÁ D.C.
JUNIO 2010
2
USO DE MINERÍA DE DATOS EN LA DETECCIÓN TEMPRANA Y PREVENCIÓN
DE COMPLICACIONES DE ENFERMEDADES EN EL SISTEMA DE SALUD
COLOMBIANO
LUIS JAVIER BAUTISTA MÉNDEZ
Tesis de Grado presentada como requisito para optar por el título de
Ingeniero de Sistemas y Computación
Director: PhD. María del Pilar Villamil Giraldo
Profesora Asistente
UNIVERSIDAD DE LOS ANDES
FACULTAD DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN
BOGOTÁ D.C.
JUNIO 2010
3
Contenido
Resumen ........................................................................................................................................ 7
1. Introducción ....................................................................................................................... 8
2. Descripción General ......................................................................................................... 10
2.1 Objetivos ...................................................................................................................... 10
2.1.1 Objetivo General .................................................................................................. 10
2.1.2 Objetivos Específicos ............................................................................................ 10
2.2 Contexto....................................................................................................................... 10
2.2.1 Metodología CRISP-DM ......................................................................................... 10
2.2.2 Minería de Datos .................................................................................................. 13
2.2.3 Negocio ................................................................................................................ 19
2.3 Antecedentes ............................................................................................................... 22
2.3.1 Data mining for Improved Cardiac Care ................................................................. 23
2.3.2 Drug Exposure Side Effects from Mining Pregnancy Data ..................................... 25
2.3.3 Uso de minería de datos en la descripción de hospitalizaciones prolongadas ........ 28
2.4 Identificación del problema .......................................................................................... 28
3. Diseño y Especificaciones ................................................................................................. 29
3.1 Definición del problema ............................................................................................... 29
3.2 Especificaciones............................................................................................................ 29
3.2.1 Entradas ............................................................................................................... 29
3.2.2 Precondiciones ..................................................................................................... 29
3.2.3 Salidas .................................................................................................................. 29
3.3 Restricciones ................................................................................................................ 30
4. Desarrollo del Diseño ....................................................................................................... 31
4.1 Estrategia de diseño ..................................................................................................... 31
4.2 Recolección de información .......................................................................................... 31
4.3 Alternativas de diseño .................................................................................................. 46
4.4 Diseño de la solución .................................................................................................... 48
5. Implementación ............................................................................................................... 49
5.1 Descripción de la implementación ................................................................................ 49
5.2 Resultados Obtenidos ................................................................................................... 57
4
6. Validación ........................................................................................................................ 62
6.1 Métodos ....................................................................................................................... 62
6.2 Validación de resultados ............................................................................................... 62
7. Conclusiones .................................................................................................................... 65
7.1 Discusión ...................................................................................................................... 65
7.2 Trabajo futuro .............................................................................................................. 66
8. Referencias ...................................................................................................................... 67
5
Listado de Figuras
Figura 1 - Descomposición de Tareas CRISP-DM ........................................................................... 11
Figura 2 - Etapas Metodología CRISP-DM ..................................................................................... 11
Figura 3 - Secciones del Proyecto en CRISP-DM ............................................................................ 13
Figura 4 - Proceso: Descubrir Conocimiento ................................................................................. 14
Figura 5 - Cálculo de Centroides ................................................................................................... 16
Figura 6 - Fragmento de la jerarquía de reglas. Consumo de Antidepresivos y Alcohol ................. 27
Figura 7 - Diagrama de ETL para la tabla Urgencias 2004 .............................................................. 45
Figura 8 - Configuración de Campos para ejecutar el modelo ....................................................... 52
Figura 9 – Parámetros del Algoritmo de Clustering ....................................................................... 53
Figura 10 – Configuración de campos para ejecutar el Modelo (Modelo 1) ................................... 54
Figura 11 – Parámetros del algoritmo de Reglas de Asociación (Modelo 1) ................................... 55
Figura 12 – Configuración de campos para ejecutar el Modelo (Modelo 2) ................................... 56
Figura 13 - Parámetros del algoritmo de Reglas de Asociación (Modelo 2) ................................... 57
Figura 14 - Resultados de Clustering............................................................................................. 58
Figura 15 - Resultados Modelo 1 (Grafo) ...................................................................................... 59
Figura 16 - Resultados Modelo 2 (Grafo) - Consecuente: NEUMONIA ........................................... 60
Figura 17 - Resultados Modelo 2 (Grafo) - Consecuente: BRONCONEUMONIA ............................. 60
Figura 18 - Resultados Modelo 2 (Grafo) - Consecuente: BRONQUITIS ......................................... 61
Figura 19 - Resultados Modelo 2 (Grafo) - Consecuente: CRONICAS BAJAS ................................... 61
6
Listado de Tablas
Tabla 1 - Resultados de Precisión de Diagnósticos. Sistema vs. Equipo Médico ............................. 25
Tabla 2 – Descripción de campos compartidos en las tablas de los RIPS ....................................... 32
Tabla 3 - Estructura de Consultas ................................................................................................. 35
Tabla 4 - Estructura de Hospitalizaciones ..................................................................................... 38
Tabla 5 - Estructura de Procedimientos ........................................................................................ 39
Tabla 6 - Estructura de Urgencias ................................................................................................. 41
Tabla 7 - Fragmento de Tabla de Diagnósticos de Afecciones Respiratorias .................................. 49
Tabla 8 - Rangos de edad propuestos ........................................................................................... 50
Tabla 9 - Tabla Maestra de los Modelos ....................................................................................... 51
Tabla 10 - Reglas de Asociación de mayor Calidad (Modelo 1) ...................................................... 62
Tabla 11 - Reglas de Asociación de mayor Calidad (Modelo 2) ...................................................... 63
7
Resumen
La minería de datos va de la mano con el entendimiento de la información, y la generación
de conocimiento a partir de la misma. Este proyecto se orienta al uso de técnicas de
minería de datos para determinar con que probabilidad, un paciente del sistema de salud
colombiano puede complicarse, y además establecer que aspectos influyen
principalmente en la aparición de una complicación. Como técnica principal se utilizó la
generación de reglas de asociación, con lo que se pretende mostrar los casos en los que el
padecimiento previo de una afección y su posterior tratamiento pueden llegar a influir en
la aparición de complicaciones. Los resultados obtenidos después del estudio muestran la
relación entre las complicaciones de un paciente con su información clínica, al igual que la
relación entre el ámbito demográfico de los pacientes con la probabilidad de padecer una
complicación.
8
1. Introducción
La minería de datos va de la mano con el entendimiento de la información, y la generación
de conocimiento a partir de la misma. Desde hace mucho tiempo se ha utilizado la minería
de datos para entender qué hay detrás de grandes volúmenes de datos, es por esto que la
minería de datos como tal, hace parte de un proceso de generación de conocimiento.
En la sociedad colombiana existen grandes dificultades con los sistemas públicos, entre
estos, el sistema de protección social, sistema que, según el artículo 1 de la ley 789 del
año 2002, “se constituye como el conjunto de políticas públicas orientadas a disminuir la
vulnerabilidad y a mejorar la calidad de vida de los colombianos, especialmente de los más
desprotegidos. Para obtener como mínimo el derecho a: la salud, la pensión y al trabajo”.
(Congreso de Colombia, 2002).
El ministerio de protección social, es una entidad que nace en el año 2002, mediante la ley
790, ley en la cual se expiden ciertas disposiciones para reestructurar el sector público,
entre estas la fusión del ministerio de trabajo y el ministerio de seguridad social. El
siguiente año, se expide el decreto 205, en el cual se presentan como objetivos
primordiales del ministerio de protección social, “la formulación, adopción, dirección,
coordinación, ejecución, control y seguimiento del Sistema de la Protección Social,
establecido en la Ley 789 de 2002, dentro de las directrices generales de la ley, los planes
de desarrollo y los lineamientos del Gobierno Nacional”. (Ministerio de la Protección
Social, 2003).
Por otro lado, centrándonos más en la información que es nuestra materia prima, en el
año 2000, la ministra de Salud Sara Ordoñez, expidió la resolución número 3374 de 2000,
en la que se reglamentan los datos básicos que se deben reportar con respecto a los
servicios de salud prestados en el país. En esta resolución se define claramente lo que es
prestación individual de servicios de salud, entidades administradoras de planes de
beneficios, registro individual de prestación de servicios de salud – RIPS, procesos
informáticos y epicrisis.
Desde esa época, el ministerio de Salud parte del actual ministerio de protección social,
reglamentó los datos básicos que se deben reportar, informando para cada paciente
aspectos tales como las consultas, procedimientos, hospitalizaciones, urgencias, datos de
recién nacidos y datos relacionados con la formulación y entrega de medicamentos.
Teniendo en cuenta todo esto, y los problemas que se presentan actualmente en cuanto a
la reforma social planteada por el gobierno en el decreto 133 de 2010 (emergencia social),
se quiere realizar un estudio utilizando técnicas de minería de datos para identificar
complicaciones en la salud de los colombianos y encontrar relaciones entre los
9
diagnósticos previstos y la prestación de servicios por parte de las entidades
correspondientes.
El documento se distribuye de la siguiente manera: la sección 2 describe los objetivos que
dieron lugar al proyecto, dando una breve contextualización de este en el sector de la
salud colombiano. Por otro lado, en esa sección se hace una breve contextualización del
problema en cuanto al fundamento teórico relacionado, y en cuanto a los trabajos
desarrollados en el mismo ámbito. La sección 3 da una visión del problema más específica,
abordando aspectos específicos de este, así como las restricciones que se presentan en el
momento de iniciar el proyecto con el fin de enmarcar la solución. La sección 4 esboza lo
que es el diseño del proyecto en función a la metodología a seguir. Además, en esta
sección se muestra brevemente el origen de los datos que se van a utilizar para el
desarrollo y se presentan las reglas de asociación como la técnica particular de minería de
datos que se utilizará para desarrollar el problema. La sección 5 describe la manera en la
cual fue construido el modelo de minería y posteriormente se muestran los resultados
obtenidos después de la ejecución del modelo concebido anteriormente. La sección 6
muestra la manera en la que se van a evaluar los resultados, además ilustra la forma de
validar la ejecución del modelo de minería y posteriormente se especifican los
comentarios de los resultados después de la reunión con el experto. La sección 7 presenta
las conclusiones del proyecto, así como posibles alternativas para continuar con el
proyecto o con trabajos relacionados en el futuro.
En este proyecto, se desarrollaron modelos de reglas de asociación con el fin de encontrar
relaciones entre los diagnósticos de los pacientes de los servicios de salud colombianos,
prescritos a lo largo de su historia clínica y las complicaciones de salud que hubiesen
podido presentar. Para el desarrollo de estos modelos, se utilizaron datos de los RIPS,
provenientes de la recopilación que realiza el ministerio de protección social a nivel
nacional. Cabe resaltar que, según la información proporcionada por el ministerio, los
datos utilizados para el proyecto son aproximadamente los recopilados en el 20% de las
instituciones. De las instituciones que reportaron datos, se estima que cada una
proporcionó el 50% de los datos que le correspondería reportar.
Los resultados obtenidos en este proyecto se presentarán como relaciones de causa y
consecuencia, en donde como causas se tendrán aspectos demográficos de los pacientes,
así como diagnósticos previos y como consecuencias se tendrán diagnósticos relacionados
con complicaciones de enfermedades, en este caso de afecciones respiratorias.
Adicionalmente, se tendrá un perfil epidemiológico parcial, generado a partir de los
registros de salud proporcionados para este proyecto.
10
2. Descripción General
2.1 Objetivos
2.1.1 Objetivo General
Este proyecto pretende abarcar complicaciones relacionadas con enfermedades del
sistema respiratorio encontradas en el sector salud en Colombia, utilizando minería de
datos para su detección. Inicialmente, estas dificultades se enmarcan en un ámbito
médico y en un ámbito administrativo.
2.1.2 Objetivos Específicos
En cuanto al ámbito médico, podemos plantear los siguientes objetivos específicos:
• Determinar parcialmente perfiles epidemiológicos (teniendo en cuenta
características demográficas) basados en enfermedades respiratorias.
• Analizar con qué probabilidad una persona, o un perfil epidemiológico de las
personas que padecen una enfermedad respiratoria puede complicarse y llegar a
padecer afecciones críticas.
En cuanto al ámbito administrativo, podemos plantear el siguiente objetivo específico:
• Determinar si existen relaciones entre los diagnósticos que presentan los pacientes
y las entidades que prestan los servicios
2.2 Contexto
2.2.1 Metodología CRISP-DM
Para llevar a cabo un proceso de planeación para el desarrollo del proyecto, se tomó como
referencia la metodología CRISP-DM1, la cual es un estándar en la actualidad para la
gestión de proyectos en el ámbito de la minería de datos. Con base a las etapas que
presenta esta metodología, se desarrolló gran parte de la planeación del proyecto,
adicionando tareas referentes al control del estado del proyecto.
Cuando hablamos de CRISP-DM (Chapman, 2000), debemos tener claro que esta
metodología orienta el desarrollo a un proceso jerárquico, en el cual podemos encontrar
tareas que se van descomponiendo desde lo más general hasta tareas lo más granulares
posibles. El modelo plantea el orden jerárquico presentado en la figura 1.
1 CRoss Industry Standard Process for Data Mining
11
Figura 1 - Descomposición de Tareas CRISP-DM
Dentro de las fases que se tienen en cuenta a la hora de aplicar la metodología a un
proyecto encontramos 5 etapas, que son: entendimiento del negocio, entendimiento de
los datos, preparación de los datos, modelado, evaluación y despliegue. Las etapas son
parte de un ciclo, que puede llegar a ser iterativo. Este se ilustra en la figura 2.
Figura 2 - Etapas Metodología CRISP-DM
12
Entendimiento del negocio
La idea en esta fase es entender los objetivos y los requerimientos que se quieren
satisfacer con el proyecto a nivel del negocio. Seguido a esto, es necesario migrar todo
este análisis a una perspectiva más técnica, generando a partir de esta primera etapa un
problema de minería de datos y un plan preliminar para lograr los objetivos propuestos.
Entendimiento de los datos
En esta fase se busca que el ejecutor del proyecto logre apropiarse de los datos, seguido a
esto se busca familiarizarse con dichos datos para identificar problemas de calidad que
pueden surgir en el momento de revisarlos más detenidamente, y además empezar a ver
qué tipos de hipótesis o ideas pueden surgir al respecto.
Preparación de los datos
En esta fase se define el conjunto de datos que se va a utilizar finalmente en el proyecto.
Esta fase incluye todo el proceso de ETL de los datos.
Modelado
En esta fase se aplican varias técnicas a los datos. Adicionalmente, se requiere volver a la
fase de preparación de datos, debido a que ciertas técnicas requieren formatos especiales
en los datos.
Evaluación
En esta fase se genera un modelo en el cual se espera tener alta calidad proveniente del
análisis de datos. Antes de continuar a la siguiente fase es importante evaluar si después
de ejecutar las fases que se han descrito hasta el momento es posible alcanzar los
objetivos planteados al inicio del proyecto. En esta fase es importante considerar si existe
algún problema en el negocio que no se haya considerado. Al final de la evaluación se
debe decidir si se usan los resultados obtenidos del proceso de minería.
Despliegue
Partiendo del modelo, el conocimiento generado como consecuencia de la aplicación de
este, debe ser organizado, de tal manera que el experto del negocio pueda sacar provecho
de este.
En el proyecto, podemos identificar las fases de la metodología de la siguiente manera:
13
Figura 3 - Secciones del Proyecto en CRISP-DM
2.2.2 Minería de Datos
La minería de datos va de la mano con el entendimiento de la información, y la generación
de conocimiento a partir de la misma.
Según el Grupo Gartner, “la minería de datos es el proceso de descubrir correlaciones,
patrones y tendencias significativas explorando en grandes cantidades de datos
almacenados en repositorios, usando tecnologías de reconocimiento de patrones tales
como técnicas estadísticas y matemáticas”.
Por otro lado en (Kantardzic, 2002) se afirma que la minería de datos es utilizada para
llevar a cabo dos tipos diferentes de actividades, que son:
• Minería Predictiva: “Produce un modelo que describe un sistema definido por un
conjunto de datos”
• Minería Descriptiva: “Produce información nueva, no trivial basada en un conjunto
de datos”
Desde hace mucho tiempo se ha utilizado la minería de datos para entender que hay
detrás de grandes volúmenes de datos, es por esto que (según (Bramer, 2007)), la minería
de datos como tal, hace parte de un proceso de generación de conocimiento dividido en
etapas, las cuales se ilustran a continuación:
14
Figura 4 - Proceso: Descubrir Conocimiento2
Para generar o extraer conocimiento (que es el objetivo principal de la minería de datos),
esta debe hacer uso de otros aspectos, referentes al campo tecnológico en diferentes
áreas para cumplir dicho objetivo. La minería de datos utiliza tecnologías antes usadas en
el campo de la estadística para analizar los datos, por otro lado, la minería de datos tiene
un segmento tecnológico aliado, el cual corresponde al acceso a grandes volúmenes de
datos. En este segmento de sistemas informáticos, podemos encontrar los Sistemas
Manejadores de Bases de Datos (SMBD), los sistemas de visualización de datos, entre
otros.
La minería de datos comprende variedad de tareas, que son llevadas a cabo mediante la
aplicación de diversas técnicas. Según (Kantardzic, 2002), dentro de las tareas de la
minería de datos podemos encontrar:
1. Clasificación: Descubrimiento de una función predictiva, que clasifica los datos en
un conjunto predefinido.
2. Regresión: Descubrimiento de una función, que relaciona un ítem a un valor real
de una variable de predicción.
2 La figura 4 es una reproducción del modelo presentado en la página 2 de (Bramer, 2007)
15
3. Clustering: Tarea descriptiva en la que se busca identificar un conjunto de
categorías o clústeres para describir los datos.
4. Resumen: Tarea descriptiva en la que se quiere buscar una descripción compacta
para un conjunto (o subconjunto) de datos
5. Modelaje de Dependencias: Se pretende buscar un modelo que describe las
dependencias significativas entre variables o valores de una característica de un
conjunto de datos, o entre partes del mismo conjunto.
6. Detección de Cambios y Desviaciones: Descubrimiento de los cambios más
significativos del conjunto de datos.
Clustering
Como se afirma en (Berry & Linoff, 1997), La técnica de clustering consiste en “segmentar
una población heterogénea en subgrupos más homogéneos llamados clústeres. La
diferencia del clustering con respecto a la clasificación es que en la técnica de clustering no
existen clases predefinidas. (…). Los registros son agrupados basándose en la similaridad
que presentan. Es parte del usuario interpretar que significan las agrupaciones. (…). La
técnica puede ser usada como una técnica previa al uso de otra técnica o modelaje.”
Para realizar clustering, existen diversos algoritmos, entre estos, el algoritmo de K-medias,
el cual será de interés para el proyecto.
K-medias3
El algoritmo de k-medias es uno de los algoritmos más usados para hallar clústeres en un
conjunto de datos. Este algoritmo requiere que le sea especificado un numero K, el cual
corresponde a la cantidad de clústeres que se van a generar, basándose en la proximidad
de puntos (registros). El algoritmo puede ser descrito en tres pasos. En el primer paso, el
algoritmo selecciona aleatoriamente k puntos para tomarlos como semillas de los k
clústeres.
En el siguiente paso se asigna cada uno de los registros a la semilla más cercana. Una
manera de hacer esto es definiendo los límites de cada clúster, los cuales se establecen en
los puntos que están igual de cerca a más de un clúster. Sabiendo que cada característica
(campo) es una dimensión de los registros, los límites de cada uno de los clústeres pueden
ser considerados híper-planos de dimensión N-1, donde N es el número de dimensiones.
El tercer paso consiste en calcular el centroide de cada uno de los clústeres. Esto logra una
mejor caracterización de cada clúster que la conseguida en el momento de definir
aleatoriamente las semillas de estos.
3 Tomado de (Berry & Linoff, 1997), Capitulo 11
16
Figura 5 - Cálculo de Centroides4
El algoritmo es iterativo, así que los centroides son tomados como las nuevas semillas, y
se repite el proceso desde el paso 2.
En la práctica, el algoritmo logra estabilizar los clústeres después de una docena de
iteraciones aproximadamente.
Globalmente, esta es la explicación del algoritmo de k-medias, se podrán encontrar
detalles acerca de cómo se determina la similaridad entre registros en el capítulo 11 de
(Berry & Linoff, 1997).
Reglas de Asociación5
Las reglas de asociación son una técnica de minería de datos que permite determinar qué
aspectos van juntos, es por esto que esta técnica está enmarcada dentro del market
basket analysis, en donde se busca encontrar que productos van juntos en una compara
para obtener conocimiento útil para ventas cruzadas, entre otros.
4 Figura tomada de (Berry & Linoff, 1997), Capitulo 11
5 Basado en (Larose, 2004), Capitulo 10
17
Las reglas de asociación deben ser entendibles, ya que en base a estas se tomaran
decisiones importantes de negocio.
Las reglas de asociación están fuertemente ligadas con el análisis de afinidad, debido a
que buscan encontrar atributos o características que están asociados frecuentemente. Los
métodos de afinidad, también conocidos como market basket analysis, buscan descubrir
asociaciones entre atributos, todo con el fin de calificar dichas relaciones.
Las reglas de asociación están conformadas de la siguiente manera: “Si antecedente,
entonces consecuente”, teniendo en cuenta dos medidas que permiten evaluar la calidad
de cada regla. Estas dos medidas son el soporte y la confianza asociados a la regla. A
continuación se ilustrara el significado de cada una de estas medidas:
• Soporte:
El soporte, para una regla de asociación de la forma � → �, se define como la
proporción de las transacciones en � ������ que contienen a � y a �. De una
manera más formal tenemos:
����� � ��� ∩ �� �# �� ���������� ��� ������ � � �
# ��� �� ����������
Esta medida permite conocer que tan significativa puede ser la regla con respecto a la
totalidad de los datos.
• Confianza:
La confianza, para una regla de asociación de la forma � → �, se define como una
medida de precisión de la regla, en la que se indica la proporción de las transacciones
en � que contienen �, dado que contienen �. En otras palabras, se puede expresar
como la probabilidad condicional de � dado �. De una manera más formal tenemos:
��������� � ���|�� � ��� ∩ ��
# �� ���������� ��� �������� �
Aunque las reglas de asociación mantienen como medias básicas el soporte y la confianza,
algunos autores hablan de una tercera medida, denominada lift, o importancia.
18
• Importancia6:
Se calcula dividiendo la probabilidad de que ocurran bajo una misma transacción � ∧ �
entre el producto de la probabilidad de que ocurra A y B independientemente. De una
manera más formal tenemos:
!�� � ��� ⋀ ��
���� # ����
Este cálculo permite saber que tan buena es la regla con respecto un mecanismo que
averigüe la ocurrencia de A dado B al azar; un valor para la importancia de 1 implica que
las probabilidades de ocurrencia de A y B son independientes y por lo tanto ésta no tiene
mayor valor. Un valor mayor a 1 indica que la aparición de ambos ítems esta
correlacionada y por contraposición un valor menor a 1 sería un indicador de correlación
negativa entre los ítems A y B.
Por otro lado, los autores de (Berry & Linoff, 1997), en el capítulo 9, describen que las reglas de
asociación pueden ser clasificadas en tres tipos:
• Procesables:
Las reglas procesables son aquellas que proporcionan información importante (de alta
calidad) para tomar decisiones de negocio. Estas son las reglas más útiles que se
pueden generar en un modelo de minería de datos.
• Triviales:
Las reglas triviales, son aquellas que proporcionan información ya conocida por los
expertos del negocio. Aunque son útiles en un modelo para validar la calidad de este,
se espera que no sean los únicos resultados importantes que genere el modelo
después de su ejecución.
• Inexplicables:
Las reglas inexplicables, son aquellas que no sugieren información importante para
tomar medidas en el negocio, debido a que no tiene fundamento alguno
(aparentemente).
Para inferir reglas de asociación, existen diversos algoritmos, entre estos, el algoritmo A-
priori, el cual difiere de los demás por su capacidad de reducir el número de iteraciones.
6 Tomado del proyecto (Cadena, 2009)
19
A-priori
El algoritmo A-priori es un algoritmo tradicional en la generación de reglas de asociación
en modelos de minería de datos. Este algoritmo tiene una propiedad importante, la cual lo
hace muy usable:
El Algoritmo hace uso de la propiedad de clausura hacia debajo de los conjuntos de ítems
(downward closure for items) que expone que si un conjunto de ítems no cumple con un
determinado umbral (generalmente el soporte escogido por el usuario), ningún conjunto
más grande que lo contenga ha de satisfacerlo.
Básicamente, según los autores de (Larose, 2004), el algoritmo opera de la siguiente
manera:
1. En primer lugar, se generan todos los subconjuntos de .
2. A continuación, tomando como el subconjunto de que no es vacío.
o Tenga en cuenta la regla de asociación $: ⇒ � ' �, donde � ' �
indica el conjunto sin .
o La regla $ será generada, si esta cumple con el requisito mínimo de
confianza.
o Esta operación se lleva a cabo para cada uno de los subconjuntos que se
puedan extraer de .
2.2.3 Negocio
En esta sección se mostrara la información conceptual para poder enmarcar el proyecto
dentro de un contexto de negocio claro con respecto a la salud.
CIE
El CIE corresponde a la clasificación estadística internacional de enfermedades, y
problemas relacionados con la salud, publicada por la OMS 7 . Actualmente, esta
clasificación ya se encuentra en su décima revisión, por lo que también es denominada
CIE-10.
El CIE-10 presenta la siguiente estructura:
• Código: Es un campo que representa en el sistema a un diagnóstico de manera
única. Para esta décima revisión, el código está compuesto de una letra, la cual
categoriza el diagnostico, y tres números, o en algunos casos, de una letra, dos
números y otra letra (por la general una X). Por ejemplo, B673 o C53X.
7 OMS – Organización Mundial de la Salud
20
• Descripción: Es un campo en el que se muestra la denominación medica del
diagnóstico. En ciertos casos, esta descripción es acompañada del sitio en el que
ocurre la afección.
• Sexo: Es un campo en el que se especifica para que genero aplica el diagnostico en
cuestión. Los posibles valores de este campo son: Femenino, masculino o ambos
(F, M o A respectivamente).
• Límite inferior: Se refiere a la edad mínima aceptada para que ocurra el evento por
dicha causa.
• Límite superior: Se refiere a la edad máxima aceptada para que ocurra el evento
por dicha causa.
• No son afección principal: Es una bandera, con la cual se indica si un diagnóstico es
una afección principal o no.
• Observaciones: En este campo hay información adicional del diagnóstico.
CUPS
Los CUPS corresponden a la Clasificación Única de Procedimientos en Salud, presentada
por el Ministerio de protección social. Esta clasificación busca “un ordenamiento lógico y
detallado de los procedimientos e intervenciones que se realizan en Colombia,
identificados por un código y descritos por una nomenclatura validada por los expertos del
país, independientemente de la profesión o disciplina del sector salud que los realice así
como del ámbito de realización de los mismos.”8
EPS
Las EPS (entidades promotoras de salud), también son conocidas como EAPB (entidades
administradoras de planes de beneficios). Estas entidades prestan servicios de atención
en salud con infraestructura propia, en algunos casos de terceros. Estas entidades son las
que reciben los recursos del estado destinados a salud y los administran, realizando los
pagos respectivos a las IPS. En el sistema de saludo Colombiano, existen EPS que
pertenecen al régimen contributivo y EPS pertenecientes al régimen subsidiado.
IPS
Las IPS son Instituciones Prestadoras de Servicios de Salud. Estas instituciones son las
entidades, asociaciones y/o personas de carácter público, privado o de economía mixta,
catalogadas y autorizadas para que presten parcial o totalmente el Plan Obligatorio de
Salud POS.
8 Tomado de (Ministerio de Salud, 2001)
21
RIPS9
Cada RIPS es el conjunto de datos mínimos y básicos que el Sistema General de Seguridad
Social en Salud requiere para los procesos de dirección, regulación y control, y como
soporte de la venta de servicio, cuya denominación, estructura y características se ha
unificado y estandarizado para todas las entidades a que hace referencia el artículo
segundo de la presente Resolución. Los datos de este registro se refieren a la
identificación del prestador del servicio de salud, del usuario que lo recibe, de la
prestación del servicio propiamente dicho y del motivo que originó su prestación:
diagnóstico y causa externa.
El Registro Individual de Prestación de Servicios de Salud -RIPS- está conformado por tres clases de datos:
• De identificación
• Del servicio de salud propiamente dicho
• Del motivo que originó su prestación Los datos de identificación son los de la entidad administradora del plan de beneficios, los del prestador del servicio y los de la transacción, reportados en una factura de venta de servicios. Los datos del Registro Individual de Prestación de Servicios de Salud – RIPS -, son los relacionados con las consultas los procedimientos, el servicio de urgencia, de hospitalización y de medicamentos, las características de dichos datos y los valores para cada uno de ellos. Los datos de consulta son aplicables a todo tipo de consulta, programada o de urgencia, médica general y especializada, odontológica general y especializada y las realizadas por otros profesionales de la salud. Los datos de procedimientos son aplicables a todos ellos, trátese de procedimientos diagnósticos o terapéuticos, de detección temprana o de protección específica. Los datos de hospitalización son los generados cuando haya lugar a ella, cualquiera sea el motivo que la origine, e incluye las consultas, procedimientos y estancias. La transferencia de dichos datos se hará en archivos separados. Los datos correspondientes a la prestación individual de servicios de salud de urgencia, incluye las consultas, procedimientos y estancia en observación. La transferencia de dichos datos se hará en archivos separados.
9 Esta sección fue tomada de la resolución 3374 del año 2000
22
Los datos de recién nacidos corresponden individualmente a los de las condiciones y características al nacer de uno o más niños o niñas. Los datos de medicamentos están relacionados con la denominación y forma farmacológica de éstos.
2.3 Antecedentes
El problema que se pretende solucionar en este proyecto, nació debido a que se quería
ver qué relación existe entre la información de los usuarios del sistema de salud y los
diagnósticos prescritos por parte de los médicos, además de la probabilidad con la que
estos se vuelven crónicos, con el fin de controlar estas involuciones para la salud de los
seres humanos, en este caso de los ciudadanos Colombianos. Este proyecto es
importante, debido a que el sistema de salud Colombiano, actualmente no cruza por uno
de sus mejores momentos, y sería pertinente proporcionar conocimiento, con el que se
puedan tomar decisiones y lograr controlar la evolución de las enfermedades de los
pacientes con el fin de mejorar la calidad de vida de estos, y disminuir costos para el
sistema.
La minería de datos y la salud han estado relacionadas a lo largo del tiempo, debido a la
gran cantidad de conocimiento que en muchas ocasiones se ha podido generar en base a
registros de información médica que jamás habían sido analizados con el fin de obtener
nueva información. En esta sección se mostraran algunos ejemplos en los que la minería
de datos está fuertemente conexa con la investigación en el área de la salud.
Según Raymond y Pai en (Ng & Pei, 2007), en el campo de la medicina y de la salud como
tal, es posible identificar cuatro campos clave en los cuales la minería de datos juega un
papel importante: Diagnósticos, Pronósticos, Optimización de Tratamientos,
Entendimiento de los mecanismos en enfermedades.
• Diagnósticos:
Si hablamos de diagnósticos, es posible detectar ciertas enfermedades que no son
detectables utilizando medidas convencionales. Por ejemplo, hay enfermedades
que no presentan sintomatología rápidamente, pero por medio del estudio del
genoma y de las marcas que encontremos en este es posible detectarlas a tiempo.
Estos estudios no serían realizables por sistemas comunes si no se contara con la
minería de datos, ya que el genoma nos proporciona millones de datos imposibles
de procesar, debido a los volúmenes que se manejan.
23
• Pronósticos:
Por otro lado, tenemos los pronósticos médicos. Al hablar de pronósticos es más
claro identificar la relación de estos con la minería de datos, ya que en muchos
casos, las técnicas de minería se utilizan con el fin de realizar pronósticos (p.e.
pronósticos financieros, forecasting, etc.). En la medicina más concretamente, se
puede hablar de pronósticos sobre la evolución de los pacientes después de
haberles aplicado cierto tratamiento, o después de haber llevado a cabo un
trasplante (evolución en el tiempo). Es en estos casos en los cuales el uso de la
minería mejora la calidad de vida de los pacientes y puede llegar a evitar
problemas en el futuro (mediano y largo plazo).
• Optimización de Tratamientos
Seguido a esto encontramos la optimización de tratamientos, en los cuales se
busca predecir las respuestas que tiene el organismo ante la aplicación de ciertas
terapias o tratamientos. Como enuncian Raymond y Pai en su artículo (Ng & Pei,
2007), “para ciertos tipos de cáncer, los bio-marcadores pueden ser usados para
predecir si un cierto régimen de quimioterapia podría ser efectivo o no. El genoma
en los fármacos es un área activa de investigación en entender como los
farmacéuticos y los medicamentos pueden afectar el perfil de genes de un
paciente”. Estos son solo dos ejemplos de los que existen en el área de
investigación médica para justificar el uso de la minería de datos en pro de
mejorar.
• Entendimiento de los mecanismos en enfermedades
Finalmente podemos enunciar el entendimiento de los mecanismos en
enfermedades. En este campo, la minería de datos permite identificar ciertos
patrones que presenta el ser humano como reacción ante ataques virales o
enfermedades, con lo que es posible identificar las condiciones que requiere una
enfermedad para desarrollarse, al igual que la sintomatología que se puede
presentar cuando se padece de esta.
2.3.1 Data mining for Improved Cardiac Care10
Un ejemplo digno de mencionar, es tratado por el grupo de diagnóstico médico de
Siemens, conformado por R. Bharat Rao, Sriram Krishnan and Radu Stefan Niculescu,
quienes muestran como la minería de datos puede aportar para que las personas cuiden
mejor su salud y su sistema cardiaco.
10 Basado en (Rao, Krishnan, & Niculescu, 2006)
24
En este documento se hace un recorrido acerca del impacto que tienen los infartos en la
mortalidad a nivel mundial, aunque se hace énfasis especial de la situación de este hecho
en los Estados Unidos. Seguido a esto y después de constatar que los gastos en los que se
incurren para brindar los tratamientos y las campañas preventivas de las afecciones
cardiacas, se habla de lineamientos que han surgido para llevar registro y control de las
enfermedades cardiovasculares, en donde se hace énfasis en la cantidad de lineamientos
que surgen y de lo poco relacionados que pueden estar a la hora de tener que ejecutar
alguna acción de emergencia. Por otro lado se habla de los registros médicos electrónicos,
los cuales vienen siendo desarrollados por las instituciones médicas internacionales con el
fin de automatizar procesos de selección de lineamientos de acuerdo con el perfil de los
pacientes, aunque ni el mejor de estos registros proporciona la información necesaria
para lograr hacer cruces de datos y conseguir la selección de un lineamiento adecuado.
Estos registros médicos electrónicos (de aquí en adelante RME), cuentan con información
financiera y médica. Lo que los autores denominan información financiera, hace
referencia a la información del paciente que se requiere para documentar su diagnóstico y
los procedimientos practicados, con el fin de que su compañía aseguradora o el gobierno
hagan el reembolso correspondiente. Esta información incluye diagnósticos estándar, de
acuerdo a las definiciones establecidas en el ICD (International Classification of Diseases).
Muchos de los criterios que se utilizan para determinar si un paciente es apto para seguir
ciertas pautas, se basan en la información de diagnóstico, lo que presenta a estos
diagnósticos como una fuente de datos apropiada para ser sometida a minería de datos,
pero muchos estudios (Zaki, Wang, & Toivonen, 2002) revelan que la información
obtenida por medio de este estándar muestra una precisión del 60% al 80%, debido a que
estos datos dejan ver los intereses financieros más que los médicos. Todo esto hace parte
del análisis de estos expertos, que concluye con la propuesta de un sistema de manejo de
datos en el que: se ejecuta un proceso de ETL para lograr tener información que permita
agregar valor al análisis, luego se realizan procesos que permitan relacionar la información
recolectada y por último se aplican técnicas de inferencia, por medio de las cuales se
obtienen datos de alta calidad.
Finalmente se presentan los resultados obtenidos al utilizar un sistema de manejo de
información contra los resultados del análisis realizado por un equipo médico, obteniendo
los siguientes datos:
25
Tratamiento Precisión (%) N=327
Sistema Equipo Médico
Aspirina 319 (97%) 314 (96%)
Bloqueadores beta
319 (97%) 316 (97%)
Inhibidores ACE/ARB
300 (92%) 310 (95%)
Glicoproteína IIb/IIIa
300 (92%) 290 (89%)
Tabla 1 - Resultados de Precisión de Diagnósticos. Sistema vs. Equipo Médico
De esta manera podemos ver una de las aplicaciones de la minería de datos en la
medicina, más específicamente en el manejo del cuidado del sistema cardiovascular,
aunque los expertos afirman que un sistema como este está en la capacidad de ser
entrenado con información de cualquier tipo de enfermedad para lograr prestar un mejor
servicio a la comunidad médica y científica.
2.3.2 Drug Exposure Side Effects from Mining Pregnancy Data 11
Los autores usan técnicas de minería de datos para analizar datos provenientes de
mujeres embarazadas. Los autores proponen ciertas reglas de asociación para determinar
los efectos de ciertos medicamentos en las dichas mujeres en distintas etapas del
embarazo. En este artículo los autores pretenden explicar cómo el sometimiento a ciertos
medicamentos y tratamientos durante el periodo de embarazo puede causar
malformaciones o complicaciones al bebe. Los autores hablan de cómo los estudios en
epidemiología han sido generados por años pero no han sido sometidos a análisis. Seguido
a esto presentan algunos factores por medio de los cuales determinan que el análisis de
estos datos es complicado, debido a que los datos provenientes de embarazos son difíciles
de tratar. Dentro de estos factores encontramos: Los efectos secundarios, la sensibilidad
temporal, Secuencias de datos. En cuanto a los efectos secundarios, las mujeres
embarazadas por lo general no presentan síntomas secundarios de los medicamentos
debido a su estado. Por el lado de la sensibilidad temporal, se tienen casos en los que
ciertos medicamentos afectan al bebe en ciertas etapas de su desarrollo, mientras que en
otras no causan ningún efecto, y finalmente en cuanto a las secuencias de datos, se tienen
casos en los que ciertos medicamentos pueden ser nocivos solo en los casos en los que
anteriormente se haya consumido otro tipo de medicamento, por lo que se evidencia que
el uso de los medicamentos en esta etapa no es un evento independiente. Estos aspectos
son las causas principales para que se decida realizar minería de datos a los datos
11 Basado en (Chen, Pedersen, Chu, & Olsen, 2007)
26
provenientes de embarazos, con el fin de prevenir el consumo de ciertos medicamentos
en esta etapa.
Seguido a esto, los autores proponen el uso de un algoritmo de minería de datos (reglas
de asociación) denominado SmartRule, el cual es útil para hacer minería sobre estos datos
ya que:
• El algoritmo puede generar conjuntos de datos a partir de datos tabulares sin
necesidad de realizar conversiones de tipos de datos.
• El usuario puede usar subconjuntos de datos para incluir atributos que pueden ser vistos como variables objetivo en el momento de generar las reglas, con lo que se pueden generar solo reglas que permitan identificar netamente la variable objetivo.
• Debido al alto número de reglas que se pueden generar, el algoritmo cuenta con una clasificación jerárquica de reglas, las cuales se ubican en un árbol y usa hojas de cálculo para mostrar dichas reglas.
Este algoritmo puede evidenciar el número más pequeño de casos que reflejen los efectos
secundarios del consumo de un medicamento. A diferencia de los métodos tradicionales,
esta técnica puede generar todas las reglas posibles con bajo soporte y nivel de confianza,
sin embargo, estas reglas pueden ser significantes a la hora de hablar de mujeres
embarazadas. Las reglas pueden incluir relaciones entre el tiempo de consumo de un
medicamento y la seguridad del bebe. El método permite manejar granularidad temporal
al antojo del analista.
Para sustentar los estudios realizados, los autores realizaron minería de datos sobre el
conjunto de datos proveniente de las estadísticas en Dinamarca en cuanto a los
nacimientos. Los estudios se hicieron específicamente para analizar la influencia de los
antidepresivos durante el periodo del embarazo.
Dentro del conjunto de datos inicial, los investigadores cuentan con datos de diagnóstico
de los pacientes, secuencias de los medicamentos suministrados en el proceso de
embarazo y además ciertos datos que pueden ser factores de confusión, incluyendo
consumo de complejos vitamínicos, estrés, consumo de cigarrillo, alcohol, entre otros.
Con los datos descritos anteriormente se quiere analizar la influencia de los antidepresivos
y los factores de confusión en el nacimiento prematuro de los bebes. A continuación se
describe el experimento realizado tal y como lo enuncian los autores:
“Para representar el tiempo de exposición al medicamento, dividimos el periodo prenatal
en tres trimestres, y tomamos la exposición en cada trimestre. Tenemos cerca de 4454
pacientes embarazadas en este subconjunto de datos el cual comprende mujeres con
27
enfermedades mentales y un grupo de control de mujeres sin enfermedades mentales. A lo
largo de estos pacientes, aproximadamente 1000 mujeres padecían de depresión y/o
expuestas a medicamentos activos usados para la depresión como por ejemplo los
antidepresivos, con variación en tiempo y en secuencia. Con la técnica de minería de datos
SmartRule, podemos generar un gran número de reglas en términos de muchos aspectos
de este subconjunto. Debido a la prevalencia de los efectos de los medicamentos, el nivel
de confianza generado por las reglas es usualmente bajo. Como sea, en los estudios, estos
efectos suelen ser importantes aunque tengan niveles de confianza bajos, si la naturaleza
del efecto es seria y la asociación es de causa. En los siguientes ejemplos, solo
demostraremos que estas reglas están relacionadas con el consumo al citalopram (un
antidepresivo) durante el periodo prenatal, para mostrar sus efectos en nacimientos
prematuros. Estas reglas coinciden con las reglas generadas por el análisis tradicional de la
regresión logística”.
Después de realizar el estudio, la jerarquía de reglas obtenida se puede ver de la siguiente
manera:
Figura 6 - Fragmento de la jerarquía de reglas. Consumo de Antidepresivos y Alcohol
En esta jerarquía podemos encontrar cada una de las reglas derivadas de la aplicación de
minería, y de cada una de estas se muestra el nivel de soporte y de confianza que se
encontró. Podemos identificar datos como los siguientes:
28
“Los niveles de confianza sugieren que el consumo de citolapram y alcohol en el periodo
prenatal pueden estar asociados con un incremento en el riesgo de un embarazo
prematuro. Si observamos las reglas, podemos observar que el alcohol es el factor más
importante asociado con el consumo de citolapram. Algunos hallazgos no fueron
descubiertos inicialmente en los estudios, pero luego se confirmaron mediante análisis.
Finalmente los autores presentan los resultados de sus estudios y realizan una
comparación entre los análisis generado a partir de la minería de datos y los análisis
estadísticos tradicionales, y afirman que la minería de datos permite la consecución de
reglas y resultados sin necesidad de contar con grandes volúmenes de datos, y que las
técnicas de minería no desprecian las reglas por su nivel de confianza, debido a que cada
una de estas puede ser determinante a la hora de clasificar.
2.3.3 Uso de minería de datos en la descripción de hospitalizaciones prolongadas12
En este proyecto, desarrollado por Verónica Gómez, “se busca utilizar la minería de datos
para identificar las causas de un problema del sector de la salud. Se desea comprender por
qué las hospitalizaciones a cargo de medicina interna general tienen duraciones más
prolongadas que las de otras especialidades en una institución hospitalaria”.
En este trabajo se utilizan reglas de asociación y después de la aplicación de los modelos
de minería propuestos, se obtienen las siguientes conclusiones:
• Entre los factores que determinan la duración de una hospitalización “se destacan
como más importantes el nivel de medicación del paciente durante la
hospitalización y su edad. Así mismo, los expertos en el negocio identificaron los
hallazgos que consideraron más útiles. Entre estos se encuentra el hecho de que las
hospitalizaciones prolongadas si existen en otras instituciones” (teniendo en
cuenta que el estudio original se pretendía hacer en base a la información
proporcionada por la Fundación Santa Fé, ubicada en Bogotá, Colombia.
Como podemos ver, hay bastante interés de las ciencias de la salud por dejar que las
tecnologías de información tomen un lugar importante en el ejercicio médico, y es por
esto que se decidió enmarcar este proyecto dentro de esta temática.
2.4 Identificación del problema
El problema a analizar en este proyecto es conocer cómo se relacionan los diagnósticos a
lo largo de la historia clínica de un paciente que padece afecciones respiratorias para
determinar con que probabilidad estos diagnósticos evolucionan hasta ser crónicos y así
poder determinar qué tipos de pacientes (perfiles epidemiológicos) pueden ser
12 Tomado de (Gomez, 2008)
29
vulnerables a esto. Este análisis permitirá en un futuro brindar elementos para mejorar la
calidad de vida de los pacientes y disminuir los costos relacionados con el tratamiento y
seguimiento, que genera actualmente el sistema de salud al país.
3. Diseño y Especificaciones
3.1 Definición del problema
Dado un conjunto de registros en los que se encuentra la información de cada uno de los
servicios prestados a un paciente en una IPS (RIPS), registros en los que se almacena
principalmente información referente a consultas, hospitalizaciones, urgencias,
procedimientos realizados; se quiere identificar diversos perfiles epidemiológicos de los
pacientes, que en este caso particular han padecido afecciones respiratorias y que han
podido complicarse. Por otro lado, se quiere asociar a dichos perfiles la prescripción de
ciertos diagnósticos, con el fin de relacionar un diagnóstico previo, con la complicación de
una enfermedad.
3.2 Especificaciones
3.2.1 Entradas
Se tienen como entradas la información demográfica y personal de cada paciente (municipio y
departamento de residencia habitual, EPS, IPS, género y edad), los registros de las consultas, las
urgencias, las hospitalizaciones y los procedimientos practicados durante el periodo comprendido
entre el año 2004 y el año 2008.
3.2.2 Precondiciones
• Los registros utilizados como entradas solo comprenden los relacionados con pacientes
que alguna vez han padecido afecciones respiratorias.
• Las inconsistencias de los datos han sido tratadas previamente para garantizar la
efectividad del modelo de minería.
• Los campos que no serán usados en el modelo se han eliminado, con el fin de mejorar los
tiempos de ejecución del modelo.
3.2.3 Salidas
Para el modelo de clustering, se esperan n agrupaciones de pacientes que han padecido
afecciones respiratorias, dichas agrupaciones están basadas en el perfil epidemiológico de
estos y contienen sus características demográficas y personales.
Para el modelo de reglas de asociación, se espera como salida un conjunto de
antecedentes y consecuentes que permitan obtener conocimiento acerca de
características relacionadas con los pacientes que tienen o han tenido afecciones
respiratorias.
30
3.3 Restricciones Dentro de las restricciones del modelo podemos enunciar que los datos sobre los que se está
diseñando el modelo no son de la totalidad de la población. Los datos entregados son del 20% de
las EPS del país, y de estos se presume que solo se cuenta con el 50% de registros de estas EPS.
Por otro lado, el éxito de los resultados del modelo depende de la calidad de los datos que están
siendo usados para su ejecución. Pueden existir errores de quienes reportan que no se hayan
identificado.
31
4. Desarrollo del Diseño
4.1 Estrategia de diseño
El diseño del modelo se va a realizar siguiendo lo propuesto por la metodología CRISP.
Teniendo en cuenta los objetivos de este proyecto, se decidió utilizar una combinación de
clustering y reglas de asociación, debido a que es necesario identificar ciertos perfiles
epidemiológicos en los que se divide la población para clasificarla, y posteriormente
encontrar por medio de las reglas de asociación las relaciones que existen entre las
características de dichos perfiles, con los diagnósticos referentes a complicaciones del
sistema respiratorio.
4.2 Recolección de información
Corresponde a la etapa de entendimiento de los datos planteada en CRISP-DM. La
descripción de esta etapa se encuentra en la sección 2 de este documento.
Los datos de los RIPS que fueron usados para la concepción del modelo de minería, fueron
entregados en archivos planos, y se usó el sistema manejador de bases de datos SQL
Server 2008 para su manipulación.
El primer paso fue el de identificar las tablas con las que se contaba para el análisis, e
identificar los campos con información valiosa para el modelo. A continuación se muestra
la descripción general de las tablas en las que se basa el modelo13.
Descripción de campos comunes entre tablas:
Nombre de Campo Tipo de
Dato
Longitud Descripción Valores Permitidos
ID VARCHAR 20 Número del documento de identificación del usuario o el que le asigne la entidad administradora del plan de beneficios. Cuando un vinculado no presente documento de identificación asignar el número de historia clínica
13 La descripción de las tablas fue tomada de (Ministerio de Salud, 2001)
32
COD_EAPB VARCHAR 10 Código asignado por
el sistema general de seguridad social en salud a los prestadores de servicio de la salud (EPS, Cajas de compensación, etc.)
Valores Alfanuméricos.
COD_IPS VARCHAR 10 Código de la institución o persona que realizó la consulta.
Valores Alfanuméricos.
FACTURA VARCHAR 20 Número que corresponda al sistema de numeración consecutiva según las disposiciones de la DIAN.
Valores Alfanuméricos.
COD_DPTO NUMBER 3 Código del departamento de residencia habitual del paciente.
COD_MPIO NUMBER 3 Código del municipio de residencia habitual del paciente.
SEXO VARCHAR 1 Género del paciente
M = Masculino F = Femenino
EDAD NUMBER 3 Edad del paciente
TIPO_USUARIO NUMBER 1 Identificador para determinar la condición del usuario en relación con el SGSSS
1 = Contributivo 2 = Subsidiado 3 = Vinculado 4 = Particular 5 = Otro
Tabla 2 – Descripción de campos compartidos en las tablas de los RIPS
33
Tabla Consultas:
Consultas
Nombre de Campo Tipo de
Dato
Longitud Descripción Valores Permitidos
ID (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_EAPB (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_IPS (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
FACTURA (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
FECHA_CONSUL DATE Fecha de la Consulta.
COD_CONSUL NUMBER 8 Código de la consulta definido en el sistema, según los codificadores vigentes.
FINALIDAD_CONSUL NUMBER 2 Objetivo con el cual se realiza la consulta. Aplicable solo para las consultas relacionadas con promoción y prevención.
01 = Atención del parto (puerperio) 02 = Atención del recién nacido 03 = Atención en planificación familiar 04 = Detección de alteraciones de crecimiento y desarrollo del menor de diez años 05 = Detección de alteración del desarrollo joven 06 = Detección de alteraciones del embarazo 07 = Detección de alteraciones del adulto 08 = Detección de alteraciones de agudeza visual 09 = Detección de enfermedad profesional 10 = No aplica
34
CAUSA_EXTERNA NUMBER 2 Identificador de la causa externa que origina el servicio de salud.
01 = Accidente de trabajo 02 = Accidente de tránsito 03 = Accidente rábico 04 = Accidente ofídico 05 = Otro tipo de accidente 06 = Evento catastrófico 07 = Lesión por agresión 08 = Lesión auto infligida 09 = Sospecha de maltrato físico 10 = Sospecha de abuso sexual 11 = Sospecha de violencia sexual 12 = Sospecha de maltrato emocional 13 = Enfermedad general 14 = Enfermedad profesional 15 = Otra
COD_DIAG_PRIN VARCHAR 4 Código del diagnóstico confirmado o presuntivo, según el CIE 10.
COD_DIAG_R1 VARCHAR 4 Código del diagnóstico confirmado o presuntivo, según el CIE 10.
COD_DIAG_R2 VARCHAR 4 Código del diagnóstico confirmado o presuntivo, según el CIE 10.
35
COD_DIAG_R3 VARCHAR 4 Código del diagnóstico confirmado o presuntivo, según el CIE 10.
TIPO_DIAG NUMBER 1 Identificador para determinar si el diagnóstico es confirmado o presuntivo.
1 = Impresión diagnóstica 2 = Confirmado nuevo 3 = Confirmado repetido
VALOR_CONSUL NUMBER 15 Valor de la consulta de acuerdo al tarifario utilizado.
Se utilizará como separador de decimales el punto (.).
VALOR_CUOTA NUMBER 15 Valor de la cuota moderadora.
Se utilizará como separador de decimales el punto (.).
VALOR_NETO NUMBER 15 Valor neto a pagar. Se utilizará como separador de decimales el punto (.).
COD_DPTO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_MPIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
SEXO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
EDAD (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
TIPO_USUARIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
Tabla 3 - Estructura de Consultas
Tabla Hospitalizaciones:
Hospitalizaciones
Nombre de Campo Tipo de
Dato
Longitud Descripción Valores Permitidos
ID (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_EAPB (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_IPS (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
(Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
VIA_INGRESO NUMBER 1 Identificador para determinar las
1 = Urgencias 2 = Consulta externa
36
puertas de entrada del usuario a la institución.
ó programada 3 = Remitido 4 = Nacido en la institución
FECHA_INGRESO DATE Fecha de ingreso del usuario a la institución.
HORA_INGRESO TIME Hora de ingreso del usuario a la institución.
CAUSA_EXTERNA NUMBER 2 Identificador de la causa externa que origina el servicio de salud.
01 = Accidente de trabajo 02 = Accidente de tránsito 03 = Accidente rábico 04 = Accidente ofídico 05 = Otro tipo de accidente 06 = Evento catastrófico 07 = Lesión por agresión 08 = Lesión auto infligida 09 = Sospecha de maltrato físico 10 = Sospecha de abuso sexual 11 = Sospecha de violencia sexual 12 = Sospecha de maltrato emocional 13 = Enfermedad general 14 = Enfermedad profesional 15 = Otra
DIAG_PRIN_INGRE VARCHAR 4 Código del diagnóstico al ingreso del usuario, según el CIE 10.
37
DIAG_PRIN_EGRE VARCHAR 4 Código del diagnóstico al egreso del usuario, según el CIE 10.
DIAG_EGRE1 VARCHAR 4 Código del diagnóstico, según el CIE 10.
DIAG_EGRE2 VARCHAR 4 Código del diagnóstico, según el CIE 10.
DIAG_EGRE3 VARCHAR 4 Código del diagnóstico, según el CIE 10.
DIAG_COMPLI VARCHAR 4 Código del diagnóstico de la complicación, si la hubo, según el CIE 10.
ESTADO_SALIDA NUMBER 1 Identificador para determinar la condición de salida del usuario.
1 = Vivo 2 = Muerto
DIAG_MUERTE VARCHAR 4 Código de la causa básica de muerte si la hubo, según el CIE 10. Debe ser igual a la causa básica de muerte registrada en el registro de defunción.
FECHA_EGRESO DATE Fecha de egreso del usuario a la institución.
HORA_EGRESO TIME Hora de egreso del usuario a la institución.
NRO_RADICACION NUMBER 8 Numero de Radicación de la hospitalización.
COD_DPTO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_MPIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
SEXO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
38
EDAD (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
TIPO_USUARIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
Tabla 4 - Estructura de Hospitalizaciones
Tabla Procedimientos
Procedimientos
Nombre de Campo Tipo de
Dato
Longitud Descripción Valores Permitidos
ID (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_EAPB (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_IPS (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
FACTURA (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
FECHA DATE Fecha en la que se realizó el procedimiento.
COD_PROCI NUMBER 6 Código del procedimiento realizado al paciente según la codificación actual.
Se le conocen como esta codificación como CUPS (Código Único de Procedimientos en Salud).
AMBITO NUMBER 1 Determina el ámbito de realización del procedimiento según la ubicación funcional donde éste se realiza.
1 = Ambulatorio 2 = Hospitalario 3 = En Urgencia
FINALIDAD NUMBER 1 Determina la finalidad con que se realiza el procedimiento.
1 = Diagnóstico 2 = Terapéutico 3 = Protección específica 4 = Detección temprana de enfermedad general 5 = Detección temprana de enfermedad profesional
PERSONAL NUMBER 1 Identificador para determinar el personal que atiende el procedimiento.
1 = Médico (a) especialista 2 = Médico (a) general 3 = Enfermera (o)
39
Diligenciable obligatoriamente cuando es un procedimiento de parto
4 = Auxiliar de enfermería 5 = Otro
DIAG_PRIN VARCHAR 4 Código del diagnóstico previo a la realización del procedimiento, según el CIE-10.
Aplicable sólo a procedimientos Quirúrgicos.
DIAG_R1 VARCHAR 4 Código del diagnóstico posterior a la realización del procedimiento, según el CIE-10.
Aplicable sólo a procedimientos Quirúrgicos.
COMPLICACION VARCHAR 4 Código del diagnóstico de la complicación, si la hubo, según el CIE 10.
VALOR NUMBER 15 Valor del procedimiento.
Se utilizará como separador de decimales el punto (.).
NRO_RADICACION NUMBER 8 Numero de Radicación de la hospitalización.
COD_DPTO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_MPIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
SEXO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
EDAD (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
TIPO_USUARIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
Tabla 5 - Estructura de Procedimientos
Tabla Urgencias
Urgencias
Nombre de Campo Tipo de
Dato
Longitud Descripción Valores Permitidos
ID (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_EAPB (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_IPS (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
40
FACTURA (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
FECHA_INGRESO DATE Fecha en la que aconteció la urgencia.
CAUSA_EXTERNA NUMBER 2 Identificador de la causa externa que origina el servicio de salud.
01 = Accidente de trabajo 02 = Accidente de tránsito 03 = Accidente rábico 04 = Accidente ofídico 05 = Otro tipo de accidente 06 = Evento catastrófico 07 = Lesión por agresión 08 = Lesión auto infligida 09 = Sospecha de maltrato físico 10 = Sospecha de abuso sexual 11 = Sospecha de violencia sexual 12 = Sospecha de maltrato emocional 13 = Enfermedad general 14 = Enfermedad profesional 15 = Otra
COD_DIAG_PRIN VARCHAR 4 Código del diagnóstico al ingreso del usuario, según el CIE 10.
COD_DIAG_R1 VARCHAR 4 Código del diagnóstico de salida del usuario, según el CIE 10.
COD_DIAG_R2 VARCHAR 4 Código del diagnóstico de
41
salida del usuario, según el CIE 10.
COD_DIAG_R3 VARCHAR 4 Código del diagnóstico de salida del usuario, según el CIE 10.
DESTINO NUMBER 1 Destino del usuario a la salida de observación.
1 = Alta de urgencias 2 = Remisión a otro nivel de complejidad 3 = Hospitalización
ESTADO NUMBER 1 Identificador para determinar la condición de salida del usuario.
Se utilizará como separador de decimales el punto (.).
CAUSA_MUERTE VARCHAR 4 Código de la causa básica de muerte, si ocurrió, según el CIE-10.
FECHA_SALIDA DATE Fecha de Salida del Usuario de Observación.
NRO_RADICACION NUMBER 8 Numero de Radicación de la urgencia.
COD_DPTO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
COD_MPIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
SEXO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
EDAD (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
TIPO_USUARIO (Ver tabla 2) (Ver tabla 2) (Ver tabla 2) (Ver tabla 2)
Tabla 6 - Estructura de Urgencias
42
Tablas Adicionales
Tabla Descripción
Departamentos Tabla con el código de cada departamento y su nombre.
Municipios Tabla con el código de cada municipio y su nombre.
CUPS Tabla con los códigos de cada procedimiento, su nombre y su tipo.
CIE10 Tabla con los códigos de cada diagnóstico, su descripción, el género al que aplica, la edad mínima y la edad máxima contempladas por el diagnóstico.
Tabla 7 - Tablas Adicionales
Información Adicional
En la tabla 8 se muestra la información con respecto a la cantidad de registros para cada
una de las tablas descritas.
En las gráficas 1, 2 y 3 se muestra un perfilamiento de los datos de cada una de las tablas
con respecto a los diagnósticos encontrados en estas (para el año 2006).
• Cantidad de Registros en cada tabla:
Año Consultas Hospitalizaciones Procedimientos Urgencias TOTAL
2004 15.073.279 638.089 43.641.656 1.082.218 60.435.242
2005 18.428.917 788.204 27.319.158 1.117.805 47.654.084
2006 20.130.663 1.279.593 32.946.593 1.525.103 55.881.952
2007 18.853.580 917.371 31.129.110 1.263.031 52.163.092
2008 8.963.883 548.416 17.262.828 573.937 27.349.064
TOTAL 81.450.322 4.171.673 152.299.345 5.562.094 243.483.434
Tabla 8 - Resumen de Tablas
43
• Perfilamiento de Datos14
Gráfica 1 - Distribución Diagnósticos Consultas
En la gráfica anterior podemos observar los diagnósticos generados en las consultas por
las IPS. Al validar esta información con la presentada por la OMS, podemos observar que
es coherente, debido a que en los informes oficiales que la entidad presenta, la
hipertensión es la enfermedad más común de los colombianos.
14
Realizado en conjunto con Diego Fernando Roa, autor de (Roa, 2010)
0.00%
1.00%
2.00%
3.00%
4.00%
5.00%
6.00%
% D
ato
s e
n R
IPS
Porcentaje de datos en CONSULTAS
44
Gráfica 2 – Distribución Diagnósticos Urgencias
En la gráfica 2, podemos observar que los diagnósticos más presentados cuando los
pacientes llegan por urgencias son los asociados a complicaciones de alguna enfermedad,
o simplemente afecciones comunes, como son diarrea, fiebre, gripa, entre otras.
Gráfica 3 - Distribución Diagnósticos Hospitalizaciones
0.00%0.50%1.00%1.50%2.00%2.50%3.00%3.50%4.00%4.50%5.00%
Diarrea ygastroenteritis
Fiebre Doloresabdominales no
especificados
Infección viralno especificada
Rinofaringitisaguda
(Resfriadocomún)
% D
ato
s en
RIP
S
Porcentaje de datos en URGENCIAS
0.00%
0.50%
1.00%
1.50%
2.00%
2.50%
3.00%
3.50%
% D
ato
s d
e lo
s R
IPS
Porcentaje de datos en HOSPITALIZACIONES
45
En la tabla de hospitalizaciones, podemos observar que la mayor proporción de ingresos
se dan debido a partos. Por otro lado podemos ver que hay más diagnósticos relacionados
con intervenciones (como apendicitis) y también con afecciones respiratorias.
Exploración de los Datos
Inicialmente se intentó especificar una llave para las tablas, pero dada la organización de
estas, se determinó que por el momento, la única llave que podría existir seria la
combinación de la totalidad de los campos.
Seguido a esto, se inició la identificación de las anomalías de los datos mediante el
perfilamiento de estos. Después de ejecutar la tarea de perfilamiento para cada una de las
tablas se encontraron aspectos como: los valores de los campos están entre comillas y
tienen espacios al inicio y al final, en los campos correspondientes a valores y costos, se
encontraron valores negativos, en los campos correspondientes a todo lo que tiene que
ver con diagnósticos, se observaban valores vacíos, o valores no válidos según la
codificación del CIE-10, en los campos de información geográfica (municipio y
departamento) también se observaron valores nulos. En campos como el de estado, en las
tablas de urgencias, se encontraron valores diferentes a los permitidos.
Tratamiento de los Datos
Para llevar a cabo el tratamiento de los datos y lograr algunas reglas de integridad en la
información se realizaron tareas de ETL con el fin de limpiar ciertas inconsistencias. En la
figura 7 se ilustra de manera general las etapas de la limpieza.
Figura 7 - Diagrama de ETL para la tabla Urgencias 2004
46
A continuación se enuncian las medidas que se tomaron para manejar las inconsistencias
encontradas en la fase de exploración de los datos:
1. Para los campos monetarios (valor de consulta, valor de bono, valor de
procedimiento, etc.), se decidió llevar a 0 los valores negativos con el fin de que no
influyeran ni negativa ni positivamente en los datos generados a partir de estos
campos. Debido a que ya existían valores con valor en cero, este cambio puede
afectar un futuro análisis por costos, ya que no existe forma de diferenciar que
valores estaban en cero originalmente y que valores quedaron en cero después de
la corrección propuesta.
2. Para los campos que estaban relacionados con información diagnóstica
(diagnósticos de ingreso, diagnósticos de egreso, diagnósticos complementarios,
etc.), se decidió no tener en cuenta los registros que no tuvieran un código valido o
no tuvieran esta información, debido a que el propósito del proyecto está
fuertemente relacionado con los diagnósticos, aunque a los registros que no
tuvieran esta información, se les asigno el valor 0000 para respetar las reglas de
integridad referentes a los tipos de datos.
3. Para los campos relacionados con información geográfica, aquellos registros que
no tuvieran correspondencias en la tabla de departamentos y municipios, se asignó
el valor 0, con el fin de utilizar los registros en el análisis de diagnósticos, mas no
en el análisis demográfico.
4. Para los campos de información personal como el género, se alteraron los valores
de los registros que no corresponden a un género valido (“M” ó “F”), y se les puso
el valor “N”.
Aunque se solucionaron gran parte de los problemas de integridad de los datos de las
fuentes de información, es importante resaltar que el hecho de que estos datos
provengan de diferentes fuentes de datos (previo a la ‘integración’ realizada por el
ministerio), causa ciertos problemas en la semántica de los registros. Debido a las
inconsistencias de diagnósticos descartamos algunos registros, por lo que es posible que
se vean afectados los resultados del modelo. Se espera que estos efectos no sean de gran
impacto, debido a que el volumen de datos descartado no supera el 5% de la totalidad de
los datos.
4.3 Alternativas de diseño
En primera instancia se elaboró un modelo en el que se tomaban como datos de entrada
la información demográfica de los pacientes con el fin de determinar la relación de esta
información con los diagnósticos prescritos por los profesionales de la salud. Al analizar
47
esta información, se identificó que podría tender a ser estadística y a presentar
información valiosa pero no suficiente para satisfacer los planteamientos del proyecto. En
segundo lugar, se determinó que se debían tener en cuenta datos acerca de diagnósticos
previos para ver la relación entre estos y el diagnostico actual de un paciente. La idea fue
generar reglas de asociación basadas en esta información, pero, debido a la granularidad
de los registros (persona), se optó por la generación de clústeres, todo esto con el fin de
segmentar la población según las características comunes y así ver la influencia de estas
con este nuevo nivel de granularidad (clústeres de la población con información de rangos
de edad, información de departamentos mas no de municipio, información de EPS).
Posteriormente, para generar los antecedentes del modelo de reglas de asociación, se
tomaron estos clústeres junto con la historia diagnostica del paciente y la información
relacionada a los diagnósticos (ámbitos, fechas).
Para lograr más claridad en los resultados, se ejecutaran dos modelos de reglas de
asociación con el fin de mostrar la probabilidad de complicación basándose en la
información demográfica de las personas, y otro con el fin de mostrar qué tipo de
complicación se pude padecer dependiendo de los valores derivados.
Hablando de alternativas, también tenemos que mencionar los distintos caminos que
surgieron al momento de seleccionar una herramienta para llevar a cabo la concepción y
ejecución de los modelos.
Dentro de las herramientas con las que contábamos para ejecutar nuestros modelos
teníamos Intelligent Miner de IBM, PASW Modeler, de SPSS (ahora propiedad de IBM) y
SQL Server 2008 (junto con sus componentes: Integration Services y Analysis Services).
Intelligent Miner, es una herramienta que ya no se utiliza a nivel comercial, debido a que
es bastante limitada en cuanto al tamaño de los orígenes de datos, y además ya no se
puede encontrar soporte, debido a la antigüedad de esta.
PASW Modeler presenta muchas opciones en cuanto a la ejecución de modelos, además
es una herramienta que permite modelar todo el proceso de minería como un data flow
semejante a los de los procesos de negocio actuales. Una desventaja de la herramienta es
la dificultad de licenciamiento, además de la poca información disponible al público con
respecto a su utilización.
SQL Server 2008 ofrece bastantes alternativas en cuanto a la ejecución de modelos de
minería, Para el desarrollo del proyecto, se consideró la herramienta más precisa, debido
a que se tenía la experiencia en esta, y además se contaba con bastante información de
soporte en medios electrónicos. Por otra parte, esta herramienta nos permite realizar las
tareas de una manera más familiar, debido a la facilidad que da de emplear SQL. En
48
cuanto a la conexión con la fuente de datos, esta se hace de manera directa, debido a que
los datos fueron cargados inicialmente en un motor de bases de datos SQL Server.
4.4 Diseño de la solución
Como podemos observar en la sección 4.3, el análisis entre las alternativas de diseño fue
incremental, ya que en cada iteración se iban refinando detalles en la elaboración del
modelo. Finalmente se optó por terminar la etapa de análisis del modelo.
Finalmente se mantuvieron las técnicas pensadas inicialmente, debido a que se consideró
que la mejor manera de realizar análisis de antecedentes y consecuentes con fines
predictivos son las reglas de asociación. En cuanto a la herramienta que se pretende
utilizar para la consecución de los resultados, ya se ha expresado la preferencia por SQL
Server 2008.
49
5. Implementación
5.1 Descripción de la implementación
Después de identificar los modelos con los que se va a trabajar finalmente, es necesario
adecuar los datos para conseguir resultados importantes después de la construcción y
posterior ejecución del modelo. Las tareas realizadas para cumplir con las precondiciones
del modelo se enuncian a continuación:
1. Se creó una tabla que contenía información acerca de los diagnósticos de
afecciones respiratorias (id, descripción, es_complicacion y categoría)15.
COD DESCRIPCION es_complicacion categoría16
J172 NEUMONIA EN MICOSIS 1 NEUMONIA
J173 NEUMONIA EN ENFERMEDADES PARASITARIAS
1 NEUMONIA
J178 NEUMONIA EN OTRAS ENFERMEDADES CLASIFICADAS EN OTRA PARTE
1 NEUMONIA
J180 BRONCONEUMONIA, NO ESPECIFICADA 1 BRONCONEUMONIA
J181 NEUMONÍA LOBAR, NO ESPECIFICADA 1 NEUMONIA
J182 NEUMONIA HIPOSTATICA, NO ESPECIFICADA
1 NEUMONIA
J188 OTRAS NEUMONIAS, DE MICROORGANISMO NO ESPECIFICADO
1 NEUMONIA
J189 NEUMONIA, NO ESPECIFICADA 1 NEUMONIA
J200 BRONQUITIS AGUDA DEBIDA A MYCOPLASMA PNEUMONIAE
1 BRONQUITIS
J201 BRONQUITIS AGUDA DEBIDA A HAEMOPHILUS INFLUENZAE
1 BRONQUITIS
Tabla 7 - Fragmento de Tabla de Diagnósticos de Afecciones Respiratorias
2. Se tomaron los pacientes que alguna vez en su historia clínica registraron
afecciones respiratorias.
3. Una vez obtenidos los id de estos pacientes, se buscó la información demográfica y
personal de estos.
4. Después de obtener la información demográfica, se generó una columna que
aplicaba un rango de edad a cada uno de los pacientes, con el fin de aumentar la
probabilidad de encontrar relaciones en los datos.
15
El campo categoría se definió, debido a que muchos de los diagnósticos se podían agrupar debido a su relación patológica (p.e. tipos de bronquitis se juntan en la categoría BRONQUITIS). 16
Las categorías posibles son: BRONCONEUMONIA, BRONQUITIS, CRONICAS BAJAS, INS. RESP. AGUDA, INS. RESP. AGUDA CRONICA, NEUMONIA, RESPIRATORIAS.
50
Rango Edades
1 Menores de 15 años (niños)
2 Entre 15 y 45 años (edad reproductiva)
3 Entre 45 y 65 años
4 Mayor de 65 años (adultos mayores)
Tabla 8 - Rangos de edad propuestos17
5. Teniendo ya la información demográfica de los pacientes, se procedió a
relacionarlos con la información de complicaciones respiratorias, y se determinó
qué pacientes habían sufrido complicaciones y de qué tipo.
6. Como se quieren incluir datos de tiempo en el modelo, se procedió a insertar la
información acerca de la fecha en la que se había diagnosticada una complicación
para cada paciente (de los que se complicaron).
7. Se asoció cada paciente con su primer diagnóstico en la historia, junto con la fecha
en la que fue diagnosticado.
8. Teniendo las fechas enunciadas en los puntos 6 y 7, se procedió al cálculo del
tiempo transcurrido entre el primer diagnóstico de un paciente y el momento en el
que se complicó.
9. Se calculó el número de veces que un paciente había sido sometido a una consulta,
a un procedimiento o a una hospitalización antes de diagnosticársele una
complicación.
10. Se calculó el número de veces que un paciente había sido sometido a una consulta,
a un procedimiento o a una hospitalización después de diagnosticársele una
complicación.
11. Se obtuvo para cada persona el último diagnostico registrado, junto con la fecha
de diagnóstico, con el fin de observar su evolución.
12. Se generó un campo que muestra si un paciente evolucionó18 o no, después de
sufrir una complicación.
Definición de los campos derivados:
Al evaluar el tipo de reglas que se esperaban del modelo, se determinaron ciertos campos
con el fin de facilitar el entendimiento de las reglas que surgieran del modelo.
17
Los rangos de Edad fueron sugeridos por el Doctor Oscar Bernal, coordinador del área de salud pública de la Universidad de Los Andes. 18 Dejo de padecer una complicación y su nuevo diagnostico no es crítico ni crónico.
51
• Se complicó: Este campo se establece en verdadero en el caso en el que un
paciente, durante toda su historia clínica, alguna vez se le haya diagnosticado una
afección respiratoria complicada.
• Evolucionó: Este campo se establece en verdadero, en el caso en el que un
paciente, después de haber padecido una complicación respiratoria, haya vuelto a
un diagnostico no complicado.
• Tiempo transcurrido entre su primer diagnóstico y la complicación: Este campo se
calcula, con el fin de determinar en un futuro, qué tipos de personas y con qué
características de duración pueden llegar a complicarse.
• Campos de cantidades19: Estos campos se calculan con el fin de observar las
relaciones entre estas frecuencias y la presencia de complicaciones.
Tabla 9 - Tabla Maestra de los Modelos
Luego de definir la tabla con la que se iba a trabajar en los modelos, se pasó a caracterizar
a la población que padece afecciones respiratorias, para lo cual se utilizó la técnica de
clustering.
A en la figura 8 se muestran los parámetros con los que se construyó la estructura:
19
Hace referencia a cantidad de consultas, hospitalizaciones y procedimientos antes y después de detectarse una complicación.
52
Figura 8 - Configuración de Campos para ejecutar el modelo
Para efectos de clasificación, se definieron como campos de entrada los campos que
permiten caracterizar a un paciente. Los campos calculados se ignoraron, debido a que se
utilizarán posteriormente en el modelo de reglas de asociación.
Como paso siguiente se realizó la configuración de los parámetros del algoritmo de
clustering.
En este paso se pueden definir parámetros como la cantidad de clústeres, que para
nuestro caso se estableció en 0 (indefinida), con el fin de lograr que el algoritmo calculara
automáticamente la cantidad de clústeres que se generarían. Además se definió como
algoritmo de clustering, el algoritmo de las k-medias. Los demás parámetros se dejaron en
su valor por defecto, debido a que no se buscaba fijar la cantidad de semillas de un clúster
ni la cantidad de atributos que soportaba el modelo con el fin de lograr una
caracterización general del perfil demográfico de los pacientes. En la figura 9 se muestra
claramente el ajuste de estos parámetros.
53
Figura 9 – Parámetros del Algoritmo de Clustering
En la sección 5.2 del documento se mostrarán los resultados obtenidos después de la
ejecución del modelo de clustering.
Seguido a esto se definió la segunda estructura de minería de nuestro proyecto,
estructura que dividimos en dos modelos con el fin de mejorar los resultados, la cual
corresponde a la técnica de reglas de asociación. Esta estructura nace con el fin de saber
con qué probabilidad una persona que tiene ciertas características ha llegado a
complicarse, y por otro lado con que probabilidad una persona que ha seguido ciertos
patrones y que ha padecido de alguna enfermedad respiratoria puede llegar a padecer
una complicación especifica.
54
Modelo 1:
En la figura 10 se muestran los parámetros con los que se construyó la estructura:
Figura 10 – Configuración de campos para ejecutar el Modelo (Modelo 1)
Con el fin de tener unos resultados de calidad, los campos que van a ser las entradas del
modelo de reglas de asociación son todos aquellos que muestran información que
caracteriza a una persona, y de igual manera que permita determinar ciertos ámbitos de
esta. Como predicción se coloca el campo de “se complicó”, con el fin de que tomando
todas las entradas como antecedentes, se genere un consecuente de ese tipo.
Como paso siguiente se realizó la configuración de los parámetros del algoritmo de reglas
de asociación.
En este paso se pueden definir parámetros como los valores máximos y mínimos para el
soporte, la confianza deseada, el número de ítems que soportan cada regla. El soporte fue
establecido en 0, ya que se quiere ver la totalidad de las reglas, sin importar el número de
datos que las respalden. El valor seleccionado para la confianza, fue del 40%, con el fin de
encontrar una gran cantidad de reglas. Finalmente se ajustó el número de ítems máximo
para los patrones a 11, con el fin de que se puedan generar reglas que incluyan como
55
antecedente la totalidad de los campos de entrada (como límite inferior se puso uno, ya
que se quieren identificar relaciones entre un campo particular y el consecuente
respectivo). En la figura 11 se muestra más claramente el ajuste de estos parámetros:
Figura 11 – Parámetros del algoritmo de Reglas de Asociación (Modelo 1)
56
Modelo 2
En la figura 12 se muestran los parámetros con los que se construyó la estructura:
Figura 12 – Configuración de campos para ejecutar el Modelo (Modelo 2)
Con el fin de mejorar la calidad de los resultados, los campos que van a ser las entradas
del modelo de reglas de asociación son todos aquellos que muestran información que
caracteriza a una persona, además de los que permitan determinar ciertos ámbitos de
esta, tales como la frecuencia de consultas, la frecuencia de realización de procedimientos
(antes y después de sufrir afecciones respiratorias), entre otros. Como predicción se
coloca el campo de “categoría”, con el fin de que tomando todas las entradas como
antecedentes, se genere un consecuente de ese tipo.
Como paso siguiente se realizó la configuración de los parámetros del algoritmo de reglas
de asociación.
En este paso se pueden definir parámetros como los valores máximos y mínimos para el
soporte, la confianza deseada, el número de ítems que soportan cada regla. El soporte fue
57
establecido en 0, ya que se quiere ver la totalidad de las reglas, sin importar el número de
datos que las respalden. El valor seleccionado para la confianza, fue del 40%, con el fin de
encontrar una gran cantidad de reglas. Finalmente se ajustó el número de ítems máximo
para los patrones a 11, con el fin de que se puedan generar reglas que incluyan como en el
antecedente la totalidad de los campos de entrada (como límite inferior se puso uno, ya
que se quieren identificar relaciones entre un campo particular y el consecuente
respectivo). En la figura 13 se muestra más claramente el ajuste de estos parámetros:
Figura 13 - Parámetros del algoritmo de Reglas de Asociación (Modelo 2)
5.2 Resultados Obtenidos
En primer lugar se mostrarán los resultados obtenidos después de ejecutar el modelo de
clustering sobre los pacientes que presentan afecciones respiratorias. Estos resultados se
relacionarán con los resultados obtenidos del modelo de reglas de asociación, con el fin de
enriquecer dichos resultados.
58
Figura 14 - Resultados de Clustering
En cuanto a la caracterización de la población que ha padecido afecciones respiratorias
durante su historia clínica, podemos decir lo siguiente (de manera muy general):
• La distribución de la totalidad de la población está caracterizada por lo siguiente:
o El 24 % de la población se ubica en Bogotá, el 16% de la población se ubica
en Antioquia, el 10% de la población se ubica en el Valle del Cauca, la
población restante se ubica en otros departamentos del país.
o El COD_EAPB es cambiante, y su variación está relacionada fuertemente
con el código del departamento.
o Las personas predominantes son las menores de 15 años, con un 47.9%,
seguidas de las personas de 15 a 45 años, con un 34.3%. Las personas de 45
a 65 años representan un 11.6% de la población y los mayores de 65
representan un 6.2%.
o El 71.5% de la población que ha padecido problemas respiratorios presento
complicaciones en su historia clínica, mientras que el 38.5% restante
solamente sufrió de afecciones respiratorias no crónicas ni agudas.
o En cuanto al género, la diferencia no es muy significativa. Encontramos un
56.3% de hombres y un 43.7% de mujeres.
59
En cuanto a los modelos de reglas de asociación, podemos decir que los resultados,
aunque no son tan poderosos como esperábamos, pueden darnos una guía y unos datos
en cuanto a lo que queremos determinar en el proyecto.
Modelo 1
Figura 15 - Resultados Modelo 1 (Grafo)
En la figura 15, podemos observar todos20 aquellos antecedentes que apuntan a que un
paciente tenga complicaciones respiratorias.
20
Aquellos que cumplen con los parámetros establecidos antes de ejecutar el modelo.
60
Modelo 2
Figura 16 - Resultados Modelo 2 (Grafo) - Consecuente: NEUMONIA
Figura 17 - Resultados Modelo 2 (Grafo) - Consecuente: BRONCONEUMONIA
61
Figura 18 - Resultados Modelo 2 (Grafo) - Consecuente: BRONQUITIS
Figura 19 - Resultados Modelo 2 (Grafo) - Consecuente: CRONICAS BAJAS
En las figuras 16, 17, 18 y 19, podemos observar todos aquellos antecedentes que
apuntan a que un paciente tenga complicaciones respiratorias en la categoría de
NEUMONÍA, BRONCONEUMONÍA, BRONQUITIS y CRÓNICAS BAJAS respectivamente.
62
A continuación se mostraran los resultados más importantes obtenidos en cada uno de los
modelos, y se realizara la validación de estos.
6. Validación
6.1 Métodos
Los resultados se van a evaluar en dos etapas. La primera se centra en la validación de las
reglas generadas por los modelos, basándose en le revisión de la calidad de estas por
medio de la evaluación de las medidas correspondientes (soporte, confianza, importancia
o lift). La segunda etapa de validación corresponde a los comentarios del experto acerca
de los resultados del modelo y el aporte de estos al problema.
6.2 Validación de resultados
Modelo 1
En cuanto al a primera etapa de la validación, tenemos lo siguiente:
# Confianza Importancia Regla
1 0,735 0,412159556621572 COD EAPB = 17000, Rango Edad >= 3, Sexo = M -> Se Complico = SI
2 0,734 0,411606080700254 COD EAPB = 17000, Rango Edad >= 3, Cod Dpto = 12 - 38, Sexo = M -> Se Complico = SI
3 0,449 0,202615749078971 Cod Dpto = 62 - 73, Rango Edad >= 3 -> Se Complico = SI
4 0,909 0,103179552242298 COD EAPB = EPSI01, Cod Dpto = 38 - 62, Rango Edad < 3 -> Se Complico = NO
5 0,903 0,100461844608725 COD EAPB = EPS023, Cod Dpto = 12 - 38, Rango Edad < 3 -> Se Complico = NO
6 0,747 0,118860304743012 Rango Edad < 3 -> Se Complico = NO
Tabla 10 - Reglas de Asociación de mayor Calidad (Modelo 1)
En la tabla 12 podemos observar las 6 reglas de mayor confianza generadas por el modelo
1, en el que se pretendía determinar qué antecedentes implican que una persona se le
diagnostique una complicación a nivel respiratorio.
Las reglas de asociación generadas presentan buenas medidas de calidad, a excepción de
la regla 3, en la que la confianza es del 44.9 %. Por otro lado, si observamos la regla 2, esta
es una extensión de la regla 1, ya que sus antecedentes son los mismos, a excepción del
código del departamento, antecedente que disminuye la confianza en un 0.1 %, pero nos
proporciona más información.
Al interpretar las reglas generadas por el modelo 1, podemos decir que:
63
• El 73.5% de los hombres que pertenecen a la EPS Dirección Departamental e Salud
de Caldas (cod_eapb = 17000) y que tienen más de 45 años son los más propensos
a padecer complicaciones respiratorias.
• El 73.4% de los hombres que residen el Caldas y que tienen más de 45 años son los
más propensos a padecer complicaciones respiratorias.
o Si observamos las reglas anteriores podemos decir que es muy bajo el
porcentaje de hombres que residen en Caldas pero que no están afiliados a
la EPS Dirección Departamental de Salud de Caldas.
• El 44.9% de la población que reside en Quindío, Risaralda, Sucre y Tolima; y que
tiene más de 45 años, es propensa a padecer complicaciones respiratorias.
• El 90.9% de las personas menores de 45 años, que reciben sus servicios de la EPS
Asociación de Cabildos Indígenas del Cesar, no se complican.
• El 90.3% de los usuarios de la EPS Cruz Blanca y que son menores de 45 años. No
se complican.
• El 74.7% de la población menor de 45 años no se complica.
Modelo 2
En cuanto a la validación relacionada con la calidad de las reglas de asociación, tenemos lo
siguiente:
# Confianza Importancia Regla
1 0,247 0,896915450556623 COD EAPB = 05000, Tiempo Transcurrido 1 < 2, Proc Previos Complicacion < 3, Se Complico = SI, Hosp Previas Complicacion = 0 - 1, Cod Dpto < 12, Rango Edad < 3 -> Categoria = BRONCONEUMONIA
2 0,382 1,14532064599367 COD EAPB = EPS030, Cod Dpto = 38 - 62, Consultas Previas Complicacion < 1, Proc Previos Complicacion < 3, Se Complico = SI, Hosp Previas Complicacion = 0 - 1, Rango Edad < 3 -> Categoria = NEUMONIA
3 0,601 0,76737698806456 COD EAPB = CCF018, Proc Previos Complicacion < 3, Se Complico = SI, Hosp Previas Complicacion = 0 - 1, Cod Dpto < 12, Rango Edad < 3 -> Categoria = BRONQUITIS
Tabla 11 - Reglas de Asociación de mayor Calidad (Modelo 2)
En la tabla 13 podemos observar las 3 reglas de mayor confianza generadas por el modelo
2, en el que se pretendía determinar que antecedentes implican que una persona padezca
alguna de las enfermedades pertenecientes a las categorías definidas en el modelo.
Las reglas de asociación generadas en este modelo no presentan muy buenas medidas de
calidad, a excepción de la regla 3, en la que la confianza es del 60.1 %.
64
Al interpretar las reglas generadas por el modelo 2, podemos decir que:
• El 24.7% de la población que pertenece a la EPS Dirección Departamental de Salud
de Antioquia, que se les diagnostico una complicación un mes después de padecer
una afección respiratoria y que es menor de 45 años, se les presenta como
complicación BRONCONEUMONÍA.
• El 38.2% de la población de Nariño, que pertenece a la EPS Cóndor S.A, y que son
menores de 45 años, se les presenta como complicación NEUMONÍA.
• El 60.1 % de la población de Bogotá, que pertenece a la EPS de CAFAM y que son
menores de 45 años, se les presenta como complicación BRONQUITIS.
Aunque los resultados de este modelo no parecen ser tan convenientes como los del
modelo anterior, debemos considerar los comentarios del experto.
Tanto para el modelo 1 como para el modelo 2, se generaron 2000 reglas. Es importante
resaltar que, debido a que la máxima cantidad de parámetros permitidos en una regla fue
11, muchas de estas reglas pueden ser subconjuntos de otras.
Comentarios del Experto:
El doctor Oscar Bernal dijo que los resultados obtenidos en el proyecto fueron
“interesantes”. Planteo que se debía tener en cuenta otra categorización en las
enfermedades respiratorias, debido a que las complicaciones de estas no necesariamente
eran siempre otras enfermedades que afectaran el sistema respiratorio. Por otro lado
planteó que se podrían obtener resultados con más soporte si se analizaran
independientemente los grupos de edades, debido a que para los niños se debían tener
consideraciones diferentes que para los adultos. Adicionalmente a esto hizo énfasis en
que aún no se contaban con la totalidad de los datos, por lo que se podrían presentar
resultados diferentes a los esperados.
65
7. Conclusiones
7.1 Discusión
En este proyecto se buscó encontrar con que probabilidad un paciente podía padecer una
complicación, dado que padecía una enfermedad respiratoria previamente. Además se
buscaron relaciones entre las complicaciones y las entidades que atendían a los pacientes.
Se propuso el uso clustering y reglas de asociación como técnicas de minería de datos para
dar solución al problema que se concibió inicialmente. Se decidió implementar un modelo
de clustering, con el fin de caracterizar la población sobre la cual se pretendía resolver el
problema. Se definieron ciertos datos generados a partir de la información existente en
los datos de entrada, con el fin de determinar la relacionen entre la frecuencia del uso de
servicios médicos y el padecimiento de complicaciones. En base a esto, se diseñó un
proceso de minería, en el que se pretendía tomar como antecedentes estos valores y
algunas características usadas en el clúster de caracterización para poder identificar qué
tipo de complicación se presentaba en los consecuentes.
En cuanto a los resultados encontrados después de la ejecución de los modelos, es
pertinente resaltar que hay características que resultan interesantes frente a la posible
complicación de una enfermedad respiratoria en determinados segmentos de la población
colombiana. Muchos de estos aspectos están relacionados con la ubicación geográfica de
los pacientes y la edad de los mismos, por lo que sería pertinente realizar un estudio de las
condiciones de estas zonas para identificar qué aspectos pueden influir en la aparición de
enfermedades respiratorias comunes y crónicas.
Como en la mayoría de los proyectos que tienen que ver con minería de datos, en el
desarrollo de este se encontraron dificultades en la manipulación de los datos, debido al
volumen y a la calidad de estos, lo cual afecto el tiempo de implementación y la calidad de
los modelos generados. En este tipo de proyectos, es necesario contar con cierta
infraestructura que soporte el tipo de ejecuciones que se van a llevar a cabo para evitar
retrasos en el desarrollo del proyecto.
Este proyecto se ajusta a la metodología CRISP-DM, y se puede evidenciar en el desarrollo
que se llevó a cabo un proceso iterativo, debido a la necesidad de refinar el modelo en
función de los objetivos iniciales.
Las experiencias plasmadas en este documento, se esperan sean de utilidad para quienes
proyecten realizar trabajos similares, debido a que la relación entre la medicina y la
minería de datos es un aspecto en el que existen muchas posibilidades de crecimiento y
colaboración mutua en pro del bienestar de la humanidad.
66
Adentrándonos un poco más en la metodología, es pertinente resaltar que hay etapas en
las que se debe tener especial cuidado, debido a que son la columna vertebral del proceso
completo. Entre estas etapas podemos encontrar la del entendimiento del negocio,
debido a que en el momento de trasladar un problema de negocio a un problema que se
pueda solucionar con minería de datos, se pueden cometer errores que pueden desviar
totalmente el curso del proyecto. Por otro lado, vale la pena mencionar la etapa de
preparación de datos, debido a que es una de las etapas que más toma tiempo, ya que es
importante realizar un perfilamiento claro de los datos con el fin de no alterar los
resultados de manera significativa en el momento de corregir ciertas inconsistencias.
Finalmente se debe resaltar la importancia de la validación de los resultados, y más aún, la
participación de un experto en esta validación, ya que puede que para un experto en
minería de datos las reglas generadas sean suficientes para el negocio, mientras que para
el experto puede que no.
7.2 Trabajo futuro
Este proyecto da pie a grandes trabajos en el futuro, todos con el fin de mejorar la labor
de los diferentes actores participantes en sistemas de salud como el colombiano. La
propuesta de trabajo futuro a corto plazo es la de extender el modelo a otros diagnósticos
que no hagan parte de las afecciones respiratorias. Además de esto se puede extender el
modelo considerando relación entre afecciones de diferentes categorías (p.e. afecciones
respiratorias con complicaciones dermatológicas). Por otro lado, este modelo puede
extenderse hacia adelante, contemplando las mejoras de los pacientes y los diagnósticos
posteriores a las complicaciones.
Para trabajos futuros también es necesario mejorar el proceso de preparación de los datos
con ayuda de un experto, debido a que cuando se da lugar a la limpieza, puede que se
estén discriminando datos que pueden llegar a ser importantes para el modelo.
Otro trabajo futuro interesante podría ser el de relacionar la información registrada en los
RISP con información de ciertos “ámbitos de los pacientes” 21 , los cuales pueden
enriquecer el modelo de minería.
En cuanto al manejo de la metodología CRISP-DM, es pertinente darle un buen tiempo a
las tareas de extracción y limpieza de datos, ya que este es un punto que puede
convertirse en un cuello de botella para la evolución del proyecto. Además, si es posible,
se debe estimar que tipo de recursos se utilizaran (Hardware y Software), ya que esto
también es un aspecto que influye notoriamente en el tiempo del proyecto.
21 Ámbitos adicionales podrían ser extraídos de encuestas aplicadas a nivel nacional.
67
8. Referencias
Berry, M. J., & Linoff, G. (1997). Data Mining Techniques: For Marketing, Sales, and Customer
Support. Wiley.
Bramer, M. (2007). Principles of Data Mining. Springer.
Cadena, J. S. (2009). Identificación de sospechosos de lavado de activos en el sector asegurador
colombiano aplicando técnicas de minería de datos.
Chapman, P. e. (2000). CRISP-DM 1.0 - Step by Step Data Mining Guide.
Chen, Y., Pedersen, L. H., Chu, W. W., & Olsen, J. (2007). Drug Exposure Side Effects from Mining
Pregnancy Data. ACM SIGKDD Explorations Newsletter, 22-29.
Congreso de Colombia. (2002). Ley 789.
Gomez, V. (2008). Uso de minería de datos en la descripción de hospitalizaciones prolongadas.
Kantardzic, M. (2002). Data Mining: Concepts, Models, Methods, and Algorithms. Wiley-IEEE Press.
Larose, D. T. (2004). Discovering Knowledge in Data: An Introduction to Data Mining. Wiley-
Interscience.
Ministerio de la Protección Social. (2003). Decreto 205.
Ministerio de Salud. (2000). Resolucion Numero 3374.
Ministerio de Salud. (2001). Resolución Número 1896. Primera Actualización de la clasificación
única de procedimientos en salud. Bogotá, Colombia.
Ng, R. T., & Pei, J. (2007). Introduction to the Special Issue on Data Mining for Health Informatics.
ACM SIGKDD Explorations Newsletter, 1-2.
Rao, R. B., Krishnan, S., & Niculescu, R. S. (2006). Data mining for Improved Cardiac Care. ACM
SIGKDD Explorations Newsletter, 3-10.
Roa, D. (2010). Análisis de los Antecedentes y Consecuentes de las Personas con Hipertensión
Arterial en el Sector Salud Colombiano Usando Técnicas de Minería de Datos.
Zaki, M. J., Wang, J. T., & Toivonen, H. T. (2002). BIOKDD 2002: recent advances in data mining for
bioinformatics. ACM SIGKDD Explorations Newsletter, 112-114.