37
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información 1 Mejoramiento de reglas de autoverificación de resultados de exámenes clínicos a través del uso de algoritmos de asociación y agrupamiento Cristián Ruiz Pérez Exámenes de Laboratorio S.A. Bupa Chile. Av. Departamental 1455, La Florida, Región Metropolitana [email protected] Resumen: Actualmente las reglas de autoverificación de resultados de exámenes de laboratorio ELSA no son eficientes, generando una sobrecarga de trabajo del 60% sobre el personal existente y tiempos de entrega de resultados que no cumplen con los comprometidos con Clínica Bupa Santiago. En este contexto y a fin de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos de asociación y agrupamiento, para que los directivos puedan gestionar las reglas de autoverificación a través de información confiable y basada en la evidencia de su propia población. La investigación se realizó bajo la metodología CRISP-DM, la cual demostró ser eficiente en la conducción del proceso de minería de datos dentro del contexto de laboratorio clínico. Asimismo, se pudo determinar que las técnicas de minería de datos sí contribuyen al mejoramiento de reglas de autoverificación, puesto que las correlaciones obtenidas en este trabajo no habían sido consideradas dentro de ninguna regla existente. Por consiguiente, se espera que este trabajo pueda ser adoptado y extendido por laboratorio ELSA cuando requiera gestionar las reglas de autoverificación. Palabras Clave: Minería de datos, algoritmos de asociación, algoritmos de agrupamiento, laboratorio clínico, exámenes, correlación, autoverificación de resultados. 1 Introducción 1.1 Contexto, motivación y problemática Exámenes de Laboratorio S.A. (ELSA) es una filial de Integramédica, parte de Bupa Chile, que provee a sus pacientes, médicos e instituciones, servicios de Laboratorio Clínico con resultados de calidad demostrable, en forma oportuna y a un precio competitivo, por medio de avanzada tecnología y personal calificado. Es el establecimiento más grande de su tipo en Chile; cuenta con más de 60 unidades de toma de muestras ambulatorias en distintas ciudades del país y procesa más de 6,5 millones de exámenes al año, equivalente a más de 1.375.000 pacientes anuales. Cuenta con un sistema informático (LIS, por su nombre en inglés Laboratory Information System) que gestiona los procesos propios del laboratorio y un sistema experto, llamado Prometeo, que permite autoverificar resultados de exámenes a través de reglas definidas en conformidad con la guía AUTO10-Adel Instituto de Normas Clínicas y de Laboratorio (CLSI, por sus siglas en inglés) y disponer de ellos a pacientes y médicos sin necesidad de revisión manual por parte del equipo clínico. A partir de junio de 2018, ELSA toma control del laboratorio clínico de la nueva Clínica Bupa Santiago, la más grande de Bupa en el mundo y la cuarta con mayor capacidad de Chile con un total de hasta 460 camas, la cual aumentó la demanda de exámenes provenientes del ámbito hospitalario, pacientes críticos y urgencia; así también la necesidad de responder a los requerimientos asociados: soportar la demanda con el mismo recurso humano, garantizar cumplimientos de tiempos de entrega de resultados y asegurar la calidad del resultado.

Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

1

Mejoramiento de reglas de autoverificación de resultados de exámenes

clínicos a través del uso de algoritmos de asociación y agrupamiento

Cristián Ruiz Pérez

Exámenes de Laboratorio S.A. Bupa Chile.

Av. Departamental 1455, La Florida, Región Metropolitana

[email protected]

Resumen: Actualmente las reglas de autoverificación de resultados de exámenes de laboratorio ELSA no

son eficientes, generando una sobrecarga de trabajo del 60% sobre el personal existente y tiempos de entrega

de resultados que no cumplen con los comprometidos con Clínica Bupa Santiago. En este contexto y a fin

de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en

algoritmos de asociación y agrupamiento, para que los directivos puedan gestionar las reglas de

autoverificación a través de información confiable y basada en la evidencia de su propia población. La

investigación se realizó bajo la metodología CRISP-DM, la cual demostró ser eficiente en la conducción del

proceso de minería de datos dentro del contexto de laboratorio clínico. Asimismo, se pudo determinar que

las técnicas de minería de datos sí contribuyen al mejoramiento de reglas de autoverificación, puesto que

las correlaciones obtenidas en este trabajo no habían sido consideradas dentro de ninguna regla existente.

Por consiguiente, se espera que este trabajo pueda ser adoptado y extendido por laboratorio ELSA cuando

requiera gestionar las reglas de autoverificación.

Palabras Clave: Minería de datos, algoritmos de asociación, algoritmos de agrupamiento, laboratorio

clínico, exámenes, correlación, autoverificación de resultados.

1 Introducción

1.1 Contexto, motivación y problemática

Exámenes de Laboratorio S.A. (ELSA) es una filial de Integramédica, parte de Bupa Chile, que provee a sus

pacientes, médicos e instituciones, servicios de Laboratorio Clínico con resultados de calidad demostrable, en

forma oportuna y a un precio competitivo, por medio de avanzada tecnología y personal calificado. Es el

establecimiento más grande de su tipo en Chile; cuenta con más de 60 unidades de toma de muestras

ambulatorias en distintas ciudades del país y procesa más de 6,5 millones de exámenes al año, equivalente a

más de 1.375.000 pacientes anuales.

Cuenta con un sistema informático (LIS, por su nombre en inglés “Laboratory Information System”) que

gestiona los procesos propios del laboratorio y un sistema experto, llamado “Prometeo”, que permite

autoverificar resultados de exámenes a través de reglas definidas en conformidad con la guía “AUTO10-A” del

Instituto de Normas Clínicas y de Laboratorio (CLSI, por sus siglas en inglés) y disponer de ellos a pacientes y

médicos sin necesidad de revisión manual por parte del equipo clínico.

A partir de junio de 2018, ELSA toma control del laboratorio clínico de la nueva Clínica Bupa Santiago, la más

grande de Bupa en el mundo y la cuarta con mayor capacidad de Chile con un total de hasta 460 camas, la cual

aumentó la demanda de exámenes provenientes del ámbito hospitalario, pacientes críticos y urgencia; así

también la necesidad de responder a los requerimientos asociados: soportar la demanda con el mismo recurso

humano, garantizar cumplimientos de tiempos de entrega de resultados y asegurar la calidad del resultado.

Page 2: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

2

Hoy día los algoritmos disponibles en “Prometeo” permiten la autoverificación del 95% de los resultados de

exámenes del ámbito ambulatorio; sin embargo, para el ámbito hospitalario, pacientes críticos y urgencia solo

se alcanza un promedio del 39% impactando negativamente en el “TAT” - por su nombre en inglés “Turn

Around Time” – que dicho en otras palabras significa un aumento del tiempo que transcurre desde que se recibe

la muestra en el laboratorio hasta que se emite el informe de resultados.

En este contexto, es necesario realizar la revisión de las reglas de autoverificación existentes para mejorar

aquellas que presenten deficiencias a fin de aumentar el porcentaje de resultados susceptibles de ser

autoverificados y de esta manera, reducir el “TAT” de los pacientes del ámbito hospitalario, paciente crítico y

urgencia. En definitiva, es imperante que ELSA responda en el menor tiempo posible a las demandas originadas

por la diversificación del segmento de clientes y pueda enfrentar los desafíos derivados de la expansión de la

compañía.

1.2 Definición del Problema

La incorporación de nuevos ámbitos de atención ha demostrado que las reglas de autoverificación existentes en

“Prometeo” no son eficientes en todos los pacientes de Clínica Bupa Santiago. De hecho, hoy en día más del

60% de los resultados de los ámbitos hospitalario, paciente crítico y urgencia no son liberados por el sistema

experto, por lo tanto, deben ser necesariamente verificados de forma manual por los profesionales de laboratorio

quienes, naturalmente, no pueden igualar los tiempos de respuesta del sistema experto. En consecuencia, esto

no solo se traduce en un aumento de la carga de trabajo del recurso humano existente, sino también, en el

cumplimiento del indicador de tiempo de respuesta comprometido y establecido con los departamentos de

Clínica Bupa Santiago. En general, esto no solo afecta al Laboratorio por la necesidad de incorporar mayor

recurso humano a funciones habituales de verificación, sino también, a los pacientes por disminuir la

oportunidad con la que sus médicos tratantes reciben la información que permitiría apoyar un diagnóstico y,

por ende, tomar a tiempo decisiones que vayan en directo beneficio de su estado de salud.

Cabe señalar que el Laboratorio está en constante revisión de las reglas de autoverificación, pero hasta ahora

solo se habían considerado variables para pacientes bajo condiciones sanas como por ejemplo: índices de

estabilidad de las muestras, alarmas de instrumentos analíticos, rangos de referencia, rangos críticos,

variabilidad biológica, variabilidad analítica y ciertas correlaciones de exámenes interdependientes. Esta

evidencia permite determinar que las reglas actuales no consideran la variabilidad de resultados de exámenes

que puedan presentarse en pacientes bajo situaciones patológicas, como son aquellos que provienen de los

nuevos ámbitos de atención, haciendo necesaria la revisión de estos para aumentar el porcentaje de resultados

autoverificados de estas unidades.

Desde la apertura de Clínica Bupa Santiago a la fecha, ELSA ha procesado más de 200.000 exámenes; por

consiguiente, existe la gran oportunidad de comprender el comportamiento de los resultados de sus pacientes a

través de los datos almacenados en su sistema informático. Sin embargo, hoy en día no es posible porque no

cuenta con herramientas adecuadas; tampoco métodos de captura y análisis, que permitan obtener de sus propios

registros información y conocimiento para alimentar y optimizar los algoritmos existentes del sistema experto.

1.3 Propuesta de solución y objetivos planteados

Se propone la elaboración de un método de análisis de datos de laboratorio clínico que permita gestionar con

mayor eficiencia los registros de resultados de los pacientes de Clínica Bupa Santiago. Junto con esto, se

propondrá el diseño de un almacén de datos, transversal e independiente de la estructura de base de datos del

sistema informático, para facilitar la aplicación de algoritmos de minería de datos. Finalmente, se realizará un

análisis descriptivo de los datos mediante el uso de algoritmos de asociación y agrupamiento bajo la

metodología CRISP-DM (“Cross Industry Standard Process for Data Mining”), por ser considerado el modelo

más completo y el más utilizado en el mundo para llevar a cabo proyectos de minería de datos por la

granularidad de sus fases y tareas, y su adaptabilidad pudiendo ser aplicado a cualquier tipo de industria.

Page 3: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

3

El desarrollo de esta investigación y la incorporación de un método de análisis de laboratorio clínico permitirán

que los directivos del Laboratorio les den sentido a los datos almacenados en sus sistemas de información, de

manera que con esta información puedan generar conocimiento y adoptar decisiones oportunas; y a su vez,

gestionar las reglas de autoverificación de resultados de exámenes a través de información confiable y basada

en la evidencia de su propia población.

1.4 Hipótesis

La utilización de algoritmos de asociación y agrupamiento facilita la elaboración y mejora la eficiencia que hoy

tienen las reglas de autoverificación de resultados definidos por laboratorio ELSA en el sistema experto.

1.5 Metodología de validación

Se evaluarán los resultados obtenidos luego de la aplicación de los algoritmos de asociación y agrupamiento a

un almacén de datos, y verificará:

Si para las asociaciones de resultados existen reglas de autoverificación;

Y el aporte que realizaría al laboratorio la generación o modificación de reglas de autoverificación en base a

los resultados obtenidos por el modelo de minería de datos.

1.6 Estructura del informe

El primer capítulo del informe comienza con la introducción al tema que origina esta investigación, donde se

expone el problema actual que existe con las reglas de autoverificación de laboratorio clínico ELSA; y

posteriormente la hipótesis para la solución junto con la metodología de validación que permitirá confirmar si

la propuesta permite o no mejorar la eficiencia de la autoverificación.

En el siguiente capítulo se revisa el marco teórico y estado del arte de los conceptos claves que se utilizarán

dentro de esta investigación. Luego, en el tercer capítulo, se aborda el desarrollo de las fases del modelo CRISP-

DM iniciando con la comprensión del negocio; luego se explica cómo se prepararon los datos para realizar el

modelo final de análisis y aplicación de algoritmos de asociación y agrupamiento que permiten validar la

hipótesis planteada.

Finalmente, se presenta una conclusión respecto de los resultados obtenidos, proponiendo consideraciones y

próximos pasos a seguir para que Laboratorio pueda continuar optimizando sus reglas de autoverificación.

2 Marco Teórico

En este capítulo, a modo de introducción, se define qué es la minería de datos y cuáles son los algoritmos más

utilizados en el mundo; a su vez, se describen aquellos que realizan búsqueda de reglas de asociación, llamados

algoritmos de asociación, y también aquellos que realizan agrupamiento de vectores, llamados algoritmos de

agrupamiento o clusterización. Así también, para esta investigación es necesario establecer una metodología

de trabajo que permita conducir el diseño y análisis de datos, por tanto, en la siguiente sección se revisarán las

principales metodologías para el desarrollo de proyectos de minería de datos. Finalmente se revisa un conjunto

de trabajos asociados y se establece una conclusión respecto a su aporte para el desarrollo de esta investigación.

Page 4: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

4

2.1 Minería de datos

La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o

KDD) es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir

patrones en grandes volúmenes de conjuntos de datos [1]. Utiliza los métodos de la inteligencia artificial,

aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de

datos consiste en extraer información y conocimiento desde un conjunto de datos y transformarla en una

estructura comprensible para su uso posterior. Un proceso típico de minería de datos consta de las siguientes

tareas generales: selección del conjunto de datos, análisis de las propiedades de los datos, transformación del

conjunto de datos de entrada, seleccionar y aplicar la técnica de minería de datos, extracción de conocimiento

y, para terminar, la interpretación, evaluación y validación de los resultados comprobando que las conclusiones

que arroja son coherentes y suficientemente satisfactorias.

2.2 Técnicas de minería de datos

Las técnicas de la minería de datos no son más que algoritmos, más o menos sofisticados, que se aplican sobre

un conjunto de datos para obtener unos resultados. A modo de ejemplo, se presentan 4 de las técnicas más

representativas para realizar tareas de análisis (descriptivo o predictivo) en proyectos de minería de datos.

Redes neuronales: son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en

que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una

red que colabora para producir un estímulo de salida.

Árboles de decisión: un árbol de decisión es un modelo de predicción utilizado en el ámbito de la

inteligencia artificial y el análisis predictivo; dada una base de datos se construyen estos diagramas de

construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para

representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un

problema. Ejemplos de algoritmos: ID3, C4.5.

Agrupamiento o Clustering: es un procedimiento de agrupamiento de una serie de objetos según criterios

habitualmente de distancia; se tratará de disponer los objetos de entrada de forma que estén más cercanos

aquellos que tengan características comunes. Ejemplos de algoritmos: K-means, K-medoids.

Reglas de asociación: se utilizan para descubrir hechos que ocurren en común dentro de un determinado

conjunto de datos. Ejemplos de algoritmos: Apriori, FP-Growth, Eclat.

A continuación, se explican dos de estas técnicas y que son las propuestas para el desarrollo de esta

investigación: “Algoritmos de Asociación” y “Algoritmos de agrupamiento o Clustering”

2.3 Reglas de asociación

En minería de datos y aprendizaje automático, los algoritmos de asociación se utilizan para descubrir hechos

que ocurren en común dentro de un determinado conjunto de datos. Se han investigado ampliamente diversos

métodos para aprendizaje de reglas de asociación, que han resultado ser muy interesantes para descubrir

relaciones entre variables en grandes conjuntos de datos como, por ejemplo: Apriori, FP-Growth o Eclat, cuyas

características se describen a continuación.

Algoritmo Apriori

Propuesto por Agrawal et al. [2], es uno de los primeros y más populares algoritmos para la minería de reglas

de asociación. Este algoritmo permite encontrar de forma eficiente "conjuntos de ítems frecuentes" los cuales

sirven de base para generar reglas de asociación. Descubre las reglas de asociación en dos fases, usando como

parámetros valores de soporte y confianza mínimos. Difiere de algoritmos previos en la manera en que los

conjuntos de elementos son considerados frecuentes y el mecanismo por el cual son generados, obteniendo así

un mejor rendimiento en el orden de magnitud para un gran conjunto de datos [3].

Page 5: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

5

Algoritmo FP-Growth

Basado en una mejora del algoritmo Apriori propuesto por Han et al.[4], define una primera fase que construye

la estructura jerárquica “Frequent Pattern Tree” (“FP-tree”), la cual es utilizada para compactar la base de

datos almacenando solamente los ítems frecuentes; y una segunda fase en la que se generan las reglas de

asociación de elementos frecuentes encontrados, basado en parámetros de soporte y confianza mínimos. La

principal diferencia con el algoritmo Apriori [2] es la implementación usada, la cual es más eficiente al hacer

uso de un árbol de elementos frecuentes que puede ser procesado más rápidamente que la estructura de datos

usada en Apriori. Este algoritmo supera las limitaciones de Apriori y Eclat. Según varios autores, ésta es la

mejor técnica para la generación de itemsets propuesta hasta el momento [5].

Algoritmo Eclat

El algoritmo Eclat, sigla por su nombre en inglés “Equivalence Class Transformation”, genera una

representación comprimida de la base de datos mediante árboles. Mantiene una tabla cabecera donde para cada

ítem hay una lista enlazando a todos los nodos del gráfico en el cual aparece dicho ítem. Además, el gráfico de

transacciones resume las transacciones en la base de datos junto con el soporte del “itemset” que se forma,

siguiendo el camino desde la raíz del gráfico hasta el nodo en cuestión.

2.4 Agrupamiento o Clustering

Un algoritmo de agrupamiento (en inglés, Clustering) concentra una serie de vectores de acuerdo a un criterio

tal como distancia o similitud. Generalmente, los vectores de un mismo grupo (o cluster) comparten propiedades

comunes [6] y la cercanía se define en base a métricas, como la euclídea o Chebyshev, ambas descritas a modo

de ejemplo en la Tabla 1.

Tabla 1. Métricas de distancia utilizadas en algoritmos de agrupamiento o clustering.

Distancia Descripción Función

Euclidiana Es la distancia en línea recta o la trayectoria más

corta posible entre dos puntos [7].

Chebyshev Es una métrica definida en un espacio vectorial

donde la distancia entre dos vectores es el mayor

de sus diferencias a lo largo de cualquier

dimensión de coordenadas [7].

Así también existen diferentes algoritmos de agrupamiento, como por ejemplo “K-means” y “K-medoids”

cuyas características se describen a continuación.

Algoritmo K-means

Se trata de un algoritmo de particionamiento de conjuntos de datos en k grupos, cuyo valor medio de cada

observación o dato es cercano entre los valores del grupo al que pertenece. El método de las “k-means” [8][9],

es hasta ahora el más utilizado en aplicaciones científicas e industriales. El nombre viene porque representa

cada uno de los “clusters” por la media (o media ponderada) de sus puntos, es decir, por su centroide.

Este método únicamente se puede aplicar a atributos numéricos, y los valores “outliers” le pueden afectar muy

negativamente. Sin embargo, la representación mediante centroides tiene la ventaja de que tiene significados

gráfico y estadísticos inmediatos.

Page 6: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

6

La demostración del funcionamiento estándar del algoritmo se puede representar de la siguiente manera:

Algoritmo “K-medoids”

“K-medoids” es una técnica clásica de particionamiento de “clusters” que divide los datos conformados

por n objetos en k “clusters” (con k conocido de antemano). Tanto “k-medoids” como “k-means” son

algoritmos que trabajan con particiones (dividiendo el conjunto de datos en “clusters”) y ambos intentan

minimizar la distancia entre puntos que se añadirían a un grupo y otro punto designado como el centro de ese

grupo. En contraste con el algoritmo “k-means”, “k-medoids” es más robusto ante el ruido y a partes aisladas

que “k-means”, porque minimiza una suma de diferencias (entre pares de puntos) en vez de una suma de

distancias euclidianas cuadradas.

2.5 Metodologías para proyectos de minería de datos

En esta sección se describen tres de las metodologías más usadas en el mundo para orientar y guiar trabajos de

minería de datos: SEMMA, KDD y CRISP-DM.

SEMMA

SEMMA, creada por el “SAS Institute”, se define como el proceso de selección, exploración y modelado de

grandes volúmenes de datos para descubrir patrones de negocio desconocidos [10]. El nombre de esta

terminología es el acrónimo correspondiente a las cinco fases básicas del proceso: “Sample” (Muestreo),

“Explore” (Exploración), “Modify” (Modificación), “Model” (Modelado) y “Assess” (Valoración). Se

encuentra enfocada especialmente en aspectos técnicos, excluyendo actividades de análisis y comprensión del

problema que se está abordando y fue propuesta especialmente para trabajar con el software de minería de datos

de la compañía SAS [11].

KDD

KDD, por su nombre en inglés “Knowledge Discovery in Databases”, es una metodología propuesta por Fayyad

en 1996 compuesta de 5 fases: Selección de datos, preprocesamiento de datos, transformación, minería de datos

e interpretación y evaluación de los resultados. El KDD es un proceso interactivo e iterativo, centrado en el

usuario, quién participa activamente en la toma de decisiones dentro de cada etapa del proceso. [12]

1) Los k centroides

iniciales, representados

en círculos, son para este

caso k=3, los cuales son

generados aleatoriamente

dentro de un conjunto de

datos, representados en

cuadrados.

2) k “clusters” son

generados asociándole el

punto con la media más

cercana. La partición aquí

representa el diagrama de

Voronoi generado por los

centroides.

3) El centroide de cada

uno de los k grupos se

recalcula

4) Pasos 2 y 3 se repiten

hasta que se logre la

convergencia.

Page 7: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

7

Metodología CRISP-DM

CRISP-DM, sigla de su nombre en inglés “Cross-Industry Standard Process for Data Mining”, es un método

probado para orientar trabajos de minería de datos [13]. Creado por el grupo de empresas SPSS, NCR y Daimer

Chrysler en el año 2000, es actualmente la guía de referencia más utilizada en el desarrollo de proyectos de

minería de datos. CRISP-DM estructura el proceso en seis fases, representadas en la Figura 1, junto con la

descomposición de tareas para cada una de ellas. Es importante señalar que la secuencia de ejecución dentro de

un proyecto no es estricta, pudiendo avanzar y retroceden entre fases y tareas si se considera necesario [14].

2.6 Estado del arte

La primera edición de la guía "AUTO10-A” fue lanzada por el “CLSI” hace más de 10 años atrás, siendo hoy el

marco de referencia más utilizado a nivel mundial para la elaboración de reglas de autoverificación. Ahora bien,

es preciso mencionar que esta guía no intenta proveer de criterios de autoverificación, por el contrario, solo

establece recomendaciones para que los laboratorios puedan diseñar, construir, implementar y validar sus reglas

basándose en las necesidades de su propia población, y dentro de un marco regulatorio nacional e internacional

[15]. Por ello, el desafío de todos los laboratorios del mundo, y sin exclusión, es encontrar el mejor método de

búsqueda de información que permita gestionar eficientemente sus algoritmos responder a los requerimientos

de sus pacientes y la organización.

En este contexto, y luego de efectuar la revisión de la literatura científica a fin de recopilar experiencias y

similitudes con el presente trabajo, es posible mencionar que durante la última década se han llevado a cabo

diversas investigaciones relacionadas con la búsqueda de información y análisis de datos de laboratorio clínico;

semejantes entre sí, salvo por las diferencias encontradas en los métodos que utiliza cada una de ellas. A modo

de ejemplo, la gran mayoría utiliza medidas estadísticas convencionales tales como: desviación estándar o

media móvil [16]; mientras que solo una de ellas utiliza la técnica de aprendizaje automático de “redes

neuronales artificiales” [17], siendo la que más se asemeja a las técnicas propuestas en este trabajo. Asimismo,

cabe señalar que no fue posible encontrar evidencia respecto de la utilización de metodologías de proyectos de

minería de datos así como “CRISP-DM” o algoritmos de asociación o agrupamiento dentro del contexto de

laboratorio clínico.

Respecto a las herramientas para el análisis de datos, no fue posible encontrar evidencia en cuanto a la

utilización de “RapidMiner”, software para análisis y minería propuesto en este trabajo, dentro de estudios

TAREAS

FASES Comprensión del negocio

Determinar los objetivos del negocio

Evaluar la situación

actual

Determinar metas de

minería de datos

Generar Plan de Trabajo

Comprensión de los datos

Recopilar datos

iniciales

Describir los datos

Explorar de los datos

Verificar la calidad de los datos

Preparación de los datos

Seleccionar los datos

Limpiar los datos

Construir los datos

Integrar los datos

Formatear los datos

Modelado

Seleccionar técnicas de modelado

Generar diseño de pruebas

Construir modelo

Evaluar modelo

Evaluación

Evaluar resultados

Revisar el proceso

Determinar próximos

pasos

Implementación

Desarrolar plan de trabajo

Mantener y monitorear el plan de

trabajo

Generar reporte final

Revisar el proyecto

Figura 1. Modelo de referencia CRISP-DM. Fuente: CRISP-DM 1.0: Step by Step Data Mining Guide.

Page 8: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

8

relacionados con descripción o predicción de resultados en laboratorio clínicos, aunque si dentro de otros

contextos tales como enfermedades o eventos de interés epidemiológico. En cambio, se identifica el uso del

software estadístico “SPSS” [18] [19]; el middleware “DM2”, gestor de reglas de autoverificación [16]; el

software de minería de datos “Weka” [17], similar a “RapidMiner”, limitado en funcionalidades; el software de

análisis de datos “EpiInfo 3.5.4” [20], y finalmente el software “Microsoft Excel” [21], que también permite

el análisis de datos estructurados. De todas formas, y a pesar de haber utilizado distintas herramientas, todos

los trabajos llegaron a buenos resultados. Es decir, que las reglas de autoverificación obtenidas a partir de

algoritmos de asociación y/o agrupamiento fueron eficientes en reducir las actividades de verificación manual,

y disminuir los tiempos de entrega de resultados, beneficiando así directamente a la salud de los pacientes [16].

Para terminar, es fundamental destacar que el principal elemento diferenciador de este trabajo radica en el

enfoque de la investigación, que al contrario de lo que se puede observar en la literatura disponible, no solo

tiene por objetivo describir sucesos clínicos, sino más bien, validar que a través del uso de una metodología

estándar de proyectos de minería de datos y la aplicación de algoritmos de agrupamiento y asociación, se pueden

descubrir tantos o más aspectos nuevos del negocio que los obtenidos con el uso de métodos estadísticos

convencionales. Por esta razón, se considera que esta investigación tiene la oportunidad de aportar al

conocimiento disponible, ya que independiente del resultado que se obtenga, el objetivo principal es evaluar un

método de análisis de datos de laboratorio clínico que, de ser validado, podría sentar un precedente respecto a

la forma en que se obtiene el conocimiento que alimenta las reglas de autoverificación de resultados.

3 Desarrollo de la solución

En este capítulo se aborda cada una de las fases de la metodología CRISP-DM, comenzando con la comprensión

del negocio para luego continuar con la compresión, preparación y modelado de los datos, para finalizar en el

siguiente capítulo con la evaluación de los resultados y el modelo de minería de datos.

3.1 Comprensión del negocio

Exámenes de Laboratorio S.A. (ELSA) es parte de la red de laboratorios clínicos de Bupa Chile, los cuales

operan bajo un modelo operacional con procesos de negocio con alto grado de estandarización e integrados a

través de dos sistemas de información: “SAP R/3”, para la gestión integral de los procesos administrativos de

la organización; y “DNLAB”, para la gestión integral de los procesos de todos los laboratorios clínicos. La

representación gráfica del sistema de información de Laboratorio ELSA y el organigrama con la estructura

organización están disponibles en los anexos A y B, respectivamente.

Actualmente presta servicios a más de 35 centros médicos ambulatorios de Bupa Chile ubicados a lo largo de

todo el territorio nacional: 27 de ellos dentro de la Región Metropolitana y 8 repartidos entre las provincias de

Copiapó, La Serena, Ovalle, Viña del Mar, Rancagua, Talca, Talcahuano y Concepción. Asimismo, es el

principal centro de derivación de la red de laboratorios, y recibe diariamente más del 20% de las muestras

biológicas de Clínica San José de Arica, Clinica Bupa Antofagasta y Clínica Reñaca; contribuyendo a la

economía de escala de la organización a través de la centralización de la producción de exámenes de alto costo

y complejidad.

Ahora bien, lo mencionado anteriormente no quiere suponer que la gestión de los procesos del laboratorio sea

una tarea fácil. Por ello, cabe señalar que ELSA concentra gran parte de sus esfuerzos en asegurar la calidad de

su actividad y, mediante la aplicación de un sistema de mejora continua basado en la norma NCh 2547- 2003

(ISO 15189-2002) [22], ha conseguido ser el primer laboratorio clínico del país en recibir la acreditación de la

“Superintendencia de Salud” con el 100% de cumplimiento en función del “Estándar General de Acreditación

de Prestadores Institucionales de Laboratorios Clínicos”.

Page 9: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

9

Por consiguiente, el objetivo principal que se ha planteado consiste en responder eficientemente a los nuevos

desafíos que deriven de la expansión de la compañía, manteniendo los estándares de calidad, e incluso si esto

significa abrirse al uso de nuevas herramientas que hoy no han sido consideradas dentro de los procesos de

mejora continua.

Situación Actual

A partir del año 2018, Bupa Chile inicia la expansión y diversificación de los servicios de Laboratorio ELSA

brindándole, en primer lugar, la posibilidad de controlar el 100% de la operación del nuevo laboratorio de

Clínica Bupa Santiago; que por cierto, dicho sea de paso, sería la primera vez desde su apertura en 1994 que el

equipo de trabajo enfrenta el desafío de administrar un laboratorio externo y de la complejidad que supone un

centro de atención con unidades de atención abierta, cerrada y de urgencia. De todas maneras, es importante

señalar que, desde su apertura en junio de 2018, ELSA ha respondido eficientemente a los requerimientos de

Clínica Bupa Santiago, sin embargo, esto no significa que el proceso ha estado exento de dificultades. A modo

de ejemplo, es posible advertir que a la fecha no se ha cumplido en un 100% con el tiempo entrega de resultados

comprometido con los servicios de Clínica Bupa Santiago, de manera que todavía existen desafíos por enfrentar,

y es aquí donde este trabajo buscará aportar con información que permita a la organización optimizar aquellos

procesos que aún faltan por madurar.

A modo de ejemplo, se presentan en la Tabla 2 las metas que ELSA ha definido para cada uno de sus procesos

de negocio, con la finalidad asegurar que los resultados de los exámenes estén disponibles para médicos y

pacientes dentro de los plazos exigidos por Clínica Bupa Santiago.

Tabla 2. Tiempos objetivos de duración de cada proceso de laboratorio. Fuente: Elaboración propia.

Proceso Subproceso Tiempo

objetivo Desde Hasta

Preanalítico Toma de muestra biológica. Recepción de muestra en laboratorio. 10 min.

Analítico Recepción de muestra en laboratorio. Término del proceso de análisis. 20 min.

Post-analítico Término del proceso de análisis. Verificación de los resultados. 10 min.

Tiempo estimado para la entrega de resultados 40 min.

Metas para el modelo de minería de datos

Para los primeros meses de operación en Clínica Bupa Santiago, ELSA consideró aplicar las mismas reglas de

autoverificación que hoy son utilizadas por el laboratorio central. Luego, se evaluaría si ellas eran tan efectivas

autoverificando resultados de ámbitos “hospitalizados”, “unidad de paciente crítico” y “urgencia” como lo son

con aquellos del ámbito “ambulatorio”. En este contexto, el primer objetivo de la minería de datos será describir,

a partir de los datos disponibles en el sistema informático del Laboratorio, si existen resultados de exámenes

que no han sido autoverificados o, dicho de otra manera, que no fueron pesquisados por las reglas actuales y

por tanto tuvieron que ser verificados manualmente por un profesional de laboratorio clínico.

Definición de criterios y alcances de la minería de datos

En primer lugar, se define que las reglas que se propone mejorar son las de “plausibilidad”, correspondientes a

aquellas que evalúan los resultados de dos o más exámenes asociados. Se descartan del proceso las reglas de

“Patología y Aceptabilidad” y de “Deltacheck”, ya que existe suficiente conocimiento disponible y el

Laboratorio ya cuenta con las herramientas para su gestión.

Page 10: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

10

Asociación de exámenes frecuentes y agrupamiento de resultados

Antes de interpretar un resultado de examen se debe tener en cuenta que su medición puede ser afectada por

distintas fuentes de variación, entre ellas el coeficiente de variación biológico (CVB) y analítico (CVA). Ahora

bien, para establecer si la variación de dos resultados seriados representan un cambio real en el estado de salud

de un paciente [23], es necesario tomar en cuenta que existe un rango de variación permitida, el cual es calculado

con el “Reference Change Value” o “RCV” del examen. Por ejemplo, si se tuviese que interpretar el resultado

del examen de glucosa “129”, con RCV de “16.65%”, se podría determinar que solo se consideraría que hubo

un cambio real en el estado de salud del paciente si el resultado anterior del mismo estuvo fuera del rango de

variación permitido (108 - 150). Se presenta en la Tabla 3, la información que se debería considerar al momento

de evaluar el resultado de una glucosa 129 respecto de un valor anterior de 145.

Tabla 3. Interpretación de dos resultados de exámenes seriados. Fuente: Elaboración Propia.

Principales fuentes de variación Glucosa

# Resultado CVA CVB RCV

Z (P<0,05)

Valor por

interpretar

Variación

Permitida

Rango de

Referencia

Rango de

Variación

Min Max Min Max

Actual 1.9 6.3 16.65% 129 +/- 21 82 110 108 150

Previo 1.9 6.3 16.65% 145

Aun así, si se lleva esto a las reglas de autoverificación, se podría suponer que un valor glucosa de 129 no sería

autoverificado, ya que una regla de tipo “Patología y Aceptabilidad” determinaría que está fuera del rango de

referencia del examen (82 – 110). No obstante, en una segunda instancia, una regla de “Deltacheck” invertiría

esta decisión y autoverificaría el resultado, considerando que existe una variación “normal” ya que el resultado

anterior está dentro del rango de variación permitido (108 – 150). Por tal motivo, y para agregar un tercer paso

de control al proceso de autoverificación, es necesario que además de interpretar los exámenes por sí mismos,

se puedan correlacionar con otros exámenes asociados, teniendo en cuenta que la variación de dos o más

resultados de exámenes asociados, sí puede ser concluyente en la determinación de un cambio en el estado de

salud de un paciente determinado.

Plan de trabajo

El plan de trabajo considera el uso de la metodología CRISP-DM,

por tanto, se desarrollarán dentro de la investigación cada una de las

fases propuestas por el modelo.

Los motivos que llevan a elegir CRISP-DM y no otra metodología:

Proporciona un ciclo de vida flexible que se puede adaptar a

cualquier tipo de investigación. Véase Figura 2.

Permite aplicar y comprender de mejor manera a la minería de

datos y sus resultados basándose en un proceso jerárquico con

tareas claramente definidas.

Es un estándar abierto que entrega independencia en el uso de

herramientas de minería de datos y es transversal a cualquier tipo

de industria.

Permite dar cumplimiento a los objetivos desde el punto de vista

empresarial, dando preferencia a la comprensión del negocio.

Permite desarrollar proyectos de minería de datos mediante un

proceso estandarizado.

Minimiza los costos que implicaría el llevar a cabo un

proyecto de minería de datos en las empresas. Figura 2. Ciclo de vida de un proyecto CRISP-DM.

Comprensión

del negocio

Comprensión de

los datos

Preparación de

los datos

Modelado

Evaluación

Implementación

Page 11: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

11

Por tanto, se considera que, a través del uso de la metodología CRISP-DM, sumado a la aplicación de algoritmos

de asociación y agrupamiento, será posible determinar si existen exámenes que aún no se han relacionado entre

sí (asociación), para luego evaluar si los “clusters” de resultados que se identifiquen en ellos (agrupamiento)

poseen algún patrón común de comportamiento (asociación) para, finalmente, mejorar las reglas de

autoverificación mediante la incorporación de esta lógica.

3.2 Comprensión de los datos

Se realiza una revisión de los datos disponibles en el sistema informático, no solo priorizando aquellos que son

relevantes para el estudio, sino también, elaborando un repositorio de datos que permita y facilite el análisis de

la información.

Recopilación inicial de datos

Para comprender los datos disponibles en el LIS se realizó un levantamiento de la estructura de la base de datos

encontrando un modelo complejo y difícil de tratar, propio del diseño del sistema informático realizado por el

fabricante. Por tanto, se definió, junto al Laboratorio, el requerimiento de información que permitirá realizar el

análisis de datos; en base a esto se diseñó el modelo de almacén de datos que se describe en la Tabla 4.

Tabla 4. Requerimiento de información para análisis de datos

Almacén de datos

Proceso Grano de representación Dimensiones Información

Resultados

de

laboratorio

Resultados por ámbito de atención, por

examen, por sexo y edad de paciente,

por fecha, por laboratorio de origen.

Examen, Ámbito, Paciente,

Unidad organizativa,

Usuario verificación.

Resultados de

exámenes

Finalmente, un almacén de datos es generado como una vista de base de datos dentro del mismo motor que

aloja los sistemas informáticos de Laboratorio. El nombre de la vista es “bupa_mti_resultados” y el diagrama

relacional y las tablas que la componen están disponibles en el anexo C.

Descripción de los datos

La Tabla 5 muestra, a modo de ejemplo, la descripción de uno de los 21 campos disponibles para análisis en el

almacén “bupa_mti_resultados”; el detalle general de estos está disponible el anexo D.

Tabla 5. Descripción de los datos del almacén “bupa_mti_resultados”. Fuente: Elaboración propia.

Nombre de campo Descripción del

campo

Tipo de

variable Tipo de dato Codificación

Descriptivo Técnico

Nombre del

examen nombre_examen

Identificación

descriptiva del examen.

Cualitativa

nominal Alfanumérico

50

caracteres.

Exploración de los datos

En esta sección se presenta, a modo de ejemplo, el detalle de la exploración realizada sobre el campo “Tipo de

Examen”. El detalle completo está disponible en el anexo E.

Tipos de Examen: dentro de los datos existentes en el almacén se puede encontrar el campo tipo_examen,

que según la exploración realizada puede tomar dos valores, los cuales están descritos en la Tabla 6.

Page 12: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

12

Tabla 6. Tipos de examen. Fuente: Elaboración propia.

Valor Descripción Ocurrencias Porcentaje

0 Examen Padre Simple, posee solo un id_examen, es decir, un registro

de resultado. 16.694 53.9%

1 Examen Padre Múltiple, posee más de un id_examen, es decir, más

de un registro de resultado. 14.266 46.1%

Total 30.960 100.0%

Verificación de la calidad de los datos

En esta sección se examinan los datos y se evalúa su completitud, por ejemplo, si existen valores nulos, o bien

si contienen errores y su frecuencia. Finalmente, se presentan los errores detectados y una propuesta de solución

para cada uno de ellos.

Problema 1

─ Tipo: resultados no numéricos en exámenes cuyo tipo de resultado es numérico. De un total de 14.272

registros de resultado de tipo numérico se encontraron 699 que contenían valores no numéricos, por tanto,

deberán ser filtrados del conjunto de datos ya que estos, de ser considerados, generarán un error al procesar

los datos en los algoritmos de asociación. El detalle está disponible en el anexo F.

─ Solución: las filas serán excluidas del conjunto de datos a través de un filtro que contiene la siguiente

expresión regular “[+-]?([0-9]*[.])?[0-9]+”.

Problema 2

─ Definición: examen sin tipo de resultado definido. De un total de 15.708 registros de resultados de

exámenes cuyo tipo de examen es simple, solicitable, se encontraron 211 registros nulos, es decir, que su

resultado no posee una categoría definida y parametrizada dentro del sistema informático.

─ Solución: todos los registros de exámenes sin tipo de resultados serán eliminados del conjunto de datos a

través de un filtro “no_missing_attributes” disponible en RapidMiner.

3.3 Preparación de los datos

Selección de los datos

Del almacén de datos se selecciona un conjunto de campos los cuales se han definido, junto con el equipo de

laboratorio, como mínimos para poder ejecutar procesos de asociación y agrupamiento. Así también estos

campos son utilizados en la interpretación de los resultados que se desprendan de procesos donde se apliquen

estos algoritmos. La Tabla 7 representa, a modo de ejemplo, 1 de los 14 campos que fueron seleccionados y el

motivo de su inclusión. El detalle completo de campos está disponible en el anexo G.

Tabla 7. Campo seleccionado de “bupa_mti_resultados”. Fuente: Elaboración propia.

Nombre campo Motivo Inclusión / Exclusión

Descriptivo Técnico

Tipo de

examen tipo_examen

Utilizado para filtrar aquellos registros de resultados de exámenes cuyo tipo

de examen sea “simple”, es decir, que posee 1 componente o 1 resultado.

Limpieza de los datos

El conjunto inicial de datos posee 32.951 registros, correspondientes a todos los registros de resultados cuya

solicitud de exámenes provino de unidades organizativas de Clínica Bupa Santiago. De estos se excluyen los

siguientes, en el mismo orden de presentación:

Page 13: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

13

Fecha de resultado: fueron excluidos del conjunto de datos 1.991 registros cuya fecha de resultado

era inferior a la fecha de apertura del laboratorio de Clínica Bupa Santiago, el 11 de junio de 2018 09:00:00

hrs, o mayor a la fecha de corte que se definió junto a laboratorio, el 15 de octubre de 2018 06:00:00 hrs.

Una vez finalizada la limpieza, la cantidad de registros del conjunto de datos se redujo a 30.960.

Tipo de examen: fueron excluidos del conjunto de datos 14.266 registros de resultado cuyo tipo de

examen padre es “múltiple”, lo que equivale al 46.1% del total de registros que pasaron el filtro anterior.

Los exámenes múltiples son los que se presentan con menor frecuencia en comparación con el tipo de

examen simple, que posee 16.694 ocurrencias dentro de un total de 30.906 exámenes padre, lo que equivale

al 53.9% del total. Adicionalmente, cabe mencionar que el tratamiento de los exámenes simples es menos

complejo pues su estructura de un resultado. Una vez finalizada la limpieza, la cantidad de registros del

conjunto de datos se redujo a 16.694.

Examen solicitable: fueron excluidos del conjunto de datos 986 registros de exámenes padre cuyo

tipo solicitable es “NO”, lo que equivale al 5.9% del total de exámenes simples que pasaron el filtro anterior,

dado que son los que se presentan con menor frecuencia en comparación con los exámenes tipo solicitable

“SI”, que posee 15.708 ocurrencias dentro de un total de 16.694, lo que equivale al 94.1% del total de

exámenes padres. Una vez finalizada la limpieza, la cantidad de registros del conjunto de datos se redujo a

15.708.

Tipo de resultado: fueron excluidos del conjunto de datos 1.436 registros de resultados cuyo tipo de

resultado es “Sigla”, “Árbol Decisional” o “Nulo”, los que sumados equivalen al 9.1% del total de registros

de exámenes simples y solicitables que pasaron el filtro anterior, dado que son los que se presentan con

menor frecuencia en comparación con los exámenes cuyo tipo resultado es “Numérico”, que posee 14.272

ocurrencias dentro de un total de 15.708, lo que equivale al 90.9% del total de registros. Una vez finalizada

la limpieza, la cantidad de registros del conjunto de datos se redujo a 14.272.

Tipo de valor de referencia: fueron excluidos del conjunto de datos 6.454 registros de resultados

cuyo tipo de valor de referencia es “por sexo”, “por edad”, “por sexo y edad”, “por sexo y semana de

embarazo” o “Nulo”, los que sumados equivalen al 45.1% del total de registros de exámenes simples,

solicitables y con tipo de resultado numérico que pasaron el filtro anterior, dado que son los que se presentan

con menor frecuencia en comparación con los exámenes cuyo tipo de valor de referencia es “constante”,

que posee 7.821 ocurrencias dentro de un total de 14.272, lo que equivale al 54.9% del total de registros.

Una vez finalizada la limpieza, la cantidad de registros del conjunto de datos se redujo a 7.821, equivalente

al 23.7% del total de registros del conjunto inicial de datos.

Construcción de los datos

Para la construcción del conjunto final datos se considera que el Laboratorio necesita optimizar las reglas de

autoverificación de “plausibilidad”, es decir, aquellas que comparan los valores de exámenes relacionados. Por

lo tanto, el proceso de construcción de datos en primer lugar buscará conjuntos de exámenes frecuentes y luego,

generará los grupos de resultados para cada uno de los exámenes que estén dentro de una asociación.

3.3.3.1 Primera tarea: Asociación de exámenes frecuentes

El objetivo de esta tarea es conocer cuáles son los exámenes que se presentan con mayor frecuencia dentro de

una misma solicitud. Como entrada se utiliza el conjunto inicial de datos y como salida se provee uno que

servirá de entrada para la siguiente tarea de construcción.

El algoritmo escogido para este proceso es FP-Growth, ya que, luego de probar otras opciones como Apriori o

Eclat, es el que provee mayor eficiencia al relacionar variables del tipo nominal (nombre de exámenes) y mayor

eficiencia computacional al trabajar niveles de soporte inferiores al 20%. La configuración del algoritmo se

Page 14: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

14

estableció con un mínimo de soporte del 10%, un máximo de 5 itemsets y un límite de 2 items (exámenes) para

cada uno de ellos, de manera tal que este trabajo inicial permita evaluar las técnicas de minería de datos con

reglas simples y, posteriormente, dependiendo de los resultados obtenidos, evaluar si se amplía la complejidad

de las asociaciones en un próximo trabajo.

En primer lugar se evaluó la asociación de exámenes frecuentes para cada uno de los ámbitos de atención, y

como resultado se obtuvo que en todos ellos los exámenes que predominan en la lista de asociaciones

corresponden a POTASIO (0303032B) y el SODIO (0302032C). La Tabla 8 presenta el detalle de las

asociaciones que obtuvieron el mayor nivel de soporte dentro de cada uno de los ámbitos.

Tabla 8. Exámenes frecuentes con mayor soporte, por ámbito. Fuente: Elaboración propia.

Asociación de exámenes por ámbito

Tamaño del

itemset

Nivel de

Soporte Ámbito Ítem 1 Ítem 2

2 38.5% Ambulatorio E_0302032B_POTASIO E_0302032C_SODIO

2 59.8% Hospitalizados E_0302032B_POTASIO E_0302032C_SODIO

2 63.6% UPCS E_0302032B_POTASIO E_0302032C_SODIO

2 40.5% Urgencia E_0302032C_SODIO E_0302032B_POTASIO

Luego, se determina junto con el equipo de Laboratorio que es conveniente aumentar la cantidad de

asociaciones, ya que una no sería significativa para validar la hipótesis. Por lo tanto, se ejecuta una segunda

iteración modificando el valor del parámetro “número máximo de asociaciones” desde 5 a 100, y el parámetro

“Factor de disminución de requisitos” desde 1 a 0 para obtener incluso aquellas que están bajo el 10% de soporte

requerido. Finalmente, se obtienen más de 100 asociaciones de las cuales se eligen dos: la primera, compuesta

por el examen TSH (303024) y T4 LIBRE (303026) y en el segundo lugar de la lista, con un valor para todos

los ámbitos del 26.3% de soporte, debido a que existe conocimiento disponible que permitiría comparar los

resultados del modelo y validar la hipótesis; y la segunda, compuesta por el examen VITAMINA B12 (302077)

y 25 OH VITAMINA D (302078) en el último lugar de la lista y con un valor para todos los ámbitos del 1.3%

de soporte, debido a que no existe conocimiento disponible y permitiría evaluar si existe nuevo conocimiento

clínicamente significativo para la asociación de los resultados de ambos exámenes.

3.3.3.2 Segunda tarea: Agrupamiento de resultados

El objetivo de esta tarea es generar los “n” grupos de resultados para cada uno de los exámenes que contiene el

conjunto de datos de salida del proceso de asociación de exámenes frecuentes. Para ello, se utiliza el algoritmo

“K-means”, ya que, de acuerdo con literatura disponible, es en la actualidad el más utilizado tanto en la industria

como en investigaciones científicas, gracias a la eficiencia y bajo consumo de recursos computacionales que

necesita para procesar grandes cantidades de datos. Del mismo modo, y aunque presente mayor sensibilidad al

ruido respecto de “K-medoids”, es preciso mencionar que un examen puede tener resultados extremos (outliers)

que no deben ser descartados del proceso de agrupamiento.

La configuración del algoritmo se estableció con la opción de incorporar la columna “cluster” al conjunto de

datos de salida, la que permitirá identificar explícitamente el nombre del cluster al que pertenece el resultado.

Asimismo, se define el tipo de dato a procesar como “numérico” y la métrica de distancia como “Euclidiana”,

ya que, aunque el resultado sea similar a las otras opciones evaluadas (“Chebyshev”, “Euclidiana”, “Manhattan”

y “Camberra”), dentro la literatura disponible existe más evidencia respecto del uso y eficiencia que la métrica

“Euclidiana” proporciona para el procesamiento de datos numéricos.

Finalmente, se define junto a Laboratorio que el valor del parámetro “k” (número de “clusters”) no puede ser

fijo y se debe ajustar hasta que el rango de resultados de al menos un “cluster” esté dentro del rango de

referencia del examen. Por ejemplo, si se ejecuta el algoritmo con un valor “k” igual a dos para el examen

“Potasio” y se obtienen dos “clusters”: el primero con valores entre 2.40 y 4.24, y el segundo con valores entre

Page 15: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

15

4.26 y 7.60, ambos fuera del rango de referencia con valores entre 3.5 y 5.0, se deberá aumentar el valor de “k”

hasta que se cumpla la condición establecida por Laboratorio. De acuerdo con esta definición, para el

agrupamiento de los resultados del examen Potasio se llegó a un valor k=3, para Sodio un k=3, para TSH un

k=8, para T4 Libre un k=5, para Vitamina B12 un k=3 y, por último, para Vitamina D un k=3; sin encontrar un

único k que integre el clustering de todos los exámenes.

Como salida se obtendrá un conjunto de datos para cada examen cuya estructura estará compuesta por las

columnas claves “Solicitud”, “Cluster” y “Nombre Examen”. A modo de ejemplo, se presenta en la Tabla 9 los

dos primeros registros del conjunto de datos de salida para el examen Potasio.

Tabla 9. Extracto de cluster de resultados generado para examen Potasio. Fuente: Elaboración propia.

Solicitud Cluster Potasio

24971035 cluster_2 2.4

24961979 cluster_2 2.6

Finalmente, se elabora un último conjunto de datos para cada examen con información complementaria que

contiene los valores de referencia utilizados como base para definir la cantidad de “clusters” de cada examen.

A modo de ejemplo, se presenta en la Tabla 10 el detalle de los “clusters” generados para el examen Potasio.

Adicionalmente, se incorpora la comuna “Dentro del VR” que identifica el “cluster” de resultados que está del

rango de valores de referencia. El detalle de los “clusters” está disponible en el anexo H.

Tabla 10. Clusters de resultados del examen Potasio (k = 3). Fuente: Elaboración propia.

Nombre

Clúster

Cantidad de

Resultados

Porcentaje

del Total

Centroide

del clúster

Valor

inicial

Valor

final

VR

Min

VR

Max

Unidad

Medida

Dentro

del VR

Clúster 0 778 54.4% 4.33 3.96 4.85 3.5 5.0

mEq/L

SI

Clúster 1 524 36.7% 5.38 4.90 7.60 3.5 5.0 NO

Clúster 2 127 8.9% 3.59 2.40 3.95 3.5 5.0 NO

Totales 1429 100%

Formateo de los datos

El objetivo de esta tarea es modificar la estructura de los 6 conjuntos de salida obtenidos de la tarea de

construcción “Agrupamiento de resultados”, y proveer como salida la misma cantidad de conjuntos, pero con

un formato distinto que facilite y permita la unión de los conjuntos de datos de los exámenes relacionados.

Para la restructuración de los conjuntos de datos se utilizan distintos operadores disponibles en la herramienta

RapidMiner, tales como: selección de campos (solicitud y cluster), función de agregación “count” sobre el

campo cluster, renombre de campo count(cluster), definición de rol para campo solicitud como ID y

transposición de columnas (“pivot”). Finalmente, se modifica el tipo de dato obtenido por la función “count”

desde numérico a binominal, de tal manera que las ocurrencias con valor “1” asuman el valor “true”, y las no

ocurrencias con valor “0” tomen el valor “false”.

Como resultado se obtiene el conjunto de datos final cuya estructura se compone de la columna principal

“Solicitud”, seguido de las columnas que identifican a cada “cluster” del examen. A modo de ejemplo, se

presentan en la Tabla 11 los dos primeros registros del conjunto de datos generado para el examen Potasio.

Tabla 11. Estructura de nuevo conjunto de datos generado para examen Potasio. Fuente: Elaboración propia.

Solicitud Cluster 0 Cluster 1 Cluster 2

24736862 true false false

24755484 false true false

Page 16: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

16

Integración de datos

El objetivo de esta tarea es integrar los 6 conjuntos de salida obtenidos de la tarea de formateo de datos, y

proveer como salida 3 nuevos conjuntos, uno por cada asociación de examen, que en definitiva permitirá

representar cuándo un “examen A – cluster X” está presente en una misma solicitud de exámenes con el

“examen B – cluster Y”.

Antes de avanzar en la integración de los conjuntos los datos es necesario renombrar los campos con nombres

genéricos para que, una vez unidos, se puedan diferenciar entre sí. Una vez concluida esta actividad, ya es

posible realizar la unión de los conjuntos de datos.

A modo de ejemplo, se presenta en la Tabla 12 los nombres que tomaron los “clusters” de los conjuntos de

datos potasio y sodio. El detalle completo de todas las uniones está disponible en el anexo I.

Tabla 12. Elaboración del conjunto final de datos para potasio y sodio. Fuente: Elaboración propia.

Conjunto de datos de entrada Conjunto final de

datos Campos MTI_CLUSTER_POTASIO MTI_CLUSTER_SODIO

Nombre de campo Nuevo nombre de campo

Clúster 0 K_Grupo1 NA_Grupo1

MTI_FP_K+NA Clúster 1 K_Grupo2 NA_Grupo2

Clúster 2 K_Grupo3 NA_Grupo3

La estructura de cada conjunto final quedó compuesta por la columna “solicitud” como valor clave, seguida de

las columnas que identificarán a cada “cluster” de examen con su nuevo nombre de campo. A modo de ejemplo,

la Tabla 13 representa los tres primeros registros del conjunto “MTI_FP_K+NA”.

Tabla 13. Estructura de datos para relacionar resultados de Potasio y Sodio. Fuente: Elaboración propia.

Solicitud K_Grupo1 K_Grupo2 K_Grupo3 NA_Grupo1 NA_Grupo2 NA_Grupo3

24736862 true false false true false false

24755484 false true false true false false

24760845 false true false false true false

3.4 Modelado

Técnica de modelado

La técnica de modelado final utilizada para asociar los resultados de exámenes se basa en el algoritmo FP-

Growth, considerado el más adecuado, ya que, luego de probar otras opciones como Apriori o Eclat, es el que

provee mayor eficiencia al relacionar variables del tipo nominal (nombre de cluster de resultados) y mayor

eficiencia computacional al trabajar niveles de soporte inferiores al 20%.

Diseño de prueba

El diseño inicial del modelo considera como datos de entrada los 3 conjuntos de salida generados en el proceso

de integración, y su contenido es enviado directamente al algoritmo de asociación FP-Growth para

procesamiento y evaluación. Junto con esto, y para seleccionar la mejor configuración del algoritmo, se

probaron las distintas opciones disponibles en cada parámetro, como, por ejemplo: “Formato de entrada” (lista

de itemes en una columna, en columnas separadas o columnas autogeneradas), “Requerimiento mínimo”

(soporte y frecuencia), “número mínimo y máximo de ítems” y “Factor de disminución de requisitos”.

Page 17: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

17

Finalmente, como salida se obtiene el “FrequentItemesets”, conjunto de datos que contiene el detalle de las

asociaciones, y un “ExampleSet”, el resumen de los itemes frecuentes y el respectivo soporte para cada uno de

ellos que permite interpretar de mejor manera los resultados del modelo.

Construcción del modelo

En esta sección se lleva a cabo la construcción y configuración del modelo final, que tiene por objetivo

identificar el porcentaje de probabilidad que existe para que un “cluster A” de un “examen X” esté presente en

una solicitud de exámenes junto con un “cluster B” de un “examen Y”.

Se presenta en la Tabla 14 la configuración final del algoritmo, establecida luego de haber evaluado distintas

opciones en el diseño de pruebas.

Tabla 14. Configuración del modelo final, algoritmo “FP-Growth”. Fuente: Elaboración Propia.

Parámetro Valor Comentarios

Soporte mínimo 10% Frecuencia relativa mínima de la asociación, respecto

del total de asociaciones.

Número mínimo de itemes 2 Solo se buscan asociaciones de dos exámenes.

Número máximo de itemes 2 Solo se buscan asociaciones de dos exámenes.

Número mínimo de conjunto de itemes 5 5 asociaciones, definido por Laboratorio.

Número máximo de conjunto de

itemes. Sin límite Todas las asociaciones con 10% o más de soporte.

Número máximo de intentos 15 Valor óptimo para la ejecución del algoritmo.

Factor de disminución de requisitos 1 1 = Soporte mínimo | < 1 = Baja el punto de corte del

soporte para llegar a la cantidad mínima de itemes.

4 Evaluación del modelo y resultados

En esta sección se detalla el proceso de evaluación del modelo y resultados que constan de dos iteraciones

donde, junto a un comité de expertos del Laboratorio ELSA, se revisa el conjunto de datos de salida del modelo

y se establecen conclusiones respecto al aporte que estos podrían generar en el mejoramiento de reglas de

autoverificación.

4.1 Primera iteración

Antes de comenzar con la revisión inicial, cabe señalar que el conjunto de datos de salida del modelo no contiene

la información necesaria para que los profesionales del Laboratorio puedan interpretar fácilmente las

asociaciones. En este contexto, antes de comenzar la evaluación se elabora, junto a los expertos, un nuevo

conjunto de datos que simplifique la comprensión de los resultados del modelo.

En primera instancia se etiquetan los “clusters” según la posición del rango de valores de resultados que estos

contengan, respecto al rango de referencia de cada examen. Si está dentro, se considera “normal”; si está por

debajo, se considera “bajo”. En segunda instancia, y solo para aquellos exámenes que posean más de un cluster

“bajo” o “alto”, se añade a la etiqueta un sufijo numérico e incremental, comenzando el primer cluster con el

valor “1” y aumentando sucesivamente de 1 en 1 hasta el último cluster que exista. En el caso de aquellos

exámenes que posean solo un cluster con etiqueta “bajo” o “alto”, se prescindirá del sufijo. El detalle del

proceso de clasificación está disponible en el anexo J.

Finalmente, se define la estructura del conjunto de datos y, a modo de representación, se presenta en la Tabla

15 una asociación de “clusters” entre los exámenes Potasio y Sodio. Los conjuntos de datos para cada una de

las asociaciones están disponibles en el anexo K.

Page 18: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

18

Tabla 15. Estructura de conjunto de datos para evaluación de modelo y resultados. Fuente: Elaboración propia.

Tabla para la evaluación del modelo y sus resultados para examen potasio y sodio.

Nivel

de

Soporte

Examen Potasio Examen Sodio

Ítem 1 Min Max Ref. VR

Min

VR

Max Ítem 2 Min Max Ref.

VR

Min

VR

Max

35.5% K_Grupo1 3.96 4.85 normal 3.5 5.0 NA_Grupo1 137.3 143.7 normal 135.0 145.0

El conjunto de datos está conformado por una columna principal llamada “Nivel de Soporte”, que es transversal

a la asociación, seguida de 12 columnas, 6 por cada examen, cuyos significados son:

Ítem (n): Identificación del cluster dentro de la asociación.

Min – Max: Límite inferior y superior de los valores de resultados que contiene el cluster.

Etiqueta: Clasificación otorgada por el Laboratorio al rango de valores de resultados cada cluster.

VR Min - VR Max: Límite inferior y superior del rango de referencia de cada examen.

Primera Iteración | Asociación potasio y sodio

Respecto del modelo se puede concluir que los resultados no están conforme a lo esperado, es decir, que el

conjunto de datos contiene solo 3 asociaciones sobre el 10% de soporte, siendo que el mínimo establecido en

la configuración del algoritmo fue de 5 asociaciones. Por lo tanto, y con el fin de ampliar los valores de corte,

se modifica el valor del parámetro “Factor de disminución de requisitos” desde 1 a 0.8, valor que sí permite

obtener las 5 asociaciones esperadas, independiente de si consiguen o no el mínimo de 10% de soporte

requerido. Finalmente, cabe señalar que las 5 asociaciones del conjunto representan un 87.2% de los eventos

presentes, por lo tanto, existe un 12.8% que no son considerados dentro de esta primera iteración. Ahora bien,

al revisar los resultados es posible concluir que solo 1 de las 5 asociaciones es clínicamente significativa, que

por si equivale al 35.5% de los eventos presentes. Para las 4 asociaciones restantes, no se identifica un patrón

de comportamiento que permita establecer una correlación clara entre los resultados. En definitiva, solo es

posible establecer una conclusión cuya descripción se presenta en la Tabla 16.

Tabla 16. Conclusiones de primera iteración para sodio y potasio. Fuente: Elaboración Propia.

De todas maneras, es importante señalar que estos resultados confirman lo que ya se sabe y son concordantes

con el conocimiento disponible, siendo un aporte a la validación de la metodología y el uso de técnicas de

minería de datos en el análisis del comportamiento de resultados de exámenes de laboratorio clínico.

Primera Iteración | Asociación TSH – T4L

Respecto del modelo se puede concluir que los resultados no están conforme a lo esperado, es decir, que el

conjunto de datos solo contiene 3 asociaciones sobre el 10% de soporte, siendo que el mínimo establecido en

la configuración del algoritmo fue de 5 asociaciones. Por lo tanto, y con el fin de ampliar los valores de corte,

se modifica el valor del parámetro “Factor de disminución de requisitos” desde 1 a 0.9, valor que sí permite

llegar a cantidad de 5 ítems frecuentes esperados, independiente de si consiguen o no el mínimo de 10% de

soporte requerido. Finalmente, cabe señalar que las 5 asociaciones del conjunto representan un 80.4% de los

eventos presentes, por lo tanto, existe un 19.6% que no son considerados dentro de esta primera iteración. Ahora

bien, al revisar los resultados se puede concluir que solo 3 de las 5 asociaciones son clínicamente significativas,

de las cuales 2 presentan el mismo comportamiento representando a un 43.8% de los eventos, y la última, que

# Declaración Soporte Conclusión Etiqueta

1 Con un 35.5% SI, resultado.Potasio es >= 3.96 Y <= 4.85 “normal”

Entonces, resultado.Sodio es >= 137.7 Y <= 143.7 “normal”

2 Con el restante 51.7% No es posible establecer conclusiones clínicamente significativas.

Page 19: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

19

equivale por si misma al 20.1% de los eventos presentes. Para las 2 asociaciones restantes, no se identifica un

patrón de comportamiento que permita establecer una correlación clara entre los resultados. En definitiva, solo

es posible establecer dos conclusiones cuyas descripciones se presentan en la Tabla 17.

Tabla 17. Conclusiones de primera iteración para TSH y T4L. Fuente: Elaboración Propia.

De todas maneras, es importante señalar que solo la segunda asociación confirma lo que ya se sabe y es

concordante con el conocimiento disponible. La primera asociación, por el contrario, corresponde a nuevo

conocimiento dado que no existe literatura disponible que refleje la asociación de estos clusters de resultados

en estos dos exámenes.

Primera Iteración | Asociación Vitamina B12 – Vitamina D

Respecto del modelo se puede concluir que los resultados no están conforme a lo esperado, es decir, que el

conjunto de datos solo contiene 4 itemes frecuentes sobre el 10% de soporte, siendo que el mínimo establecido

en la configuración del algoritmo fue de 5 asociaciones. Por lo tanto, y con el fin de ampliar los valores de corte,

se modifica el valor del parámetro “Factor de disminución de requisitos” desde 1 a 0.9, valor que sí permite

llegar a cantidad de 5 itemes frecuentes esperados, independiente de si consiguen o no el mínimo de 10% de

soporte requerido. Finalmente, cabe señalar que las 5 asociaciones del conjunto representan un 83% de los

eventos presentes, por lo tanto, existe un 17% que no son considerados dentro de esta primera iteración. Ahora

bien, al revisar los resultados se puede concluir que 3 de las 5 asociaciones son clínicamente significativas, de

ellas 2 presentan una relación inversamente proporcional representando un 43.8% de los eventos presentes y.

la última, que equivale al 6.8% de los eventos presentes. Para las 2 asociaciones restantes, no se identifica un

patrón de comportamiento que permita establecer una correlación clara entre los resultados. En definitiva, solo

es posible establecer tres conclusiones cuya descripción se presenta en la Tabla 18.

Tabla 18. Conclusiones de primera iteración para VB12 y VD. Fuente: Elaboración Propia.

De todas maneras, es importante señalar que las tres asociaciones corresponden a nuevo conocimiento y se

convierte en un aporte a la validación de la metodología y el uso de técnicas de minería de datos en el análisis

del comportamiento de resultados de exámenes de laboratorio clínico.

# Declaración Soporte Conclusión Etiqueta

1 Con un 43.8% SI, resultado.TSH es >= 0.00 Y <= 1.95 “bajo”

Entonces, resultado.T4L es >= 1.25 Y <= 1.88 “normal”

2 Con un 20.1% SI, resultado.TSH es >= 1.96 Y <= 3.98 “normal”

Entonces, resultado.T4L es >= 1.02 Y <= 1.24 “normal”

3 Con el restante 16.5% No es posible establecer conclusiones clínicamente significativas

# Declaración Soporte Conclusión Etiqueta

1 Con un 27.1% SI resultado.VB12 es >= 594 Y <= 1000 “alto”

Entonces, resultado.VD es >= 4.2 Y <= 10.8 “bajo”

2 Con un 10.2% SI resultado.VB12 es >= 150 Y <= 311 “bajo”

Entonces, resultado.VD es >= 19.9 Y <= 29.1 “alto”

3 Con un 6.8% SI resultado.VB12 es >= 320 Y <= 533 “normal”

Entonces, resultado.VD es >= 12.0 Y <= 19.2 “normal”

4 Con el restante 38.9% No es posible establecer conclusiones clínicamente significativas

Page 20: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

20

4.2 Segunda iteración

Segunda Iteración | Asociación Potasio - Sodio

Se puede identificar que con la configuración actual de algoritmo no se visualiza una relación para el cluster

“K_Grupo2” del potasio, que presenta los valores más elevados (“alto”), mientras que para el sodio existen

ocurrencias para los tres “clusters” disponibles en el conjunto de datos. Por lo tanto, y con el objetivo de

analizar el comportamiento del sodio cuando el potasio presenta resultados “altos”, se modifica el valor del

parámetro “Factor de disminución de requisitos” desde 0.9 a 0.6, valor que sí permite obtener dos relaciones

que incluyen el cluster faltante cuyo detalle se presenta en la Tabla 19.

Tabla 19. Conclusiones de segunda iteración para Potasio y Sodio. Fuente: Elaboración Propia.

Finalmente, se puede concluir que cuando el potasio está “alto” respecto a su rango de referencia, el sodio tiene

un comportamiento aleatorio y con muy bajo porcentaje de eventos, siendo estas asociaciones no determinantes,

por ende, no es posible establecer conclusiones respecto de ellas.

Segunda Iteración | Asociación TSH – T4L

Se puede identificar que a pesar de que la TSH posee 6 desviaciones sobre el rango de referencia (desde “alto1”

hasta “alto6”), con la configuración actual del algoritmo no se visualiza una relación para el cluster

“TSH_Grupo7”, que presenta los valores más elevados (“alto6”). De la misma manera, y a pesar de que la T4L

posee 3 desviaciones sobre el rango de referencia (desde “alto1” hasta “alto3”), con la configuración actual del

algoritmo tampoco se visualiza una relación para el cluster T4L_Grupo2, que presenta los valores más elevados

(“alto3”). Por lo tanto, y con el objetivo de analizar el comportamiento de cada examen cuando el otro presenta

los resultados más elevados, se modifica el valor del parámetro “Factor de disminución de requisitos” desde 0.9

a 0.0, valor que sí permite obtener una relación que incluye el cluster faltante de TSH y una que incluye el

cluster faltante de la T4L. En la Tabla 20 se presenta el detalle de las conclusiones respecto a estos hallazgos.

Tabla 20. Conclusiones de segunda iteración para TSH y T4L. Fuente: Elaboración Propia.

Finalmente, se puede concluir que ambos exámenes presentan una relación inversamente proporcional sumando

un 0.4% de los eventos presentes; sin embargo, se plantea como un punto a discutir dado que la cantidad de

eventos no es suficientemente significativa como para generar una conclusión determinante. De todas maneras,

es importante señalar que estos resultados confirman lo que ya se sabe y son concordantes con el conocimiento

disponible.

Segunda Iteración | Asociación Vitamina B12 – Vitamina D

En la segunda y última iteración de la tarea de evaluación de resultados, se puede mencionar que los resultados

evaluados en la primera iteración no presentan observaciones de consideración. Sin embargo, y con el objetivo

# Declaración Soporte Conclusión Etiqueta

1 Con un 4.8% SI resultado.Potasio es >= 4.9 Y <= 7.6 “alto”

Entonces, resultado.Sodio es >= 137.3 Y <= 143.7 “normal”

2 Con un 3.7% SI resultado.Potasio es >= 4.9 Y <= 7.6 “bajo”

Entonces, resultado.Sodio es >= 115.0 Y <= 137.2 “bajo”

# Declaración Soporte Conclusión Etiqueta

1 Con un 0.2% SI, resultado.TSH es >= 139.60 Y <= 139.60 “alto6”

Entonces, resultado.T4L es >= 0.22 Y <= 1.01 “bajo”

2 Con un 0.2% SI, resultado.TSH es >= 0.0 Y <= 1.95 “bajo”

Entonces, resultado.T4L es >= 5.75 Y <= 5.75 “alto3”

Page 21: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

21

de analizar si se repite el comportamiento de las asociaciones de exámenes cuando el porcentaje de probabilidad

es menor al último registro revisado en la primera iteración, se modifica el valor del parámetro “Factor de

disminución de requisitos” desde 0.9 a 0.0, valor que permite cuatro nuevas asociaciones con al menos un 1%

de los eventos presentes. En la Tabla 21 se presenta el detalle de las conclusiones respecto a estos hallazgos.

Tabla 21. Conclusiones de segunda iteración para VB12 y VD. Fuente: Elaboración Propia.

Finalmente, se puede concluir que estas asociaciones presentan un comportamiento aleatorio y representan un

bajo porcentaje de los eventos presentes, por ende, no es posible establecer conclusiones respecto de ellas.

5 Validación de la hipótesis

La finalidad de esta sección es verificar si los resultados obtenidos por el modelo mejoran la eficiencia de las

reglas de autoverificación de laboratorio y, en consecuencia, confirmar o refutar la hipótesis planteada. En

primer lugar, se verificará si para las asociaciones de exámenes proporcionadas por el modelo existen reglas de

autoverificación dentro del sistema experto. Luego, se analizará si existen similitudes entre las reglas existentes

y las asociaciones de resultados de cada uno de los exámenes asociados y, finalmente, se verificará para cada

una de las asociaciones resultantes del modelo, si los resultados de exámenes contenidos en cada una de ellas

fueron verificados de forma manual o automática.

5.1 Reglas de plausibilidad

Hoy en día existen tres reglas de plausibilidad en “Prometeo”, todas relacionadas a una de las asociaciones

identificadas por el modelo: TSH y T4L; para las otras dos asociaciones solo es posible identificar reglas de

“Patología y Aceptabilidad” que no evalúan resultados de exámenes asociados. Por tanto y como primera

conclusión, es posible indicar que la minería de datos sí permite descubrir nuevo conocimiento aportando una

asociación para los exámenes TSH y T4L y tres asociaciones para los exámenes Vitamina B12 y Vitamina D.

Comparación regla #1

De acuerdo con lo observado en la Tabla 22, es posible señalar que los rangos de resultados obtenidos por la

asociación #1 [0.2%] del modelo, son semejantes a los rangos de resultados de la primera regla existente. Si

bien no existe coincidencia 100% exacta, se podría validar el modelo considerando que los resultados obtenidos

son concordantes con el conocimiento disponible.

# Declaración Soporte Conclusión Etiqueta

1 Con un 6.8% SI resultado.VB12 es >= 150 Y <= 311 “bajo”

Entonces, resultado.VD es >= 4.2 Y <= 10.8 “bajo”

2 Con un 5.1% SI resultado.VB12 es >= 320 Y <= 533 “normal”

Entonces, resultado.VD es >= 4.2 Y <= 10.8 “bajo”

3 Con un 3.4% SI resultado.VB12 es >= 320 Y <= 533 “normal”

Entonces, resultado.VD es >= 19.9 Y <= 29.1 “alto”

4 Con un 1.7% SI resultado.VB12 es >= 594 Y <= 1000 “alto”

Entonces, resultado.VD es >= 19.9 Y <= 29.1 “alto”

Page 22: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

22

Tabla 22. Similitud entre regla existente #1 y asociación resultante del modelo. Fuente: Elaboración Propia.

Comparación regla #2

De acuerdo con lo observado en la Tabla 23, es posible señalar que los rangos de resultados obtenidos por la

asociación #2 [0.2%] del modelo, son semejantes a los rangos de resultados de la segunda regla existente. Si

bien no existe coincidencia 100% exacta, se podría validar el modelo considerando que los resultados obtenidos

son concordantes con el conocimiento disponible.

Tabla 23. Similitud entre regla existente #2 y asociación resultante del modelo. Fuente: Elaboración Propia.

Comparación regla #3

De acuerdo con lo observado en la Tabla 24Tabla 26, es posible señalar que los rangos de resultados obtenidos

por la asociación #1 [0.2%] del modelo, son semejantes a los rangos de resultados de la tercera regla existente.

Si bien no existe coincidencia 100% exacta, se podría validar el modelo considerando que los resultados

obtenidos son concordantes con el conocimiento disponible.

Tabla 24. Similitud entre regla existente #3 y asociación resultante del modelo. Fuente: Elaboración Propia.

5.2 Validación de hipótesis

Se busca validar la hipótesis planteada y confirmar si existen reglas de autoverificación susceptibles de ser

mejoradas. En concreto, si todos los resultados de exámenes fueron verificados de forma automática se refutaría

la hipótesis, asumiendo que hoy estos ya son pesquisados por alguna regla existente que no necesita ser

mejorada. Por el contrario, si existiese al menos un resultado de examen que fue verificado de forma manual,

se confirmaría la hipótesis asumiendo que hoy no existe una regla que pesquise estos resultados.

En este contexto, a continuación, se presenta en la Tabla 25 el indicador (KPI) diseñado para obtener el

porcentaje de resultados que presentan verificación manual respecto del total de resultados del conjunto de datos

que esté siendo analizado.

# Tipo de Regla Regla Existente Conclusión

1

#1 existente en

“Prometeo”

Elimina Aceptabilidad T4L

por TSH alta.

SI, resultado.TSH es > 10 Y <= 150

Entonces, resultado.T4L es <= 0.5

Resultado

Modelo

#1 TSH-T4L, Segunda

Iteración. Probabilidad 0.2%

SI, resultado.TSH es >= 139.60 Y <= 139.60

Entonces, resultado.T4L es >= 0.22 Y <= 1.01

# Tipo de Regla Regla Existente Conclusión

2

#2 existente en

“Prometeo”

Autoverifica T4L alta por

TSH baja.

SI, resultado.TSH es < 0.5

Entonces, resultado.T4L es >= 1.5

Resultado

Modelo

#2 TSH-T4L, Segunda

Iteración. Probabilidad 0.2%

SI, resultado.TSH es >= 0.0 Y <= 1.95

Entonces, resultado.T4L es >= 5.75 Y <= 5.75

# Tipo de Regla Regla Existente Conclusión

3

#3 existente en

“Prometeo”

Autoverifica T4L baja por

TSH alta.

SI, resultado.TSH es >= 6.0 Y <= 150

Entonces, resultado.T4L es >= 0.1 Y <= 0.77

Resultado

Modelo

#1 TSH-T4L, Segunda

Iteración. Probabilidad 0.2%

SI, resultado.TSH es >= 139.60 Y <= 139.60

Entonces, resultado.T4L es >= 0.22 Y <= 1.01

Page 23: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

23

Tabla 25. Indicador (KPI) – Porcentaje de resultados con verificación manual.

Indicador (KPI) - % de resultados con verificación manual

cantidad de resultados con validación manual X 100 = % resultados con validación manual

cantidad total de resultados

Finalmente, es posible determinar que hoy un 21.2% de resultados de exámenes pertenecientes a una asociación

resultante del modelo de minería datos no son autoverificados, lo que permite validar la hipótesis planteada

considerando que si existe la posibilidad de generar o mejorar reglas de autoverificación.

Tabla 26. Cantidad de resultados por asociación, probabilidad, ámbito y tipo de verificación.

Detalle de Asociación Ambulatorio Hospitalizado UPCs Urgencia

Examenes # Soporte Total

Resultados A M A M A M A M

Potasio-

Sodio 1/1 35.5% 1028 432 2 63 25 191 181 79 55

TSH-T4L

1/4 43.8% 160 114 16 8 6 5 1 2 8

2/4 20.1% 226 205 1 2 0 10 4 0 4

3/4 0.2% 2 0 2 0 0 0 0 0 0

4/4 0.2% 2 1 1 0 0 0 0 0 0

VB12-VD

1/3 27.1% 6 4 0 0 0 1 1 0 0

2/3 10.2% 4 2 0 0 0 0 0 2 0

3/3 6.8% 22 22 0 0 0 0 0 0 0

N

Total 1450 780 22 73 31 207 187 83 67

%

Total 100% 53.8% 1.6% 5.0% 2.1% 14.3% 12.9% 5.7% 4.6%

Descripción de campos:

─ “#” : Número de asociación resultante del modelo de minería de datos.

─ Soporte: Porcentaje de eventos que representa la asociación.

─ Total Res.: Cantidad total de resultados que contiene la asociación.

─ Ambulatorio, Hospitalizado, UPCs y Urgencia: Ámbito donde se registró el resultado.

─ A : Cantidad de resultados que fueron autoverificados.

─ M : Cantidad de resultados que fueron verificados de forma manual.

─ : Porcentaje de resultados verificados manualmente y susceptibles de autoverificar luego de mejorar

las reglas.

6 Próximos pasos

La primera actividad por realizar será poner en producción los resultados obtenidos y luego, al cabo de tres

meses en operación, se volverá a medir el indicador que permitió validar la hipótesis y se evaluará si hay una

disminución del porcentaje de validación manual en comparación con la medición actual (21.1%).

Ahora bien, el haber comprobado que existen otras herramientas que permiten generar conocimiento se abren

nuevas oportunidades para Laboratorio ELSA, y se motiva al equipo de trabajo a extender esta investigación

hacia exámenes o escenarios de mayor complejidad. Por consiguiente, paralelamente se presentarán los

resultados de la investigación a los “sponsors” de Laboratorio, a fin de motivarlos a emprender este nuevo

camino y lograr que se incorpore al menos un proyecto de investigación de minería de datos dentro de la

planificación del próximo año 2020.

Page 24: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

24

7 Conclusión

En primer lugar, el modelo de minería de datos procesó 7.821 registros de resultados, equivalentes al 23.7% del

total disponible en el conjunto inicial de datos. A partir de ahí, se encontraron 106 asociaciones de exámenes

frecuentes, tres de ellas escogidas junto al comité de expertos de Laboratorio para el desarrollo de este trabajo.

De ellas, se obtuvieron distintas asociaciones de resultados concluyendo que solo 8 de ellas podrían ser

consideradas clínicamente significativas: una entre “Potasio y Sodio”, cuatro entre “TSH y T4 Libre” y tres

entre “Vitamina B y Vitamina D”. Para el resto de las asociaciones, no se identificó un patrón de

comportamiento que permitiera establecer una correlación clara entre los resultados; por tanto, se excluyeron

de la validación de la hipótesis. Finalmente, se realizó la medición del indicador (KPI) que permite validar la

hipótesis, descubriendo que actualmente solo un 78.8% del conjunto de resultados de las asociaciones son

autoverificados por el sistema experto. Por lo tanto, es posible confirmar la hipótesis concluyendo que, los

algoritmos de asociación y agrupamiento sí pueden contribuir al mejoramiento de reglas de autoverificación de

resultados de laboratorio; ya que, si se incorporase la lógica obtenida por el modelo dentro del sistema experto,

existiría la posibilidad de autoverificar el 21.2% de los resultados que hoy poseen verificación manual.

De todos modos, cabe señalar que este primer acercamiento de ELSA a la minería de datos no tenía por objetivo

mejorar el 100% de las reglas de autoverificación, sino más bien, comparar los resultados de la investigación

con el conocimiento disponible y validar si las técnicas de minería de datos son tan válidas como las técnicas

con las que hoy cuenta Laboratorio. No obstante, y además de confirmar que la minería de datos sí proporciona

resultados clínicamente coherentes, se descubrió nuevo conocimiento que hasta hoy no había sido posible

obtener. En efecto, se validó que solo una de las asociaciones identificadas por el modelo tiene reglas de

autoverificación configuradas dentro del sistema experto: TSH y T4L. Sin embargo, y al contrario de lo que se

podría esperar, llama la atención que las reglas existentes tienen estrecha similitud con dos de las asociaciones

de menor soporte (0.2% y 0.2% respectivamente), y no existe ninguna que se asemeje a las otras dos

asociaciones de mayor soporte (43.8% y 10.1 respectivamente). Ahora bien, esto se podría fundamentar en que

estas dos asociaciones describen principalmente resultados que están dentro de los rangos de referencia de cada

examen, por tanto, sería posible suponer que existe una regla de menor nivel, como el tipo “Patología y

Aceptabilidad”, que autoverificaría estos resultados. Pese a ello, se identificó que un 10% de estos casos no

fueron autoverificados dado uno de ellos presenta una leve variación respecto de su valor de referencia motivo

por el cual se retuvo para la revisión manual del personal de Laboratorio. En definitiva, si se considerasen dentro

del sistema experto las lógicas que proporcionó el modelo de minería de datos, aproximadamente un 50% de

los resultados que cumplan estas condiciones sería susceptible de ser autoverificados.

Por otra parte, se puede considerar que la metodología CRISP-DM resultó ser útil dentro de este proyecto de

investigación, siendo una herramienta eficiente en la conducción de proceso de minería de datos dentro del

contexto de laboratorio clínico.

En el futuro se espera que este trabajo pueda ser extendido a resultados de exámenes que presenten mayor

complejidad, como, por ejemplo, aquellos que cuentan con rangos de referencia basados en edad o sexo, o

aquellos que presentan resultados del tipo alfanumérico. Así también, que, a partir de este trabajo, tanto

laboratorio ELSA como otros laboratorios del país, puedan adoptar este marco de trabajo y los procesos

diseñados en él, cuándo decidan analizar los registros disponibles en sus sistemas informáticos para optimizar

las reglas de autoverificación.

Finalmente, es importante señalar que gracias al “Magister en Tecnologías de la Información” fue posible

conocer el rol que la minería de datos, como campo de la estadística y ciencias de la computación, juega dentro

del sector salud y en la generación de conocimiento que contribuya directamente en una organización como

Bupa, y en los pacientes, al permitir optimizar procesos que están relacionados con actividades que van en

beneficio de su estado de salud.

Page 25: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

25

8 Referencias

[1] O. Maimon and L. Rokach, Data Mining and Knowledge Discovery, vol. 26, no. 1. 2010.

[2] R. Agrawal and R. Srikant, “Fast algorithms for mining association rules,” Proc. 20th int. conf. very

large data bases, VLDB, vol. 8, no. 14, pp. 92–108, 1994.

[3] J. Torres and C. L. Abad, “Análisis comparativo de mecanismos de minería de datos para la generación

de reglas de asociación aplicables a caches de Grandes Datos,” Análisis Comp. Mec. minería datos para

la generación reglas Asoc. Apl. a caches Gd. Datos, vol. 28, no. Diciembre, pp. 1–7, 2015.

[4] J. Han, J. Pei, Y. Yin, and R. Mao, “Mining frequent patterns without candidate generation: A frequent-

pattern tree approach,” Data Min. Knowl. Discov., vol. 8, no. 1, pp. 53–87, 2004.

[5] B. Nath, D. K. Bhattacharyya, and A. Ghosh, “Incremental association rule mining: A survey,” Wiley

Interdiscip. Rev. Data Min. Knowl. Discov., vol. 3, no. 3, pp. 157–169, 2013.

[6] L. Kaufman and P. J. Rousseeuw, Finding Groups in Data: An Introduction to Cluster Analysis (Wiley

Series in Probability and Statistics). 1990.

[7] M. A. Rodríguez and I. D. E. L. Proyecto, “Comparación de métricas de distancia en el algoritmo K-

Vecinos Más Cercanos para el problema de Reconocimiento Automático de Dígitos Manuscritos

Comparación de métricas de distancia en el algoritmo K-Vecinos Más Cercanos para el problema de

Reconocimiento,” 2015.

[8] J. A. Hartigan, “Clustering Algorithms,” Inf. Retr. Data Struct. Algorithms, vol. 2, pp. 419–442, 1975.

[9] J. a. Hartigan and M. a. Wong, “A K-Means Clustering Algorithm,” J. R. Stat. Soc., vol. 28, no. 1, pp.

100–108, 1979.

[10] SAS-Institute-Inc., “Data Mining and the Case for Sampling Solving Business Problems\nUsing SAS®

Enterprise MinerTM Software,” Best Practices Report. 1998.

[11] J. Mi. Moine, A. Haedo, and S. Gordillo, “Estudio comparativo de metodologías para minería de datos,”

XIII Work. Investig. en Ciencias la Comput., pp. 278–281, 2011.

[12] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, “From data mining to knowledge discovery in

databases,” AI Mag., vol. 17, no. 3, pp. 37–53, 1996.

[13] P. Chapman et al., “Crisp-Dm 1.0,” Cris. Consort., p. 76, 2000.

[14] IBM, “IBM SPSS Modeler CRISP-DM Guide,” IBM Corp, p. 53, 2011.

[15] CLSI, “AUTO10: Autoverification of Clinical Laboratory Test Results, 1st Edition,” no. January, 2017.

[16] J. Li, B. Cheng, H. Ouyang, T. Xiao, J. Hu, and Y. Cai, “Designing and evaluating autoverification

rules for thyroid function profiles and sex hormone tests,” Ann. Clin. Biochem., vol. 55, no. 2, pp. 254–

263, 2018.

[17] F. Demirci, P. Akan, T. Kume, A. R. Sisman, Z. Erbayraktar, and S. Sevinc, “Artificial neural network

approach in laboratory test reporting: Learning algorithms,” Am. J. Clin. Pathol., vol. 146, no. 2, pp.

227–237, 2016.

[18] C. M. Verrusio W1, Magro VM2, Renzi A3, Casciaro B4, Andreozzi P5, “Thyroid hormones, metabolic

syndrome and Vitamin D in middle-aged and older euthyroid subjects: a preliminary study. (2018).

https://doi.org/10.1007/s40520-018-1071-1,” Aging Clin Exp Res, 2018.

[19] J. A. Bartrina, “Serum vitamin D level and its relation to thyroid hormone, blood sugar and lipid profiles

in Iranian sedentary work staff,” vol. 34, pp. 0–1, 2018.

[20] W. Aguirre, G. A. , Falla, A. & Sánchez, “Correlación de los marcadores inflamatorios ( proteina C

reactiva , neutrofilia y leucocitosis ) en las diferentes fases de la apendicitis aguda,” Rev. Colomb.

Cirugía, vol. 29, no. 2, pp. 110–115, 2014.

[21] M. A. Serdar et al., “Analysis of Changes in Parathyroid Hormone and 25 (OH) Vitamin D Levels with

Respect to Age, Gender and Season: A Data Mining Study,” J. Med. Biochem., vol. 36, no. 1, pp. 73–

83, 2017.

[22] H. Richardson, “Medical laboratories--requirements for quality and competence: an ISO perspective.,”

Vox Sang., vol. 83 Suppl 1, pp. 333–335, 2002.

[23] D. Ana María Guzmán, “¿cuándo dos exámenes seriados de laboratorio representan un cambio en el

estado de salud de un paciente?,” Rev. Med. Chil., vol. 138, no. 6, pp. 780–783, 2010.

Page 26: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

26

Anexos

A. Sistema de Información Laboratorio Clínico ELSA

B. Organigrama general de laboratorio

Director Técnico

Gerente de Administración y

Finanzas

Personal Clínico

Personal Técnico

Personal Administrativo

Gerente Técnico

Personal Clínico

Personal Técnico

Personal Administrativo

Gerente Técnico Microbiología

Personal Clínico

Personal Técnico

Personal Administrativo

Gerente Post-Analítica

Personal Clínico

Personal Técnico

Personal Administrativo

Gerente de Calidad

Personal Clínico

Personal Técnico

Personal Administrativo

Page 27: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

27

C. Recopilación inicial de datos

C.1 Tablas del LIS que fueron utilizadas para la construcción del almacén de datos

Tabla Descripción

Tblrisultatiesami Resultados de exámenes del repositorio diario, aquellos que están en proceso o

verificados dentro del día.

Tblstoricorisultatiesami Resultados de exámenes del repositorio histórico, aquellos que fueron

verificados hace más de 1 día.

Tblconfanalisi Maestro de exámenes y sus atributos principales.

Tblconfinfoansingole Conjunto de atributos de exámenes.

Tblrichieste Solicitudes de exámenes del repositorio diario, aquellas están en proceso o

verificados dentro del día.

Tblstoricorichieste Solicitudes de exámenes del repositorio histórico,

Aquellas que están en proceso o verificadas dentro del día.

Tblanagraficapazienti Datos maestros de pacientes, incluyendo datos demográficos.

Tblconfreparti Maestro de unidades organizativas y sus atributos principales.

Tblconfcaratreparti Conjunto de atributos de las unidades organizativas.

Tblconftipologiereparti Maestro de ámbitos a los que pertenecen las unidades organizativas.

C.2 Esquema estrella del almacén de datos para el proceso de resultados

Page 28: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

28

D. Descripción de los datos del almacén “Bupa_mti_resultados”

Nombre

descriptivo

de campo

Nombre técnico de

campo Descripción del campo

Tipo de

variable Tipo de dato Codificación

Correlativo del examen

corr_examen

Valor que identifica la posición

del examen dentro de la solicitud, en caso de repetirse

un examen dentro de una

misma solicitud, este campo permite hacer la distinción

entre ambos.

Cualitativa nominal

Numérico 5 dígitos.

Edad del

paciente edad_pac

Cantidad de años del paciente

calculados a partir de la resta

entre la fecha del resultado del examen y la fecha de

nacimiento del paciente.

Cuantitativa

continua. Numérico

3 dígitos, desde 0 (primer año

permitido en el

estudio) hasta 199 (último año

permitido en el

estudio).

Examen de

tipo reportable

reportable

Puede tomar solo dos valores, 0 (cero) cuando no corresponda a

un examen reportable a un

informe clínico, o bien, -1 (menos uno) cuando si sea del

tipo reportable, es decir, que se

libera a un informe clínico.

Cualitativa

dicotómica. Numérico 1 caracter.

Examen de

tipo

solicitable

solicitable

Puede tomar solo dos valores, 0

(cero) cuando no corresponda a

un examen solicitable a través de una orden clínica, o bien, -1

(menos uno) cuando si sea del

tipo solicitable.

Cualitativa dicotómica.

Numérico 1 caracter.

Fecha de

nacimiento

del paciente

fecha_nac

Tiempo especificado por el día,

mes y año en que tuvo lugar el

nacimiento del paciente.

Cualitativa nominal.

Fecha

dd/MM/yyyy, por

ejemplo,

11/03/1987

Fecha del

resultado del examen

fecha_res

Tiempo especificado por el día,

mes, año, horas, minutos y

segundos en que tuvo lugar un

resultado obtenido a partir del procedimiento de análisis

realizado sobre una muestra

biológica.

Cualitativa

nominal Fecha

dd/MM/yyyy

hh24:mi:ss, por

ejemplo, 10/08/2018

22:32:00.

Identificador

de la unidad organizativa

id_uo

Código de identificación

unívoco de la unidad

organizativa en la cual se atendió al paciente: centro

médico, clínica, otros.

Cualitativa

nominal. Alfanumérico. 15 caracteres.

Identificador

del ámbito de atención

id_ambito

Código de identificación

unívoco del ámbito de

atención: ambulatorio, hospitalizado, unidad paciente

crítico, urgencia

Cualitativa

nominal Numérico

1 dígito, de 1

(ambulatorio), 2 (hospitalizado), 3

(unidad paciente

crítico), hasta 4 (urgencia).

Identificador

del examen padre

id_padre

Código de identificación

unívoco para un examen padre de laboratorio clínico.

Cualitativa

nominal Alfanumérico 15 caracteres.

Identificador

del examen id_examen

Código de identificación

unívoco para un examen de laboratorio clínico.

Cualitativa

nominal Alfanumérico 15 caracteres.

Identificador

del paciente id_paciente

Código de identificación

unívoco del paciente.

Cualitativa

nominal Numérico

10 dígitos, desde

2000000000

(primer correlativo disponible) hasta

2999999999

(último correlativo disponible).

Page 29: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

29

Nombre

descriptivo

de campo

Nombre técnico de

campo Descripción del campo

Tipo de

variable Tipo de dato Codificación

Identificador

del usuario de

verificación del resultado

de examen

id_usuario

Código de identificación unívoco para una cuenta de

usuario del sistema de

laboratorio clínico.

Cualitativa

nominal Alfanumérico 15 caracteres.

Nombre de la

unidad

organizativa

nombre_uo

Representación descriptiva y

textual de la unidad organizativa en la cual se

atendió el paciente: centro

médico Integramédica Las Condes, Clínica Bupa Santiago,

otros.

Cualitativa nominal.

Alfanumérico. 50 caracteres.

Nombre del

ámbito de

atención

ambito

Representación descriptiva y textual del ámbito de atención:

ambulatorio, hospitalizado,

unidad paciente crítico, urgencia.

Cualitativa

nominal Alfanumérico 50 caracteres.

Nombre del

examen nombre_examen

Representación descriptiva y

textual del examen de laboratorio clínico.

Cualitativa

nominal Alfanumérico 50 caracteres.

Nombre del

usuario usuario_verificacion

Representación descriptiva y

textual para una cuenta de

usuario del sistema de laboratorio clínico.

Cualitativa

nominal Alfanumérico 50 caracteres

Resultado del

examen resultado

Valor obtenido a partir del

procedimiento de análisis

realizado sobre una muestra biológica.

Cualitativa

nominal Alfanumérico

15 caracteres,

cualquier valor de un intervalo real,

junto o sin

caracteres ASCII.

Sexo del paciente

sexo

Código de identificación

unívoco que refiere a las características biológicas y

fisiológicas de un paciente.

Cualitativa nominal

Alfanumérico

1 caracter, “M” para masculino, “F”

para femenino y

“N” para “Sin

Información”.

Solicitud solicitud

Código de identificación

unívoco de la orden clínica de

exámenes dentro del LIS.

Cualitativa nominal

Numérico

8 dígitos, desde

20000000 (primer correlativo

disponible) hasta

29999999 (último correlativo

disponible).

Tipo de

examen tipo_examen

Código de identificación

unívoco para un tipo examen de laboratorio clínico.

Cualitativa

nominal Numérico

1 digito, de 0 (examen simple)

hasta 1 (examen

múltiple)

Tipo de

resultado tipo_resultado

Código de identificación unívoco para un tipo de

resultado de examen de

laboratorio clínico.

Cualitativa

nominal Numérico 1 caracter.

Tipo de valor de referencia

tipo_valor_ref

Representación descriptiva y

textual del tipo de valor de

referencia de un examen: constante, por edad, por sexo,

por sexo y edad, por sexo y

semana de embarazo.

Cualitativa nominal

Alfanumérico 30 caracteres.

Page 30: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

30

E. Explorando los datos

Tipo de Examen: dentro de los datos existentes en el almacén se puede encontrar el campo tipo_examen, el

cual, según la exploración realizada, puede tomar dos valores los que están descritos en la tabla a

continuación.

Valor Descripción Ocurrencias Porcentaje

0

Examen Padre Simple, posee solo un id_examen, es decir, un registro

de resultado. Por ejemplo, glucosa, sodio, potasio, cloro, etc. Cuando

esto ocurre, el id_padre es igual al id_examen.

16.694 53.9%

1

Examen Padre Múltiple, posee más de un id_examen, es decir, más

de un registro de resultado. Por ejemplo: Hemograma, que contiene

componentes tales como hemoglobina, hematocrito, etc.

14.266 46.1%

Total 30.960 100.0%

Examen de tipo solicitable: dentro de los datos existentes en el almacén se puede encontrar el campo

solicitable, el cual, según la exploración realizada y habiendo filtrado los exámenes del tipo simple (0), puede

tomar dos valores los que están descritos en la tabla a continuación.

Valor Descripción Ocurrencias Porcentaje

SI

Examen que puede ser pedido a través de una orden clínica, es decir,

está disponible en el catálogo de exámenes para los médicos y para

las cajas de venta ambulatorias.

15.708 94.1%

NO

Examen interno de laboratorio, no está disponible en el catálogo de

exámenes para los médicos, tampoco para las cajas de venta

ambulatoria.

986 5.9%

Total 16.694 100.0%

Tipo de resultado: dentro de los datos existentes en el almacén se puede encontrar el campo tipo_resultado,

el cual, según la exploración realizada y habiendo filtrado los exámenes del tipo “Simple (0)”, “Solicitables

(SI)”, puede tomar cuatro valores los que están descritos en la tabla a continuación.

Valor Descripción Ocurrencias Porcentaje

1 Numérico 14.272 90.9%

3 Sigla 482 3.1%

4 Árbol Decisional 743 4.7%

nulo Resultado sin categoría 211 1.3%

Total 15.708 100.0%

Tipos de verificación: dentro de los datos existentes en el almacén se puede encontrar campo usuario_val,

este último, según la exploración realizada y habiendo filtrado los exámenes del tipo “Simple (0)”,

“Solicitables (SI)” y “Numérico (1)”, puede tomar 2 valores los cuales que están descritos en la tabla a

continuación.

Valor Descripción Ocurrencias Porcentaje

Automática Resultado de examen autoverificado por el sistema experto. 8.546 59.9%

Manual Resultado de examen verificado por un usuario, personal de

laboratorio. 5.726 40.1%

Total 14.272 100%

Page 31: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

31

Ámbito: dentro de los datos existentes en el almacén se puede encontrar el campo ámbito, el cual, según la

exploración realizada y habiendo filtrado los exámenes del tipo “Simple (0)”, “Solicitables (SI)” y

“Numérico (1)”, puede tomar 4 valores los que están descritos en la tabla a continuación.

Valor Descripción Ocurrencias Porcentaje

UPCS Exámenes de pacientes críticos con estadía variable

que requieren supervisión y monitoreo permanente del

personal de Clínica.

5.393 37.9%

Ambulatorio Exámenes de pacientes sin estadía en Clínica. 4.563 31.9%

Urgencia Exámenes de pacientes que concurren a Clínica por

emergencia, pueden derivar a otro ámbito según

complejidad.

3.075 21.5%

Hospitalizados Exámenes de pacientes corta estadía en Clínica. 1.241 8.7%

Total 14.272 100%

Tipos de verificación por ámbito: dentro de los datos existentes en el almacén se puede encontrar campo

ámbito y usuario_val, y según la exploración realizada y habiendo filtrado los exámenes del tipo “Simple

(0)”, “Solicitables (SI)” y “Numérico (1)”, estos se relacionan entre sí pudiendo un ámbito pertenecer tanto

al grupo de exámenes verificados de forma “manual” como “automática” tal como muestra la tabla a

continuación.

Ámbito

Ambulatorio Hospitalizados UPCs Urgencia

Tipo

Verificación Absoluto % Absoluto % Absoluto % Absoluto %

Automática 4.117 90.2% 585 47.1% 2.511 46.6% 1.334 43.4%

Manual 446 9.8% 656 52.9% 2.882 53.4% 1.741 56.6%

Sub Total 4.563 100% 1.241 100% 5.393 100% 3.075 100%

Tipos de valor de referencia: dentro de los datos existentes en el almacén se puede encontrar campo

tipo_val_ref, y según la exploración realizada y habiendo filtrado los exámenes del tipo “Simple (0)”,

“Solicitables (SI)” y “Numérico (1)”, puede tomar 6 valores los cuales están descritos en la tabla a

continuación.

Valor Descripción Ocurrencias Porcentaje

constante Valor mínimo y valor máximo no depende de las

condiciones biológicas del paciente. 7.821 54.9%

por sexo y edad Valor mínimo y valor máximo depende del sexo y la

edad de paciente 2.886 20.2%

por edad Valor mínimo y valor máximo depende de la edad de

paciente 2.882 20.2%

por sexo Valor mínimo y valor máximo depende del sexo de

paciente. 572 4.0%

nulo Exámenes cuyo tipo de valor de referencia no ha sido

categorizado o definido. 63 0.4%

por sexo y semana

de embarazo

Valor mínimo y valor máximo depende del sexo y

semanas de embarazo del paciente. 48 0.3%

14.272 100%

Page 32: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

32

F. Verificando la calidad de los datos

A modo de ejemplo, la tabla a continuación muestra el conjunto de valores pesquisados y la cantidad de

ocurrencias.

Resultado Cantidad Resultado Cantidad Resultado Cantidad

* 80 >156.00 11 MASR 43

- 6 >50.000 3 MSCHK 415

<0 2 >1300.00 1 NCAL 1

<0.30 6 Anula 33 Negativo 69

>7.77 1 IA 26 P 2

Subtotal 95 Subtotal 117 Subtotal 487

G. Selección de datos

Nombre

descriptivo de

campo

Nombre técnico de

campo Incluido Motivo Inclusión / Exclusión

Correlativo del

examen corr_examen SI

Este campo será utilizado como atributo de agrupamiento dentro del operador de

agregación, cuya función “count” contabilizará la cantidad de registros de resultados de

exámenes.

Edad del paciente edad_pac NO Este campo no será utilizado dentro de los procesos donde se apliquen los algoritmos de

asociación y agrupamiento.

Examen de tipo

reportable reportable SI

Este campo será utilizado para filtrar aquellos registros de resultados de exámenes cuyo valor

del campo reportable sea “SI”, es decir, reportable.

Examen de tipo

solicitable solicitable SI

Este campo será utilizado para filtrar aquellos registros de resultados de exámenes cuyo

valor del campo solicitable sea “SI”, es decir, solicitable.

Fecha de

nacimiento del

paciente

fecha_nac NO Este campo no será utilizado dentro de los procesos donde se apliquen los algoritmos de

asociación y agrupamiento.

Fecha del resultado

del examen fecha_res SI

Este campo será utilizado para filtrar aquellos registros de resultados de exámenes cuya fecha

sea mayor o igual a la fecha del primer registro obtenido en Clínica Bupa Santiago y menor

o igual a la fecha definida como corte para la inclusión de registros.

Identificador de la

unidad organizativa id_uo NO

Este campo no será utilizado dentro de los procesos donde se apliquen los algoritmos de

asociación y agrupamiento.

Identificador del

ámbito de atención id_ambito NO

Este campo no será utilizado dentro del análisis, solo se considera el campo “ambito”, que es

descriptivo y facilitará la comprensión de los resultados que se desprendan de procesos donde

se apliquen los algoritmos de asociación y agrupamiento.

Identificador del

examen id_examen SI

Este campo será utilizado como atributo de agrupamiento dentro del operador de agregación,

cuya función “count” contabilizará la cantidad de registros de resultados de exámenes.

Adicionalmente, será utilizado dentro del operador de concatenación, para unir el

“id_examen” al “nombre_examen” así facilitar la comprensión de los resultados que se

desprendan de procesos donde se apliquen los algoritmos de asociación y agrupamiento.

Finalmente, cabe señalar que es pieza fundamental del estudio, y formará parte del conjunto

de campos que se utilizará dentro de los procesos donde se apliquen los algoritmos de

asociación y agrupamiento.

Identificador del

paciente id_paciente NO

Este campo no será utilizado dentro de los procesos donde se apliquen los algoritmos de

asociación y agrupamiento.

Identificador del

usuario de

verificación del

resultado de

examen

id_usuario SI

Este campo será utilizado para contribuir a la comprensión e interpretación de los resultados

que se desprendan de procesos donde se apliquen los algoritmos de asociación y

agrupamiento.

Nombre de la

unidad organizativa nombre_uo NO

Este campo no será utilizado dentro de los procesos de análisis, solo se considera el campo

“ambito”, que permite conocer el tipo de unidad organizativa y facilitará la comprensión de

los resultados de los procesos de análisis.

Nombre del ámbito

de atención ambito SI

Este campo será utilizado para contribuir a la comprensión e interpretación de los resultados

que se desprendan de procesos donde se apliquen los algoritmos de asociación y

agrupamiento.

Nombre del examen nombre_examen SI

Este campo será utilizado como atributo de agrupamiento dentro del operador de

agregación, cuya función “count” contabilizará la cantidad de registros de resultados de

exámenes. Adicionalmente, será utilizado dentro del operador de concatenación, para unir

el “id_examen” al “nombre_examen” así facilitar la comprensión de los resultados que se

desprendan de procesos donde se apliquen los algoritmos de asociación y agrupamiento.

Finalmente, cabe señalar que es pieza fundamental del estudio, y formará parte del conjunto

de campos que se utilizará dentro de los procesos donde se apliquen los algoritmos de

asociación y agrupamiento.

Page 33: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

33

Nombre

descriptivo de

campo

Nombre técnico de

campo Incluido Motivo Inclusión / Exclusión

Nombre del usuario usuario_verificacion SI

Este campo será utilizado para contribuir a la comprensión e interpretación de los resultados

que se desprendan de procesos donde se apliquen los algoritmos de asociación y

agrupamiento.

Resultado del

examen resultado SI

Este campo será utilizado para generar los “clusters” de resultados de cada examen, dentro

de los procesos donde se aplique el algoritmo de agrupamiento.

Sexo del paciente sexo NO Este campo no será utilizado dentro de los procesos de análisis.

Solicitud solicitud SI

Este campo formará parte del conjunto de campos que se utilizará dentro de los procesos

donde se apliquen los algoritmos de asociación y agrupamiento. Será utilizado para tanto

generar el agrupamiento de los resultados de cada examen, como para analizar la asociación

que existe entre ellos. Finalmente, cabe señalar que es pieza fundamental del estudio, ya que

es la clave y elemento diferenciador para poder generar asociaciones y agrupamientos.

Tipo de examen tipo_examen SI Este campo será utilizado para filtrar aquellos registros de resultados de exámenes cuyo tipo

de examen sea “simple”, es decir, que posee 1 componente o 1 resultado.

Tipo de resultado tipo_resultado SI

Este campo será utilizado para filtrar aquellos registros de resultados de exámenes cuyo tipo

de resultado sea “numérico”, es decir, que el valor que tome el campo resultado esté dentro

del conjunto de números reales.

Tipo de valor de

referencia tipo_valor_ref SI

Este campo será utilizado para filtrar aquellos registros de resultados de exámenes cuyo tipo

de valor de referencia sea “constante”, es decir, que su valor mínimo y máximo no varía

según las condiciones biológicas del paciente.

H. Detalle de “clusters” de resultados por examen

H.1 Agrupamiento de resultados del examen Potasio (k = 3). Fuente: Elaboración propia.

Nombre

Clúster

Cantidad de

Resultados

Porcentaje

del Total

Centroide

del clúster

Valor

inicial

Valor

final

VR

Min

VR

Max

Unidad

Medida

Dentro

del VR

Clúster 0 778 54.4% 4.33 3.96 4.85 3.5 5.0

mEq/L

SI

Clúster 1 524 36.7% 5.38 4.90 7.60 3.5 5.0 NO

Clúster 2 127 8.9% 3.59 2.40 3.95 3.5 5.0 NO

Totales 1429 100%

H.2 Agrupamiento de resultados del examen Sodio (k = 3). Fuente: Elaboración propia.

Nombre

Clúster

Cantidad de

Resultados

Porcentaje

del Total

Centroide

del clúster

Valor

inicial

Valor

final

VR

Min

VR

Max

Unidad

Medida

Dentro

del VR

Clúster 0 887 62.1% 140.21 137.3 143.7 135.0 145.0

mEq/L

SI

Clúster 1 406 28.4% 134.36 115.0 137.2 135.0 145.0 NO

Clúster 2 136 9.5% 147.20 143.8 158.4 135.0 145.0 NO

Totales 1429 100%

H.3 Agrupamiento de resultados del examen TSH (k = 8). Fuente: Elaboración propia.

Nombre

Clúster

Cantidad de

Resultados

Porcentaje

del Total

Centroide

del clúster

Valor

inicial

Valor

final

VR

Min

VR

Max

Unidad

Medida

Dentro

del VR

Clúster 0 188 34.0% 2.73 1.96 3.98 0.5 5.0

uUl/mL

SI

Clúster 1 3 0.5% 49.09 45.22 54.17 0.5 5.0 NO

Clúster 2 1 0.2% 116.42 116.42 116.42 0.5 5.0 NO

Clúster 3 2 0.4% 77.84 72.33 83.36 0.5 5.0 NO

Clúster 4 53 9.6% 5.30 4.03 7.89 0.5 5.0 NO

Clúster 5 298 53.9% 1.19 0.0 1.95 0.5 5.0 NO

Clúster 6 1 0.2% 139.60 139.60 139.60 0.5 5.0 NO

Clúster 7 7 1.3% 15.01 10.45 26.97 0.5 5.0 NO

Totales 553 100%

Page 34: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

34

H.4 Agrupamiento de resultados del examen T4L (k = 5). Fuente: Elaboración propia.

Nombre

Clúster

Cantidad de

Resultados

Porcentaje

del Total

Centroide

del clúster

Valor

inicial

Valor

final

VR

Min

VR

Max

Unidad

Medida

Dentro

del VR

Clúster 0 125 22.6% 1.37 1.25 1.88 0.7 1.8

ng/dL

NO

Clúster 1 1 0.2% 5.75 5.75 5.75 0.7 1.8 NO

Clúster 2 120 21.7% 0.91 0.22 1.01 0.7 1.8 NO

Clúster 3 304 54.9% 1.12 1.02 1.24 0.7 1.8 SI

Clúster 4 3 0.5% 3.33 2.56 3.92 0.7 1.8 NO

Totales 553 100%

H.5 Agrupamiento de resultados del examen Vitamina B12 (k = 3). Fuente: Elaboración propia.

Nombre

Clúster

Cantidad de

Resultados

Porcentaje

del Total

Centroide

del clúster

Valor

inicial

Valor

final

VR

Min

VR

Max

Unidad

Medida

Dentro

del VR

Clúster 0 22 37.3% 405.2 150 311 193 982

pg/mL

NO

Clúster 1 9 15.2% 767.6 320 533 193 982 SI

Clúster 2 28 47.5% 227.0 594 1000 193 982 NO

Totales 59 100%

H.6 Agrupamiento de resultados del examen Vitamina D (k = 3). Fuente: Elaboración propia.

Nombre

Clúster

Cantidad de

Resultados

Porcentaje

del Total

Centroide

del clúster

Valor

inicial

Valor

final

VR

Min

VR

Max

Unidad

Medida

Dentro

del VR

Clúster 0 27 45.8% 15.7 12.0 19.2 10.6 43.4

ng/mL

SI

Clúster 1 23 38.9% 7.6 4.2 10.8 10.6 43.4 NO

Clúster 2 9 15.3% 23.7 19.9 29.1 10.6 43.4 SI

Totales 59 100%

I. Integración de los datos

I.1 Elaboración conjunto final de datos para potasio y sodio. Fuente: Elaboración propia.

Conjunto de datos de entrada Conjunto final de

datos Campos MTI_CLUSTER_POTASIO MTI_CLUSTER_SODIO

Nombre de campo Nuevo nombre de campo

Clúster 0 K_Grupo1 NA_Grupo1

MTI_FP_K+NA Clúster 1 K_Grupo2 NA_Grupo2

Clúster 2 K_Grupo3 NA_Grupo3

Page 35: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

35

I.2 Elaboración conjunto final de datos para TSH y T4L. Fuente: Elaboración propia.

Conjunto inicial de datos inicial Conjunto final de

datos Campos MTI_CLUSTER_TSH MTI_CLUSTER_T4L

Nombre de campo Nuevo nombre de campo

Clúster 0 TSH_Grupo1 T4L_Grupo1

MTI_FP_TSH+T4L

Clúster 1 TSH_Grupo2 T4L_Grupo2

Clúster 2 TSH_Grupo3 T4L_Grupo3

Clúster 3 TSH_Grupo4 T4L_Grupo4

Clúster 4 TSH_Grupo5 T4L_Grupo5

Clúster 5 TSH_Grupo6 -

Clúster 6 TSH_Grupo7 -

Clúster 7 TSH_Grupo8 -

I.3 Elaboración conjunto final de datos para VB12 y VD. Fuente: Elaboración propia.

Conjunto inicial de datos inicial Conjunto final de

datos Campos MTI_CLUSTER_VB12 MTI_CLUSTER_VD

Nombre de campo Nuevo nombre de campo

Clúster 0 VB12_Grupo1 VD_Grupo1

MTI_FP_VB12+VD Clúster 1 VB12_Grupo2 VD_Grupo2

Clúster 2 VB12_Grupo3 VD_Grupo3

J. Definición de etiquetas

J.1 Etiquetas para “clusters” de resultados del examen Potasio (k = 3). Fuente: Elaboración propia.

Nombre

Clúster Renombre

Valor

inicial Valor final

VR

Min

VR

Max

Dentro

del VR

Etiqueta

Clúster 0 K_Grupo1 3.96 4.85 3.5 5.0 SI “normal”

Clúster 1 K_Grupo2 4.90 7.60 3.5 5.0 NO “alto”

Clúster 2 K_Grupo3 2.40 3.95 3.5 5.0 NO “bajo”

J.2 Etiquetas para “clusters” de resultados del examen Sodio (k = 3). Fuente: Elaboración propia.

Nombre

Clúster Renombre

Valor

inicial Valor final

VR

Min

VR

Max

Dentro

del VR

Etiqueta

Clúster 0 NA_Grupo1 137.3 143.7 135.0 145.0 SI “normal”

Clúster 1 NA_Grupo2 115.0 137.2 135.0 145.0 NO “bajo”

Clúster 2 NA_Grupo3 143.8 158.4 135.0 145.0 NO “alto”

Page 36: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

36

J.3 Etiquetas para “clusters” de resultados TSH (k = 8). Fuente: Elaboración propia.

Nombre

Clúster

Cantidad de

Resultados

Valor

inicial Valor final

VR

Min

VR

Max

Dentro

del VR

Etiqueta

Clúster 0 TSH_Grupo1 1.96 3.98 0.5 5.0 SI “normal”

Clúster 1 TSH_Grupo2 45.22 54.17 0.5 5.0 NO “alto3”

Clúster 2 TSH_Grupo3 116.42 116.42 0.5 5.0 NO “alto5”

Clúster 3 TSH_Grupo4 72.33 83.36 0.5 5.0 NO “alto4”

Clúster 4 TSH_Grupo5 4.03 7.89 0.5 5.0 NO “alto1”

Clúster 5 TSH_Grupo6 0.0 1.95 0.5 5.0 NO “bajo”

Clúster 6 TSH_Grupo7 139.60 139.60 0.5 5.0 NO “alto6”

Clúster 7 TSH_Grupo8 10.45 26.97 0.5 5.0 NO “alto2”

J.4 Etiquetas para “clusters” de resultados T4L (k = 5). Fuente: Elaboración propia.

Nombre

Clúster

Cantidad de

Resultados

Valor

inicial Valor final

VR

Min

VR

Max

Dentro

del VR

Etiqueta

Clúster 0 T4L_Grupo1 1.25 1.88 0.7 1.8 NO “alto1”

Clúster 1 T4L_Grupo2 5.75 5.75 0.7 1.8 NO “alto3”

Clúster 2 T4L_Grupo3 0.22 1.01 0.7 1.8 NO “bajo”

Clúster 3 T4L_Grupo4 1.02 1.24 0.7 1.8 SI “normal”

Clúster 4 T4L_Grupo5 2.56 3.92 0.7 1.8 NO “alto2”

J.5 Etiquetas para “clusters” de resultados Vitamina B12 (k = 3). Fuente: Elaboración propia.

Nombre

Clúster

Cantidad de

Resultados

Valor

inicial Valor final

VR

Min

VR

Max

Dentro

del VR

Etiqueta

Clúster 0 VB12_Grupo1 150 311 193 982 NO “bajo”

Clúster 1 VB12_Grupo2 320 533 193 982 SI “normal”

Clúster 2 VB12_Grupo3 594 1000 193 982 NO “alto”

J.6 Etiquetas para “clusters” de resultados Vitamina D (k = 3). Fuente: Elaboración propia.

Nombre

Clúster

Cantidad de

Resultados

Valor

inicial Valor final

VR

Min

VR

Max

Dentro

del VR

Etiqueta

Clúster 0 VD_Grupo1 12.0 19.2 10.6 43.4 SI “normal”

Clúster 1 VD_Grupo2 4.2 10.8 10.6 43.4 NO “bajo”

Clúster 2 VD_Grupo3 19.9 29.1 10.6 43.4 SI “alto”

Page 37: Mejoramiento de reglas de autoverificación de resultados ... · de proporcionar una solución al problema, se elaboró un método de análisis descriptivo de datos basado en algoritmos

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

–––

37

K. Conjunto de datos para evaluar el modelo y resultados

K.1 Relación de resultados de exámenes Potasio y Sodio. Fuente: Elaboración propia.

Nivel

de

Soporte

Examen Potasio Examen Sodio

Ítem 1 Min Max Ref. VR

Min

VR

Max Ítem 2 Min Max Ref.

VR

Min

VR

Max

35.5% K_Grupo1 3.96 4.85 normal 3.5 5.0 NA_Grupo1 137.3 143.7 normal 135.0 145.0

21.8% K_Grupo3 2.4 3.95 bajo 3.5 5.0 NA_Grupo1 137.3 143.7 normal 135.0 145.0

15.0% K_Grupo1 3.96 4.85 normal 3.5 5.0 NA_Grupo2 115.0 137.2 bajo 135.0 145.0

9.7% K_Grupo3 2.4 3.95 bajo 3.5 5.0 NA_Grupo2 115.0 137.2 bajo 135.0 145.0

5.2% K_Grupo3 2.4 3.95 bajo 3.5 5.0 NA_Grupo3 143.8 158.4 alto 135.0 145.0

K.2 Relación de resultados de exámenes TSH y T4L. Fuente: Elaboración propia.

Nivel de

Soporte

Examen TSH Examen T4L

Ítem Min Max Ref. VR

Min

VR

Max Ítem 2 Min Max Ref.

VR

Min

VR

Max

29.3% TSH_Grupo6 0.00 1.95 baja 0.5 5.0 T4L_Grupo4 1.02 1.24 normal 0.7 1.8

20.1% TSH_Grupo1 1.96 3.98 normal 0.5 5.0 T4L_Grupo4 1.02 1.24 normal 0.7 1.8

14.5% TSH_Grupo6 0.00 1.95 baja 0.5 5.0 T4L_Grupo1 1.25 1.88 normal 0.7 1.8

9.4% TSH_Grupo6 0.00 1.95 baja 0.5 5.0 T4L_Grupo3 0.22 1.01 baja 0.7 1.8

7.1% TSH_Grupo1 1.96 3.98 normal 0.5 5.0 T4L_Grupo3 0.22 1.01 baja 0.7 1.8

K.3 Relación de resultados de exámenes VB12 y VD Fuente: Elaboración propia.

Nivel

de

Soporte

Examen Vitamina B Examen Vitamina D

Ítem Min Max Ref. VR

Min

VR

Max Ítem 2 Min Max Ref.

VR

Min

VR

Max

27.1% B12_Grupo3 594 1000 alta 193 982 VD_Grupo2 4.2 10.8 baja 10.6 43.4

20.3% B12_Grupo1 150 311 baja 193 982 VD_Grupo1 12 19.2 normal 10.6 43.4

18.6% B12_Grupo3 594 1000 alta 193 982 VD_Grupo1 12 19.2 normal 10.6 43.4

10.2% B12_Grupo1 150 311 baja 193 982 VD_Grupo3 19.9 29.1 alta 10.6 43.4

6.8% B12_Grupo2 320 533 normal 193 982 VD_Grupo1 12 19.2 normal 10.6 43.4