Mineria de datos en salud - Introducción -

Preview:

Citation preview

MINERÍA DE DATOS EN SALUD: INTRODUCCIÓN(DATA MINING IN HEALTHCARE )

Jairo Cesar Alexander 2017

MINERÍA DE DATOS - DATA MINING

• Procesos para descubrir patrones en grandes conjuntos de datos

* Dengue grave en Colombia

PARA QUÉ USAMOS LA MINERÍA DE DATOS?

Predecir

• Utilizar algunas variables o campos en una base de datos para predecir valores desconocidos o futuros.

Comprender

• Encontrar o visualizar patrones que describan la información (interpretables o entendibles por el profesional y el usuario lo mas importante)

* Hipotiroidismo congénito en Colombia

EJEMPLO: MINERÍA DE DATOS EN SALUD

• 70 indicadores de salud en Colombia monitorizados en tiempo real , congeneración de puntos de alarma y pronósticos automáticos vía web(sistema simplepero funcional creado por el autor en pc de escritorio en software KNIME)

Nivel de atención Enfoque de

el nivel de

Intervención

Acciones practicas gracias a la minería de datos (ejemplos) Impacto

global a

largo

termino

Primer nivel de

atención

Promoción

de la salud

Prevención

Tratamiento

Rehabilitaci

ón

Enviar mensajes de texto PERSONALISADOS recordando la vacunación

de los niños

Las mamas pueden saber si las demás mamas están vacunado a sus

hijos y los médicos están al tanto.

seguir una epidemia (ejem H1N1) en tiempo real.

llamar proactivamente a alguien con riesgo alto de IAM

retroalimentar (útilmente)al medico en tiempo real en la consulta diaria

con analítica de toda la información suministrada

Dx de toda la población automática , en tiempo real , para todos, y

para la acción ya .

alto

Segundo nivel de

atención

Tratamiento retroalimentar al medico con medicamentos que nunca se reclaman en

farmacia

Gerencia puede evaluar la efectividad, eficiencia, eficacia de los ttos.

Evaluación del seguimiento de los protocolos recomendados por Min

Salud. Integración de información inter institucional de uso practico.

Detección de fraude concierta enfermedad de alto costo que se

aumento de repente un 200%, conformaciones de redes reales.

medio

Tercer nivel de

atención

Tratamiento Evaluacion de el riesgo de readminisión a UCI de un paciente

Responder a preguntas :Que tto tiene mas eficiencia?

Existe una nueva patología en nuestra población?

Como les va a otros usuarios como este medicamento?

Como les va a otros colegas con este medicamento?

bajo

EJEMPLO :DETECCION DE FRAUDE EN HEMOFILIA

EJEMPLOS ÚTILES DE PREDICCIÓN

• Estratificar a los pacientes en grupos de alto, medio o bajo riesgo. clave para el éxito de cualquier iniciativa de gestión de salud de la población.

• Para pacientes que llevan mucho riesgo ,sería más barato enviarles de forma preventiva un médico ,en lugar de esperar que ese paciente entre por urgencias

TRANSICIÓN NECESARIA

SISTEMA DE SALUD BASADO EN ATENCIÓN DE URGENCIAS CENTRADO EN EL ASEGURAMIENTO FINANCIERO

A

SISTEMA DE SALUD BASADO EN PROMOCIÓN DE LA SALUD Y PREVENCIÓN DE LA ENFEREMDAD CENTRADO EN LA SALID DE EL USUARIO

RETOS - MINERÍA DE DATOS EN SALUD

• Como analizar todas las historias clínicas , todos los registros farmacéuticos, cirujas , procedimientos, interconsultas, y evolución DE FORMA INTEGRADA para: promover la salud, prevenir la enfermedad , evaluar y mejorar los tratamientos rehabilitación, etc

• Como lo hago en tiempo real, y para todos…(notificación nacional e institucional automática en tiempo real – algoritmos de revisión, verificación) todos significa retroalimentación desde el usuario -medico al sistema y del sistema hasta el medico - usuario, también epidemiologia en tiempo real para todos.

• Como usar las redes sociales para mis objetivos

TANTA INFORMACIÓN PARA QUE ? PARA QUIEN ?

Dx individual Dx poblacional

Evaluación individual y E. poblacional

Terapéutica individual

y poblacional

y manejo de riesgo

Retroalimentación usuario y

generador de información

REDES SOCIALES

• COMERCIO (CERVECERAS TABACALARES)

• BANCA

• SECTOR POLITICO

• TELECOMUNICACIONES

• AEROLINEAS

• OTROS 30 SECTORES y hasta la delincuencia …

Y NOSOTROS QUE ?

FASES DE LA MINERÍA (CRISP-DM):

• (1) Comprensión del negocio (fenómenos de salud – las causas…..)

• (2) La comprensión de Datos (estadística)

• (3) Preparación de Datos (integración)

• (4) Modelado

• (5) Evaluación

• (6) El despliegue

FUENTES DE DATOS

• Bases de datos relacionales

• Bases de datos multidimensionales (DW)

• Bases de datos transaccionales

• Series temporales, secuencias y data streams

• Datos estructurados

• Datos espaciales y espaciotemporales

• Textos e hipertextos (p.ej. Web Redes sociales)

• Bases de datos multimedia (p.ej. Imágenes, microscopia RX etc.)

TAREAS DE LA MINERIA DE DATOS-SALUD

• Caracterización: descriptiva, necesidades, prioridades

• Asociación: poblaciones similares, riesgo,

• Clasificación: diagnostico

• Análisis de grupos: inferencia

• Evolución y tendencias (en espacio-GIS o tiempo -series temporales –predicción, interpolación, perspectivas, escenarios)

• Análisis de desviaciones o anomalías: fraude, brotes, picos, respuesta a políticas, o programas, impacto.

ADVERTENCIA

Todas las técnicas estadísticas se basan en la suposición de que los patrones

existentes continuarán en el futuro.

(o de que existen patrones)

COMO SE EVALUACIÓN LA MINERÍA

Precisión

Claridad

Integración

16

QUE MÉTODO SELECCIONO?

• Existe una gran cantidad de métodos oherramientas clasificadas de acuerdo asu uso habitual. La selección de unmétodo depende de muchos factores:el contexto, la pertinencia, ladisponibilidad de los datos históricos, elgrado de precisión deseable, el períodode tiempo que se prevé, el costo /beneficio de la previsión, el tiempodisponible para realizar el análisis, perosobre todo de lo que necesitorealmente.

Necesidad Conjunto Metodos Ejemplo

Visualizar Visualización Grafica de líneas

Grafica de pastel

Series de tiempo

Joint point

Describir las tendencias

del acné en Colombia y

si hay puntos de quiebre

estadísticamente

significativos, y mostrar

porcentajes por genero y

grupos de edad.

Predecir Clasificación Arbol C&R, QUEST, CHAID, C 5.0, Regresión,

lineal, logística, Cox, redes neuronal,

maquina de vectores, redes bayesianas,

lineal mixto generalizado, ARIMA, KNN,

Pre método PCA/Análisis factorial, filtros

Predecir la evolución de

la leishmaniosis en

Colombia para los

próximos 10 años.

Encontrar

patrones

Asociación A priori, CARMA, CARMA secuencial, reglas. Buscar una serie de

procesos con altas tasa

de eventos de riesgo.

Segmentar Clusters K medias, Kohonen Agrupar la población por

riesgo, detectar atípicos

en una población.

SELECCIÓN DEL MÉTODO ADECUADO : FÁCIL

MUCHOS MÉTODOS

• Árboles de Decisión

• Clasificación de Bayes

• Mínimos cuadrados ordinarios

• Regresión logística

• Máquinas de Vectores Soporte

• Métodos Ensemble

• Algoritmos de agrupación

• Análisis de Componentes Principales

• Análisis de Componentes Independientes

• Descomposición de valor singular

• Redes Neuronales Artificiales.

• Algoritmos Genéticos.

• Vecino más Cercano.

• otros

DESCRIPCIÓN DE ALGUNOS MÉTODOS

MÉTODOS• Árboles de decisión.

Herramientas analíticasempleadas para eldescubrimiento de reglas yrelaciones.

Se construye partiendo elconjuntos de dos (CART) omás (CHAID).

Cada subconjunto a su vezes particionado.

Se continua hasta noencontrar diferenciassignificativas de influencia.

Son modelos caja abierta,permiten interpretación

21

MÉTODOS• Reglas de asociación.

Derivan de un tipo deanálisis que extraeinformación porcoincidencias.

Permite descubrircorrelaciones en lossucesos de la base dedatos.

Usa reglas del tipo SI...ENTONCES.

Permiten interpretacióndel experto

22

MÉTODOS• Redes neuronales.

Son capaces de detectar y aprender patrones y características de los datos.

Una vez adiestradas las redes pueden hacer pronósticos, clasificaciones y segmentación.

Son modelos cajasnegras

23

MÉTODOS• Algoritmos genéticos.

Hacen uso de técnicas dereproducción (mutación ycruce) para ser utilizadaspara búsqueda yoptimización.

Se parte de una poblacióninicial, y se alteraoptimizándola.

Esta herramienta se usa enlas primeras fases de laminería .

24

MÉTODOS• Lógica difusa.

Surge de la necesidad de modelar la realidad de forma mas exacta, evitando el determinismo y exactitud.

Permite el tratamientode grises mas allá delblanco y negro

Trata la existencia debarreras difusas osuaves entre grupos.

Genera y usa reglastipo: SI x es y en talgrado entonces z ental grado

25

MÉTODOS

• Redes bayesianas.

Permiten aprender sobre relaciones de dependencia y causalidad.

Permiten combinar conocimiento de datos.

Evitan el sobre-ajuste de datos.

Permiten el manejo de bases de datos incompletas, al igual que las redes neuronales y la lógica difusa.

Aprovechan el conocimiento previo.

26

MÉTODOS• Series temporales.

Estudian variables a travésdel tiempo para quepartiendo de eseconocimiento y con elsupuesto de no cambiospoder realizar predicciones.

Se basan en ciclos,tendencias y estaciones.(reconoce el azar)

Se puede aplicar enfoqueshíbridos entre métodosanteriores, o con otro tipode variables.

27

* Del trabajo del autor las tendencias del bajo peso al nacer en Colombia y los ciclos económicos

Fin

Medico Michel de Nôtre-Dame también llamado Nostradamus