Minería de datos en salud series temporales

Preview:

Citation preview

MINERÍA DE DATOS EN SALUD:

SERIES TEMPORALESJAIRO CESAR ALEXANDER 2017

:HAY TÉCNICAS CUALITATIVAS, CUANTITATIVAS, BASADAS EN MODELOS CAUSALES Y MIXTOS

• El primero utiliza datos cualitativos como la opinión de los expertos, y puede o no tener en cuenta el pasado.

• El segundo, por el contrario, se centra exclusivamente en patrones y cambios de patrón, y por lo tanto se basa enteramente en datos históricos.

• La tercera utiliza la información altamente refinada y específica acerca de las relaciones entre los elementos del sistema, y es lo suficientemente potente como para tener eventos especiales formalmente en cuenta. Al igual que con técnicas de análisis de series temporales y de proyección, el pasado es importante para los modelos causales.

• Los modelos mixtos dan información cuantitativa a un grupo de expertos para sacar conclusiones validas.

COMO TRABAJAR CON SERIES TEMPORALES

MÉTODOS CUANTITATIVOS

TRABAJAR CON SOFTWARERECOMENDADOS

• JDemetra+ TRAMO-SEATS, X13-ARIMA (libre)

• GRETL (Libre)

• JOINT POINT (Libre)

• EXCEL (Comercial)

• GMDH SHELL DS (Comercial)

• MATLAB (Comercial)

• IBM SPSS . MODELER (Comercial)

• R (libre)

• WEKA - PENTAHO

https://surveillance.cancer.gov/joinpoint/

http://gretl.sourceforge.net/index.html

SERIES TEMPORALES: DEFINICIÓN

Colección de observaciones hecha en el tiempo

TAREAS: DE LA MINERÍA DE SERIES TEMPORALES

• Caracterización y comparación temporal: ejem. Dos departamentos tienen series de dengue muy similares

• Análisis clustering temporal: ejem cluster costa atlantica cluster area amazoncia

• Clasificacion temporal: la sifilis congenital estabien el el centro, critica en la periferia, y acceptable en la region costera.

• Reglas de asociación temporal: si la economiacae 3 puntos y la produccion se mantiene la desnutrición aumentara 7%

• Analisis de patrones temporales, en carmen de bolivar se ha detectado un anormal caso de eventos adeversos a la vacunación que debeser atendido.

• Analisis de prediccción y tendenciastemporales: ejemplo de continuar la tendenciano se cumplirarn las metas de desnutrición enniños para los proximos 4 años.

• Detección de anomalias: inceremento en loscasos de hemophilia en Colombia.

Guangchen Ruan, Paul C. Hanson, Hilary A. Dugan, Beth Plale, Mining Lake Time Series using

Symbolic Representation, Ecological Informatics,

ETAPAS DE LOS MODELO DE SERIES TEMPORALES

Formulación de un

problema

Estudio del Fenómeno

Parte descriptiva

70%

Parte pronostico

30%

Explicación de supuestos

Presentación de

escenarios

Generación de un modelo

DE LOS FENÓMENOS

• Es necesario la comprensión del fenómenos, definiciones

• Datos , recuentos, porcentajes, tasas, índices

• Causalidad, asociaciones, dependencias

• Estudios y modelos anteriores

• Registros históricos

PARTE DESCRIPTIVA

Suministra mucha

mas información

de la que se piensa

ANÁLISIS DE SERIES TEMPORALES

• Representación de la serie temporal e indexación

• Reducción de dimensionalidad

• Medida de similaridad

• Comparando todas las series

• Distancia euclídea coeficientes DFT y los coeficientes DWT

• Distancia “time warping”

• Comparando sub secuencias de las series (búsqueda por desplazamiento)

• Método General-Match

• Minería en series temporales

• Segmentación

• Visualización

EJEMPLOS DE ALGORITMOS

• Support vector regression (SVR)

• algoritmo Gecko

• Neural clustering method

• fuzzy c -means (FCM)

• Autorregresivo de media móvil (ARMA , ARIMA)

• Modelos ocultos de Markov (HMM)

• El análisis de conglomerados

• descomposición wavelet

• clasificación del vecino más cercano

• árboles de decisión basados en DTW

• transformación simbólica

• candle stick charting

Ak-chung Fu, A review on time series data mining, Engineering Applications of Artificial Intelligence, Volume 24, Issue 1, February 2011, Pages 164-181,

LOS NUEVOS: APROXIMACIÓN SIMBÓLICA

Convierte los datos a palabras y utiliza algoritmos de procesamiento de lenguaje natural para descubrir y clasificar los patrones

Guangchen Ruan, Paul C. Hanson, Hilary A. Dugan, Beth Plale, Mining Lake

Time Series using Symbolic Representation, Ecological Informatics,

RESUMEN DE REPRESENTACIONES

• Polinómicas - regresión interpolación

• Coeficientes

• Simbólica

• Arboles

• Wavelet

• Espectral - transformada de Fourier

LOS DATOS Y LAS FECHAS

La segmentación e

incompatibilidad de

los sistemas de

información puede

ser un problema

La depuración , de

datos errados

faltantes,

inconsistentes, y con

formatos

incompatibles

pueden tomar algún

tiempo, que hay que

tener en cuenta

OUTLIER

• Es una observacion que se desvian mucho de las otrasobservaciones y se creegenerada por mecanimosdiferentes

• La mayoria de software recomendado puedeeliminar este tipo de datos, pero eso depende de losobjetivos del invetigador.

VALORES MISSING FALTANTES U OCULTOS

• El software puede detectar y tratar este problemas con varios métodos como la interpolación

INTEGRACIÓN DE BASE DE DATOSY FORMATOS

Mayores capacidades

Los modelos generados deben ser pensados en producción desde el comienzo

Y también en integración para superar los problemas de segmentación de los sistemas

de información

MANEJO DE OS FORMATOS Y ESTANDARES

Es necesario el manejo

adecuado de los formato

(estándar) en este caso la fecha

en GRETL

DATOS INGRESO DE INFORMACIÓN

http://www.ins.gov.co/lineas-de-

accion/Subdireccion-

Vigilancia/sivigila/Paginas/vigilancia-

rutinaria.aspx

FORMATO DE ARCHIVO

PDF !

INSEs necesario que lo sistemas

de información suministren

información de forma útil, y

no solo para cumplir la

norma

ADQUISICIÓN DE INFORMACIÓN

La información

pueden venir de

base de datos, ejem

PENTAHO- Base de

datos, o KNIME, en

MYSQL.

En la imagen

integración de varios

archivos de

indicadores de salud

(INS) de Excel en

ACCESS

Un ejemplo de consulta SQL de

un conjunto de tablas de

EXCEL en ACCES (Indicadores

de salud pública)

EJEMPLO DE GRAFICAS Y LA EXPLORACIÓN INICIAL

Aquí se ve el

comportamie

nto de la

varicela en

Colombia,

nota/ la

varicela tiene

vacuna

efectiva.

Registro

histórico con

proyección a

2018

LOS FILTROS

Filtro media móvil

exponencial

Filtro tendencia polinómicaFiltro Hodrick -Prescott

Serie varicela 2012- 2016 (recuento)

PERMITEN:

Mirar la tendencia

Estacionalidad,

componente aleatorio

CONSIDERACIONES SOBRE LA EXPLORACION DE SERIES DE TIEMPO

• Algunos fenómenos son tan complejos que es necesario tener en cuenta ciertas cosas sobre como se clasifican, los fenómenos aleatorios, la teoría del caos, la causalidad y el manejos de escalas para tener en cuenta en los modelos

CONSIDERACIONES

• - tipo de fenómeno

• - el azar, la mala suerte o la buena suerte

• - la causalidad

• - la teoría del caos

• - la ley de los grandes números y las escalas

-TIPOS DE FENÓMENOS DE ACUERDO A SU COMPLEJIDAD

ADRIANA ELISA ESPINOSA CONTRERAS “EL CAOS Y LA CARACTERIZACIÓN DE SERIES DE TIEMPO A

TRAVÉS DE TÉCNICAS DE LA DINÁMICA NO-LINEAL” UNIVERSIDAD NACIONAL AUTÓNOMA

DE MÉXICO. MÉXICO, D.F. 2004

Todos los fenómenos

no son tan

predecibles como

una Varicela,

algunos rayan en lo

aleatorio y parecen

o se asemejan a

series económicas

En la figura se

pueden ver

diferentes tipos de

fenómenos

-CONSIDERACIONES SOBRE LOS FENÓMENOS

ADRIANA ELISA ESPINOSA CONTRERAS “EL CAOS Y LA CARACTERIZACIÓN DE SERIES DE TIEMPO A

TRAVÉS DE TÉCNICAS DE LA DINÁMICA NO-LINEAL” UNIVERSIDAD NACIONAL AUTÓNOMA

DE MÉXICO. MÉXICO, D.F. 2004

Se puede ver que algunos

fenómenos son muy

deterministas, otros

imposibles de predecir

(aleatoriedad) con la

ciencia actual , y otros

están en el limite de lo

predecible y tienen un

comportamiento

matemáticamente

extraño.

-DEL DEMONIO DE LAPLACE A LA FÍSICA CUÁNTICA :

DETERMINISMO VS INDETERMINISMOAleatoriedad

Concepto central dentro de la teoría de probabilidadesy en los estudios del comportamiento cuya definicióndescansa en la suposición de que todo suceso tieneuna causa, nada es azaroso. La noción de aleatoriedadaparece asociada al espacio generado por eldesconocimiento humano (parcial o total) de talescausas. Así, la "aleatoriedad significa que no hay una leyconocida, capaz de ser expresada en un lenguajecoherente, que describa o explique los eventos y susresultados" (Kerlinger, 1994, p.126).

Demonio del mercurio alquímico, en el libro “Della

trasmutatione metallica”, Giovani Battista Nazario,

Brescia, 1589.

-MIS INDICADORES OBEDECEN SOLO A VARIABLES CONOCIDAS A EFECTO AZAR (PURÍSIMA SUERTE!) A VARIABLES DESCONOCIDAS O

FENÓMENOS COMPLEJOS?

-LA CAUSALIDAD

Según la indagación, "hasta el momento

tenemos evidencia de que ningún factor

técnico influyó en el accidente, todo está

involucrado en un factor humano y

gerencial".

-HAY QUE TENER EN CUENTA LA TEORÍA DEL CAOS

-PUEDE UN DISCURSO DE DONALDTRUMP EN WASHINGTON AFECTAR

GRAVEMENTE LA SALUD DE UN NIÑO EN LA GUAJIRA?

-CONSIDERACIONES

• El azar, la suerte, o el libre albedrio es importante?• Como estimarlos? Existen??

• Basta con cambiar la escala temporal? , o usar proporciones?

• Bata con usar filtros ?

• Toca usar índices de aletoriedad, dimesiones, fractalidad, etc..?

• Que pasa con la predicción si el fenómeno es complejo y el azar cambia los condiciones iniciales del fenómeno?

• Los diferencia entre lo pronosticado y lo real se debe al azar, a los factores asociados o a ambos y en que grado?

• Mi predicción o mis acciones puede alterar el futuro?

-LEY DE LOS GRANDES NÚMEROS (APLICADA)

• En la teoría de la probabilidad, bajo el término genérico de ley de los grandes números se engloban varios teoremas que describen el comportamiento del promedio de una sucesión de variables aleatorias conforme aumenta su número de ensayos.

• Estos teoremas prescriben condiciones suficientes para garantizar que dicho promedio converge al promedio de las esperanzas de las variables aleatorias involucradas. Ejemplo la difusión de un gas es azarosa a pequeña escala pero determinística a gran escala.

-AUMENTAR LA ESCALA EN EL TIEMPO

• Aumentar la escala de tiempo permite filtrar el componente aleatorio que se anula a si mismo y permite ver otros elementos de la serie temporal, como la tendencia, la estacionalidad, y los ciclos.

• Disminuir la escala aumenta el efecto visible del componente suerte.

• Inconvenientes?

Por día

Por semana

Por mes

Por trimestre

Por semestre

Por año

Por 4 años

-AUMENTAR LA ESCALA EN EL EVENTO

• Tasas x 1000 x 10 000 x 1 000 000 ….

• Proporciones

• Índices

• Funciones

• Inconvenientes

Usar denominadores puede filtrar algunos componentes aleatorios

y otros componentes como el crecimiento de la población, mortalidad

Etc.

-FRACTALES

Algunos fenómenos

son independientes de

escala !!!

VOLVIENDO AL MODELO Y LA MINERÍAHAY QUE SELECCIONAR UN MODELO

OTRAS CONSIDERACIONES ….

• En un modelo determinístico se pueden controlar los factores que intervienen en el estudio del proceso o fenómeno y por tanto se pueden predecir con exactitud sus resultados.

• En un modelo estocástico no es posible controlar los factores que intervienen en el estudio del fenómeno y en consecuencia no produce simples resultados únicos. Cada uno de los resultados posibles se genera con una función de probabilidad que le adjudica una probabilidad a cada uno de éstos,

Ejemplo: un modelo para predecir el tamaño de una epidemia en una población de N individuos. Para el caso determinístico se proporciona un valor único, C, mientras que el modelo estocástico permite la posibilidad de obtener desde cero hasta N individuos y se adjudica una cierta probabilidad a cada uno de estos sucesos. La diferencia es más grande de lo que parece, ya que en un modelo matemático determinístico en el contexto epidemiológico; un solo sujeto causa una epidemia generalizada, mientras que bajo un modelo estocástico existe la posibilidad de que la epidemia se extinga

SIEMPRE ESTA LA OPCIÓN DE LA ELABORACIÓN AUTOMÁTICA DEL

MODELO DE SERIE TEMPORAL• La mayoría de software de alta calidad tiene funciones automatizadas para

seleccionar el mejor modelo según nuestras necesidades y datos

• En el caso de las series temporales JDEMETRA (software libre) o IBM SPSS MODELER y GMDH SHELL (software comercial) ofrecen herramientas muy sofisticadas para elaboración automática de modelos.

• Los modelos luego pueden exportarse a medios de producción

LOS MODELOS EN R SON MAS MANUALES, AUNQUE EXISTEN MUCHOS PAQUETES DE AUTOMATIZACIÓN

• Pronostico del autor generado con un modelo HOLTWINTERS en R para la serie de bajo peso al nacer en Colombia con datos semanales

SELECCIÓN AUTOMÁTICA DEL MODELO EJEMPLO

Este es el modelizador

experto automático

de SPSS 20,0

MODELOS AUTOMÁTICOS EN SPSS

MODELOS AUTOMÁTICOS EN JDEMETRA+

HAY QUE TENER EN CUENTA EN LA ELABORACIÓN DEL MODELO PARA

SERIE TEMPORAL• Información de buena calidad produce resultados de buena calidad

• Datos de pésima calidad, generalmente producen malos resultados independiente de lo sofisticado de los algoritmos o software usado

• La elaboración de modelos temporales como por ejemplo los ARIMA puede tomar algún tiempo , por eso puede ser recomendable iniciar con un proceso automático en MODELER GMDH SHELL Y JDEMETRA que presentan resultados bastante buenos .

MEDIDAS DE BONDAD DE AJUSTE: (SE USAN PARA SABER QUE TAN BUENO ES EL MODELO)

• R cuadrado estacionaria, R cuadrado (R2), raíz del error cuadráticopromedio (RMSE), error absoluto promedio (MAE), error absoluto porcentualpromedio (MAPE), error absoluto máximo (MaxAE), error absoluto máximoporcentual (MaxAPE) y criterio de información bayesiano (BIC) normalizado

EJEMPLO DE SERIE DE TIEMPO BAJO PESO AL NACER

Bajo peso al nacer vs Semana Epidemiológica

BAJO PESO AL NACER MAPA DE RECURRENCIA

El grado de

aleatoriedad

puede estimarse

con un mapa de

recurrencia

en este caso en

MATLAB

MAPA DE RECURRENCIA

Aquí se puede ver

Un fenómeno

desde completamente

Azaroso (puntos) hasta

Determinista (las líneas)

FILTROS - CURVE FITING TOOL

General model Sin3:f(x) =

a1*sin(b1*x+c1) + a2*sin(b2*x+c2) + a3*sin(b3*x+c3)

where x is normalized by mean 26.58 and std14.47Coefficients (with 95% confidence bounds):

a1 = 2162 (1718, 2606)b1 = 0.3811 (-0.2769, 1.039)c1 = 1.541 (1.002, 2.079)a2 = 6529 (-1.161e+07, 1.162e+07)b2 = 2.792 (-42.63, 48.21)c2 = 0.3984 (-41.46, 42.26)

a3 = 6569 (-1.161e+07, 1.162e+07)b3 = 2.843 (-41.07, 46.75)c3 = -2.698 (-41.6, 36.2)

Goodness of fit:SSE: 3.479e+06R-square: 0.9146Adjusted R-square: 0.9118RMSE: 121.4

Los filtros pueden

mostrar patrones no

visibles interesantes..

LOS CAMBIOS DE ESCALA PARA CONTRARESTAR AL AZAR

Función previsión

Suaviza cimiento

exponencial AAA

En Excel

Función

agregar

elemento

grafico

líneas de

tendencia

con

proyección

en Excel

Estadística Valor

Alpha 0.50

Beta 0.00

Gamma 0.50

MASE 1.20

SMAPE 0.08

MAE 23.68

RMSE 33.10

ESTE ES UN EJEMPLO DE TEST DE BONDAD DE AJUSTE EN EXCEL

EJEMPLO BAJO PESO AL NACER

• El análisis de las series temporales pude determinar que regiones departamentos y municipios están presentado mas el fenómeno, y si alguna política esta impactando en la región

• La información estaría disponible no solo para el tomador de decisión sino también para la opinión publica, el medico y el usuario.

CONSIDERACIONES FINALES

DIMENSIONES:CIRCULO O CUADRADO (2D)?

Hay que pensar

Siempre desde varias

Perspectivas

El trabajo en quipo

Multidiciplinario es

Recomendable,

Los dx poblaciones

Son de equipo

PATRONES :UNA CARA EN MARTE?

Crédito NASA

ASOCIACIONES – CAUSALIDAD - AZAR

Tyler Viglen - Spurious Correlations website

https://commons.wikimedia.org/w/index.php?curid=48043945

http://www.nature.com/nature/journal/v529/n7584/full/nature16166.html

http://science.sciencemag.org/content/347/6217/78

SIEMPRE INTERPRETAR

•“La mejor manera de predecir el futuro es crearlo” (“The best way to predict the future is to create it”).

Dennis Gabor Nobel de Física en Inventando el futuro 1963

FIN

Recommended