Diseño de un sistema de ayuda

Embed Size (px)

Citation preview

Universidad Rey Juan Carlos

Mster Oficial en Ingeniera de Sistemas de Decisin

Curso Acadmico 2009 / 2010

Proyecto Final: Tesis de Mster

Diseo de un sistema de ayuda a la decisin de diagnstico clnico preventivo de accidente cerebrovascular de tipo isqumico (Ictus) basado en ontologas y tcnicas probabilsticas

Autor: Tutor:

D. Alejandro Rodrguez Gonzlez Dr. David Ros Insua

TESIS Fin de mster

i

RESUMENDiversos estudios identifican el accidente cerebrovascular (ictus) de tipo isqumico como una de las principales causas de mortalidad en varios pases. En esta patologa, en general es difcil realizar un diagnstico hasta que no se producen los primeros signos, y por lo tanto, los diagnsticos preventivos basados en los factores de riesgo suelen ser las mejores herramientas existentes para combatirla antes de que se produzca. Numerosos estudios tratan la epidemiologa de los distintos factores de riesgo que se ven involucrados en el proceso del accidente cerebrovascular. Sin embargo, no existen herramientas automatizadas que puedan prevenir a un paciente si presenta un alto riesgo de sufrir este tipo de trastorno. El objetivo de la presente tesis, por una parte es realizar una retrospectiva de los sistemas de diagnstico existentes y las tcnicas que se van a utilizar en el presente trabajo, para, por otra parte, disear y desarrollar un sistema de ayuda a la decisin clnico que permita realizar un diagnstico preventivo de accidentes cerebrovasculares de tipo isqumico basndose en la numerosa literatura epidemiolgica existente sobre el tema y usando como tecnologas de desarrollo el uso de ontologas e inferencia probabilstica.

ii

Diseo de un sistema de ayuda a la decisin

INDICE DE CONTENIDORESUMEN ....................................................................................................................... I 1. INTRODUCCIN .................................................................................................4

1.1. MOTIVACIN DE LA INVESTIGACIN ........................................................6 2. ESTADO DEL ARTE ...........................................................................................8

2.1. WEB SEMNTICA ..............................................................................................8 2.2. ONTOLOGAS ......................................................................................................9 2.3. TCNICAS DE INTELIGENCIA ARTIFICIAL ................................................9 2.4. SISTEMAS DE AYUDA A LA DECISIN (DSS).......................................... 15 3. TRABAJOS RELACIONADOS ........................................................................ 18

3.1. DXPLAIN............................................................................................................ 18 3.2. MYCIN ................................................................................................................ 19 3.3. CADUCEUS ........................................................................................................ 19 3.4. INTERNIST-I..................................................................................................... 20 3.5. ILIAD .................................................................................................................. 21 3.6. PAIRS.................................................................................................................. 21 3.7. GIDEON .............................................................................................................. 22 3.8. OTROS DDSS: USO DE WEB SEMNTICA Y ONTOLOGAS ................. 23 4. PROBLEMA A RESOLVER ............................................................................. 25

4.1. ACCIDENTE CEREBROVASCULAR ............................................................. 25 4.2. RESOLUCIN .................................................................................................... 30 5. TECNOLOGAS EMPLEADAS ....................................................................... 50

5.1. REPRESENTACIN DEL CONOCIMIENTO ............................................... 50 5.2. INFERENCIA PROBABILSTICA .................................................................. 56 6. DISEO APLICACIN ..................................................................................... 68

TESIS Fin de mster 6.1. VALORES BINARIOS ...................................................................................... 68 6.2. VALORES SENARIOS ...................................................................................... 69 6.3. VALORES DECIMALES ................................................................................... 71 6.4. UNIN DE COMBINACIONES ....................................................................... 72 6.5. GENERACIN DE TABLAS PROBABILSTICAS ...................................... 73 6.6. APLICABILIDAD Y CASO DE USO ............................................................... 73 7. CONCLUSIONES Y FUTURAS LNEAS DE INVESTIGACIN................. 80

iii

7.1. CONCLUSIONES ............................................................................................... 80 7.2. FUTURAS LNEAS DE INVESTIGACIN .................................................... 81 REFERENCIAS ........................................................................................................... 82

TESIS Fin de mster

4

1.

INTRODUCCIN

El uso de nuevas tecnologas ha causado una dramtica transformacin en la prctica de la investigacin relacionada con las biociencias. Por ello, el rpido crecimiento de la investigacin y desarrollo usando Inteligencia Artificial en los sistemas de informacin relacionados con la biologa y la medicina ha desatado una atencin a nivel mundial en la administracin y gestin del conocimiento mdico (Liu et al., 2009). El desarrollo de sistemas de diagnstico diferencial mdico y sistemas de terapia que emplean inteligencia computacional y tecnologas de redes distribuidas ha ganado importancia los ltimos aos (Zhao et al., 2005). En Cohen (2004), las ciencias de la biologa y medicina estn consideradas como uno de los campos ms prometedores de la ciencia en el siglo XX, y estos avances se espera que tengan un tremendo impacto en el dominio de las tecnologas de la informacin (IT). Sin embargo, el aprovechamiento mximo del potencial de las aplicaciones de conocimiento intensivo en diagnstico diferencial mdico es un problema crtico a tratar para obtener buenos resultados de eficiencia y exactitud de diagnstico o de sistemas teraputicos. Las tecnologas semnticas (Berners-Lee, 2001) han emergido como un intento de proporcionar metadatos procesables de forma automtica a mquinas para la, cada vez mayor, cantidad de informacin disponible en los recursos de la Web. Estos estndares software y metodologas pueden ser aplicadas a ciertos dominios particulares para ser capaces de realizar un amplio uso de las especificaciones de la Web Semntica como RDF (W3C, 2004), (W3C, 2006). Estas especificaciones pueden definir la terminologa de un dominio cientfico como una ontologa que puede interpretarse por una mquina usando XML como sintaxis de intercambio de datos. Las tecnologas semnticas que han sido desarrolladas y mejoradas a lo largo del avance de la Web Semntica pueden explotarse para revelar relaciones

D. Alejandro Rodrguez Gonzlez

5

latentes que puedan ser ledas automticamente por mquinas y que contengan informacin de diagnstico especfica en la disciplina de la medicina, donde la homogeneidad de la terminologa es particularmente problemtica (FuentesLorenzo et al., 2009). Las ontologas se han desarrollado en el campo de la Inteligencia Artificial para facilitar la comparticin de conocimiento y la reusabilidad. Estas son las piedras angulares de la tecnologa de la Web Semntica porque proporcionan vocabularios estructurados que describen una especificacin formal de un concepto que se puede compartir (Fensel, 2002). La Web Semntica proporciona frameworks que activan la integracin de datos, la comparticin y la reutilizacin a partir de varias fuentes. El gran avance consistente en aadir metadatos semnticos a las aplicaciones mdicas est proporcionando un nuevo nivel de datos e integracin de procesos que puede usarse para el desarrollo de sistemas de mantenimiento y procesamiento de datos. Este nuevo nivel de eficiencia permite a las mquinas tener semntica formal para apoyar el razonamiento. Puesto que varios enfoques de la Inteligencia Artificial han trabajado con el problema del diagnstico y su aplicacin en entornos complejos como los del dominio mdico (Jurez et al., 2007), las tecnologas semnticas pueden proporcionar una fuerte base para los sistemas de diagnstico mdico orientados hacia el conocimiento. En la actualidad, las ontologas proporcionan el mejor enfoque del mercado para tratar el problema mencionado. El uso de las ontologas tiene la funcin, en primer lugar, de permitir a los humanos comprender el significado de cualquier elemento teniendo un vocabulario bien definido y, en segundo lugar, de apoyar el razonamiento bajo una semntica formal. Usar las tecnologas semnticas es una clave tecnolgica que permite el mantenimiento de la gran cantidad de datos mdicos existentes (ver por ejemplo, Garca-Snchez et al., 2008 y Gmez et al., 2008). La construccin de un sistema de diagnstico diferencial en medicina implica usar un nmero de tecnologas basadas en el conocimiento que permitan combatir la ambigedad, como las ontologas representan informacin especfica

6

Diseo de un sistema de ayuda a la decisin de forma estructurada, pero tambin estrategias como la computacin probabilstica de varios elementos y la inferencia lgica, cuya combinacin supera propuestas similares (Garca-Crespo et al., 2009). Sin embargo, la eficiencia y solidez de las descripciones semnticas debe ser apoyada por su lgica subyacente. El entramado de los lenguajes lgicos y formalismos no es un problema trivial. Por lo tanto, una ontologa debe definirse perfectamente y explicada para servir como base para aplicaciones mdicas del mundo real. Por esta razn, debe definirse una ontologa exacta para crear una base para los sistemas de diagnstico mdico. Tambin, la descripcin de las enfermedades, sntomas, pruebas de laboratorio y otros parmetros clnicos deben ser definidos con rigor y comprobados por mdicos. La descripcin de estos factores es uno de los problemas que estn presentes en la mayora de los sistemas de diagnstico clnico que existen en la actualidad, donde no se tienen en cuenta todas las posibilidades de representacin, porque en algunos casos estos sistemas no son capaces de realizar la inferencia de la enfermedad correcta.1.1. MOTIVACIN DE LA INVESTIGACIN

El accidente cerebrovascular (ACV o ACVA), tambin conocido como ictus cerebral, apopleja, golpe o ictus apopltico o ataque cerebral es un tipo de enfermedad cerebrovascular cuya incidencia en Espaa se estima que muestra una tasa que vara entre 1.5 y 2.9 casos nuevos por 1000 habitantes y ao. Los datos epidemiolgicos ms detallados ser mencionan en posteriores secciones. Teniendo en cuenta, sin embargo estos datos iniciales se puede observar que es una tasa de prevalencia bastante alta. Extrapolando los datos anteriores a la poblacin espaola (que se estima actualmente en ms de 46 millones de habitantes), esto implica, aproximadamente, un mnimo de 69.000 nuevos casos de accidente cerebrovascular por ao, slo en nuestro pas. Como se puede observar, la extrapolacin de estos datos a entornos reales como pueda ser el de la poblacin total de un pas, genera cifras bastante alarmantes. Dadas las caractersticas de sta, en conjuncin con su etiologa y epidemiologa nace la motivacin principal de este trabajo.

7

El objetivo del mismo es utilizar las tecnologas ms punteras, pero a su vez eficientes y estables, del mundo de la tecnologa de la informacin, concretamente, el uso de ontologas, para la descripcin y especificacin formal de un dominio, y tcnicas probabilsticas como la inferencia bayesiana, para disear y generar un sistema clnico de diagnstico preventivo de accidentes cerebrovasculares basndose en las caractersticas del paciente a analizar.

8

Diseo de un sistema de ayuda a la decisin

2.

ESTADO DEL ARTE

En la presente seccin se introducir el estado del arte de las diferentes tecnologas o conceptos usados en el desarrollo de la tesis, as como una retrospeccin de los principales trabajos relacionados con las tecnologas mencionadas.2.1. WEB SEMNTICA

El trmino Web Semntica ha sido acuado recientemente para designar una Web de nueva generacin en la que los contenidos sean algo ms que una gran suma de informacin y servicios escasamente estructurados. Este nuevo enfoque propone reestructurar y enriquecer los documentos y componentes Web con informacin semntica explcita, independientemente de la presentacin al usuario, y susceptible de ser procesada de forma automtica por un programa. Se considera que la Web Semntica aadir estructura al contenido semntico de los documentos electrnicos, creando un entorno donde los agentes software podrn realizar tareas de manera eficiente (Berners-Lee et al., 2001). La Web Semntica es una visin: la idea de tener los datos en la Web definidos y enlazados de manera que puedan ser empleados por mquinas, no slo con el propsito de su visualizacin, sino para ser usado en varias aplicaciones. Segn Berners-Lee, la arquitectura de la Web Semntica se podra representar de la siguiente forma:

Figura I Pastel de capas de la Web Semntica

9

Para que todo esto se haga realidad, se precisa de un lenguaje, una estructura formal para representar el conocimiento asociado a los datos. En la actualidad, se ha acuado la tecnologa ontolgica como el mtodo estndar para representar este conocimiento.2.2. ONTOLOGAS

La definicin estndar de diccionario del trmino ontologa identifica a sta como "la rama de la metafsica que estudia la naturaleza de la existencia. En las aplicaciones del mundo real, sin embargo, la ontologa es una entidad de tipo computacional y no debe considerarse como una entidad natural que se descubre, si no como un recurso artificial que se crea (Mahesh, 1996). Una ontologa debe entenderse como un entendimiento comn y compartido de un determinado dominio, que puede comunicarse entre cientficos y sistemas computacionales. Esta ltima caracterstica, el hecho de que puedan compartirse y reutilizarse en aplicaciones distintas, explica en gran parte el inters que ha suscitado en los ltimos aos la creacin e integracin de ontologas (Steve et al., 1998a, b). Cuando hablamos de ontologas como "sistemas de representacin de conocimiento", se debe especificar a qu tipo de sistemas se est haciendo referencia. En realidad, las ontologas se emplean en todo tipo de aplicaciones informticas en las que sea necesario definir concretamente el conjunto de entidades relevantes en el campo de aplicacin determinado, as como las interacciones entre las mismas. Algunas ontologas se crean con el simple objetivo de alcanzar una comprensin del UoD pertinente, ya que su creacin impone una especificacin muy detallada. Otras ontologas han sido creadas con un propsito general como, por ejemplo, el proyecto CyC (Guha & Lenat, 1990), orientado a la construccin de una base de conocimiento para hacer inferencias.2.3. TCNICAS DE INTELIGENCIA ARTIFICIAL

La inteligencia artificial (AI en ingls) se describe como la inteligencia de las mquinas y la rama de la informtica cuyo objetivo es crear este tipo de mquinas. Los libros de texto la definen como el campo de "estudio y diseo de agentes

10

Diseo de un sistema de ayuda a la decisin inteligentes" (Poole et al., 1998) donde un agente inteligente es un sistema que percibe su entorno y toma acciones que maximizan sus oportunidades de xito (Russell & Norvig, 2003). John McCarthy, quien acu el trmino en 1956, (Crevier, 1993), lo define como "la ciencia e ingeniera de crear mquinas inteligentes (McCarthy, 2007). La investigacin en Inteligencia Artificial es altamente tcnica y especializada y profundamente dividida en reas que generalmente fallan al comunicarse con otros (McCorduck, 2004). Estas reas han crecido alrededor de instituciones particulares. Los problemas centrales de la inteligencia artificial incluyen algunas como el razonamiento, el conocimiento, la planificacin, el aprendizaje, la comunicacin, la percepcin y la habilidad para mover y manipular objetos (Nilsson, 1998). Existen muchos trabajos relacionados con la inteligencia artificial en medicina. Multitud de revistas y conferencias estn especializadas en este campo de la inteligencia artificial, dando lugar a numerosos artculos referentes (Szolovits, 1982). En lo referido a los relacionados con el diagnstico diferencial existen multitud de trabajos tambin. Uno de los primeros trabajos fue el de Szolovits et al. (1988). Los trabajos relacionados con esta temtica donde se trata directamente el diagnstico clnico se muestran en el apartado relacionado con los sistemas de ayuda a la decisin de diagnstico.2.3.1. INFERENCIA LGICA

La inferencia es el proceso de llegar a una conclusin aplicando reglas (o lgica, estadstica, etc.) a observaciones o hiptesis, o interpolando el siguiente paso lgico en un patrn intuitivo. La conclusin arrojada tambin se llama inferencia. En este aspecto, la lgica estudia las leyes de inferencia vlidas y la estadstica, por ejemplo, han desarrollado reglas formales para la inferencia a partir de datos con incertidumbre. El proceso por el cual una conclusin es lgicamente inferida a partir de ciertas premisas se llama razonamiento deductivo o lgica deductiva (Johnson-

11

Laird, 1999). En este proceso de razonamiento, se construyen o evalan argumentos deductivos. En lgica, un argumento se dice que es deductivo cuando la veracidad de la conclusin pretende seguir o ser necesariamente una consecuencia lgica de la veracidad de las premisas, y, consecuentemente, su condicional correspondiente es una verdad necesaria. Por otra parte, el proceso por el que una conclusin se infiere a partir de mltiples observaciones se llama razonamiento inductivo, induccin, o lgica inductiva (Pellegrino & Glaser, 1980). Es un tipo de razonamiento que implica moverse a partir de un conjunto de hechos especficos a una conclusin general. La conclusin puede ser correcta o incorrecta, o correcta con un determinado grado de veracidad, o correcta en ciertas situaciones. Las conclusiones inferidas a partir de mltiples observaciones deben ser comprobadas mediante observaciones adicionales. Los sistemas de inteligencia artificial proporcionaron inicialmente inferencia lgica automtica. Por ello se volvieron extremamente populares en los mbitos de investigacin, guiando a las aplicaciones industriales bajo la forma de sistemas expertos y, despus, como motores de reglas de negocio. El objetivo de un sistema de inferencia es extender la base de conocimiento de forma automtica. La base de conocimiento es un conjunto de proposiciones que representan lo que el sistema sabe acerca del mundo. Varias tcnicas pueden usarse por el sistema para extender las bases de conocimiento a travs de inferencia vlida.2.3.2. REDES BAYESIANAS

Las redes bayesianas (tambin conocidas como redes causales, redes causales probabilsticas, redes de creencia, sistemas expertos bayesianos, diagramas de influencia o sistemas expertos probabilsticos) son herramientas estadsticas que representan un conjunto de incertidumbres asociadas sobre la base de las relaciones de independencia condicional que se establecen entre ellas (Edwards, 1998).

12

Diseo de un sistema de ayuda a la decisin Aunque se podra establecer una distincin ms especfica de los elementos que componen una red bayesiana (Edwards, 1998), se suele decir que una red bayesiana tiene dos dimensiones: una cualitativa y otra cuantitativa (p. e. Cowell, et al., 1999; Garbolino & Taroni, 2002; Nadkarni & Shenoy, 2001, 2004; Martnez & Rodrguez, 2003). Dimensin cualitativa: Una red bayesiana es un grafo. Por tanto, es una representacin grfica de un problema. Aunque la definicin de grafo, y la terminologa que la acompaa vara en funcin de los autores (Harary, 1969; Ronald, 1988; Spirtes et al., 2000; Tutte, 1984); podemos definir grafo como un par G = (V, E), donde V es un conjunto finito de vrtices, nodos o variables y E es un subconjunto del producto cartesiano V V de pares ordenados de nodos llamados enlaces o aristas. Por otro lado, una red bayesiana es un tipo concreto de grafo que se denomina grafo dirigido acclico (GDA). Es dirigido porque los enlaces entre los vrtices de la estructura estn orientados. Por ejemplo, si (A, B) E pero (B, A) E, diremos que hay un enlace dirigido o arco entre los nodos y lo representaremos como A B. Por su parte, es acclico porque no pueden existir ciclos en el grafo. Una conexin tipo A B indica dependencia o relevancia directa entre las variables. En este caso se est representando que B depende de A. Dada esta capacidad para codificar causalidad, las redes bayesianas han sido utilizadas para la bsqueda automtica de estructuras causales en bases de datos (Lpez, Garca y De la Fuente; 2006). Tambin se dice que A es padre de B y que B es hijo de A. Aunque la presencia de arcos entre nodos codifica informacin esencial sobre el modelo representado en la red, la ausencia de arcos entre nodos aporta una valiosa informacin, ya que el grafo codifica independencia condicionada. En una representacin grfica, podramos decir que las redes bayesianas son una representacin grfica del principio de independencia condicional en trminos probabilsticos. Este principio quedara enunciado del siguiente modo: Sean tres conjuntos X, Y y Z de variables; decimos que los conjuntos X e Y son (condicionalmente) independientes dado el conjunto Z si y solamente si:

13

P(x|z) = P(x|yz) Dicho de otro modo, dos variables X e Y, son independientes en trminos probabilsticas de una tercera Z si y solamente si: P(xy|z) = P(x|z) x P(y|z) La consecuencia fundamental de este principio es que la probabilidad de X es la misma condicionndola a Z que condicionndola a Z e Y. Cualquier red bayesiana se puede descomponer en tres tipos de conexiones bsicas, cada una con propiedades diferentes en el proceso de propagacin de probabilidades. En primer lugar, las conexiones seriales o cadenas causales representan un conjunto de variables asociadas linealmente que denotan dependencia entre las variables (Figura II). En nuestro ejemplo, la variable B depende de A y la variable C depende del valor de B. As, cuando sabemos algo sobre A podemos modificar nuestra creencia sobre el estado de B y esta informacin se propagar hasta C. Sin embargo, si encontramos una evidencia sobre B, aadir evidencias sobre C no alterar nuestro conocimiento sobre A y viceversa. En este caso, decimos que A y C son condicionalmente independientes dado B.

Figura II Conexin dependiente entre variables

En las conexiones divergentes, tambin conocidas como clasificadores ingenuos de Bayes, tenemos un nodo padre (o clase) que proyecta sus arcos sobre varios hijos (Figura III-a). Este tipo de conexin es el ms apropiado para representar procesos de diagnstico mdico (Herskovits & Dagher, 1997). Como veremos ms adelante son tiles para estimar el conocimiento asociado a conceptos en funcin del comportamiento del usuario. Cuando no conocemos el estado de la variable padre existe dependencia entre las variables hijas. Sin embargo, cuando el estado de esta variable se conoce, las evidencias sobre las

14

Diseo de un sistema de ayuda a la decisin variables hijas no se propagarn entre ellas. En nuestro ejemplo diremos que A y C son independientes dado B.

Figura III Conexin divergente y convergente

Por ltimo, en las conexiones convergentes (llamadas tambin cabeza a cabeza) varias variables apuntan con sus arcos hacia una variable de convergencia (Figura III-b). En este tipo de conexiones las variables madre son independientes entre s. Sin embargo, tenemos una evidencia sobre la variable hija, las variables madre se tornarn dependientes. En nuestro, ejemplo diremos que A y C son condicionalmente dependientes dado B. Dimensin cuantitativa: Existen tres elementos esenciales que caracterizan la dimensin cuantitativa en una red bayesiana: el concepto de probabilidad como un grado de creencia subjetiva relativa a la ocurrencia de un suceso, un conjunto de funciones de probabilidad condicionada que definen cada variable en el modelo y el teorema de Bayes como herramienta bsica para actualizar probabilidades con base en la experiencia. Tendramos, como mnimo, cuatro formas de entender la probabilidad: desde un punto de vista clsico, desde una perspectiva emprico, y la concepcin bayesiana o subjetiva. Por un lado, tenemos las teoras objetivistas dentro de las cuales se encuadra la concepcin frecuentista de la probabilidad, y por otro tenemos las epistemolgicas dentro de las cuales la subjetiva es la ms conocida (p. e. Alonso & Tubau, 2002; Cowell et al., 1999; Cox, 1964; De la Fuente et al., 2002; Neapolitan & Morris, 2004). De una manera u otra, la probabilidad es una manera de cuantificar la incertidumbre asociada a la ocurrencia de sucesos y las redes bayesianas se basan en una idea subjetiva de la probabilidad, siendo el teorema de Bayes el motor de actualizacin de probabilidades.

15

La ventaja de utilizar un GDA para construir un modelo probabilstico es que siempre tenemos la posibilidad de conocer la verosimilitud del modelo factorizndolo. As pues, para cada variable v V, tenemos que especi icar las distribuciones condicionales de Xv dados sus padres Xpa(v). Si entendemos que esta densidad es P(xv | xpa(v)), entonces la densidad global conjunta se deriva mediante: P( x) = P( X v | X pa ( v ) )vV

2.4.

SISTEMAS DE AYUDA A LA DECISIN (DSS)

Los sistemas de ayuda a la decisin constituyen una clase de sistemas de informacin computerizados entre los que se incluyen sistemas basados en el conocimiento (tambin llamados sistemas expertos) (Waterman, 1986; HayesRoth et al, 1983; Durkin & Durkin, 1998) que soportan actividades de toma de decisiones (Klein et al., 1993). El objetivo de estos sistemas es ayudar a tomar decisiones compilando informacin til a partir de una combinacin de datos sin tratar, documentos, conocimiento personal o modelos de negocio para identificar y resolver problemas y tomar decisiones. Segn Keen (1978), el concepto de ayuda a la decisin ha evolucionado a partir de dos reas de investigacin principales: Los estudios tericos de toma de decisiones en organizaciones hechos en el Instituto Tecnolgico Carnegie Mellon durante los ltimos aos de 1950 y principio de 1960, y los trabajos tcnicos en sistemas informticos interactivos, principalmente realizados en el instituto MIT. El concepto de sistema de ayuda a la decisin (DSS) se convirti en un rea de investigacin por s mismo a mitad de los aos 70, antes de ganar en intensidad durante los aos 80. En la mitad y al final de los 80, los sistemas de informacin ejecutiva (EIS - Executive Information System) (Thierauf, 1991; Watson & Walls, 1993), los sistemas de ayuda a la decisin de grupos (GDSS - Group Decision Support System) (Gray, 1987; Aikem et al., 1995; Nour & Yen, 1992) y los sistemas de ayuda a la decisin organizacionales (ODSS - Organizational Decision Support

16

Diseo de un sistema de ayuda a la decisin System) (Varghese & Pirkul, 1991), han evolucionado a partir de un usuario nico y los DSS orientados a modelos.2.4.1. SISTEMAS DE AYUDA A LA DECISIN CLNICA (CDSS)

Los sistemas de ayuda a la decisin clnica (CDSS) son programas informticos diseados para asistir a los mdicos y profesionales de la salud con la tarea de toma de decisiones (Trowbridge & Weingarten, 2001). Una definicin propuesta por Hayward: "Los sistemas de ayuda a la decisin clnica vinculan las observaciones de la salud con el conocimiento clnico para influenciar en las decisiones relacionadas con temas clnicos realizadas por los profesionales del sector para mejorar el cuidado de la salud" (Hayward et al., 2006). Esta definicin tiene la ventaja de simplificar el ayuda de decisin clnico a un concepto funcional. La definicin bsica de un CDSS en su forma ms simple es que es un DSS usado en el mbito clnico. A menudo, los sistemas de ayuda a la decisin de diagnstico (DDSS) se asumen como equivalentes de los CDSS y se usan indistintamente. Sin embargo, existen ligeras diferencias ya que los DDSS se usan nica y exclusivamente como herramientas de diagnstico, mientras que los CDSS pueden tener otros usos como gestin clnica de la informacin de pacientes, gestin farmacutica, sistemas de dosificacin de medicamentos, etc. El principal objetivo de los CDSS modernos es asistir al personal relacionado con la salud (clnico) en el punto de cuidado o atencin del paciente. Esto significa que el clnico va a interactuar con un CDSS para determinar diagnsticos, anlisis, etc. a partir de los datos del paciente. Se han usado teoras previas de los CDSS para definirlo literalmente como un sistema para tomar decisiones por el clnico. El clnico debe introducir la informacin de entrada y esperar a que el CDSS devuelva una salida con la respuesta correcta y actuar en consecuencia. La nueva metodologa de usar CDSS como asistencia fuerza a los clnicos a interactuar con el CDSS usando el conocimiento tanto del CDSS como del propio clnico para realizar un mejor anlisis de los datos del paciente del que tanto el humano como el CDSS podran hacer por s mismos. Tpicamente, los CDSS deberan hacer sugerencias de salidas o un conjunto de salidas para que el clnico

17

oficialmente escoja la informacin til y elimine las sugerencias errneas realizadas por el CDSS (Berner, 2007).2.4.2. SISTEMAS DE AYUDA A LA DECISIN DE DIAGNSTICO (DDSS)

Los sistemas de ayuda a la decisin de diagnstico (DDSS Diagnosis Decision Support System) son una variedad de los CDSS cuyo objetivo primordial es dar una ayuda a la realizacin del diagnstico diferencial. Como objetivos secundarios, se podran establecer pautas de tratamiento u otras opciones. Como se comentaba en el punto anterior, habitualmente suelen confundirse los trminos de CDSS y DDSS. Probablemente el motivo de esta confusin sea que la gran mayora de CDSS que existen, en realidad, son DDSS. A continuacin, se mencionan varias tcnicas relacionadas con la inteligencia artificial donde se han desarrollado DDSS. En la seccin de trabajos relacionados esta informacin se ver aumentada al tratar algunos de los sistemas ms famosos y utilizados para este propsito.

18

Diseo de un sistema de ayuda a la decisin

3.

TRABAJOS RELACIONADOS

En esta seccin se realiza un anlisis de los sistemas de ayuda a la decisin del diagnstico (DDSS) ms importantes en la bibliografa tcnica y mdica.3.1. DXPLAIN

DXplain (Hupp et al., 1986; Barnett et al., 1987) es un sistema de ayuda a la decisin desarrollado en el laboratorio de informtica en el hospital general de Massachusetts. Tiene las caractersticas de un libro de texto de medicina electrnico y un sistema de referencia mdico. En su modo de referencia o de anlisis de casos, DXplain acepta un conjunto de indicios clnicos (signos, sntomas, datos de laboratorio) para producir una lista ordenada de diagnsticos que pueden explicar (o ser asociados con) las manifestaciones clnicas. DXplain proporciona justificacin de porqu las enfermedades son consideradas, sugiere que informacin clnica puede ser til para cada enfermedad e incluye qu manifestaciones clnicas (si existen), suelen ser inusuales o atpicas para cada una de las enfermedades especficas. DXplain genera diagnsticos diferenciales ordenados usando un algoritmo pseudo-probabilstico. Cada indicio clnico introducido en DXplain se evala determinando la importancia del indicio y cuan fuerte el indicio soporta un diagnstico para cada enfermedad en la base de conocimiento. Usando este criterio, DXplain genera diagnstico ordenados con las enfermedades ms probables. Usando la informacin almacenada en el sistema acerca de la prevalencia y significancia de cada enfermedad, el sistema diferencia entre enfermedades comunes y raras. En lo referido a la precisin, en una investigacin preliminar de 46 casos de benchmark con una variedad de enfermedades y manifestaciones clnicas, los diagnsticos generados por DXplain resultaron coincidir con los resultados proporcionados por cinco mdicos (Feldman & Barnett, 1991). En otro estudio se investig como de bien funcionara el sistema de ayuda a la decisin ante respuesta a un ataque de bioterrorismo, la evaluacin de 103 casos consecutivos de medicina

19

interna mostr que DXplain identificada el diagnstico correcto en el 73% de los casos (Bravata et al., 2004).3.2. MYCIN

MYCIN fue uno de los primeros sistemas expertos. Fue desarrollado durante un periodo de entre cinco y seis aos a principios de los aos 70 en la Universidad de Stanford. Fue escrito en LISP como la tesis doctoral de Edward Shortliffe bajo la direccin de Buchanan, Cohen y otros. Surgi en el laboratorio que haba creado el sistema experto Dendral (Lederberg, 1987; Robert et al., 1980; Robert et al., 1993), pero enfatizando el uso de de reglas crticas que tenan elementos de incertidumbre (conocidas como factores de certidumbre) asociados con las reglas. Este sistema experto fue diseado para identificar las bacterias que causaban diversas infecciones, como la bacteriemia y la meningitis y recomendar antibiticos con la dosis ajustada al peso del paciente. El nombre del sistema deriva de los antibiticos en s mismo, debido a que muchos antibiticos tienen el sufijo "-mycin". El sistema MYCIN tambin fue usado para el diagnstico de enfermedades relacionadas con la coagulacin de la sangre. MYCIN funcionaba usando un motor de inferencia bastante simple y una base de conocimiento de aproximadamente 600 reglas. El sistema realizaba preguntas al mdico a travs de una larga serie de preguntas simples cuya respuesta era s o no. Al final de la ejecucin, el sistema devolva una posible lista de bacterias "culpables" ordenadas de mayor a menor basndose en la probabilidad de cada diagnstico, la confianza de probabilidad de cada diagnstico, el razonamiento que estaba detrs de cada diagnstico y la recomendacin de medicamentos asociada.3.3. CADUCEUS

CADUCEUs (Banks, 1986; First et al., 1985) fue un sistema experto mdico finalizado hacia la mitad de los aos 80 (se comenz su desarrollo en los aos 70 pero llevo una gran cantidad de tiempo construir su base de conocimiento). Su creador fue Harry Pople de la universidad de Pittsburgh y fue construido tras

20

Diseo de un sistema de ayuda a la decisin varios aos realizando entrevistas con el Dr. Jack Meyers, uno de los mejores mdicos especialista en diagnstico y profesor en la universidad de Pittsburgh. Su motivacin fue un intento por mejorar MYCIN, el cual se centraba en el diagnstico de enfermedades de transmisin sangunea causadas por bacterias, para centrarse en problemas ms exhaustivos que un campo estrecho como el del envenenamiento sanguneo, en vez de abarcar toda la medicina interna. Mientras que CADUCEUS trabajaba usando un motor de inferencia similar al de MYCIN, ste realizaba una serie de cambios (como incorporar razonamiento abductivo) para tratar con la complejidad adicional de las enfermedades internas, donde puede haber un gran nmero de enfermedades simultneas y los datos son generalmente defectuosos y escasos. CADUCEUS ha sido descrito como el sistema experto con ms conocimiento intensivo existente (Feigenbaum & McCorduck, 1984).3.4. INTERNIST-I

Internist-I (Pople, 1976; Myers et al., 1982; Miller, 1982; Myers, 1990) fue una herramienta de diagnstico asistida por ordenador desarrollada a principio de los 70 en la universidad de Pittsburgh como un experimento educativo. El sistema fue diseado para capturar el expertise de Jack D. Myers, presidente de medicina interna en la escuela de medicina de la universidad de Pittsburgh. La divisin de recursos de investigacin y la librera nacional de medicina fundaron Internist-I. Otros grandes colaboradores del proyecto incluyen a Miller, Pople y Yu. Los datos de entrada del sistema a travs de operadores incluan signos y sntomas, resultados de laboratorio y otros elementos de la historia del paciente. Los principales investigadores de Internist-I no siguieron diseos de otros sistemas expertos mdicos adoptando modelos de estadstica bayesiana o reconocimiento de patrones. Esto fue porque, como Myers explic: "El mtodo usado por los mdicos para llegar al diagnstico requiere procesamiento de informacin compleja que tiene poco parecido con las manipulaciones estadsticas de la mayora de los sistemas informticos". Internist-I, por el contrario, usaba un potente algoritmo de clasificacin para llegar a diagnsticos en el dominio de la medicina interna. Las reglas heursticas que manejaba Internist-I confiaban en un

21

algoritmo de particionamiento para crear reas de problemas y funciones de exclusin para eliminar posibilidades de diagnstico.3.5. ILIAD

Iliad (Warner et al., 1988; Diamond, 1991; Bergeron, 1992) es un sistema experto mdico usado por especialistas de la salud para proveer de consultas expertas sobre diagnstico y simulacin de pacientes. Su desarrollo comenz en la escuela de medicina, en el departamento de informtica mdica de la universidad de Utah. La versin 4.5 cubre ms de 930 enfermedades y 1500 sndromes y proporciona de protocolos de tratamiento para cada una (aunque las versiones ms recientes se afirma que cubre ms de 1.500 enfermedades). Adems, el sistema de codificacin usado es el estndar ICD-9 de la OMS. Existen ms de 13.900 manifestaciones de enfermedades cubriendo temas en medicina interna, medicina deportiva, pediatra, dermatologa, psiquiatra, ginecologa/obstetricia, enfermedades vasculares perifricas y trastornos del sueo. Iliad acta como un consultorio experto que proporciona un diagnstico diferencial, o acta como una segunda opinin, para criticar un diagnstico supuesto. El programa tambin incluye 90 casos de pacientes simulados que pueden usarse para realizar pruebas de diagnstico. En lo referido a su representacin del conocimiento o inferencia, Iliad usa razonamiento bayesiano para calcular las probabilidades a posteriori de varios diagnsticos que estn bajo consideracin dependiendo de los indicios implicados. El principal propsito de dicho software sin embargo parece estar ms destinado al entrenamiento de mdicos mediante la simulacin de enfermedades para que los alumnos puedan tratar de resolver el problema de diagnstico (Cundick et al., 1989; Lincoln et al., 1991).3.6. PAIRS

PAIRS (Physician assistant Artificial Intelligence System) es un sistema de diagnstico diferencial diseado para ayudar a los mdicos en el diagnstico de

22

Diseo de un sistema de ayuda a la decisin casos difciles. En Octubre de 2003 se empez a probar en la prctica clnica en Hyderabad (India) con la intencin de realizar su lanzamiento comercial en Enero de 2004. Sin embargo, no existen referencias algunas a que el proyecto fuera lanzado en esa fecha o actualmente est en uso. El sistema PAIRS est basado en los mtodos variacionales para inferencia eficiente en modelos probabilsticos a gran escala desarrollados por Jaakkola & Jordan (1999). PAIRS trabaja con una gran base de datos con ms de 30.000 caractersticas de enfermedades y 620 enfermedades de medicina interna. Cada caracterstica est cuantificada en base a su fisiologa, incidencia de la enfermedad y posibilidad de que sea causada por otra enfermedad que no est en la lista. PAIRS incluye una lista de 7282 enfermedades, alrededor de 10.000 caractersticas y 415.000 enlaces a dichas caractersticas. La base de conocimiento clnica ha sido creada a partir de textos estndar y revisiones de revistas desde 1995 hasta 2003. El sistema permite acceder a las caractersticas de las enfermedades, enlaces o realizar un diagnstico desde la interfaz. Una caracterstica importante del sistema es que puede proporcionar un diagnstico para datos de pacientes que incluyan alrededor de 50 indicios. La exactitud de PAIRS se comprob a partir de los datos de pacientes de los 340 casos del hospital general de Massachusetts publicados en el New England Journal of Medicine. Algunos de los casos de prueba tienen un gran nmero de caractersticas, lo que es un factor limitante para los sistemas de inteligencia artificial basados en redes probabilstica bayesianas.3.7. GIDEON

GIDEON (Berger, 2000) es un programa de ordenador para diagnstico y referencia en el campo de las enfermedades infecciosas tropicales, la epidemiologa, la microbiologa y terapia farmacutica antimicrobial. A pesar de no ser un sistema de propsito general puro, al englobar enfermedades infecciosas nada ms, se incluye en este apartado dado que su especificad an as abarca un gran abanico de enfermedades. El sistema fue diseado para diagnosticar todas las enfermedades infecciosas basndose en sntomas, signos, pruebas de laboratorio y perfiles dermatolgicos. La red (de tipo bayesiano) de enfermedades infecciosas de

23

GIDEON centra una especial atencin al pas de origen. La base de datos incluye 327 enfermedades, 205 pases, 806 taxones bacteriolgicos y 185 agentes antibacterianos.3.8. OTROS DDSS: USO DE WEB SEMNTICA Y ONTOLOGAS

Una de las tcnicas ms importantes, la cual se empieza a considerar rama de la inteligencia artificial, que se debe considerar en esta tesis es la de la Web Semntica. En este aspecto, existen gran cantidad de trabajos sobre gestin del conocimiento clnico o mdico, con iniciativas mencionadas anteriormente como la de Open-Galen (Rector et al., 2003) u OBO-Foundry (Smith et al., 2007). Sin embargo, sistemas de diagnstico de propsito general que hayan sido generados y probados, como tal, usando estas tcnicas, no parece haber demasiados en la literatura actual. A pesar de ello, cabe destacar dos artculos que se pueden considerar de gran inters para la temtica de la presente tesis. En el primero de ellos, desarrollado por Djedidi & Aufaure (2007) se presenta una propuesta para la construccin de ontologas de dominio mdico como base para un sistema de ayuda la decisin centrado en el conocimiento. La fase de adquisicin del conocimiento est basada en fuentes de datos heterogneas incluyendo corpus textuales, guas prcticas, bases de datos, fuentes de trminos as como ontologas y estndares mdicos. Ms all del proceso de modelizacin del conocimiento, los autores proponen una fase de meta-conceptualizacin y formalizacin que constituya una ontologa mdica que sirva de ncleo para ser establecida a un alto nivel de abstraccin y que gue las fases de operacin y explotacin. El proceso de operacin instancia la referencia a una ontologa del dominio mdico y la integra en el sistema de la base de conocimiento permitiendo razonamiento e inferencia del conocimiento y, por lo tanto, preparando las bases para el sistema de ayuda mdico. En el segundo, Podgorelec et al. (2009) realizan un estudio de la optimizacin en el proceso de diagnstico desde el punto de vista de acceso a datos. De acuerdo con varios estudios que muestran que el proceso de diagnstico optimizado puede

24

Diseo de un sistema de ayuda a la decisin mejorar su eficiencia considerablemente en la industria de la salud, se presenta un nuevo enfoque para la integracin de datos dentro del proceso de diagnstico. En l se describe que un acceso unificado a los recursos de datos durante todo el proceso de diagnstico mejora considerablemente la eficiencia del proceso en s mismo. Cuando se combina el acceso a los datos de forma optimizada con un mtodo de optimizacin, un proceso optimizado puede lograr que se tenga en cuenta la calidad de un diagnstico, las necesidades individuales de cada paciente, los costes asociados y la utilizacin del personal y equipo. Para lograr un manejo eficiente de los datos, el artculo muestra el desarrollo de un sistema basado en Web Semntica para la integracin de recursos de datos dentro del proceso de diagnstico mdico. El siguiente proceso se basa en la combinacin del acceso a datos unificado con su propio framework para el proceso de diagnstico, el cual incluye tcnicas de aprendizaje automtico y algoritmos evolutivos. El nuevo framework de proceso de diagnstico que queda definido se usa finalmente en un caso de estudio para optimizar el diagnstico del sndrome de prolapso de la vlvula mitral.

25

4.

PROBLEMA A RESOLVER

A continuacin se plantear el problema a resolver as como su resolucin. En primer lugar, se partir de una descripcin del problema, as como de los componentes clnicos que lo conforman. Esto se resumir en una descripcin genrica del concepto de accidente cerebrovascular, as como de sus principales tipos y causas. En segundo lugar se plantearn los factores de riesgo involucrados en el proceso de diagnstico preventivo de los accidentes cerebrovasculares. Para finalizar se plantear la solucin proporcionada por la presente tesis.4.1. ACCIDENTE CEREBROVASCULAR

4.1.1. DESCRIPCIN, ETIOLOGA Y CLASIFICACIN

Un accidente cerebrovascular (ACV o ACVA), ictus cerebral, apopleja, golpe o ictus apopltico o ataque cerebral es un tipo de enfermedad cerebrovascular, caracterizada por una brusca interrupcin del flujo sanguneo al cerebro que origina una serie de sntomas variables en funcin del rea cerebral afectada. Lo que diferencia el ACV de otras patologas similares es la consideracin de ser un episodio agudo y la afectacin de las funciones del sistema nervioso central. La clasificacin etiolgica del ictus define que existen distintos tipos que, dependiendo de la naturaleza de la lesin producida, pueden causar isquemia cerebral o hemorragia cerebral (Sims & Muyderman, 2009). Por lo tanto, los accidentes cerebrovasculares se clasifican en dos grandes grupos: isqumicos y hemorrgicos (es aquel tipo donde debido a una hemorragia intracraneal se produce acumulacin de sangre dentro del crneo) (National Institute of Neurological Disorders and Stroke, 2009). Ictus isqumico: Un ictus isqumico (Donnan et al., 2008) es aquel en el que desciende parte de la sangre que llega al cerebro, dando lugar a disfunciones del tejido cerebral en dicha rea. El 80% de los ictus que se producen son de tipo isqumico.

26

Diseo de un sistema de ayuda a la decisin Existen cuatro razones principales para este suceso: 1. Trombosis: Obstruccin de un vaso sanguneo por un cogulo formado localmente. 2. Embolia: Obstruccin debido a un mbolo en cualquier parte del cuerpo. (Donnan et al., 2008) 3. Hipo perfusin sistemtica: Reduccin general del riego sanguneo (por ejemplo en un shock) (Shuaib & Hachinski, 1991) 4. Trombosis venosa cerebral: Es una rara forma de ictus que resulta a partir de una trombosis en los senos de las venas lumbares, las cuales drenan sangre del cerebro. (Stam, 2005) A los ictus que carezcan de una explicacin obvia se les denominan criptognicos (de origen desconocido). Esto constituye aproximadamente en torno al 30-40% de todos los ictus isqumicos (Guercini et al., 2008). Existen varios tipos de sistemas de clasificacin para el ictus isqumico agudo. El proyecto de clasificacin del ictus de la comunidad de Oxford (OCSP por sus siglas en ingls, tambin conocido como clasificacin Oxford o Bamford), delega principalmente en los sntomas iniciales. Basndose en su duracin, los episodios de ictus son clasificados como: Infarto cerebral anterior completo (TACI en ingls): Es un tipo de infarto cerebral que afecta la circulacin cerebral anterior que irriga a dicha porcin del cerebro por completo. Infarto cerebral anterior parcial (PACI en ingls): Es un tipo de infarto cerebral que afecta la circulacin cerebral anterior que irriga a dicha porcin del cerebro parcialmente. Infarto lacunar (LACI en ingls): Se define como un tipo de derrame cerebral isqumico caracterizado por lesiones de pequeo dimetro producido por oclusin en el territorio de distribucin de las arterias perforantes del cerebro. Infarto de circulacin posterior: Es un tipo de infarto cerebral que afecta a la circulacin cerebral posterior.

27

Esta clasificacin, basada en cuatro entidades permite realizar una prediccin de la extensin del ictus, el rea cerebral afectada, la causa subyacente y el pronstico (Bamford et al., 1991; Bamford, 2000). La clasificacin TOAST (Trial of Org 10172 in Acute Stroke Treatment) (Adams et al., 1993) est basada en los sntomas clnicos como en los resultados de investigaciones adicionales. Con estas bases, un ictus se clasifica segn: Trombosis o embolia debido a una ateroesclerosis (Maton et al., 1993). Embolia de origen cardiaco. Oclusin de un vaso sanguneo pequeo. Otra causa determinada. Causa sin determinar (Dos posibles: Causa no identificada o investigacin incompleta). Ictus hemorrgico: La hemorragia intracraneal es la acumulacin de sangre en cualquier parte de la bveda craneal. Se debe realizar una distincin entre la hemorragia cerebral (sangre dentro del cerebro) y la hemorragia intracraneal (sangre dentro del crneo, pero fuera del cerebro). La hemorragia cerebral se debe a una hemorragia intraparenquimal o una hemorragia interventricular (sangre en el sistema ventricular). Los principales tipos de hemorragia intracraneal son el hematoma epidural (sangrado entre la duramadre y el crneo), el hematoma subdural (en el espacio subdural) y la hemorragia subaracnoidea (entre el aracnoides y la pamadre). La mayora de los sndromes de los ictus hemorrgicos tienen sntomas especficos (por ejemplo: dolor de cabeza, traumatismo anterior).4.1.2. EPIDEMIOLOGA: VARIABLES Y FACTORES DE RIESGO

Existen

diversos

estudios

sobre

la

epidemiologa

del

accidente

cerebrovascular. La mayora de ellos tienden a centrarse sobre una muestra referente al pas donde el estudio se ha dirigido, dando lugar a cierta disparidad en los datos obtenidos. Un ejemplo se puede observar en el artculo desarrollado por

28

Diseo de un sistema de ayuda a la decisin los doctores Sell & Medina (2004) donde se comparan varios estudios en donde las tasas de mortalidad por ictus (siempre medidas en trminos de muertes por cada 100.000 habitantes) varan considerablemente. Esto da a entender que existen ciertos factores en la sociedad, y en donde se realice el estudio que inciden de forma directa sobre la mortalidad de este suceso, siendo difcil establecer una epidemiologa de tipo global que conforme todos los aspectos necesarios para desarrollar un sistema de diagnstico preventivo de accidente cerebrovascular que sea efectivo. Debido a esta causa, se pretende usar como marco de referencia aquellos datos que se consideren ms drsticos (aquellos que, de todos los revisados ofrezcan la mayor tasa de mortalidad posible). El objetivo de esto es establecer un marco superior y no inferior a la hora de ofrecer una probabilidad de diagnstico y en todo caso pecar de exceso y no de defecto. Por otra parte, se pretende estandarizar lo ms posible la toma de datos, por lo que gran parte de las variables provendrn de los datos del estudio Framingham Heart Study (D'Agostino & Belanger, 1994). De este estudio, se obtendrn los valores bsicos para el caso de los hombres, realizando una adaptacin para las mujeres segn los datos observados en el propio estudio. As mismo, en primer lugar se muestran los datos del estudio, donde se realiz en personas con edades comprendidas entre los 54 y 85 aos por ser ste el grupo con mayor factor de riesgo. Sin embargo, se va a extender esta tabla a edades comprendidas desde los 20 aos en adelante para hacer el sistema ms flexible. A continuacin se muestran los factores de riesgo que se introducirn en el sistema, segn el estudio Framingham: Edad Sexo (Se tendr en cuenta aparte) Presin sangunea sistlica (PSS) o Presin sangunea sistlica no tratada (PSSNT) Diabetes Mellitus (Rother, 2007) Fumador

29

Enfermedades cardiovasculares previas (ECP) Fibrilacin Atrial (FA) (Pillen et al., 2009) Hipertrofia del ventrculo izquierdo (HVI) (Gradman & Alfayoumi, 2006)

Las tablas que ponderan estos factores son las siguientes (tablas para hombres de 54 a 85 aos. Tablas originales del estudio):Puntos +0 Edad PSST (mmHg) PSSNT (mmHg) Diabetes Fumador ECP FA HVI 54-56 97-105 97-105 No No No No NoTabla I Indicacin de puntos segn indicios en el Framingham Heart Study

+1 57-59 106-115 106-112

+2 60-62 116-125 113-117 Si

+3 63-65 126-135 118-123

+4 66-68 136-145 124-129

+5 69-72 146-155 130-135

Si Si Si Si

Puntos +6 Edad PSST (mmHg) PSSNT (mmHg) Diabetes Fumador ECP FA HVI 73-75 156-165 136-142 No No No No No +7 76-78 166-175 143-150 +8 79-81 176-185 151-161 Si Si Si Si +9 82-84 186-195 162-176 +10 85 196-205 177-205

Tabla II Indicacin de puntos segn indicios en el Framingham Heart Study

30

Diseo de un sistema de ayuda a la decisinPuntos 1 2 3 4 5 6 7 8 9 10 % 10 aos 3 3 4 4 5 5 6 7 8 10 Puntos 11 12 13 14 15 16 17 18 19 20 % 10 aos 11 13 15 17 20 22 26 29 33 37 Puntos 21 22 23 24 25 26 27 28 29 30 % 10 aos 42 47 52 57 63 68 74 79 84 88

Tabla III Asociacin de puntos a porcentajes en el Framingham Heart Study

Adems de estos datos, se introducirn otros; algunos procedentes del estudio de Sell & Medina (2004). Estos son: Raza: Segn el estudio, los individuos de raza negra tienen una mayor predisposicin a sufrir un ictus. Sexo: El hecho de ser varn o mujer modifica las probabilidades de padecer un ictus para cada grupo. Sobrepeso: Segn el estudio, el hecho de padecer sobrepeso incrementa las probabilidades de padecer un ictus. Predisposicin hereditaria: El hecho de que un familiar directo del paciente (padre o madre) haya sufrido un ictus incrementa el riesgo de padecerlo en un 3.8% aproximadamente (Berger et al., 1998). Ictus previos: El hecho de haber padecido un ictus previamente incrementa la probabilidad de padecer otro.4.2. RESOLUCIN

La creacin o construccin de sistemas de ayuda a la decisin en mbitos clnicos (conocidos como CDSS o MDSS) no es un problema que tenga una solucin trivial ni sencilla. En concreto, la creacin y desarrollo de los llamados sistemas de ayuda a la decisin de diagnstico ha sido uno de los problemas ms codiciados por los desarrolladores que se han introducido en los campos de la medicina

31

debido al gran potencial que podra suponer la generacin de un sistema comn, el cual podra ayudar en las miles de decisiones de diagnstico que se llevan a cabo cada da en todo el mundo. Con este planteamiento, el objetivo de esta tesis se divide en dos aspectos fundamentales: 1. En primer lugar, realizar una retrospectiva de los principales trabajos que han sido realizados por investigadores a nivel internacional sobre sistemas de diagnstico clnicos usando las tecnologas tratadas en la presente tesis. 2. En segundo, aplicar dos tcnicas de la rama de la inteligencia artificial ampliamente desarrolladas como son el uso de las ontologas de la Web Semntica como parte de representacin del conocimiento y los sistemas de inferencia probabilsticos y lgicos para el diseo y creacin de un sistema que permita diagnosticar dao cerebral de tipo no adquirido mediante el uso del framework Pronto (Klinov, 2008).4.2.1. DATOS EPIDEMIOLGICOS Y SU RELACIN CON EL ICTUS

En la seccin 4.1.2 se han presentado los factores de riesgo y los valores de tipo epidemiolgico originales que se van a tener en cuenta. Sin embargo, los resultados procedentes del estudio Framingham estaban limitados por los mrgenes de edad que se manejaban. Debido a esto, se ha decidido realizar una modificacin de estas tablas para obtener unos porcentajes directos (en vez de realizar suma de puntos, aunque estar basado en la suma propuesta por el estudio), y que, adems, estn adaptados a un rango de edad ms amplio (desde los 20 aos en adelante). Adems, se deben tener en cuenta que algunos factores no son dependientes de la edad, o no hay estudios que relacionen ciertos factores con una edad concreta para sufrir una mayor probabilidad de sufrir un ictus. Debido a esto se diferenciaran dos grupos de riesgo: Dependientes o no de la edad.

32

Diseo de un sistema de ayuda a la decisin Tambin se debe aclarar la enorme dificultad de recopilar datos que no se contradigan hasta cierto punto en los estudios epidemiolgicos. Los factores como la poblacin usada para el estudio (sobre todo dada su situacin geogrfica) hacen que los datos puedan variar considerablemente de un estudio a otro. En algunos casos, incluso, parecen contradecirse (uno de los ejemplos vistos es el del riesgo del tabaquismo dependiente de la edad). Debido precisamente al hecho de que unos estudios estn realizados en unas zonas geogrficas y otros en otras y que, generalmente, cada estudio se suele centrar en un factor de riesgo concreto (dado que abarcar todos los casos que se pudieran presentar sera imposible) se presenta como una ardua tarea el recopilar datos de una misma zona. Esto tiene como resultado que los datos epidemiolgicos recopilados para esta tesis procedan de varios artculos donde las poblaciones no son las mismas. Algo, que estadsticamente podra generar resultados poco precisos, que analizados al detalle podran dejar entrever una falta de precisin. Sin embargo, el objetivo principal de esta tesis es la creacin de un sistema de ayuda a la decisin que ayude en la prevencin del ictus, estudiando las relaciones causa y efecto entre los factores de riesgo existentes y el diagnstico preventivo que el software proporcionar segn estos factores. Teniendo esto en cuenta, debe vislumbrarse que el nico problema final sera una imprecisin en los datos (que, realmente, aunque los estudios sean de diferentes zonas y de diferentes resultados en muy pocos casos se llegan a contradecir, y los resultados suelen ser razonablemente cercanos, dando a entender que aunque la zona geogrfica influye, quizs no lo suficiente como para alterar la credibilidad de los datos). Esta imprecisin sin embargo sera fcilmente subsanable con la creacin de un estudio epidemiolgico comn, con una poblacin estadstica que provenga de la misma zona geogrfica, para todos los factores de riesgo mencionados en el presente trabajo. Para finalizar, se debe tener en cuenta que este trabajo basa los factores de riesgo de forma independiente excepto algunos que se relacionan con la edad. Sin embargo, las relaciones reales son bastante ms amplias y, a su vez, difciles de abordar sin estudios ms concretos por la razn mencionada en el prrafo anterior. La mayora de los factores de riesgo dependen unos de otros. Por ejemplo, el riesgo de hipertensin depende de la raza, y de la edad. El riesgo de fibrilacin atrial, depende tambin de la hipertensin. Al igual que la hipertensin,

33

depende de la obesidad, etc. Esto implica muchas relaciones probabilsticas que en este trabajo no se contemplan. El contemplar todas estas relaciones y sus valores probabilsticos procedentes de estudios epidemiolgicos casi podra comprender perfectamente un trabajo digno de una tesis doctoral, y por lo tanto, por simplificacin, no se incluyen.4.2.1.1. EPIDEMIOLOGA DEL ICTUS DE UNA PERSONA

APARENTEMENTE SANA

Muchos de los datos compilados a lo largo de esta tesis establecen que algunos de los riesgos mencionados tienen una probabilidad de causar un ictus que es X veces superior a los de una persona aparentemente sana. Sin embargo, el encontrar datos relativos a cul es el porcentaje de que una persona sana padezca un ictus es una tarea ms que difcil. A pesar de ello, el estudio Framingham proporciona ciertos datos probabilsticos de donde se puede tratar de inferir de forma aproximada cul es tal probabilidad. Las probabilidades que se establecen en este estudio tienen un carcter de prediccin de aproximadamente unos 10 aos (es decir, establecen la probabilidad de que se d el evento en un plazo de tiempo de 10 aos). Dejando de lado este factor, existe una tabla que asigna probabilidades a las puntuaciones que se han obtenido mediante la aplicacin de las tablas que relacionan factores de riesgo con la probabilidad del ictus. A mayor nmero de puntos, mayor probabilidad de padecer el ictus. Esta probabilidad ya tiene en cuenta el hecho de computar todos los factores de riesgo que este estudio analiza. Debe tenerse en cuenta, por otra parte, que existen dos tablas que describen este comportamiento, cada una, para un sexo en particular, con lo que se necesita el porcentaje buscado, para cada sexo. El menor nmero de puntos posibles que se debera poder obtener es de 0 sin embargo, las tablas establecen que empieza a haber riesgo (el mnimo posible) cuando se obtiene al menos algn punto.

34

Diseo de un sistema de ayuda a la decisin Sin embargo, la mayora de los estudios referenciados en la presente tesis aducen que existen varios tipos de riesgos, que no son los principales debido a su escasez de documentacin, pero que estn presentes y patentes. Teniendo en cuenta esta caracterstica, aunque se podra intentar argumentar que si no se sufre ningn factor de riesgo la probabilidad de sufrir un ictus sera de 0%, dado que no se tienen en cuenta todos los factores posibles, se decide pecar de exceso en vez de defecto, y asumir las probabilidades mnimas asociadas a cada sexo (1 punto en la escala del estudio) como las probabilidades de padecer un ictus siendo una persona aparentemente sana. Estas probabilidades son del 2.6% para el hombre y el 1.1% para la mujer.4.2.1.2. DATOS EPIDEMIOLGICOS: RIESGOS DEPENDIENTES DE LA EDAD Y EL SEXO

En esta seccin se mencionan aquellos factores que son dependientes de la edad y el gnero o sexo, y que, por lo tanto, deben adaptarse a partir de los datos del estudio Framingham. La adaptacin se basar en otros estudios que se citarn siempre. La edad tambin se considera un factor riesgo independiente, pero se incluye en esta seccin.4.2.1.2.1. PRESIN SANGUNEA SISTLICA

La adaptacin del estudio Framingham permitir obtener datos ms concretos para los umbrales de la presin sangunea sistlica, siendo adaptados para los datos proporcionados por la aplicacin MedIndia (MedIndia, 2010). Esta adaptacin se basa en que varios estudios como los presentados por Landahl et al. (1986) y Miall & Lovell (1967) han estudiado la relacin existente entre la edad y la presin sistlica. Para adaptar los datos a los mrgenes de edad proporcionados por MedIndia (MedIndia, 2010), se ha usado un rango de edad que vara desde los 20 a los 64 aos. De esta forma, la analoga en la clasificacin de puntos permite obtener una clasificacin similar a la del estudio Framingham, pero, en este caso, los puntos van de 0 a 9, en vez de 0 a 10. Existen adems dos problemas: El primero, es establecer la presin tratada, ya que en el estudio Framingham no se

35

indica el clculo o patrn a seguir para llevar a cabo la reduccin. Debido a esto, por simplificacin se va a prescindir de este dato. El segundo, es que el estudio Framingham diferencia las presiones entre hombres y mujeres. Sin embargo, la mayora de los estudios no hacen ninguna referencia a las posibles diferencias. Debido a esto, y nuevamente por simplificacin, se asume igual presin sangunea en ambos sexos. Esto no significa sin embargo que la probabilidad de la presin sangunea segn el sexo sea la misma, de hecho, no lo es. Las presiones sistlicas obtenidas son las siguientes:Edad 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 64+ Presin 108-132 109-133 110-134 111-135 112-137 115-139 116-142 118-144 121-147 147+

Tabla IV Tensiones sistlicas mximas usadas en el sistema para hombres y mujeres

Para obtener los porcentajes aproximados de riesgo de ictus que cada presin sangunea proporcionara nos basaremos nuevamente en las tablas del estudio Framingham. En este caso, se puede observar que en el estudio original se distribuye de 0 a 10 puntos. El mtodo de adaptacin consistir en adaptar el porcentaje dado a cada nmero de puntos (1-10) al nuevo sistema de puntos (1-9). Para ello, se coger el porcentaje asociado a cada punto, y se dividir entre el nmero de puntos actual (10) y se multiplicar por el nuevo nmero de puntos (9).

36

Diseo de un sistema de ayuda a la decisin Gnero masculino: La tabla de puntos original del gnero masculino (de 1 a 10) es la siguiente:Puntos 1 2 3 4 5 6 7 8 9 10 Probabilidad a 10 aos 2.6% 3.0% 3.5% 4.0% 4.7% 5.4% 6.3% 7.3% 8.4% 9.7%

Tabla V Asociacin de puntos a porcentajes en el Framingham Heart Study para hombres

La nueva tabla de puntos es la siguiente:Puntos 1 2 3 4 5 6 7 8 9 10 Probabilidad a 10 aos 2.34% 2.7% 3.15% 3.6% 4.23% 4.86% 5.67% 6.57% 7.56% 8.73%

Tabla VI Adaptacin de puntos a porcentajes para hombres

37

Gnero femenino: La tabla de puntos original del gnero femenino (de 1 a 10) es la siguiente:Puntos 1 2 3 4 5 6 7 8 9 10 Probabilidad 1.1% 1.3% 1.6% 2.0% 2.4% 2.9% 3.5% 4.3% 5.2% 6.3%

Tabla VII Asociacin de puntos a porcentajes en el Framingham Heart Study para mujeres

La nueva tabla de puntos es la siguiente:Puntos 1 2 3 4 5 6 7 8 9 10 Probabilidad 0.99% 1.17% 1.44% 1.8% 2.16% 2.61% 3.15% 3.87% 4.68% 5.67%

Tabla VIII Adaptacin de puntos a porcentajes para hombres

Una vez despejada esta duda, slo queda asignar una relacin de puntos al siguiente factor del que depende la hipertensin: la edad. Para ello, y en trminos de simplificacin, se ha dejado que el nmero de puntos se vaya incrementando en

38

Diseo de un sistema de ayuda a la decisin funcin de la edad (de menor a mayor edad y por lo tanto, de menor a mayor presin y de menor a mayor riesgo). Para simplificar el resultado, se sustituye directamente el nmero de puntos, por el porcentaje dado previamente. Las tablas (para mujer y hombre), por lo tanto, quedaran como sigue:Presin Probabilidad en Mujeres 108-132 109-133 110-134 111-135 112-137 115-139 116-142 118-144 121-147 147+ 0.99% 1.17% 1.44% 1.8% 2.16% 2.61% 3.15% 3.87% 4.68% 5.67% Probabilidad en Hombres 2.34% 2.7% 3.15% 3.6% 4.23% 4.86% 5.67% 6.57% 7.56% 8.73%

Tabla IX Adaptacin de puntos a porcentajes segn presiones sistlicas en hombres y mujeres

4.2.1.2.2.

EDAD

Teniendo en cuenta que la mayora de los estudios analizados establecen las edades mnimas de riesgo de ictus en torno a los 55 aos se ha decidido establecer que la propia edad represente un factor de riesgo (a partir de los 55 aos), si bien, su combinacin con otros factores representar el porcentaje final de riesgo. Adems, segn el estudio publicado por la Organizacin Mundial de la Salud, WHO (2002), el riesgo de sufrir un ictus se dobla cada 10 aos a partir de los 55 aos. La siguiente tabla muestra las probabilidades de sufrir un ictus en funcin del sexo y la edad mnima contemplada como riesgo (en edades menores de 55 aos se considera que no existe riesgo):

39

Edad 55-59 60-64 64+

Probabilidad (Hombre) 2.6% 3.9% 5.2%

Probabilidad (Mujer) 1.1% 1.65% 2.2%

Tabla X Probabilidades de ictus segn la edad

Las probabilidades han sido calculadas teniendo en cuenta los porcentajes de referencia obtenidos al principio de esta seccin.4.2.1.2.3. TABAQUISMO

Otros cambios se han realizado en las consideraciones del estudio Framingham. En l se establece el tabaquismo como un factor riesgo potencial en determinadas franjas de edad (63-65 y 82-84). Sin embargo, estudios como el presentado por la American Heart Association (2010b) aduce que el consumo de tabaco es un riesgo potencial para la salud en personas menores de 50 aos en trminos generales. Contrastando esta informacin con otros artculos, como por ejemplo, el realizado por Ahijevych et al. (2009), se decide por lo tanto para la presente tesis establecer el mayor riesgo de ictus por tabaquismo tambin en aquellas poblaciones menores de 50 aos. Concretamente, se usarn los datos del artculo de Shinton & Beevers (1989), donde se pueden observar los siguientes porcentajes de riesgo en funcin de la edad:Edad < 55 > 55 Probabilidad 2.9% 1.8%

Tabla XI Probabilidad de ictus en fumadores segn la edad

4.2.1.2.4.

FIBRILACIN ATRIAL

La fibrilacin atrial (FA) (Wyndham, 2000) es la arritmia cardiaca ms frecuente en la prctica clnica. La FA es una enfermedad en la que las aurculas o

40

Diseo de un sistema de ayuda a la decisin cmaras superiores del corazn laten de una manera no coordinada y desorganizada, lo que produce un ritmo cardaco rpido e irregular (es decir, latidos cardiacos irregulares). En el informe generado por la American Heart Association (2010c) se argumenta que el riesgo de desarrollar fibrilacin atrial se incrementa con la edad. Aproximadamente, entre un 3% a un 5% de la poblacin mayor de 65 aos tiene fibrilacin atrial. Adems, el hecho de que la fibrilacin atrial est relacionada con la edad sugiere que por lo tanto, dado que la fibrilacin atrial es uno de los factores de riesgo del ictus, este factor de riesgo se vea aumentado cuando aumenta la edad. Otros estudios no slo constatan este hecho, si no que ofrecen informacin adicional como el sexo (ms frecuente en hombres que en mujeres) y la raza (ms frecuente en blancos que en negros) (Arnsdorf, 2009). Este mismo estudio, de hecho, proporciona informacin adicional, como que aproximadamente un 1.3% de las personas con FA que est entre los 50 y 59 aos tiene riesgo de sufrir un ictus. Adems, este porcentaje se incrementa un 5% por cada ao para personas entre 80 y 89 aos. Otro estudio, como el desarrollado por Jrgensen et al. (1996) llamado "El estudio Copenaghe" argumenta que la FA se incrementa gradualmente con la edad en la poblacin que ha sufrido un ictus. Aproximadamente un 2% en pacientes menores de 50 aos, 15% en pacientes en torno a los 70-80 aos, 28% en pacientes entre 80 y 90 aos, y un 40% en pacientes mayores de 90 aos. Estos datos estn bastante cercanos a los proporcionados (al menos, en el rango de edad en torno a 50 aos) por Arnsdorf (2009) en su estudio. Con estos datos, se puede observar que teniendo en cuenta los mrgenes de edad manejados, la distribucin establece que es constante en aproximadamente un 2% en todo el espectro que se maneja. Esto se debe a que aquellos valores mayores de 50 aos (umbral inferior), automticamente pasan a valores en torno a 70 aos (mayor que el umbral superior). Para simplificacin, se pondr el siguiente valor probabilstico como umbral superior, siendo por lo tanto las probabilidades como las que se muestran en la tabla:

41

Edad < 64 > 64

Probabilidad 1.8% 15%

Tabla XII Probabilidad de ictus padeciendo fibrilacin atrial segn la edad

4.2.1.3.

DATOS EPIDEMIOLGICOS: RIESGOS NO DEPENDIENTES DE LA EDAD NI DEL SEXO

En esta seccin se mencionan aquellos riesgos que no son dependientes de la edad y que, por lo tanto, no necesitan el mismo tipo de adaptacin que los proporcionados por el estudio Framingham. Algunos de ellos, en este estudio si vienen como dependientes de la edad, pero no se ha encontrado literatura mdica alguna que los relacione directamente con la edad, si no que en general el hecho de padecer uno de los riesgos, sea la edad que sea, ya indica un aumento del riesgo de sufrir un ictus. La adaptacin, por lo tanto, se basar en otros estudios, proporcionando otro tipo de clasificacin.4.2.1.3.1. DIABETES

En lo referido a la diabetes, varios artculos como, por ejemplo, el de Stegmayr & Asplund (1995) o el de Noto et al. (2001) muestran que la diabetes es un factor de riesgo en general para cualquier poblacin de edad tratada (aunque sus mrgenes inferiores se ajustan a edades ms longevas). Sin embargo, no existen estudios que impliquen una relacin entre el riesgo del ictus y la diabetes tal como el estudio Framingham realiza. Por lo tanto, los datos obtenidos provienen principalmente de los artculos de Jorgensen et al. (1994a, 1994b), donde se argumenta una probabilidad aproximada de en torno al 1.8% de sufrir un ictus dado el factor de riesgo de la diabetes.

42

Diseo de un sistema de ayuda a la decisin4.2.1.3.2. ENFERMEDADES CARDIOVASCULARES PREVIAS

En este grupo se incluyen aquellas enfermedades cardiovasculares como puedan ser las relacionadas con las arterias (cartida principalmente). Debido a que las arterias cartidas proporcionan sangre al cerebro, el hecho de que una de estas arterias est estrechada por depsitos de grasa por una arterioesclerosis puede dar lugar a que sta quede bloqueada por un cogulo. La enfermedad de la arteria cartida tambin se llama comnmente estenosis de la arteria cartida (Nadalo & Walters, 2009). La enfermedad perifrica de las arterias (Sharrett, 2007) es el estrechamiento de los vasos sanguneos que llevan sangre a los msculos de piernas y brazos. Est causada por acumulaciones de grasa en los muros de las arterias. Las personas con esta enfermedad tienen un mayor riesgo de padecer una enfermedad de la arteria cartida, lo cual desemboca en riesgo de ictus. Otras enfermedades que afectan al riesgo de ictus son, por ejemplo las enfermedades coronarias o los fallos cardiacos. Una miocardiopata dilatada (San Martn et al., 2002), enfermedad de las vlvulas cardiacas (Shipton & Wahba, 2001), y algunos tipos de defectos congnitos del corazn (Graham, 2010) tambin desembocan en riesgo de ictus. El estudio presentado por la American Heart Association (2010a) aduce que estos factores no son dependientes de la edad. Al ser enfermedades que pueden estar directamente relacionadas con el hecho de sufrir un ictus, no parece haber relaciones entre el factor de riesgo y una edad concreta. Como porcentaje de riesgo, se establece el valor obtenido en el estudio de Sell & Medina (2004), donde se puede calcular que el riesgo relativo de padecer un ictus es de, aproximadamente, 0.0242%. El clculo viene dado por los datos proporcionados por el estudio, donde se informa que segn un estudio realizado en el Hospital de Assam, India, en el que se tienen en cuenta la mortalidad en la poblacin y no en los pacientes de un hospital, esta prevalencia es de un 24.2 x 100.000. Extrapolando este dato a trminos en tanto por ciento, se obtiene el porcentaje citado.

43

4.2.1.3.3.

HIPERTROFIA VENTRICULAR IZQUIERDA

La hipertrofia ventricular izquierda (Gradman & Alfayoumi, 2006) es una cardiomegalia que se refiere a un aumento en el tamao de las clulas musculares del lado izquierdo del corazn (los miocitos). Por tanto, conlleva el aumento de tamao de ese lado del rgano. Es la anomala ms frecuente causada por hipertensin arterial y un fuerte factor de incremento del riesgo cardiovascular, como la insuficiencia coronaria y arritmias ventriculares. La literatura mdica, sin embargo, parece sugerir que la posibilidad de sufrir esta patologa no guarda relacin alguna con la edad (Fustinoni, 2003). Por lo tanto, igual que con las enfermedades cardiovasculares previas se considerar un factor de riesgo igual de grave independiente de la edad de quien lo padezca. El principal artculo que ofrece una probabilidad concreta para este evento es el publicado por Verdecchia et al. (2001), donde se establece una probabilidad del 1.79%4.2.1.3.4. RAZA

Existen varios artculos donde se menciona la relacin entre la probabilidad de tener un ictus y la raza del sujeto en cuestin como el publicado por Sacco et al. (2001) llamado El estudio de Ictus del norte de Manhattan donde se analizan diversos factores de riesgo y su relacin con la raza del sujeto a la hora de sufrir un ictus. Otro estudio es el de Cushman et al. (2008) donde se hace una estimacin a 10 aos sobre el riesgo de ictus dependiendo de la regin y la raza en los Estados Unidos. Sin embargo, el estudio quizs ms clarificador es el presentado por Wolf & Kannel (2007) donde se argumenta que las tasas de mortalidad en Estados Unidos por ictus son de al menos el doble en la poblacin de raza negra comparados con la poblacin de raza blanca. Adems, se argumenta que en los individuos cuya edad vara de 45 a 64 aos esta tasa puede llegar a convertirse en un 75% ms alta en la poblacin de raza negra que en la poblacin de raza blanca, con un decrecimiento en la mortalidad de negros respecto a blancos cuando la edad se va incrementando. Sin embargo, se aduce que estas tasas se basan en mediciones como la certificacin de la muerte y que los limitados datos de

44

Diseo de un sistema de ayuda a la decisin incidencia existentes confirman que la tasa de ictus en la poblacin de raza negra es ms del doble que en la poblacin de raza blanca bajo condiciones iguales (vivir en la misma regin geogrfica). Decimos que es el ms clarificador debido a que aunque en un principio hace mencin a que podra haber una relacin con la edad, estas dudas son en parte despejadas por la forma de tomar las mediciones. Basndose en los datos disponibles reales se argumenta que la raza negra tiene el doble de posibilidades de padecer ictus que la raza blanca. Basndose en los datos de partida, argumentan que las probabilidades para personas sanas estn basadas en la raza blanca, y estas probabilidades son del 2.6% para el hombre y el 1.1% para la mujer, en la raza negra se establecen probabilidades del 5.2% y 2.2% respectivamente.4.2.1.3.5. SEXO

Aunque sea redundante el hecho de incluir este factor de riesgo en esta seccin es donde debe de estar incluido, dado que en la anterior seccin se analizaban factores de riesgo estrechamente dependientes del sexo y la edad. El hecho de ser varn o mujer es un factor bastante determinante en el riesgo de padecer un ictus. Existen diversos artculos que analizan este hecho, pero las conclusiones a las que llegan la mayora son a veces confusas. Como referencia, en este caso se utilizar el artculo desarrollado por Martinez-Vila & Irimia (2000) donde se aduce que las probabilidades generales de padecer un ictus son un 30% mayores en hombres que en mujeres. Sin embargo, se tomarn como referencia los datos de partida, donde se argumentan que las probabilidades para personas sanas son del 2.6% para el hombre y el 1.1% para la mujer, lo que supone ms de un 50% de probabilidades en el hombre respecto a la mujer.4.2.1.3.6. SOBREPESO

Son varios los artculos que mencionan el factor de riesgo que supone el padecer sobrepeso a la hora de sufrir un ictus. Por ejemplo, en Zhou et al. (2002) se hace un anlisis de este factor de riesgo en la poblacin china. Otro artculo interesante es el desarrollado por Hubert et al. (1983) donde se hace un anlisis de

45

la obesidad como factor de riesgo independiente, relacionando los casos con el estudio Framingham. Tambin cabe destacar el trabajo realizado por Field et al. (2001) donde se analiza el impacto del sobrepeso como riesgo de desarrollar enfermedades crnicas durante un periodo de anlisis de 10 aos. Sin embargo, los dos trabajos ms interesantes, donde se pueden obtener datos ms concretos sobre la prevalencia de este factor de riesgo son los desarrollados por Kurth et al. (2002) y Wilson et al. (2002). En el primero, se evalan los porcentajes de padecer varios tipos de ictus segn el ndice de masa corporal (IMC). El trabajo resulta especialmente interesante porque se obtienen unos valores de referencia del IMC y es capaz de argumentar un aumento en el porcentaje de cada tipo de ictus segn el aumento gradual del IMC. Este artculo es el que se tomar como principal referencia en el desarrollo del sistema. El segundo artculo establece un trmino llamado riesgo relativo ajustado a la edad (RR en ingls: "Relative Risk") y se asocia con los estados de padecer hipertensin y obesidad principalmente. Adems, estos valores se concretan para ambos sexos, con lo que la clasificacin es, si cabe, ms precisa. Adems, establece riesgos relativos para otros factores de riesgo. La probabilidad por lo tanto de padecer ictus por obesidad es del 1.95%.4.2.1.3.7. PREDISPOSICIN HEREDITARIA

En lo referido a la predisposicin hereditaria, es difcil encontrar datos significativos y concretos que arrojen valores estadsticos sobre la prevalencia del riesgo de sufrir un ictus dado que un familiar directo lo haya sufrido antes. Sin embargo, los dos principales estudios que se han encontrado con este tipo de informacin parecen llegar a conclusiones similares sobre el porcentaje aproximado que se podra decir que representa este caso. El primero de ellos es el realizado por Berger et al. (1998) en el estudio PROCAM (los datos fueron obtenidos a su vez del reporte tcnico International Task Force for Prevention of Coronary Heart Disease). En este estudio se puede extrapolar que

aproximadamente la prevalencia citada anteriormente es de un 3.8%. Otro

46

Diseo de un sistema de ayuda a la decisin interesante artculo que parece coincidir en un aspecto de su estudio con este mismo dato es el realizado por Pandian et al. (2005).4.2.1.3.8. ICTUS PREVIOS

El riesgo de ictus para alguien que ya ha padecido uno previamente es mayor que para aquel que nunca lo ha padecido. Los accidentes isqumicos transitorios (TIA por sus siglas en ingls) son "ictus de alerta" que producen sntomas como los del ictus, pero no los mismos daos. Por lo tanto, los TIA son los mejores indicadores de que se puede producir un ictus. Una persona que ha padecido uno o varios TIA tiene una probabilidad 10 veces mayor de padecer un ictus que aquella que nunca los ha padecido (American Heart Association, 2010a). Esto supone una probabilidad del 26% en los hombres y del 11% en mujeres de raza blanca y del 52% en hombres y del 22% en raza negra.4.2.2. DATOS EPIDEMIOLGICOS. CARCTER GLOBAL

En esta seccin se muestran los diversos factores de riesgo que intervienen en la probabilidad de sufrir un ictus, expuestos en la seccin anterior, y su epidemiologa o distribucin del factor por si solo en la poblacin que se asume en el estudio (la poblacin mundial). Estos datos son necesarios para el modelo probabilstico generado. La mayora de ellos, al igual que ocurre con la epidemiologa del factor de riesgo condicionado al ictus, son difciles de obtener. Nuevamente nos planteamos ante la problemtica de que la literatura actual no recoge estudios sobre poblaciones concretas donde vengan representados todos estos datos, y en muchos casos deben incluso hacerse extrapolaciones de otros datos relacionados.4.2.2.1. PRESIN SANGUNEA

Para la presin sangunea no existen aparentemente datos demasiado fiables sobre la distribucin en diversos rangos de valores que permitan establecer un porcentaje sobre la epidemiologa de esta caracterstica. Dado que se divide en 10 posibles rangos de presin sangunea se asume una distribucin por igual de los

47

valores, dando como resultado que cada grupo o rango adquiere una probabilidad del 10%.4.2.2.2. EDAD

Los datos de las edades se extraen del informe generado por Naciones Unidas en 2004 (United Nations, 2004). En l, vienen especificados los porcentajes a nivel mundial de edades comprendidas entre los 14 y 65 aos (64.5%). Para obtener una probabilidad en cada uno de los rangos de edad contemplados en el sistema se realiza nuevamente una distribucin uniforme de dicho porcentaje entre los rangos de edades contemplados. De esta forma, se establece que cada rango de edad asume un porcentaje de 7.11% (para ambos sexos). En los grficos de dicho informe se puede observar que aproximadamente la relacin entre hombres y mujeres es similar, con lo que se dividir este ratio entre dos, quedando aproximadamente un 3.555% cada rango en cada sexo. Los porcentajes de los mayores de 64 aos se obtienen del dato de mayores de 65, que es del 7.4%. Dividiendo entre dos para hombres y mujeres esto representa un 3.7%.4.2.2.3. TABAQUISMO

Los datos de los porcentajes de poblacin fumadora se obtienen del artculo de Naurath & Jones (2007) donde se afirma que en ms de 90 pases de todo el mundo, una encuesta sobre los hbitos de los fumadores indican que aproximadamente el 22% de la poblacin es fumadora. Dado que no se indican datos para los dos rangos de edad que comprende el ser fumador, se asume este mismo porcentaje en ambos.4.2.2.4. FIBRILACIN ATRIAL

En el artculo de Padanilam & Prystowsky (2008) se afirma que el 75% de los pacientes con fibrilacin atrial (FA) son mayores de 65 aos. Por otra parte, en el artculo de Savelieva & Camm (2003) se afirma que el porcentaje aproximado de gente que desarrollara FA es del 1.5%, con lo que se puede obtener que, un 0.375%

48

Diseo de un sistema de ayuda a la decisin son pacientes con FA menores de 65 aos, y un 1.125% son pacientes con FA mayores de 65 aos.4.2.2.5. DIABETES

En el artculo de Wild et al. (2004) se afirma que aproximadamente un 2.8% de la poblacin sufre diabetes.4.2.2.6. ENFERMEDADES CARDIOVASCULARES PREVIAS

Para el factor de las enfermedades cardiovasculares previas no existen datos concretos que puedan indicar un porcentaje. En este caso es relativamente fcil de entrever la causa de esta ausencia de datos, al tener en cuenta que este tipo de enfermedades pueden ser de lo ms variopinto, y habra que tener en cuentas las enfermedades que se han usado para calcular la probabilidad condicionada al ictus. Para que el modelo probabilstico sin embargo funcione, este valor debe tomar una probabilidad distinta de cero (o si no, como se ver ms adelante en el modelo, esto hara que la probabilidad global final fuera cero). Se establece por lo tanto una probabilidad del 10%.4.2.2.7. HIPERTROFIA VENTRICULAR IZQUIERDA

En el artculo de Levy (1988) se argumenta que aproximadamente un 15% de la poblacin padece hipertrofia ventricular izquierda.4.2.2.8. RAZA

El hecho de que un paciente sea de raza negra es determinante para que su probabilidad de padecer ictus aumente. Por lo tanto, el factor ser de raza negra es un factor de riesgo del cual se debe saber qu porcentaje de la poblacin tiene esta caracterstica. Sin embargo, no parecen existir estudios fiables que determinen a nivel global el porcentaje de pertenecer a una determinada raza, aunque varias pginas aseguran que este valor est en torno al 12%. Teniendo en cuenta, que, como se ha establecido en otros parmetros aproximadamente las el sexo representa que la mitad son hombres y la mitad mujeres, se puede extrapolar que un 6% de la poblacin es negra y mujer, y un 6% negra y hombre.

49

4.2.2.9.

SOBREPESO

En el informe realizado por la OMS (WHO, 2010b) se indica que aproximadamente mil millones de personas adultas y aproximadamente 22 millones de nios sufren obesidad. Con estos datos, se puede extrapolar que un porcentaje de aproximadamente el 60% de la poblacin sufre obesidad. Sin embargo, dado que los datos epidemiolgicos como se ha comentado previamente en varias ocasiones provienen de varios estudios, el hecho de usar esta probabilidad (60%) en los clculos asociados al modelo probabilstico repercute en la generacin de una probabilidad negativa (algo que puede suceder al proceder los datos de varios estudios independientes entre s). Por lo tanto, se reduce esta epidemiologa al 15%.4.2.2.10. PREDISPOSICIN HEREDITARIA

Para el factor de las enfermedades cardiovasculares previas no existen datos concretos que puedan indicar un porcentaje. Se establece por lo tanto una probabilidad del 10%.4.2.2.11. ICTUS E ICTUS PREVIOS O TIAS

En el artculo de Pendlebury et al. (2009) se menciona que existe una incidencia del primer ictus de aproximadamente el 2.05%. Al no especificar entre sexos, se asume este valor para ambos sexos. En el artculo de Nicoletti et al. (2000) se argumenta que aproximadamente el 0.322% de la poblacin mundial ha sufrido un ictus.

50

Diseo de un sistema de ayuda a la decisin

5.

TECNOLOGAS EMPLEADAS

En este trabajo se deben destacar como tecnologas empleadas, fundamentalmente dos: Ontologas como representacin del conocimiento. Tcnicas de inferencia probabilstica.

En primer lugar, como se ha comentado previamente en la seccin 2.2, las ontologas constituyen uno de los medios de representacin del conocimiento que ms auge han tenido en los ltimos aos. Gracias a esto, es posible modelar dominios complejos como el que se plantea en esta tesis, donde existen variedad de trminos, donde algunos estn directamente relacionados con otros, mientras que otros tantos son totalmente independientes entre s.5.1. REPRESENTACIN DEL CONOCIMIENTO

El diseo de la ontologa se ha realizado partiendo del modelo creado por Klinov & Parsia (2008) basndose en el estudio generado por Gail et al. (1989) sobre el desarrollo del cncer de mama. La introduccin de los datos en la ontologa se bas en diferenciar que factores de riesgo afectaban a otros, estableciendo as clasificaciones en funcin de la edad, sexo, raza, etc. En primer lugar se define que es lo que se va a inferir como resultado del diagnstico, es decir, la enfermedad: Ictus Isqumico. Para ello, se genera una clase llamada Disease con una subclase llamada Stroke, y a su vez, esta, contiene la clase Ischemic Stroke. A continuacin se debe representar las posibles etnias que el sistema va a manejar. Para simplificacin asumimos etnia como raza, y establecemos dos tipos: Blancos y Negros. Otro factor que debe ser representado es el sexo o gnero, con lo que nuevamente se establece una clase Gnero y sus respectivas subclases (Femenino y Masculino). En la siguiente imagen podemos ver l