336

Técnicas Para El Análisis Clínico de Datos

  • Upload
    andre

  • View
    47

  • Download
    13

Embed Size (px)

DESCRIPTION

eee

Citation preview

Page 2: Técnicas Para El Análisis Clínico de Datos

TÉCNICAS PARAEL ANÁLISIS DE DATOS

CLÍNICOS

Page 3: Técnicas Para El Análisis Clínico de Datos
Page 4: Técnicas Para El Análisis Clínico de Datos

DAVID F. NETTLETON

TÉCNICAS PARA ELANÁLISIS DE DATOS

CLÍNICOS

3INTRODUCCIÓN

Madrid-Buenos Aires

Page 5: Técnicas Para El Análisis Clínico de Datos

© David F. Nettleton, 2005 (Libro en papel)� David F. Nettleton, 2011 (Libro electrónico)

Reservados todos los derechos.

“No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos sin el permiso previo y por escrito de los titulares del Copyright”

Ediciones Díaz de Santos, S.A.Albasanz, 228037 MADRID

http.//ediciones.diazdesantos.esediciones@díazdesantos.es

ISBN: 978-84-9969-067-4 (Libro electrónico)ISBN: 978-84-7978-721- (Libro en papel)

Page 6: Técnicas Para El Análisis Clínico de Datos
Page 7: Técnicas Para El Análisis Clínico de Datos

El autor agradece las contribuciones y colaboración de las personas yentidades que se citan a continuación.

El área de la representación de datos de diferentes tipos, que com-prende las Secciones 2.4, 6.1 y 6.2 del libro, fue realizada en colabora-ción con la doctora Karina Gibert del Departamento de Matemáticas yEstadísticas de la Universidad Politécnica de Cataluña, en el periodo1996-1997. El área de agregación y proceso difuso de los datos, que com-prende las secciones 2.2, 2.3, 7.3, 7.4, 7.5 y 8.2 del libro, se realizó encolaboración con el doctor Vicenc Torra del Instituto de Investigación enInteligencia Artificial, Bellaterra y el doctor Juan Jacas del Departamen-to de Matemáticas, Escuela de Arquitectura, Universidad Politécnica deCataluña, en el periodo 1997-2001.

Las técnicas han sido probadas en dos áreas clínicas, en colaboracióncon tres hospitales durante un periodo de cinco años: datos de pacientesde UCI del Hospital Parc Taulí de Sabadell; datos de pacientes de apneadel Hospital Clínico de Barcelona y datos de pacientes de apnea del Hos-pital de la Santísima Trinidad de Salamanca. El autor reconoce y agrade-ce la colaboración del doctor Xavier Companys (anteriormente del Hos-pital Parc Taulí de Sabadell) en proporcionar el conjunto de datos usadoen el Capítulo 9 del libro, y su colaboración en la interpretación de losresultados del análisis. El autor reconoce y agradece la colaboración de ladoctora Lourdes Hernández del Laboratorio del Sueño del Hospital Clí-nico de Barcelona, en proporcionar el conjunto de datos usado en elCapítulo 10 del libro y en realizar la contribución al Capítulo 5 y de lasTablas 5.1 y 5.2. Por último, el autor reconoce y agradece a los doctoresJoaquín y Joaquina Muñiz del Centro de Estudios del Sueño del Hospitalde la Santísima Trinidad de Salamanca, por su colaboración en la capta-

1Agradecimientos y reconocimientos

Page 8: Técnicas Para El Análisis Clínico de Datos

ción de datos de los pacientes de apnea a partir de los cuestionarios quehemos usado en el Capítulo 11. Asimismo, se agradece su colaboraciónen la interpretación de los resultados del análisis, y por su contribución alCapítulo 5.

Por último, agradecemos a María Sánchez Leiva por realizar las ilus-traciones en las páginas 39, 67, 73, 190, 191, 194, 243, 247 y 263, quefueron encargadas especialmente para el libro.

VIII AGRADECIMIENTOS Y RECONOCIMIENTOS

Page 9: Técnicas Para El Análisis Clínico de Datos

Agradecimientos y reconocimientos ...........................................

11. Introducción .........................................................................11.1. Contexto de la obra .....................................................11.2. Motivos .......................................................................11.3. Objetivos .....................................................................11.4. El alcance y la orientación del libro desde el punto de

vista del análisis de datos ............................................

Parte I. Conceptos y técnicas .......................................................

12. Conceptos ..............................................................................12.1. La “minería de datos” .................................................12.2. Relevancia y fiabilidad ...............................................12.3. Agregación de variables y datos .................................12.4. La representación “difusa” de los datos ......................12.5. Análisis de datos con técnicas “difusas” ....................12.6. Clustering ...................................................................12.7. Clasificación ...............................................................

13. La perspectiva difusa ...........................................................13.1. Conceptos básicos .......................................................13.2. Concepto de “pertenencia difusa” ..............................13.3. Relaciones difusas ......................................................13.4. Definición de un “conjunto difuso” ............................13.5. Siete métodos para definir una función de pertenencia ..13.6. Definición de “variable difusa” ..................................13.7. Definición de “número difuso” ...................................13.8. Los “cuantificadores” .................................................

VII

1456

8

11

1313202628303436

393940414243444545

1Índice

Page 10: Técnicas Para El Análisis Clínico de Datos

13.9. Representación difusa de variables de tipo binario ....3.10. La selección de características ....................................3.11. Funciones de pertenencia para datos clínicos .............

14. El diagnóstico y el pronóstico clínico .................................14.1. Enfoque de la estadística “clásica” .............................14.2. Sistemas de puntuación de pronóstico en cuidados

intensivos ....................................................................14.3. Ejemplos de algunos de los sistemas más comunes de

puntuación de pronóstico ............................................14.4. Enfoques de la inteligencia artificial ..........................14.5. Grupo de la Universidad de California en Irving: Repo-

sitorio base de datos sobre aprendizaje automatizado ..

15. El diagnóstico del síndrome de apnea del sueño ...............15.1. Presentación clínica ....................................................15.2. Prevalencia ..................................................................15.3. Morbidity y mortalidad ...............................................15.4. Diagnóstico .................................................................

16. La representación, comparación y proceso de datos dediferentes tipos .....................................................................16.1. Representación y proceso de datos de tipos diferentes ..16.2. Comparación entre diferentes tipos de datos ..............16.3. La mejora del cuestionario para el diagnóstico de ap-

nea del sueño (estudio del Capítulo 11) ......................

17. Técnicas ................................................................................17.1. Técnicas estadísticas ...................................................17.2. La técnica de inducción de reglas: ID3 y C4.5/5.0 .....17.3. La técnica de “amalgamación”: los algoritmos de

clustering de Hartigan .................................................17.4. La técnica de “agregación”: CP, OWA y WOWA .......17.5. La técnica de “agrupación difusa”: Fuzzy c-Means ...17.6. La técnica de redes neuronales para clustering (tipo

“Kohonen SOM”) .......................................................17.7. La técnica de “redes neuronales” para predicción ......17.8. La técnica del “algoritmo evolutivo” (o “genético”) ...

474950

5555

56

5759

64

6768686969

737383

103

119119125

135139146

153156158

X ÍNDICE

Page 11: Técnicas Para El Análisis Clínico de Datos

18. Resumen de los aspectos claves en la adaptación e imple-mentación de las técnicas ....................................................18.1. El cálculo de covarianzas difusas entre variables .......18.2. Resumen de las adaptaciones del operador de agrega-

ción WOWA ................................................................

Parte II. Aplicación de las técnicas a casos reales .....................

19. Pronóstico de pacientes de la UCI - Hospital Parc Tauli deSabadell .................................................................................19.1. Exploración inicial de los datos ..................................19.2. Proceso del conjunto de datos UCI con la técnica de

inducción de reglas C4.5 .............................................19.3. Proceso del conjunto de datos UCI con la técnica de

inducción de reglas ID3 ..............................................19.4. Clustering con la red neuronal Kohonen SOM ..........19.5. Aplicación del joining algorithm de Hartigan a los

datos UCI, usando covarianzas “difusas” y “no-difu-sas” como entradas .....................................................

19.6. Proceso de los datos UCI con la técnica “Fuzzy c-Means” ........................................................................

19.7. Resumen .....................................................................

10. Datos del cuestionario de apnea. Laboratorio del sueño.Neumología (ICPCT), Hospital Clínico de Barcelona ......10.1. El diagnóstico de apnea usando WOWA con cocientes

asignados por el médico experto .................................10.2. La comparación de diferentes métodos para asignar

los cocientes de relevancia y fiabilidad. Agregaciónde datos usando el operador WOWA para casos deapnea del sueño ...........................................................

10.3. Resumen .....................................................................

11. Datos del cuestionario de apnea. Centro de Estudios delSueño (Neumosalud), Hospital de la Santísima Trinidadde Salamanca) ......................................................................11.1. Datos de prueba–variables seleccionadas ...................11.2. Comparación de las formas de representación categóri-

ca y como escala, de las preguntas del cuestionario .....

165171

181

189

191194

201

217227

231

238242

247

249

253261

263265

269

XIÍNDICE

Page 12: Técnicas Para El Análisis Clínico de Datos

11.3. Aprendizaje y asignación de los valores de relevanciay fiabilidad ..................................................................

11.4. Resultados: diagnóstico de apnea usando el operadorde agregación WOWA ................................................

11.5. Comparación de la precisión predictiva en el diagnós-tico usando agregación WOWA respecto a otros méto-dos de modelización predictiva ...................................

11.6. Resumen .....................................................................

12. Resumen y conclusiones ......................................................

Anexo A. Descripción de todas las variables del conjunto dedatos de “Admisiones Hospitalarias UCI”, procesado en elCapítulo 9 del libro .......................................................................

Anexo B. Cuestionario de apnea screening usado en Capítu-los 10 (versión no-difusa/categórica) y 11 (versión difusa/conescalas) ...........................................................................................

Glosario .........................................................................................

Índice de autores ..........................................................................

Bibliografía ...................................................................................

Índice analítico .............................................................................

272

276

277278

281

287

295

303

313

317

325

XII ÍNDICE

Page 13: Técnicas Para El Análisis Clínico de Datos

Este libro está dirigido a las personas que por razones profesionales oacadémicas tienen la necesidad de analizar datos de pacientes, con elmotivo de realizar un diagnóstico o un pronóstico. Se explican en detallelas diversas técnicas estadísticas y de aprendizaje automatizado para suaplicación al análisis de datos clínicos. Además, el libro describe de formaestructurada, una serie de técnicas adaptadas y enfoques originales, basán-dose en la experiencia y colaboraciones del autor en este campo.

El autor incorpora materia tanto de su experiencia práctica como desus diversos proyectos de investigación, para enriquecer el contenido, elcual ofrece un enfoque original sobre la problemática del tema. En la Par-te II (Capítulos 9 al 11), ejemplos prácticos derivados de proyectos rea-les sirven para ilustrar los conceptos y técnicas explicadas en la Parte I(Capítulos 2 al 8).

Prácticamente todos los métodos, técnicas e ideas que se presentan,por ejemplo “representación de datos”, “relevancia y fiabilidad de los da-tos” y “agregación”, pueden ser aprovechados tanto por el estudiante demedicina, de informática clínica o de estadística, como por un empleadode un laboratorio clínico u hospital. No es imprescindible disponer de ungran volumen de datos, y las herramientas de análisis citadas están dis-ponibles a un precio módico o son de distribución gratuita. A los lectoresdel libro, sí que se les supone una cierta familiaridad con la estadística, yde los objetivos básicos del análisis de datos clínicos: diagnóstico,pronóstico, identificación de tendencias, excepciones, similitudes, etc.

Con referencia a la Figura 1.1, la Primera Parte del libro consiste delos Capítulos 2 al 8. En los Capítulos 2 al 5 se presentan los conceptos de análisis y los entornos de datos clínicos: Capítulo 2, Conceptos; Capí-tulo 3, La perspectiva difusa; Capítulo 4, El diagnóstico y el pronósticoclínico; Capítulo 5, Diagnóstico del síndrome de Apnea del Sueño. En

1Introducción

Page 14: Técnicas Para El Análisis Clínico de Datos

Capítulos 6 al 8, se afrontan con mayor profundidad las técnicas usadas,la problemática de la representación de los datos, y las adaptaciones pro-pias de las técnicas estándar: Capítulo 6, Representación, comparación yprocesos de datos de diferentes tipos; Capítulo 7, Técnicas, y Capítulo 8,Adaptaciones de las técnicas estándar.

Con referencia a la Figura 1.2, la Segunda Parte del libro consiste delos Capítulos 9 al 11, en los cuales se explica la aplicación de las técnicasy conceptos en tres situaciones reales: Capítulo 9, UCI – datos para elpronóstico (Hospital Parc Taulí, Sabadell); Capítulo 10, Datos (no-difu-sas) cuestionario Apnea (Hospital Clínico, Barcelona), y Capítulo 11,Datos (difusas) cuestionario Apnea (Hospital de la Santísima Trinidad,Salamanca). El Capítulo 9 trata del pronóstico de pacientes admitidos ala UCI, en términos de supervivencia y tiempo de estancia en el hospital.El Capítulo 10 trata del diagnóstico de pacientes de apnea a partir dedatos captados de forma no-difusa (categórica), y por último, el Capítulo11 explica el diagnóstico de pacientes de Apnea a partir de datos capta-dos de forma no-difusa y difusa (escalas).

2 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 1.1.NParte I: relación de capítulos (enumerados en rectángulos correspondien-tes con los conceptos y las técnicas expuestas).

Conceptos

3

La perspectivadifusa.

7

Técnicas.

7.3Amalgamación:Hartigan.

7.4Agregación:WOWA.

7.1Técnicasestadísticas.

Agrupación 7.5difusa:fuzzy c-Means.

7.6Agrupación SOM, redneuronal tipo Kohonen.

7.7Redes neuronales predictivastipo ‘propagación hacia delante.’

7.8Algoritmosgenéticos.

Inducción 7.2de Reglas:C4.5e ID3.

4Diagnósticoy pronósticoclínico.

5Diagnosis delsíndrome deapnea en elsueño.

Representa- 6ción, compara-ción y procesode datos dediferentes tipos.

Adaptaciones 8de las técnicasestándar.

El cálculo de 8.1covarianzas difusasentre variables.

Adaptaciones 8.2del operador deagregación WOWA.

•nData Mining. 2•nRelevancia y fiabilidad.•nAgregación de

variables y datos.•nRepresentación difusa de

los datos.•nAnálisis de los datos

con técnicas difusas.•nClustering.•nClasificación.

Relación de los capítulos del libro con los conceptosy las técnicas presentadas

➡➡

Page 15: Técnicas Para El Análisis Clínico de Datos

Para los lectores que deseen enfocar en los aspectos más prácticos,se recomienda la siguiente lectura del libro: Capítulo 2, Conceptos; Capí-tulo 4, El diagnóstico y pronóstico clínico; Capítulo 5, Diagnóstico delSíndrome de Apnea del Sueño; Capítulo 9, UCI – datos para el pronósti-co (Hospital Parc Taulí, Sabadell); Capítulo 10, Datos (no-difusas) cues-tionario Apnea (Hospital Clínico, Barcelona), y Capítulo 11, Datos(difusas) cuestionario Apnea (Hospital de la Santísima Trinidad, Sala-manca).

Para los lectores que están interesados en los aspectos teóricos, serecomienda un mayor enfoque en los siguientes capítulos del libro: Capí-tulo 3, La perspectiva difusa; Capítulo 6, Representación, comparación yprocesos de datos de diferentes tipos; Capítulo 7, Técnicas, y Capítulo 8,Adaptaciones de las técnicas estándar.

3INTRODUCCIÓN

Figura 1.2.NParte II: capítulos (enumerados) dedicados a la descripción y resultadosde la aplicación de los conceptos y técnicas a entornos reales.

Relación de los capítulos del libro: aplicación de los conceptos y las técnicasa entornos reales

•nTécnicas estadísticas están-dar y de visualización dedatos.

•nInducción de Reglas: C4.5 oID3.

Redes neuronales predictivastipo ‘propagación hacia-delante’.

Amalgamación: Hartigan usan-do covarianzas difusas y nodifusas como entradas.

Agrupación SOM red neuronaltipo Kohonen.

•nAgrupación difusa: fuzzyc-Means.

•nCuestionario que captura losdatos de forma categórica.

•nDiagnóstico usando WOWA.•nAsignación de los cocientes de

fiabilidad y relevancia por el es-pecialista médico.

•n– comparativa con OWA y‘Componentes Principales’.

•nAsignación de los cocientesde fiabilidad y relevancia asig-nados por un consenso dediferentes técnicas.

•n– k-Means, Kohonen, Con-dorcet.

Covarianzas Pearson ‘CrossProduct’.Regresión logística, regresiónlineal, C4.5 inducción de reglas,red neuronal prop. delante.

•nDos cuestionarios: uno quecaptura los datos de formacategórica y otro que capturalos datos de forma difusa.

•nComparación de la forma derepresentación categórica delas preguntas con la formadifusa.

•nComparación de la asignaciónde los cocientes por el médicocon la asignación/aprendizajede los cocientes por un algo-ritmo genético.

•nComparación del acierto pre-dictivo en diagnosis de la téc-nica de agregación WOWA,con las técnicas de red neuro-nal e inducción de árbol ID3.

Pronóstico depacientes admitidosa la UCI (HospitalParc Tauli, Sabadell).

9

Diagnóstico delsíndrome de apneaen el sueño (HospitalClínico. Barcelona).

10

Diagnóstico delsíndrome de apneaen el sueño (HospitalSantísima Trinidad,Salamanca).

11

Entornos reales

Page 16: Técnicas Para El Análisis Clínico de Datos

1.1.NCONTEXTO DE LA OBRA

Este libro cubre una serie de líneas de investigación aplicada quecomprenden el periodo desde 1996 hasta 2001. El objetivo global deltrabajo contempla el desarrollo y refinamiento de un conjunto de mé-todos y herramientas que se pueden aplicar a las diferentes fases en el proceso de “minería de datos clínicos”. Una primera consideraciónha sido cómo representar y procesar de forma conjunta a diferentestipos de datos, por ejemplo, los tipos categórico, numérico y difuso,usando técnicas de agregación, amalgamación de variables y técnicasdifusas.

El área de la representación de datos de diferentes tipos (Secciones2.4, 6.1 y 6.2 del libro), fue realizada en el periodo 1996-1997, en cola-boración con la doctora Karina Gibert (Departamento de Matemáticas yEstadísticas, Universidad Politécnica de Cataluña). Está seguido por elestudio y contraste de diferentes técnicas de modelización de datos, co-mo por ejemplo, clustering, redes neuronales e inducción de reglas (Ca-pítulos 9 y 10). La segunda área principal de estudio es la representacióny proceso difuso de los datos y la agregación de datos (Secciones 2.3, 6.3,7.4, 8.2, Capítulos 10 y 11). Este estudio se realizó en colaboración conel doctor Vicenc Torra (Instituto de Investigación en Inteligencia Artifi-cial, Bellaterra) y el doctor Juan Jacas (Departamento de Matemáticas,Escuela de Arquitectura, Universidad Politécnica de Cataluña) entre1997 y 2001. Se centra en el uso de operadores de agregación, como, porejemplo, WOWA, para procesar dominios reales de datos clínicos. Asi-mismo, se proponen soluciones para algunos de los problemas implícitosen estos operadores, como, por ejemplo, el tratamiento de datos desco-nocidos y la asignación de los valores de los cocientes.

Diversos conjuntos de datos artificiales de prueba han sido procesa-dos, además de tres conjuntos reales de datos clínicos. Los conjuntos dedatos de prueba usados incluyen Iris, y datos publicados por Hartigan,Bezdek y Torra. Además, las técnicas han sido aplicadas a dos dominiosmédicos, en colaboración con tres hospitales durante un periodo de cin-co años: datos de pacientes de UCI del Hospital Parc Taulí, Sabadell, Espa-ña; datos de pacientes de apnea del Hospital Clínico, Barcelona, España, ydatos de pacientes de apnea del Hospital de la Santísima Trinidad, Sala-manca, España.

4 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 17: Técnicas Para El Análisis Clínico de Datos

El análisis de datos y la representación de datos son dos áreas quehan sido revolucionadas por el advenimiento de los métodos de aprendi-zaje automatizado a partir de 1950. A mediados de la década de los 60,Zadeh introdujo los conceptos difusos para el análisis de datos. Poste-riormente, otros investigadores evolucionaron estas ideas. Bezdek, porejemplo, llegó a definir el algoritmo Fuzzy c-Means para la agrupacióndifusa de datos. Otros hitos claves fueron la aparición de las redes neuro-nales para la modelización supervisada, de las cuales el feedforward NN(propagación por delante) era de los más comunes. Una de las primerasreferencias de redes neuronales es la de [Rosenblatt59].

Después entró en escena la inducción de reglas, que prometió ser unatécnica con una amplia área de aplicación. Quinlan definió el algoritmoID3, que llegó a ser el primer algoritmo “estándar” de inducción dereglas en la industria del software. Las redes neuronales perdieron supopularidad en la década de los 70 debido a problemas teóricos no re-sueltos (por ejemplo los mínimos locales), pero volvieron a destacar enlos años 80. Los sistemas expertos adquirieron popularidad en los años 80,aunque con la llegada de la década de los 90 fueron absorbidos por apli-caciones híbridas y en aplicaciones que resolvieron problemas específi-cos. Sistemas basados en reglas evolucionaron hacía una combinación desistemas basados en conocimientos expertos y herramientas para inducirreglas de forma automática a partir de los datos históricos. Otros enfo-ques fueron el Case Based Reasoning (razonamiento basado en casos),los Belief Networks (redes de creencias) y los operadores de agregaciónbasados en técnicas de inteligencia artificial. Los operadores de agrega-ción llegaron a ser herramientas de uso práctico, debido especialmente altrabajo de Yager en consolidar los aspectos teóricos.

1.2.NMOTIVOS DEL ENFOQUE DEL LIBRO

Muchos aspectos de análisis y la representación de datos aún estánpor resolver, cuando los datos no caen en categorías bien definidas, ocuando no se puede representarlos de una forma simple. En el área deanálisis de datos clínicos, hay una constante búsqueda para métodos queaportan una mayor precisión en el diagnóstico de casos positivos y nega-tivos, y una mejor precisión en el pronóstico de la recuperación delpaciente a medio y largo plazo.

5INTRODUCCIÓN

Page 18: Técnicas Para El Análisis Clínico de Datos

El debate respecto a cómo mejor representar y capturar los datos tam-bién es un área de estudio actual dónde no existen las “mejores solucio-nes”. Otra consideración es el hecho de que muchos algoritmos necesitanun gran volumen de datos para poder llegar a un resultado aceptable. Estoes a pesar de que muchos dominios de datos clínicos e incluso otros domi-nios disponen de un número de casos relativamente pequeño. Como ejem-plo, un conjunto de datos clínicos podría consistir en unos 150 casos,mientras que el número de variables descriptivas sería 15 o más. Existenmuchas técnicas estadísticas y de minería de datos que siguen asignandolos tipos de las variables de forma arbitraria para poder entrar los datos en los procesos y algoritmos de exploración o modelización. El operadorWOWA es una técnica de agregación de datos que ofrece una posible solu-ción para algunos de estos problemas. Evaluamos los resultados de aplicaresta técnica a datos reales en los Capítulos 10 y 11 del libro. En el caso deloperador WOWA en su forma estándar, requerimos que sea capaz de pro-cesar conjuntos con datos desconocidos, con una mínima pérdida de pre-cisión global. Un inconveniente del operador WOWA es la dificultad deuna asignación manual de los vectores de metadatos (cocientes) a partir deun dominio de datos reales. Por esta razón, evaluamos métodos que apren-den los cocientes a partir de los datos históricos. Proponemos desarrollarun método que permita comparar variables de tipo “difuso” y “unificarlas”en un número reducido de factores más significativos. Este método partede la necesidad de explorar y modelizar un conjunto de datos que incluyevariables de diversos tipos. Si revisamos los entornos comerciales actualesde minería de datos, como, por ejemplo, Clementine, IBM IntelligentMiner y SAS Enterprise Miner, observamos que hay una falta en generalde la capacidad de procesar datos en la forma difusa. Asimismo, no ofre-cen la posibilidad de definir múltiples vectores de cocientes como entradasal modelo de datos. Por último, hay una falta de operadores de agregacióny algoritmos de modelización que dan resultados aceptables para conjun-tos de datos que contengan un número reducido de casos.

1.3.NOBJETIVOS

El primer objetivo del libro es el desarrollo de un conjunto de méto-dos y herramientas que se pueden aplicar a las distintas fases en el pro-ceso de minería de datos. Es decir, la representación de datos, la explo-

6 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 19: Técnicas Para El Análisis Clínico de Datos

ración de los mismos y la creación de modelos. Un segundo objetivo es la revisión de las técnicas existentes, aplicándolas a conjuntos dedatos reales y artificiales, e identificando sus limitaciones. De esta for-ma, podemos definir áreas susceptibles de mejora y podemos desarro-llar técnicas que aportan soluciones para los datos y los dominios encuestión.

Demostramos los aspectos fuertes y débiles de una selección de lastécnicas más conocidas de análisis estadístico e inteligencia artificial,tanto supervisadas como no-supervisadas. Revisamos técnicas de cluste-ring como k-Means, Fuzzy c-Means y el Kohonen SOM. En lo que serefiere a técnicas de clasificación o modelización predictiva, considera-mos a redes neuronales feedforward, inducción de reglas ID3 y C4.5 y laregresión lineal y logística.

Consideramos diferentes aspectos de la naturaleza de los datos, porejemplo, los diversos tipos que los datos pueden asumir: numérico,categórico, binario, etcétera. Evaluamos diferentes formas de repre-sentar y analizar los mismos, como, por ejemplo, clustering (segmen-tación) y clasificación. Comprobamos técnicas, como la agregación,que aportan información adicional al proceso de los datos mediante eluso de criterios de ponderación (cocientes) para indicar la fiabilidad yrelevancia de los datos de entrada. Usando técnicas de componentesprincipales y amalgamación, podemos identificar estructuras sub-yacentes, mediante un estudio de la forma en que las variables esténagrupadas.

Además, como condicionante del entorno real de los datos clínicos,estamos interesados en encontrar técnicas para su representación y pro-ceso que permitan conseguir un resultado aceptable, de clasificación,segmentación, o predicción, a partir de un número relativamente pequeñode casos.

Se evalúan herramientas y métodos para todas las fases de minería dedatos: la fase de representación y definición inicial de los mismos; la fasede exploración que incluye el estudio de relaciones entre variables quepueden estar definidas como tipos distintos; y por último, la fase de mo-delización. Estas herramientas nos permiten representar y procesar datosen la forma difusa, junto con datos no-difusos. En la fase de exploraciónde los datos usamos algoritmos como el “joining algorithm” de Harti-

7INTRODUCCIÓN

Page 20: Técnicas Para El Análisis Clínico de Datos

gan, y un cálculo propio de distancias difusas de covarianza. En la fase demodelización usamos operadores de agregación como WOWA, para pro-cesar conjuntos de datos con un número pequeño de casos. Hemos adap-tado WOWA para poder procesar datos con valores ausentes, e incorpo-rando un método de aprendizaje de los vectores de cocientes a partir delos datos históricos.

1.4.NEL ALCANCE Y LA ORIENTACIÓN DEL LIBRODESDE EL PUNTO DE VISTA DEL ANÁLISIS DE DATOS

El alcance del libro, desde el punto de vista de los dominios dedatos, contempla diversos conjuntos de datos artificiales de prueba ytres conjuntos reales de datos clínicos, uno de los cuales ha sido reco-gido especialmente para el estudio del Capítulo 11. En lo que se refierea la representación de los datos, revisamos una diversidad de tipos derepresentación, y se evalúa el caso por la forma difusa. En cuanto a losmétodos de proceso de datos, usamos una selección de métodos están-dar, como por ejemplo redes neuronales, inducción de reglas y méto-dos de la estadística clásica, y comparamos estos métodos con técnicasde uso menos “habitual” como la de Hartigan, Fuzzy c-Means u ope-radores de agregación como WOWA. La orientación del libro tiene dospuntos de énfasis: (1) la evaluación de técnicas difusas para mejo-rar los métodos existentes de análisis y representación de datos; (2) laaplicación de estas técnicas a datos clínicos para el pronóstico en elcaso de los datos UCI, y el diagnóstico en el caso de los datos deapnea.

Para terminar la Introducción, en la Figura 1.3 se ve un resumen delos diferentes métodos que han sido usados y probados, tanto estándarcomo propios, y su relación con las fases de minería de datos. Observa-mos que la aplicación de los métodos de clustering, como k-Means oKohonen SOM, está restringida a la fase de exploración de los datos.Por su parte, los métodos de clasificación, como la inducción de reglas,se emplean tanto en la fase de exploración como en la fase de modeli-zación.

8 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 21: Técnicas Para El Análisis Clínico de Datos

9INTRODUCCIÓN

Figura 1.3.NHerramientas y métodos usados (fila central), su relación a las diferentesfases de Data Mining (fila superior), y métodos existentes usados para comparación

(fila inferior).

Definición yrepresentaciónde los datos

Definición función de pertenencia,cuantificadores, vectores de cocientes,representaciones homogéneas paradiferentes tipo de datos, captura dedatos.

Representación categórica y no-difusade los datos.

Exploraciónde los datos

Covarianzas difu-sas, visualización,‘joining algorithm’de Hartigan, fuzzyc-Means.

Operador de agre-gación WOWA.

Redes neuronales propa-gación hacia delante, in-ducción de reglas (C4.5),regresión lineal y logística,operadores de agregaciónde datos OWA y WM.

k-Means, KohonenSOM, covarianzasno-difusas, induc-ción de reglas (C4.5e ID3).

Modelizaciónde los datos

Page 22: Técnicas Para El Análisis Clínico de Datos

En esta Primera Parte, que consiste de los Capítulos 2 al 8, se presen-tan los conceptos y técnicas que usamos luego en la Segunda Parte dellibro para analizar los datos clínicos en diferentes entornos. Considera-mos tanto los conceptos de análisis de datos como los conceptos clínicos.En el entorno clínico, presentamos dos aplicaciones: la UCI y la pro-blemática de cuidados intensivos, y el Centro de Estudios del Sueño y laproblemática del síndrome de apnea.

En el Capítulo 2 presentamos los conceptos de Data Mining, relevan-cia y fiabilidad de los datos, agregación de variables y datos, representa-ción difusa de los mismos y el análisis con técnicas difusas. Por último,en el Capítulo 2 presentamos dos conceptos básicos en el análisis dedatos: clustering, es decir, la agrupación de los datos sin información apriori, y la clasificación, que los agrupa en diferentes clases definidas apriori.

En el Capítulo 3 introducimos el propósito del enfoque “difuso” (eninglés “fuzzy”) como una forma de representar y procesar los datos, yestablecemos por qué este enfoque es el más adecuado para determina-dos tipos de datos.

En el Capítulo 4 presentamos los conceptos clínicos de diagnóstico ypronóstico, junto con una introducción a los sistemas más establecidos dediagnóstico en la UCI (Apache, MPM, SAPS, …). Por último, presenta-mos técnicas existentes en la literatura para el diagnóstico y pronósticoclínico con técnicas de inteligencia artificial.

En el Capítulo 5 presentamos la problemática de diagnóstico del sín-drome de apnea del sueño, y en qué consiste. En el Capítulo 6 introduci-mos la problemática de la representación, comparación y proceso dedatos de diferentes tipos.

Parte IConceptos y técnicas

Page 23: Técnicas Para El Análisis Clínico de Datos

Con el Capítulo 7 pasamos de los conceptos a las técnicas que vamosa usar en la Parte Segunda para analizar los datos. Hay tanto técnicas dela estadística clásica, como del ámbito de la inteligencia artificial. De laestadística clásica, se definen técnicas cómo la correlación, covarianza,regresión y las técnicas de Hartigan. De la inteligencia artificial, presen-tamos una diversidad de técnicas: inducción de reglas ID3 y C4.5; el ope-rador de agregación WOWA; el método de agrupación difusa Fuzzy c-Means; el Kohonen SOM para el clustering no-supervisado basado enredes neuronales; redes neuronales predictivas tipo “propagación haciadelante” y algoritmos genéticos.

Para terminar la Primera Parte del libro, el Capítulo 8 resume lasadaptaciones realizadas por el autor a las técnicas estándar (descritas enel Capítulo 7). Dichas adaptaciones servirán para las necesidades especí-ficas del análisis de datos clínicos que vamos a realizar después en la Par-te Segunda.

12 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 24: Técnicas Para El Análisis Clínico de Datos

En este capítulo definimos los conceptos básicos que vamos a usar parael análisis y modelización de datos, como, por ejemplo, la minería dedatos, el clustering y la clasificación. Además, hacemos un repaso de al-gunos de los enfoques más recientes de investigación e ideas innovadorasen áreas relevantes de la temática del libro. Dentro de esta sinopsis, inclui-mos los trabajos de Takagi y Sugeno en la modelización de datos, Duboisen metodología y representación, y Nakamori en el análisis factorial.

2.1.NLA “MINERÍA DE DATOS”

Definimos la minería de datos como el análisis de datos con herra-mientas sofisticadas, que permiten el proceso y visualización de múltiples“vistas”, y la búsqueda de relaciones complejas en los datos. Además depresentar y manipular información conocida respecto a los datos, permiteel descubrimiento de nuevos conocimientos. Podemos decir que la mineríade datos se caracteriza por el descubrimiento de nuevo conocimiento.

La Minería de Datos (en inglés conocida cómo Data Mining o Knowled-ge Data Discovery), es un proceso de análisis de datos de naturaleza inter-disciplinaria, cuya propuesta es la identificación y extracción de conoci-mientos de alto valor a partir de los datos. Los conjuntos de datos pueden serde alto o bajo volumen, tener muchos atributos descriptivos, estructuras pocaclaras, e incorporar datos desconocidos, erróneos y con “ruido”.

2Conceptos

Page 25: Técnicas Para El Análisis Clínico de Datos

La minería de datos utiliza diversas técnicas para analizar y procesarlos datos:

a)NEstadística clásica: regresión lineal, correlación, etc...

b)NAlgoritmos de aprendizaje automatizado para clasificación y pre-dicción: inducción de reglas, redes neuronales, etc...

c)NExploración de datos usando herramientas para su visualizacióngráfica y manipulación.

La estadística, por su parte, ofrece técnicas como la clasificaciónautomática, discriminación, métodos factoriales y visualización gráfica.Por otra parte, la propuesta de algoritmos “inteligentes” es “aprender”, apartir de un conjunto de datos, y formar un modelo que representa elentorno, sea predictivo o de clasificación. Las técnicas que se suelen usarmás son: redes neuronales para predecir y clasificar, inducción de reglaspara explicar la estructura de un modelo y los perfiles de las clasificacio-nes; algoritmos genéticos para problemas de optimización; y algoritmosde correlación que sirven para identificar los factores más relevantes enun problema determinado. Todas esas técnicas se orientan hacía el des-cubrimiento de estructura en un conjunto de datos multidimensional. Larelación entre el descubrimiento de conocimiento en bases de datos y elanálisis clásico de datos se ve resumido en la Figura 2.1.

14 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 2.1.NEl “descubrimiento de conocimiento en las bases de datos” y el “análisisclásico de datos”, entendidas como áreas interdisciplinarias.

Estadística

Descubrimiento deconocimiento enbases de datos

Análisis clásicode datos

Inteligenciaartificial

VisualizaciónSistemas degestión de

bases de datos

Page 26: Técnicas Para El Análisis Clínico de Datos

Los proyectos de minería de datos suelen estar orientados hacía eldescubrimiento de conocimiento y la generación de modelos de datos.Suelen emplear técnicas como la predicción, clasificación, segmenta-ción, asociación, el descubrimiento de secuencias y el análisis de seriestemporales. Se pueden usar modelos predictivos; por ejemplo, para pre-decir los pacientes varones entre 45 y 65 años de edad con una probabi-lidad mayor de 70% para recuperarse de una enfermedad. Modelos deinducción, que nos pueden indicar los perfiles de los 1.000 pacientes demayor riesgo para desarrollar una determinada enfermedad. Procesos deasociación, que extraen información como: si el paciente ha padecido A,entonces el/la padecerá B también, en un 65% de los casos.

Asimismo, podemos usar técnicas para el descubrimiento de se-cuencias para deducir; por ejemplo, que una asistencia de tipo A ocu-rre después de una intervención de tipo C, para 2 de cada 5 pacientes.El descubrimiento de secuencias parecidas en el tiempo nos propor-ciona información como: si el paciente ha necesitado A, entoncesnecesitará también B en los próximos 3 meses, en 70% de los casos.Por último, la segmentación o clustering, puede describir estructurassubyacentes sin la necesidad de tener conocimientos a priori sobre losdatos. Por ejemplo, podemos establecer tendencias comunes entre pa-cientes en diferentes áreas del hospital, y asignar recursos comunespara ellos.

Algunos de los centros para la minería de datos y grupos de investi-gadores que han destacado más en los últimos años son: Usama Fayy-dad de MicroSoft Research, EE UU; Willi Klösgen in GMD (GermanNational Research Centre for Information Technology); Heikki Manni-la, anteriormente de la Universidad de Helsinki, Finlandia; G. Nakhaei-zadeh de Daimler Benz Research Centre AG, Forschungszentrum, Ulm,Alemania; Gregory Piatetsky-Shapiro de GTE Laboratories, EE UU;Ross Quinlan, del Centre for Advanced Computing Sciences, NewSouth Wales Institute of Technology, Australia; Ken Totton, Data Mi-ning Group, British Telecom, Inglaterra; Barry Devlin, IBM Dublin,Irlanda.

El enfoque del grupo de la Universidad de Helsinki se basa en el aná-lisis de secuencias de datos y en la identificación de características recu-rrentes y subyacentes en secuencias de eventos. Utilizan cadenas de Mar-kov y métodos Monte Carlo para examinar en detalle las dependencias

15CONCEPTOS

Page 27: Técnicas Para El Análisis Clínico de Datos

entre eventos. Aplican métodos de clustering para encontrar regularida-des en los datos. Uno de los enfoques especiales adoptados por este gru-po de investigadores se basa en redes neuronales Kohonen para el cluste-ring no-supervisado.

Enfoques actuales

En el presente y durante la última década ha habido muchas aplica-ciones usando las técnicas de redes neuronales, inducción de reglas yalgoritmos genéticos, y en combinación con la estadística clásica. En elárea de la minería de datos, existen además referencias a conceptos de lalógica difusa, aplicados al clustering, y la representación y el tratamien-to de la imprecisión. En el área de clasificación jerárquica, las referenciastienden estar relacionadas con la inducción de árboles.

Borgelt, de la Universidad de Magdeburg, Alemania, ha estudiadomedidas de evaluación para el aprendizaje en redes probabilísticas yposibilísticas [Borgelt97]. Borgelt ha colaborado con el grupo de Da-ta Mining de Daimler-Benz bajo los auspicios de Nakhaeizadeh. En [Borgelt97], se emplean las medidas de �� y de entropía para calcular la ganancia o pérdida de información, y para propagar estos datos en una red.

Una de las áreas de especial enfoque del grupo de investigación deminería de datos de Daimler-Benz ha sido la de técnicas de reducción de datos para grandes números de atributos, y con un número reducido detipos de datos. Han comprobado sus algoritmos con diferentes dominiosde datos, aunque su área principal es, lógicamente para Daimler-Benz, elanálisis de fallos de componentes de automóviles y sus características.

Dubois, del Institut de Recherche en Informatique de Toulouse,Francia, en su artículo [Dubois97] se centró en una síntesis de los datosdirigida por el usuario y basado en reglas graduadas. Algunos ejemplosde los temas que su grupo de investigadores ha estudiado son: prepro-ceso y reducción de la dimensionalidad de los datos, y la identificacióninicial de estructuras en los mismos. Una de sus conclusiones fue, res-pecto al uso de las técnicas de Kohonen, C4.5 y c-Means para identifi-car estructuras iniciales en los datos. En el caso de c-Means se concluyóque se debe usar esta técnica con cautela dado que según sus pruebas no

16 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 28: Técnicas Para El Análisis Clínico de Datos

funciona bien en la presencia de valores extremos (outliers). Además, c-Means requiere que el usuario especifique el número inicial de clusters.Como alternativa, se puede usar una técnica del tipo de simulated an-nealing, como por ejemplo, ID3, el cual proporcionaría una buena so-lución inicial. Asimismo, se podría usar el modelo Sugeno-Takagi comosustituto para el Kohonen SOM estándar. Las técnicas de KohonenSOM y c-Means pueden encontrar particiones muy distintas en el mis-mo conjunto de datos, lo que es útil si deseamos demostrar técnicascontrastadas.

En [Dubois97] se explica una metodología para el análisis de un con-junto de datos: paso 1, identificar puntos típicos; paso 2, calcular centros;paso 3, refinar reglas. En los datos de ejemplo había sólo dos atributos,dado a que se suponía un preproceso de los datos para elegir las variablesmás relevantes. El método centra en la creación de reglas a partir de estasvariables.

En el proyecto Europeo [Esprit] de StatLog [StatLog94], se realizóuna comparativa entre 20 de los algoritmos más importantes que sirvenpara la clasificación usando técnicas basadas tanto en la inteligencia arti-ficial como en la estadística clásica. Entre los algoritmos puestos a prue-ba se incluyeron: C4.5, discriminante lineal y cuadrática y NewID(variante de ID3). No se incluyó ningún algoritmo basado en la lógicadifusa (por ejemplo fuzzy c-Means).

Sistemas comerciales de minería de datos

Existe hoy una diversidad de oferta en sistemas comerciales de análi-sis de datos. Los principales sistemas, en lo que se refiere a ventas, son:Clementine de SPSS, Intelligent Miner for Data de IBM, Enterprise Minerde SAS, y Oracle Data Mining Suite (anteriormente este producto sellamó “Darwin” y Oracle lo compró de la empresa “Thinking Machines”).

Todos estos sistemas contienen un repertorio básico de funcionesestadísticas para la preparación de los datos, la exploración y la mode-lización. Además, todos tienen una o más técnicas para la clasificación y segmentación (clustering). Para predicción, suelen incluir las técni-cas de “redes neuronales”, o “regresión lineal” y “regresión logística”.Para la clasificación: “inducción de reglas” (suelen usar C5.0 o ID3,

17CONCEPTOS

Page 29: Técnicas Para El Análisis Clínico de Datos

o algo parecido). Para agrupar datos: “red neuronal Kohonen SOM” o “k-Means”.

En el caso de “Intelligent Miner” de IBM, para predicción tambiéntiene la técnica Función de Base Radial (RBF), y para segmenta-ción tiene una técnica basada en el Criterio de Condorcet que creamodelos “demográficos”. El Condorcet ofrece una mejora para datoscon muchos valores categóricos. Hay diferentes técnicas para el análi-sis de asociaciones, series temporales y patrones de secuencias, que sebasan en el análisis de frecuencias y reconocimiento de patrones desecuencias (lo que usted hace a simple vista él lo hace de forma auto-matizada y más rápida). Intelligent Miner destaca por la calidad susalgoritmos y su capacidad de trabajar con grandes volúmenes dedatos. En cuanto al interfaz del usuario, una de las características máspotentes en manos de un buen usuario, es la forma de mostrar losdatos, tanto para exploración como para resultados. Se suelen mostrarjuntas a todas las variables (o cuantas quepan en la ventana) con susdistribuciones (histograma por variables numéricas y pastel paravariables de categorías). Esto permite un escrutinio de las tendenciasde cada variable, y las variables entre sí, a través de diferentes téc-nicas de proceso (red neuronal, RBF...) y conjuntos de datos (en-trenamiento, prueba, sólo clientes de Barcelona, sólo clientes deMadrid...).

El Enterprise Miner de SAS emplea una metodología de análisisde datos que se llama SEMMA (sample, explore, modify, modely assess), es decir: muestreo, explorar, modificar, modelizar y eva-luar los resultados. Tiene una interface tipo canvas basado en el usode iconos distintivos que representan las diferentes técnicas y proce-sos disponibles. Los iconos se usan de forma “coger, arrastrar, sol-tar”. La interfaz en sí pretende guiar el usuario mediante la meto-dología SEMMA. Aporta técnicas específicas para asociaciones,patrones secuenciales, árboles de decisión (CHAID/CART/C5.0),redes neuronales, regresión logística, segmentación (k-Means), RBFy una amplia selección de técnicas estadísticas. Podemos decir quelos puntos fuertes de esta herramienta son su herencia estadísti-ca (SAS originó como una compañía de herramientas estadísticas) ylas buenas prácticas impuestas al usuario mediante la metodologíaSEMMA.

18 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 30: Técnicas Para El Análisis Clínico de Datos

Clementine de SPSS (anteriormente de ISL) incorpora técnicas deredes neuronales, regresión e inducción de reglas, con redes Kohonenpara segmentación y C5.0 para árboles de decisión. Clementine usa téc-nicas visuales de forma extensa, las cuales proporcionan al usuario unaagilidad para la manipulación y el proceso de los datos. Se puede visua-lizar los resultados con una variedad de representaciones gráficas comoplots, scatter, histogramas o tablas de distribución (alineadas de formahorizontal) y diagramas “telaraña” para desvelar relaciones entre losdatos. También es capaz de crear modelos para la predicción, pronóstico,estimación y clasificación que se pueden exportar en lenguaje “C” y usaren otros programas. Tiene una interfaz tipo “canvas”, parecido a la deEnterprise Miner. Podemos decir que el punto fuerte de Clementine es suagilidad en manipular los datos: se puede generar un gráfico, seleccionaruna región de ella y hacer un drill-down sobre los datos correspondien-tes, además de poder “enganchar” procesos de modelización con los depreproceso de los datos, con cierta facilidad.

Aunque estas modernas “cajas de herramientas” de minería dedatos son bastante completas en su funcionalidad para la exploración ymodelización de datos, ninguno de los sistemas más conocidos hasta elpresente ofrece el proceso y/o una representación difusa de los mis-mos. Tampoco suelen disponer de la técnica de algoritmos genéticosaccesible por el usuario final. Sí que existen herramientas específicas,como el DataEngine de MIT GmbH’s, que permite el diseño, defini-ción y ejecución de reglas de lógica difusa y de funciones de pertenen-cia. En el campo de los algoritmos genéticos, el programa Genehunter,de Ward Systems, permite la definición y ejecución de problemasmediante una interfaz tipo hoja de cálculo. Un problema real se defineen términos de conjunto de datos, los genes modificables y parámetroscomo la tasa de mutación y el tipo de intercambio (crossover). VéaseSección 7.8 del libro para una descripción más detallada de los algorit-mos genéticos.

En el campo de la agregación de datos, no existen operadores explíci-tos de agregación en las herramientas comerciales más conocidas. Para laselección de atributos y su ordenación desde el punto de vista de relevan-cia, normalmente existen técnicas contrastadas, como por ejemplo, elanálisis de componentes principales, análisis de sensibilidad con red neu-ronal, podado de arboles de decisión, y diversos tipos de correlación y

19CONCEPTOS

Page 31: Técnicas Para El Análisis Clínico de Datos

covarianza. En la práctica distintas técnicas pueden dar resultados di-ferentes.

2.2.NRELEVANCIA Y FIABILIDAD

Consideramos un conjunto de casos C1, por ejemplo el conjunto depersonas que gozan de buena salud. Cada persona Pn en el conjunto sedefine por M variables que la describen, por ejemplo, edad, sexo, pre-sión sanguínea, nivel de colesterol, “mapa genético”, si fuma, cantidadque fuma, tipo de dieta, si realiza ejercicio físico, color del cabello,etcétera. Ya hemos determinado el concepto que identifica a los miem-bros del conjunto (CDC, o concepto que define el conjunto), esto sien-do el de las personas que gozan de buena salud. Por lo tanto, podemosdecir que algunas de las variables que describen a la persona serán másrelevantes que otras al concepto CDC del conjunto. Por ejemplo, sabe-mos que se puede analizar la variable “mapa genético” para saber si lapersona tiene una propensión a padecer determinadas enfermedades.Además, innovaciones más recientes en las técnicas de análisis del“mapa genético” han hecho posible su interpretación precisa. El resul-tado ha sido que una variable, que hasta hace sólo unos años no estabadisponible, ahora puede tener precedencia sobre cualquier otra variablecomo indicador de la salud futura de una persona. Así que podemosrealizar una suposición cualitativa inicial de que “mapa genético” esrelevante para “gozar de buena salud”. De otra parte, la variable “colordel cabello” no tiene ninguna influencia en absoluto respecto a sí unapersona goza de un mejor o peor estado de salud. En conjuntos com-plejos de datos con muchas variables, un problema clave al inicio es elde establecer la relevancia de forma cuantitativa de las variables, enrelación con un concepto determinado, o “salida”, y obtener una orde-nación (ranking) de todos las variables en orden de relevancia. Comoconsecuencia, quedan eliminadas las variables cuya relevancia esmenor que un umbral determinado. De esta forma conseguimos reducirlas variables a un conjunto mínimo con mayor relevancia. En el análi-sis de datos, esto es nuestro objetivo principal en el contexto de la rele-vancia.

20 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 32: Técnicas Para El Análisis Clínico de Datos

Trabajos recientes en el área de “relevancia”

El trabajo de [Gonzalez97] presenta dos enfoques contrastados res-pecto al problema de obtener el conjunto de variables más relevantes.El primer enfoque se trata de eliminar las variables no-relevantes delconjunto total, mientras que en el segundo enfoque se pretende cons-truir un conjunto de variables de mayor relevancia de forma incremen-tal. SLAVE (Structured Learning Algorithm in Vague Environment) tie-ne como uno de sus objetivos el de acelerar el proceso de aprendizaje,con un tiempo de ejecución dos veces menor que el algoritmo están-dar con el mismo número de reglas. Dos criterios para la “bondad”de una regla son (1) el grado de consistencia “blanda” y (2) el grado decompletitud. Los conjuntos de datos usados para prueba son: Ionosphe-re, Soybean y Wine. Para seleccionar las reglas se emplea un algoritmogenético de dos niveles, el nivel de variable y el nivel de valor (deldato). Además, se consideran dos niveles de información: el nivel derelevancia y el nivel de dependencia entre variables. Una regla tiene lasiguiente estructura:

ReglaSI PrecedenceENTONCES Antecedente {representado por un cromosoma}

En resumen, el método de González usa información sobre la rele-vancia de las variables predictivas para mejorar los modelos resultantes.

[Blum97] tiene diferentes definiciones para la relevancia, que depen-den del contexto y objetivos en cada caso. El término “relevancia al ob-jetivo” que usa Blum se refiere a que una característica xi es relevante aun concepto objetivo c si existe una pareja de ejemplos A y B en el es-pacio de instancias, tales que A y B difieren sólo en su asignación a xiy c(A) �� c(B). De esta forma, característica xi es relevante si existealgún ejemplo para el cual, como consecuencia de una modificación desu valor, se ve afectada la clasificación dada por el concepto c. Blumtambién cita otras definiciones de relevancia, como la “relevancia fuer-te a la muestra/distribución”, “relevancia débil a la muestra/distribu-ción”, “relevancia como una medida de la complejidad”, y “utilidadincremental”.

21CONCEPTOS

Page 33: Técnicas Para El Análisis Clínico de Datos

Dependiendo de cómo definimos el concepto de “relevancia”, dife-rentes características o grupos pueden quedar identificados como rele-vantes. Blum propone una fase de preproceso para reducir el número decaracterísticas antes de aplicar la fase de clasificación (inducción).[Blum97] describe un enfoque basado en un “filtro”, parecido pero me-nos interactivo que el enfoque de Kohavi [Kohavi97]. Primero se ejecu-ta un módulo que es el filtro en sí, seguido por el proceso de inducción.Blum cita dos ejemplos de algoritmos de filtro. El primer es RELIEF[Kira92], que ha sido usado por muchas aplicaciones de análisis dedatos clínicos. RELIEF asigna un “cociente” de relevancia a cada ca-racterística, el cual indica la relevancia de la característica respecto al concepto objetivo. A continuación, se realiza un muestreo aleatoriodel conjunto de datos de entreno y se actualizan los valores de relevan-cia, basándose en la diferencia entre el ejemplo (caso) seleccionado ylos dos ejemplos más cercanos a la misma clase y de la clase opuesta. Elsegundo algoritmo de filtro es FOCUS [Almuallim91], que examina deforma exhaustiva todos los subconjuntos de características, seleccionan-do el subconjunto minimal de características que sea suficiente paradeterminar el valor de la etiqueta para todos los ejemplos en el conjuntode datos de entreno.

[Kohavi97] explora la relación entre la relevancia y la selección de un subconjunto óptimo de características. Se presenta un mecanis-mo que se llama el “envuelto”, o FSS-Feature Subset Selection. Estemecanismo se incorpora en los algoritmos de inducción de reglasC4.5 e ID3, y en el algoritmo de Niave-Bayes. Se demuestra unamejora en la precisión clasificadora para conjuntos de datos comoCorral, Monk1 y Monk2-local, del repositorio de conjuntos de datosla Universidad de California en Irving. Como resultado, se consiguióuna precisión igual que con otras técnicas usando un número menorde características como entradas. La justificación para este enfoque es que muchos de los algoritmos de inducción más conocidos pier-den rápidamente su precisión predictiva en la presencia de un grannúmero de características, si la relevancia de estas no es buena para predecir el resultado/salida deseada. El algoritmo estándar de Naive Bayes, por ejemplo, pierde precisión rápidamente cuando se añaden características con una correlación baja con el resultado de-seado.

22 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 34: Técnicas Para El Análisis Clínico de Datos

Kohavi afirma que el enfoque del “envuelto” ofrece una mejora res-pecto al simple uso de un filtro como en los algoritmos de FOCUS oRELIEF. Según Kohavi, la principal desventaja de la técnica del filtro esque no toma en cuenta los efectos del subconjunto seleccionado de carac-terísticas sobre el rendimiento del algoritmo de inducción. En contraste,su enfoque sí que toma en cuenta estos efectos. Con el enfoque del“envuelto”, el subconjunto de características queda optimizado para suuso con el algoritmo de inducción.

Kohavi, en [Kohavi97], revisa diversas definiciones de “relevancia”en la literatura. Su revisión sólo considera las definiciones para da-tos de tipo categórico, aunque Kohavi afirma que sería posible exten-derlas a datos de tipo numérico. Kohavi concluye que son necesariosdos grados de relevancia para garantizar resultados únicos. Estos dosgrados se definen como el grado “débil” y el grado “fuerte”. Demues-tra su planteamiento con un ejemplo usando Xor: una característica Xies relevante en grado “fuerte” si y sólo si existe un xi, y un si para loscuales (Xi = xi, Si=si) > 0 tal que p(Y=y|Xi=xi,Si=si)!=p(Y=y|Si=si).Una característica Xi es relevante en grado “débil” si y sólo si no esrelevante en grado “fuerte” y existe un subconjunto de característi-cas S’i de Si para el cual existe un xi, y un s’i con p(Xi =xi,S’i=s’i)!= p(Y=y|S’i =s’i).

23CONCEPTOS

Conjunto deentrenamiento

Conjuntode caracte-rísticas

Conjuntode caracte-rísticas

Hipótesis

Conjunto de pruebaPrecisión

estimada

Estimación dela calidad delresultado

Conjunto de

entrenamiento

Conjunto decaracterísticas

Búsqueda y selección de

características

Evaluación de características

Algoritmo de inducción

Algoritmo de

inducción

Evaluación final

Figura 2.2.NEl enfoque de “envuelto” aplicado a la selección de un subconjunto decaracterísticas.El algoritmo de inducción esta usado como una “caja negra” por el algo-

ritmo de selección de características.

Page 35: Técnicas Para El Análisis Clínico de Datos

En la Figura 2.2 vemos una síntesis del enfoque del “envuelto” expli-cado en [Kohavi97], en la cual se ve que el algoritmo de selección delsubconjunto de características actúa como un “envuelto” alrededor del al-goritmo de inducción. El algoritmo de selección realiza una búsquedapara un subconjunto “bueno” usando el algoritmo de inducción como uncomponente de la función que evalúa los subconjuntos de características.De este modo, se considera que el algoritmo de inducción es una “cajanegra”, que procesa el conjunto de datos, particionándolo internamenteen conjuntos de entrenamiento y prueba, para los cuales se han elimina-do diferentes grupos de características. El subconjunto de característicasque consigue la evaluación más alta es elegido como el conjunto defini-tivo sobre el cual se ejecutará el algoritmo de inducción. A continuación,se evalúa el resultante clasificador sobre un conjunto de prueba indepen-diente que no ha sido usado previamente.

Kohavi contrasta dos técnicas para la búsqueda y selección de carac-terísticas: (a) hill climbing y (b) best first search. Se aplican estas técni-cas de forma sucesiva a los conjuntos de datos de prueba, usando comoalgoritmos de inducción, el ID3, C4.5 y Naive Bayes. Los resultadosindican una ligera mejora en la precisión de clasificación de algunos delos casos. Sin embargo, la principal mejora es la capacidad de crear unmodelo de clasificación con un número significativamente menor de ca-racterísticas de entrada, manteniendo mientras una precisión predictivasimilar a los algoritmos originales.

Fiabilidad

La fiabilidad es un campo que fue muy activo en los años 80, conespecial referencia a sistemas tolerantes a fallos. Como ejemplos deaplicaciones prácticas, podemos citar a la tolerancia de fallos en redesde comunicaciones y en las unidades centrales de proceso de los orde-nadores (CPU); el control de procesos críticos (aviones, centrales nu-cleares), y la toma de decisiones criticas (diagnóstico, pronóstico, …).Una solución tradicional y sencilla, pero costosa, fue la replicación deunidades, su ejecución en paralelo y una medición de consenso. La sali-da global del sistema sería igual al valor asignado a la mayoría de lassalidas. Por ejemplo, si hay cinco salidas, tres de las cuales tienen asig-nadas el valor SÍ y dos de las cuales tienen asignadas el valor NO,

24 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 36: Técnicas Para El Análisis Clínico de Datos

entonces por mayoría simple, la salida global sería SÍ. Otra soluciónpara la tolerancia a fallos fue la redundancia intrínseca en un sistema.Es decir, si unidad A falla, unidad B, idéntica a la A, se pone en marchapara sustituirla.

Ahora vamos a considerar lo que acabamos de comentar desde elpunto de vista de la fiabilidad de los valores de los datos. Un enfoquecomún para maximizar la fiabilidad de los datos es el uso de múltiplesfuentes para el mismo valor. Por ejemplo, varios sensores para la me-dición de una temperatura, o varias opiniones expertos para un diag-nóstico clínico. De los N sensores u opiniones, se realizaría una “vota-ción” por mayoría simple sobre un número impar de valores de salida,para producir el resultado definitivo. Como ejemplo, suponemos quehay cinco sensores de temperatura {A,B,C,D,E} y tres de ellos{A,C,E} dicen que la temperatura es entre 10 y 12 grados Celsius,mientras que {B} dice que la temperatura es entre 10 y 15 grados, y{D} indica una temperatura de entre 25 y 50 grados. La salida comoresultado sería que la temperatura es entre 10 y 12 grados, por mayoríasimple. Anotamos que este método requiere un número impar de sen-sores. Aunque una mayoría de 60% de los sensores coincidieron con elmismo resultado, un 40% dieron salidas distintas. Si deseamos,podríamos incluir esta información como un grado de confianza en elresultado final.

Sistemas replicados y de votación son muy importantes en sistemascríticos de control, como por ejemplo, los que se encuentran en aviones,redes ferroviarias, plantas de energía nuclear, etcétera.

Ahora consideramos el caso de una variable de entrada de tipo numé-rico, por ejemplo, temperatura. Suponemos que para esta variable tene-mos un solo sensor y un dato o lectura. Podríamos asignar un valor de“ponderación” (cociente) a la variable para indicar su fiabilidad en gene-ral. Es decir, su tendencia para dar resultados incorrectos, relativo a algu-na medida absoluta. Otra opción sería asignar un valor que representa ungrado de fiabilidad para las diferentes bandas que existen en su distribu-ción. Por ejemplo, si tenemos el siguiente conjunto de lecturas de tempe-ratura en grados Celsius, {1, 1, 3, 3, 25}, el valor 25 sería consideradocomo “sospechoso”, “improbable” o “poco-fiable”. Sin embargo, la fia-bilidad de los valores depende de la distribución en cada caso, así que el

25CONCEPTOS

Page 37: Técnicas Para El Análisis Clínico de Datos

valor 25 en el conjunto {25, 25, 30, 30, 45} sí que sería consideradocomo fiable. Por consiguiente, a cada valor podríamos asignarle un gra-do de fiabilidad, con un valor entre 0 y 1, dónde 1 sería totalmente fiabley 0 indicaría ninguna fiabilidad.

Más adelante veremos como Yager y Torra han extendido esta ideapara permitir que los operadores de agregación incluyan grados tanto pa-ra la fiabilidad como para la relevancia de cada variable de entrada.

2.3.NAGREGACIÓN DE VARIABLES Y DATOS

En esta sección vamos a presentar unas técnicas que sirven para agre-gar datos y variables para dar una respuesta, diagnóstico o pronóstico apartir de un conjunto de datos de entrada.

El operador “Ordered Weighted Average” (OWA): es una técnicaque permite incluir un “cuantificador” en un proceso de agregación deuna serie de casos de datos correspondientes. Fue detallado por la pri-mera vez por Yager en [Yager88]. Con el OWA, Yager trató de encon-trar una solución al problema de agregar criterios múltiples para formaruna función universal de decisión. Una propiedad clave del operadorOWA es la capacidad de orientar su resultado (salida) entre el “y”, parael cual se deben cumplir todos los criterios, y el “o”, para el cual sedebe cumplir como mínimo sólo uno de los criterios. De esta forma,permite una aproximación más cercana a la forma de tomar decisionesde las personas, en la cual a menudo requerimos el cumplimiento de “lamayoría” o “muchos”, o “como mínimo la mitad” o “más de cuatro” delos criterios.

El operador WOWA: Torra en [Torra97a] describe el operador Weigh-ted OWA (WOWA), que combinan las ventajas del operador de la mediaponderada (WM, o Weighted Mean) con las del operador OWA. De estaforma se solucionan algunas de las carencias de estos operadores cuandose consideran por separados. WOWA incluye dos vectores de cocientes:el vector � corresponde a la relevancia de las fuentes de datos (como enla media ponderada) y el vector � corresponde a la relevancia, que noso-tros en este libro interpretamos como la “fiabilidad”, de los valores(como en OWA). Una de las dificultades que se encuentra en usar losoperadores de agregación es la asignación inicial de los cocientes asocia-

26 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 38: Técnicas Para El Análisis Clínico de Datos

dos, por ejemplo, los pesos de relevancia � de cada fuente de informa-ción. En [Nettleton01b] se contrastan diferentes métodos de análisis dedatos cuyo fin es determinar unos valores iniciales para los cocientes de WOWA.

Elección del operador WOWA: hemos elegido el operador WOWApara agregar los datos que describen los casos de pacientes. El operadorproduce como resultado, un diagnóstico para el síndrome de apnea,según detallado luego en los Capítulos 10 y 11. Una de las razones deusar WOWA preferentemente a otros posibles operadores como OWA oWM, es porque nos permite incluir una cuantificación tanto para la“fiabilidad” como para la “relevancia” en el proceso de agregación. Eloperador también es adecuado para procesar datos cuya representaciónes en la forma difusa, mediante la incorporación de grados de pertenen-cia como un vector adicional con los datos de entrada. En la literatura,el operador WOWA ha sido comparado con otros operadores y técnicas,como por ejemplo, OWA, Choquet Integral, Sugeno Integral [Suge-no74] y fuzzy t-integral [Murofushi91]. Se puede decir que el ChoquetIntegral o el Sugeno Integral son más apropiados para el proceso dedatos con grados de pertenencia. Sin embargo, Torra ha demostrado en[Torra98c] que WOWA es equivalente al Choquet Integral en determi-nadas circunstancias.

El “Joining Algorithm” de Hartigan: el “Joining Algorithm” [Har-tigan75] realiza sucesivas fusiones de las variables usando como entra-da una matriz de covarianzas de estas variables. Una consecuencia dela fusión es la reducción del conjunto inicial de variables a un espaciode dimensión 2 o 3, la cual simplifica, por ejemplo, la visualización delos datos. El algoritmo de fusión sirve para lograr dos objetivos: el pri-mero siendo la reducción de variables mediante su progresiva unifica-ción; el segundo siendo la identificación de los factores de mayor rele-vancia y los factores entre los cuales existe mayor relación. Resumen:en cada paso, se fusiona la pareja de variables con la mayor covarian-za para forma una nueva variable, hasta que se obtiene el número de-seado de variables o hasta que el árbol binario de agrupaciones escompleto. Es a partir de este árbol de variables fusionadas que se pue-den seleccionar diferentes descripciones de los objetos que están siendo analizados; descripciones que tengan la dimensión más conve-niente en cada caso.

27CONCEPTOS

Page 39: Técnicas Para El Análisis Clínico de Datos

Elección del “Joining Algorithm” de Hartigan: el libro de Hartigan,Clustering Algorithms [Hartigan75] fue un hito de referencia para lacomunidad de investigadores en algoritmos de clustering. Ha sido usadocomo una fuente para algoritmos de prueba, y a partir de la cual han sur-gido nuevas variantes y mejoras de los algoritmos originales. Además deser una fuente de algoritmos contrastados, el libro también proporciona y(en general) explica bien el código fuente de los algoritmos, siendo estosescritos en el lenguaje Fortran. La implementación de los algoritmos porparte de Nettleton en el presente libro fue en lenguaje Borland “C”. Elenfoque de Hartigan tiene una base sólida en el campo de la estadísticaclásica, y sus algoritmos son claramente de naturaleza crisp (determinis-ta en vez de probabilística). Esto proporciona un banco de prueba parauna posterior generalización y adaptación para el proceso de los datoscon técnicas difusas. Trabajos posteriores de Hartigan incluyen algunasconsideraciones respecto a la distribución de los datos en el proceso declustering [Hartigan77][Hartigan78], la consistencia [Hartigan81] y as-pectos más teóricos [Hartigan85a][Hartigan85b].

Otros autores comparables en el campo del análisis factorial y el análisis multivariante son [Mardia79][Lebart85][Kaufman90]. [Kauf-man90], es de especial relevancia, dado a que sus métodos de análisis sebasan en la forma difusa, y su amplia gama de 10 algoritmos distintospara fusión de variables, siendo estos distintos a los de Hartigan.

2.4.NLA REPRESENTACIÓN “DIFUSA”DE LOS DATOS

Existen diferentes técnicas para representar datos de forma difusa.Por ejemplo, la representación heterogénea de Hathaway y Bezdek [Hat-haway96] y los “Parmenidean Pairs” de [Aguilar91]. En [Aguilar91] sepresenta una técnica que se llama “Parmenidean Pairs” (en castellano,pares parmenideanos), que genera de forma automática a un númeroimpar de etiquetas lingüísticas a partir de dos conceptos lingüísticosantagónicos. Las cinco etiquetas lingüísticas generadas representan losvalores ordenados de la variable, derivado de lo que se termina “Parme-nidean Pair”, que responde a los valores básicos y opuestos que puedeasumir la variable. Este método es muy apto para variables como “días deestancia en el hospital”. Para esta variable podríamos definir cinco valo-res difusos para la estancia del paciente: MUY CORTA, CORTA, ME-

28 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 40: Técnicas Para El Análisis Clínico de Datos

DIANA, LARGA, MUY LARGA, derivados a partir de los apuestosbásicos de CORTA, LARGA. La complejidad y utilidad de la técnica res-ta en el cálculo automático de las propiedades geométricas de las funcio-nes de pertenencia: pendiente, centro de masa, solapamiento entre cadaetiqueta lingüística, longitud de los pendientes, y el resultante grado dedifusión que cada una de estas propiedades define.

La Figura 2.3 indica una sencilla representación para una VLD (Va-riable Lingüística Difusa). Desde un punto de vista semántico, se puedeidentificar una VLD con 3 parámetros: su posición relativa a las demásvariables, su grado de imprecisión, y su grado de incerteza. Se puedenunificar los últimos dos parámetros en un solo concepto, la “blandura”,que sería el concepto opuesto de la “dureza” (o crispness).

Las formas trapeziodal y triangular pueden ser consideradas comoaproximaciones a funciones de pertenencia cuya forma natural es unacurva. La forma de curva es más compleja de generar que los trapezoi-des que hemos visto antes, y a menudo se representa con una ecuaciónparamétrica. La curva se genera, o se interpola, a partir de un númerofinito de puntos. En la Figura 2.4 se ve un ejemplo de una función de per-tenencia no-lineal, en la cual los cinco conjuntos difusos definidos porlos trapezoides de la Figura 2.3 ahora quedan representadas por curvascontinuas. Observamos que en la Figura 2.3 existe una zona de solapa-miento de tres de los conjuntos difusos, siendo estos: muy corta-corta-mediana y mediana-larga-muy larga. Esto implica que un punto podríatener un grado de pertenencia significativo que corresponde a cada unode los tres posibles conjuntos difusos. Por otra parte, en la Figura 2.4 unsolapamiento solo puede existir entre dos conjuntos difusos en cualquier

29CONCEPTOS

Figura 2.3.NRepresentación de variables léxicas con áreas trapezoidales.

Page 41: Técnicas Para El Análisis Clínico de Datos

punto. Además, se observa que los rangos de los conjuntos difusos sobreel eje-x son diferentes entre las Figuras 2.3 y 2.4.

Referencias relacionadas con la representaciónde funciones de pertenencia y etiquetas lingüísticas

A continuación citamos algunas referencias recientes: [Roychowd-hury97] trata de conjuntos difusos trapezoidales y triangulares, [Boixa-der97] considera las funciones de pertenencia complejas que pueden asu-mir formas irregulares; por último, [Torra99c] considera la generación defunciones de pertenencia a partir de conjuntos de observaciones.

2.5.NANÁLISIS DE DATOS CON TÉCNICAS “DIFUSAS”

El análisis de datos con técnicas difusas se considera en detalle enotros capítulos del libro (Capítulo 3, Capítulo 7 Sec 7.5 y Capítulo 8). Enla presente sección ofrecemos una breve introducción con referencia aalgunos de los algoritmos claves.

Fuzzy c-Means clustering: se pueden considerar algoritmos de agru-pación difusa como herramientas matemáticas para la detección de simi-litudes entre miembros de un conjunto de objetos. Uno de los algoritmosmás conocidos es el “Fuzzy Isostar” o “Fuzzy c-Means”, definido en [Bez-dek73] y [Dunn74]. El algoritmo de clustering “Fuzzy c-Means” es unmétodo de partición de conjuntos basado en el proceso de Picard. Para

30 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 2.4.NEjemplo de funciones de pertenencia no-lineales.

Page 42: Técnicas Para El Análisis Clínico de Datos

dicho proceso se definen las condiciones necesarias para optimizaruna función objetivo (Jm) de la suma ponderada del error cuadrado (eninglés, “weighted sum of squared errors”). El número m es un pará-metro de ranking de 1 hasta ; J1 es una función objetiva que sirvepara definir los algoritmos c-Means y ISODATA [Duda73], que son de tipo no-difuso. Dunn fue el primero en extender J1 hasta J2 en[Dunn74], y Bezdek lo generalizó de J2 a Jm para 1 < m < en [Bez-dek73]. Mucho del trabajo de fondo de los aspectos teóricos y laestructura matemática de Fuzzy c-Means fue definido en [Bezdek81].Los estudios posteriores de [Bezdek87] y [Pal97] introdujeron losalgoritmos “c-varieties” y “c-medians”, respectivamente. Estos algo-ritmos no requieren una asignación a priori del parámetro “c”, el nú-mero de particiones, y permiten el uso de tipos mixtos de variablescomo entradas.

Matriz de covarianzas difusas: Gustafson y Kessel [Gustafson79]fueron los primeros en usar el término “matriz de covarianzas difusas”, ygeneralizaron el algoritmo fuzzy c-Means para incluir este concepto. Sumotivación fue la de obtener una agrupación (clustering) más precisa. Elcálculo en sí se limitó a la covarianza de una agrupación difusa respectoal prototipo de la misma agrupación. Trabajos más recientes, como los de[Watada94], [Wangh95] y [Nakamori97], han creado cálculos de cova-rianza para aplicaciones específicas.

Agrupación difusa con ponderación de las variables: un trabajoreciente [Keller00] considera la agrupación difusa usando variables convalores ponderados. Una función objetiva basada en la técnica de la agru-pación difusa asigna un parámetro de influencia a cada variable de entra-da para cada cluster. La medida de distancia determina la influencia delos atributos de datos para cada cluster, y así facilita la identificación de los mismos que determinan la clase que el cluster representa. Se pue-de usar el parámetro de influencia para reducir el efecto de un atributosobre algunos de los clusters, pero sin eliminarla para toda la clasifica-ción. La información que resulta sirve para segmentar un conjunto dedatos en grupos más reducidos con un número menor de atributos. Unavez realizado la partición de esta forma, se puede seguir con el análisis delos datos en los grupos reducidos.

Modelización de datos difusos: la modelización de datos tiene comoobjetivo la creación de un modelo con N entradas y M salidas, y que sea

31CONCEPTOS

Page 43: Técnicas Para El Análisis Clínico de Datos

capaz de simular el comportamiento de las salidas respecto a las entra-das. Un modelo de regresión es un modelo estadístico típico, que en-cuentra el mejor ajuste de las salidas respecto a las entradas. Tanto elclustering como la clasificación son ambas técnicas de modelización,y los veremos con más detalle en capítulos posteriores del libro. Si sospechamos que en la naturaleza de los datos existe un componente“difuso”, entonces podemos considerar técnicas que permiten la mani-pulación de este tipo de información. En el modelo difuso de Sugeno-Takagi [Takagi85], se emplean funciones gausianas junto con la dis-tancia Mahalonobis para ajustar la función característica del modelo.La motivación de Sugeno-Takagi en este caso es la mejora de la opti-mización mediante una buena asignación de los parámetros iniciales.Uno de los métodos usados para inicializar los parámetros es la “buenaaproximación” o la “aproximación mejorada”. Una vez asignados losparámetros iniciales, el modelo crece de forma incremental, a partir de una, dos o tres reglas iniciales a las cuales se van añadiendo reglasnuevas.

Modelización difusa con redes neuronales: los modelos que usan latécnica de redes neuronales intentan simular la funcionalidad del cerebrobiológico definiendo una red interconectada de “neuronas” para proce-sar las entradas de datos y producir las salidas correspondientes. Unmodelo sencillo de red neuronal consiste en una capa de neuronas de“entrada”, una capa intermedia que se llama “oculta”, y una capa de neu-ronas de “salida”. Se definen “cocientes” que quedan asignados a lasinterconexiones entre las neuronas. Estos “cocientes” son valores que de-finen el grado de fuerza o debilidad de una interconexión y se van mo-dificando de forma dinámica durante el proceso de “entrenamiento” delmodelo. Los pesos aumentan o disminuyen según los estímulos que re-ciben de las entradas y mediante la propagación de los datos a través delas diferentes capas del modelo. Mediante sucesivas presentaciones de lasentradas, la red comienza a modelizar los datos y a acertar cada vez másen los valores de las salidas. Hay diferentes formas de incluir las técnicasdifusas en un modelo neuronal: la primera, siendo en la representación delos datos. Por ejemplo, se puede incluir grados de pertenencia comoentradas adicionales al modelo. Otra forma de incluir técnicas difusassería modificar el funcionamiento interno del modelo para que realiceuna interpretación difusa los datos. Por ejemplo, se podría cambiar la for-

32 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 44: Técnicas Para El Análisis Clínico de Datos

ma de asignar los cocientes asignados a cada neurona, o se podría incor-porar un aspecto difuso en el mecanismo de propagación de los datosdentro de la red.

Inducción difusa de reglas: la inducción de reglas es una técnicacuya meta es la de crear un conjunto de reglas a partir de un conjunto dedatos. Un algoritmo de inducción de reglas no dispone de informaciónadicional más que los datos en sí. La calidad de las reglas es un aspectoclave que combina precisión y relevancia. La precisión se trata de queuna regla determinada clasifique correctamente a un alto porcentaje delos casos correspondientes. La relevancia se refiere a que un número sig-nificativo de casos corresponde a la regla en concreto, respecto al núme-ro total de casos. ¿Cómo podemos incluir técnicas difusas en la induc-ción de reglas? Una primera opción sería en la representación,incluyendo los grados de pertenencia como entradas. Una segundaopción sería modificar el funcionamiento interno del proceso de induc-ción para procesar los datos de forma difusa. Por ejemplo, una definicióndifusa de las decisiones a tomar en cada nodo del árbol, o en las fases depodado y compactación.

En el estudio [Miyoshi97] se desarrolló un algoritmo de induccióndifusa de reglas llamado ID3* y que se basa en la técnica llamada “FuzzyProjection Pursuit”. El trabajo de Miyoshi cita otras versiones difusasdel algoritmo de inducción de reglas ID3, y referencias más recientes de Quinlan. En su trabajo, Miyoshi unifica el enfoque del Fuzzy ID3 de[Umano94] con el “Projection Persuit” de [Friedman74].

De otra parte, en [Wangc96] se presentó “FILSMR”, una estrategia deaprendizaje mediante la inducción difusa, que genera reglas modulares.Este método elige el mejor “atributo-valor”, mientras que la versiónestándar de ID3 elige el mejor “atributo”. Por consiguiente, se podríadecir que el algoritmo FILSMR posee una mayor “granularidad” queID3. Se considera que un “valor de pertenencia a una clase” es equiva-lente a una “instancia difusa”. El algoritmo de Wang encuentra paresrelevantes de atributo-relación, y maximiza la “ganancia en informacióndifusa”. Emplea una heurística que minimiza la “entropía” para determi-nar el próximo atributo a seleccionar en el árbol de decisión, y buscareglas de alta calidad definidas por un valor de certeza por encima de undeterminado umbral.

33CONCEPTOS

Page 45: Técnicas Para El Análisis Clínico de Datos

Análisis factorial difuso: el análisis factorial se define como el aná-lisis de un conjunto inicial de atributos de entrada, con el objetivo deidentificar relaciones entre los atributos, y para conseguir un número re-ducido de factores en términos de los valores originales que mejor repre-sentan a los datos. Esta técnica se diferencia del proceso de encontrar losatributos más relevantes que hemos visto antes, dado a que el objetivo delanálisis factorial es el de crear nuevos factores en términos de los atribu-tos originales, con la eliminación posterior de dichos atributos. El análi-sis factorial difuso se distingue del análisis factorial estándar, dado queincluye una generalización que permite el tratamiento de datos en la for-ma difusa.

El análisis factorial para datos difusos es un tema considerado por[Nakamori97]. En este trabajo, Nakamori hace referencia a algunos métodos tradicionales de análisis de datos, como los de Spearman, y mé-todos usando Eigenvectors. Además, se estudia la clasificación de adje-tivos mediante el análisis factorial. Nakamori cita que uno de los aspec-tos que ha hecho más difícil el análisis factorial para datos difusos, es la dificultad de calcular el segundo momento de los datos difusos de-finidos en términos de intervalos difusos. Nakamori define una matrizde correlación difusa y propone un análisis factorial difuso usando es-ta matriz como punto de partida. La secuencia de proceso sigue cua-tro pasos: (1) matriz de correlación de datos pormenorizados por pro-medios R = (rij); (2) matriz de correlación Rk = (rijk) del sujeto k; (3) varianza de la correlación {rijk} � ij

2; (4) matriz de correlacióndifusa R = ([rijL, rijR]).

2.6.NCLUSTERING

Se puede definir clustering como el proceso de dividir un conjunto dedatos en grupos mutuamente exclusivos de tal manera que los miembrosdentro de cada grupo están lo más cerca posible, mientras que diferentesgrupos están lo más lejos posible. Definimos una “distancia” para medirla cercanía o lejanía en términos de todas las variables disponibles. Elclustering (en castellano, agrupación), es uno de los aspectos fundamen-tales de minería de datos y puede aplicarse tanto en la fase de exploraciónde los datos como en la fase de modelización de los mismos. [Harti-

34 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 46: Técnicas Para El Análisis Clínico de Datos

gan75] define clustering como la agrupación de objetos similares, mien-tras que en la clasificación se trata de asignar nombres: un ejemplo es lataxonomía de animales y plantas de Aristotle y Linnaeus (1753). Cadaespecia pertenece a una serie de agrupaciones de tamaño creciente y con un número decreciente de características comunes. Por ejemplo, elhombre pertenece a los primates, los mamíferos, los vertebrados y losanimales.

Clustering es una técnica que en general se considera como “no-supervisada”, y que no se beneficia de una estructura previamente defini-da en la cual se pueden colocar los casos. La labor del analista de datoses la de dar sentido a las agrupaciones que han sido generadas. Por ejem-plo, en la Figura 2.5 podríamos establecer que el Cluster I corresponde apacientes jóvenes y con un peso óptimo, Cluster II a pacientes de media-na edad con sobrepeso, y Cluster III a pacientes de mediana edad conpeso normal. Sin embargo, el algoritmo de clustering no tendría infor-mación a priori respecto a cómo los casos se deberían agrupar por cate-gorías de edad y peso. La Figura 2.5 muestra tres clusters con los centrosde cluster indicados con una cruz. En el Cluster III vemos más la altadensidad y la menor distancia entre los casos, mientras que el Cluster Idemuestra la menor densidad y la mayor distancia entre casos. En estesentido, podríamos decir que el Cluster III tiene el “cociente de calidad”más alto en términos de similitud de los casos asignados a él. Por otra

35CONCEPTOS

Figura 2.5.NEl objetivo del análisis de agrupaciones (clusters) es el de maximizar ladistancia entre agrupaciones, y minimizar la distancia dentro de las agrupaciones.

Page 47: Técnicas Para El Análisis Clínico de Datos

parte, y con el mismo razonamiento, el Cluster I tendría el “cociente decalidad” más bajo. Desde el punto de vista de similitud entre los clusters,observamos que los dos con la menor distancia entre sí son el Cluster I yel Cluster II, mientras que el Cluster II y III son los más lejanos entre sí.

2.7.NCLASIFICACIÓN

La clasificación se distingue del clustering en que el proceso de clus-tering no dispone de una información a priori respecto a la estructura delos datos o la agrupación deseada, mientras que la clasificación sí. Lainformación a priori de que un proceso de clasificación suele disponerrespecto a los datos sería una definición de las clases dentro de las cua-les se desea categorizar a cada caso en los datos. Por ejemplo, un pro-blema típico de clasificación sería el de categorizar una base de datos depacientes en términos de una variable “estado de salud” cuyos posiblesvalores serían “bueno” o “malo”. Se evalúa cada caso, y se lo coloca enuna de las dos posibles clases, la clase “bueno” o la clase “malo”. La cla-sificación, junto con el clustering (o segmentación), es una parte fun-damental de cualquier proceso de minería de datos. Sin embargo, encontraste con el clustering, su aplicación suele limitarse a la fase demodelización de los datos.

Uno de los principales problemas de clasificación en la medicina es laclasificación de las enfermedades. La Organización Mundial de la Salud(OMS) produce un Manual de la Clasificación Estadístico Internacionalde Enfermedades, Heridas y Causas de Muerte. Este manual proporcionauna nomenclatura estándar que permite la recopilación de estadísticas desalud, comparable entre diferentes países y diferentes intervalos de tiem-po. Una forma específica de clasificar dentro de una enfermedad es laidentificación de las etapas de severidad. Se agrupan diversos síntomasde acuerdo a la evaluación de un experto para definir unas clases ordena-das por severidad.

Para las enfermedades provocadas por virus y bacterias, se empleantécnicas de taxonomía numérica, y existen muchos artículos en la litera-tura respecto a estas técnicas. Por ejemplo, Goodfellow (1971) mide 241características de 281 bacterias de tipo bioquímico, fisiológico y nutri-cional. Goodfellow identificó siete categorías que en general coincidie-

36 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 48: Técnicas Para El Análisis Clínico de Datos

ron con las categorías conocidas previamente. De otra parte, las clasifi-caciones de los virus por parte de Wilner (1964), la taxonomía de Wildy(1971) y la clasificación de Eubacterium de Prevot (1966) se basan en laselección de variables claves según el juicio de expertos humanos.

La estadística ha dado luz a un gran número de métodos de clasifica-ción, que se pueden ver resumidos en [Hunt75]. CART [Breiman84] esun conocido sistema que sirve para construir árboles de decisión, y quefue diseñado por estadísticos basándose en el trabajo previo de Friedman[Friedman77] y después Quinlan [Quinlan86].

Según comentamos, la clasificación se distingue del clustering en queen el primero se define previamente una estructura de clasificación, sien-do el objetivo el de colocar de forma acertada a cada caso en la clase aque mejor pertenece, en función de sus características. La clasificaciónes, en general, un proceso “supervisado” que se puede entrenar, porejemplo, mediante la presentación de casos (o ejemplos) negativos ypositivos. En el árbol de clasificación de la Figura 2.6 los datos consis-tirían de diferentes tipos de pacientes, cubriendo todas las clases defini-das en la estructura: heridas de tórax, heridas a la cabeza, casos no debi-dos a accidentes (por ejemplo, paro cardiaco) y casos que no son deemergencia (por ejemplo, fractura del brazo).

37CONCEPTOS

Figura 2.6.NEjemplo de un árbol de clasificación sencillo para admisiones hospi-talarias.

Todos los pacientes

Pacientes sanos Pacientes enfermos

Casos de urgencias

Casos no-accidentesCasos de accidentes(trauma)

Daños alTórax

DañosCraneales

Heridasmúltiples

Page 49: Técnicas Para El Análisis Clínico de Datos

En este capítulo revisamos los conceptos claves asociados a conjun-tos difusos. Definimos qué es un conjunto difuso en sí, una relación difu-sa, una función de pertenencia, una variable difusa, un número difuso, elconcepto de pertenencia difusa y la definición de funciones de pertenen-cia. El contenido incluye una sinopsis de artículos y definiciones dadaspor Zadeh, Bezdek y otros, de las principales investigaciones en el campo.

3.1.NCONCEPTOS BÁSICOS

Incertidumbre: la presencia de “incertidumbre” en un modelo dedatos puede ser debida a (1) ocurrencias aleatorias; o (2) descripcionesno exactas y que se manifiestan en modelos deterministas/probabilísticosy difusos, respectivamente.

Determinista: se puede predecir el resultado con total certeza, por lareproducción de las circunstancias que lo define.

Probabilístico: el resultado de un proceso físico es aleatorio, con unelemento de “azar”, que es consecuencia de la evolución de un procesoque no se ve influido por la imprecisión en el entorno (por ejemplo tiraruna moneda). Permite que se deriven “leyes estocásticas” que se usanpara evaluar la probabilidad de observar un resultado dado.

3La perspectiva difusa

Page 50: Técnicas Para El Análisis Clínico de Datos

Fuzzy/Difuso: existe en un entorno físico que manifiesta una fuenteno estocástica de incertidumbre (por ejemplo, la clase de personas quepesan casi setenta kilogramos). Introduce el concepto de “grados de per-tenencia”. Ni es determinista ni es probabilístico.

En el caso del conjunto de datos de “admisiones hospitalarias” (UCI)que analizamos en el Capítulo 9, tuvimos que evaluar cada variable/fac-tor en orden de decidir sí era de naturaleza determinista, probabilística, odifusa.

3.2.NCONCEPTO DE “PERTENENCIA DIFUSA”

Consideramos un subconjunto difuso F, que tiene una función de pertenencia �F, definida como una función a partir de un conjunto de da-tos bien definido (el conjunto de referencia), X, en el intervalo unitario:�F : X �[0,1]. Por consiguiente, el predicado no-exacto “Paciente (x) esLarga Estancia (S)” se representaría por un número en el intervalo unita-rio �S(x).

A continuación, veremos algunas de las posibles respuestas a la pre-gunta “¿Que significa cuando decimos que �S(x) = 0,7 ?”

Interpretado como 70% de una población determinada declara“pronóstico” que el paciente es “larga estancia”.

Interpretado como 70% de una población determinada describió“conjunto aleatorio” “larga estancia” como un intervalo que define

la duración de estancia del paciente.

Interpretado como La “duración de la estancia del paciente en el “similitud” hospital” se aleja del objeto prototipo que

realmente es “larga estancia” en el grado de0,3 (una distancia normalizada).

Interpretado como 0,7 es la utilidad de exponer que el paciente es“utilidad” de “larga estancia”.

Interpretado como En comparación con otros, el paciente es de“medición” más “larga estancia” que algunos, y este he-

cho se puede representar como 0,7 en una es-cala determinada.

40 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 51: Técnicas Para El Análisis Clínico de Datos

Si deseamos, podemos matizar más a estas interpretaciones: sujetivoversus objetivo, de una parte, e individuo versus grupo, de otra.

Zadeh es posiblemente el autor clave y de referencia para la defini-ción de conjuntos difusos. Su trabajo magistral [Zadeh65] introdujo eltérmino “conjunto difuso” en el lenguaje científico popular, definiendosus propiedades. Zadeh citó ejemplos de conjuntos difusos, como “laclase de hombres altos”, o “la clase de todos los números reales muchomayores que 1”. Indicó que un “conjunto difuso” es una “clase” con uncontinuo de grados de pertenencia y expuso que los “conjuntos difu-sos” proporcionan un marco parecido a los conjuntos ordinarios, peroque son de una más general aplicación. Por ejemplo, se podrían aplicartanto a la clasificación de patrones/imágenes como al proceso de datosfinancieros. La formación de Zadeh como ingeniero electrónico fo-mentó el uso por su parte de analogías prestadas de la teoría de la elec-tricidad, y que contribuyeron a la originalidad y utilidad de este nuevoenfoque.

3.3.NRELACIONES DIFUSAS

En [Zadeh71], Zadeh presenta tres conceptos clave para la teoría deconjuntos difusos: “similitud”, “relación de similitud” y “ordenacióndifusa”. La similitud se define como una generalización de la noción deequivalencia.

La relación “difusa”: en el caso de la relación “no-difusa”, un datoes miembro de un grupo (con grado de pertenencia 1), o no lo es (gra-do de pertenencia 0). Si todos los datos disponibles han quedado clasi-ficados en grupos, el hecho de que un dato tenga un grado de pertenen-cia 0 para un grupo determinado, indica que en algún otro grupo debetener un grado de pertenencia igual a 1. El dato sólo puede tener ungrado de pertenencia igual a 1 para un grupo en el entorno bajo consi-deración.

En el caso difuso, introducimos el concepto de “grados de pertenen-cia”, que asumen valores en un rango continuo entre 0 y 1, por ejemplo:0,55, 0,1, 0,965, 0,73, etcétera. Según este planteamiento, podemos decirque el dato a es miembro de grupo A con grado de pertenencia 0,23 (que espoco), y que dato a es miembro de grupo B con grado de pertenencia 0,77

41LA PERSPECTIVA DIFUSA

Page 52: Técnicas Para El Análisis Clínico de Datos

(que se considera bastante alto). Esto implica que dato a es miembro degrupos A y B, aunque tiene un mayor grado de pertenencia a grupo B.

3.4.NDEFINICIÓN DE UN “CONJUNTO DIFUSO”

Bezdek, en [Bezdek81], dio una definición de un conjunto difuso quedespués se ha considerado como un punto de partida en este campo. Acontinuación lo explicamos con un ejemplo: X se define como la repre-sentación de una muestra de n personas, y A1 se define como el subcon-junto de X para el cual p(x) es exactamente setenta kilos:

A1 = {x X � p(x) = 70} (3.1)

Si definimos que x es casi setenta kilos sí y únicamente sí x pertene-ce a A1 (x A1), entonces A1 será un conjunto con muy pocos elementos.El problema más evidente con esta representación es que no se puedemedir de forma exacta a p(x). Para superar a este problema, vamos a con-siderar el conjunto

A2 = {x X � p(x) = 70 � 0,01} (3.2)

Si la pertenencia en A2 es equivalente a casi setenta kilos, la regla dedecisión que resulta identificará a muchas personas que pesan casi seten-ta kilos. Sin embargo, si empleamos al umbral de � 0,01, excluimos, porejemplo, a una persona cuyo peso registrado p(y) es de 70,011 kilos.

Un modelo que ofreció una posible solución a la situación que acaba-mos de explicar fue detallado en [Zadeh65]. Zadeh propuso lo siguiente:dado que la pertenencia a un conjunto es clave para la toma de decisio-nes, entonces podemos modificar nuestra definición de un conjuntocuando el proceso a realizar lo requiere. La definición formal de esta ideaparte de la siguiente definición:

A3 = {x � x es casi setenta kilos de peso} (3.3)

Función de pertenencia: Zadeh, en [Zadeh71], define la siguiente:una función de pertenencia (característica) fA(x), asocia con cada pun-

42 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 53: Técnicas Para El Análisis Clínico de Datos

to en X, un número real en el intervalo [0,1], con el valor de fA(x)en punto x, y que representa el “grado de pertenencia” de x en A. De-finimos una función de pertenencia como cualquier función a partir de un conjunto de referencia X que esté bien definida en el intervalounitario:

� : X �[0,1]

Por consiguiente, podemos decir que � (x) = 0,6, donde x es un obje-to determinado. Por ejemplo: el grado de pertenencia del paciente (p) alconjunto difuso “ larga estancia” es de 0,6. La forma de una función depertenencia puede ser triangular, trapezoide, convexo, cóncavo, lineal,no-lineal, etc.

3.5.NSIETE MÉTODOS PARA DEFINIR UNA FUNCIÓNDE PERTENENCIA

Encuesta: ¿está usted de acuerdo que el paciente P es de larga estan-cia? (Sí/No).

Ordenación directa (estimación de puntos): clasificar color Asegún su oscuridad, clasificar el paciente P según su duración de estanciaen el hospital. En general, la pregunta es: “¿Cuánto F es a?”.

Ordenación inversa: identificar el paciente P, que es de “larga estan-cia”, con el grado de 0,6. En general, identificar quién es F en el grado�F(a).

Estimación de intervalos (estadística de valores de conjuntos):dar un intervalo entre el cual usted piensa que está el color A, dar unintervalo entre el cual usted piensa que está la duración de estancia depaciente P.

Ejemplificación de una función de pertenencia: ¿cuál es el gra-do de pertenencia de color A al conjunto difuso de “colores oscu-ros”? ¿Cuál es el grado de pertenencia de paciente P al conjunto difu-so de “pacientes de larga estancia”? En general, “Hasta qué grado es a F?”.

43LA PERSPECTIVA DIFUSA

Page 54: Técnicas Para El Análisis Clínico de Datos

Comparación entre pares: ¿Cuál de los colores A y B es el másoscuro (y en qué grado)?

Métodos de clustering: dado un conjunto de datos de entrada, extraerel subconjunto difuso de pacientes de larga estancia.

3.6.NDEFINICIÓN DE “VARIABLE DIFUSA”

Una variable de tipo difuso se define como una variable que tienevalores que se pueden definir como miembros de un conjunto difuso,mediante una correspondiente función de pertenencia. El concepto “difu-so” según fue concebido por Zadeh o Bezdek, no contempla a “variablesdifusas” en sí. Parten de la definición de un “conjunto difuso” como unaextensión de un “conjunto normal”. Zadeh introduce las nociones de“conjunto difuso”, “función de pertenencia”, “relación de similitud”,“ordenación difusa”, usando la teoría tradicional de conjuntos como pun-to de partida.

Por consiguiente, el concepto de una variable difusa no se define deforma directa. Sí que podemos decir que existe una variable no-difusacon valores no-difusos. Se podrían pasar los valores correspondientes deesta variable no-difusa por una función de pertenencia para producircomo resultado los grados de pertenencia a unos conjuntos difusos. Encontraste, podemos considerar una variable que “empieza su vida” comodifusa. Es decir, la lectura inicial de los valores de la variable está en tér-minos de un grado de pertenencia a uno o más conjuntos difusos. Estoimplica una interpretación previa por alguna función de pertenencia. Amenudo, “variables lingüísticas” son buenas candidatas para ser repre-sentadas de forma difusa.

Como ejemplo práctico, vamos a considerar un objeto que es untumor, que puede tener asociadas muchas variables descriptivas de diferentes tipos. Es posible, para algunas de estas variables, que larepresentación más adecuada sea la forma difusa. Por ejemplo, sepodría representar la variable “diámetro” por tres conjuntos difusos:“pequeño”, “mediano” y “grande”. Para cada objeto (tumor), la varia-ble “diámetro” se expresaría como tres valores, cada uno siendo ungrado de pertenencia a los tres respectivos conjuntos difusos que aca-

44 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 55: Técnicas Para El Análisis Clínico de Datos

bamos de definir. Los conjuntos difusos quedarían definidos paratodos los objetos de cada variable difusa usando una función de per-tenencia única. En la literatura, en vez de usar el término “variabledifusa”, se suele hablar de “número difuso” o “valor difuso”, como en[Delgado95].

3.7.NDEFINICIÓN DE “NÚMERO DIFUSO”

[Kahraman97] define un “número difuso” como un conjunto difusonormal y convexo con una función de pertenencia � (x) que satisfaga lassiguientes dos condiciones:

normalidad : � (x) = 1, para cómo mínimo un x R

yconvexidad: � (x’) � � (x1) � � (x2)

dónde � (x) [0,1] y �x’ [x1, x2].

Los “números difusos” son muy útiles para implementar una repre-sentación y forma de procesar la información en un entorno difuso.Por ejemplo, un número difuso trapezoidal (TzFN) se define por (a, b,c, d), mientras que un número difuso triangular (TFN) se define por(a’, b’, c’). Los grados de pertenencia son simplemente unas lecturasen los ejes “x”, “y” a partir de la representación gráfica de las funcio-nes de pertenencia. Se refiere a las Secciones 6.1 y 6.3 del libro paraejemplos reales de la representación de números y variables en la for-ma difusa.

3.8.NLOS “CUANTIFICADORES”

En [Zadeh73], Zadeh enfoca en el problema del proceso de etiquetaslingüísticas, como por ejemplo, “alto”, “no alto”, “muy alto”, “muy muyalto”, etcétera. Una etiqueta lingüística (o cuantificador) se define comoalgo cuyos valores son sentencias en un lenguaje natural (por ejemplocastellano) o artificial (por ejemplo una fórmula matemática).

45LA PERSPECTIVA DIFUSA

Page 56: Técnicas Para El Análisis Clínico de Datos

Zadeh define una etiqueta lingüística difusa como la unión de dos omás conjuntos difusos “simples”. Un conjunto difuso simple es un con-junto que se apoya en un solo punto en U, dentro de un rango determina-do. Por ejemplo, con referencia a la Figura 3.1, si el universo U (de valo-res de datos) es el intervalo [0, 30], entonces se puede definir la etiqueta“corta estancia” por la unión de los conjuntos difusos simples dentro delrango 0 hasta 15 días. Por otra parte, se podría definir la etiqueta “largaestancia” por la unión de los conjuntos difusos simples dentro del rango15 hasta 30 días.

Esto nos hace llegar a la definición de “frases condicionales difu-sas”, que son expresiones con la siguiente forma: SI x es muy pequeñoENTONCES y será bastante grande. En la opinión de Zadeh, un aspec-to clave es que el sentido de las expresiones de este tipo es poco exacto,cuando las personas los emplean en la comunicación. Zadeh demuestraque es posible dar un sentido exacto a la frase condicional SI A EN-TONCES B, incluso cuando A y B sean conjuntos difusos. Su demos-tración se basa en la necesidad de que el sentido de A y B se definan deforma precisa como subconjuntos específicos en el entorno bajo consi-deración.

46 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 3.1NRepresentación gráfica de los conceptos “corta estancia” y “larga es-tancia”.

Page 57: Técnicas Para El Análisis Clínico de Datos

En [Zadeh73] se introduce la idea de hedges, que en castellano sepodría traducir por el término “sesgo”, pero no en su sentido estadístico.La idea del hedge consiste en dos conceptos básicos: (1) términos pri-marios como “corta” y “larga”; (2) “modificadores” de los términos primarios, como, por ejemplo, “muy”, “mucho”, “ligeramente”, “más omenos”, etcétera. En términos de la curva de la función de pertenencia, síx = “larga” entonces, por ejemplo, x2 = “muy larga”. Como consecuencia,el derivado de la curva que representa el término primario “larga” se hacemás agudo respecto al eje-y y se desplaza proporcionalmente hacía laizquierda en el eje-x, como se ve en la Figura 3.2.

3.9.NREPRESENTACIÓN DIFUSA DE VARIABLES DE TIPO BINARIO

Consideramos una variable de tipo binario, como “fallo respiratorio”,con posibles valores “1” ó “0”, o la variable “duración de estancia en laUCI igual o mayor de 24 horas” con posibles valores “si” o “no”. Enfichas clínicas como las del conjunto de datos UCI que analizamos en elCapítulo 9, muchos de los valores son de tipo binario. Es decir, represen-tan una respuesta 1 ó 0 a estados clínicos y estados de concentraciones,presencias, duraciones, etcétera. [Bezdek81] define un método especial-mente diseñado para atributos que asumen valores binarios en datos clí-nicos. Como ejemplo, vamos a considerar el diagnóstico de apendicitis yde gastroenteritis. Disponemos de 8 síntomas descriptivos, algunos delos cuales distinguen mejor para el diagnóstico de apendicitis, mientrasque otros distinguen mejor para el diagnóstico de gastroenteritis. En laTabla 3.1 se ve el resultado de calcular los centros de cluster de cada una

47LA PERSPECTIVA DIFUSA

Figure 3.2.NEfecto del hedge “muy”.

Page 58: Técnicas Para El Análisis Clínico de Datos

de las 8 variables (síntomas) incluidas, para cada de las dos categorías dediagnóstico (apendicitis y gastroenteritis). Fuzzy c-Means calcula estoscentros, junto con los grados de pertenencia de cada paciente para cadavalor de las variables binarias (apendicitis y gastroenteritis). Véase laSección 7.5 del libro para una descripción completa del funcionamientode Fuzzy c-Means.

Lo que nos dice la Tabla 3.1 es que el síntoma n.o 3 es el que mues-tra más diferenciación en el diagnóstico de apendicitis y gastroenteri-tis (según indicado por Fuzzy c-Means). De modo similar, los síntomasn.o 5 y 6 son los que muestran menos diferenciación en el diagnósticode apendicitis y gastroenteritis. El diagnóstico de cada caso se realizacalculando el grado de pertenencia de un caso a cada uno de los 8 sín-tomas. A continuación se calcula la distancia media del grado de perte-nencia del caso al centro de cluster de cada síntoma. Esta distanciamedia será el grado de pertenencia del caso a apendicitis y a gastroen-teritis.

En este ejemplo, todos los pacientes tienen o apendicitis o gastroen-teritis. Por consiguiente, tenemos un conjunto de datos que tendría quequedar particionado en dos clusters de forma binaria. Este método supo-ne que todos los atributos son de tipo binario. Así que, para las variablesde tipo numérico o categórico con más de dos categorías, este método nonos sirve.

48 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Síntoma

1

2

3

4

5

6

7

8

(Apendicitis)�1 j

0,55

0,91

0,06

0,22

0,17

0,77

0,42

0,39

(Gastroenteritis)�2 j

0,27

0,67

0,93

0,55

0,10

0,84

0,05

0,84

Diferenciaabsoluta, f12, j

0,28

0,24

0,87

0,33

0,07

0,07

0,37

0,45

Tabla 3.1.NPrototipos para funciones de pertenencia.

Page 59: Técnicas Para El Análisis Clínico de Datos

En resumen, este es un método para la selección de atributos paradatos binarios que se basa en los prototipos difusos {�i} derivados a par-tir del algoritmo de Fuzzy c-Means. En la demostración formal, un con-junto de datos X debe poseer valores binarios en cada variable; cada Kjes el conjunto {0,1}, y para � variables, tenemos:

X � (�0,1� � �0,1� � ........ � �0,1�) = [�0,1�]� � �� (3.4)

Se supone que �kj = 0 o 1, respectivamente. Esto indica si “paciente”�k tiene o no tiene síntoma j. En general, 0 (= ausente) y 1 (= presente)son variables observadas en muchas aplicaciones, y el método de [Bez-dek81] tiene un uso muy amplio:

Un estudio recoge � respuestas en un cuestionario clínico. ¿Cuá-les de las respuestas de paciente P permiten que el médico acierte ensu diagnóstico? ¿Cuáles de las preguntas son menos relevantes?¿Existen síntomas que crean confusión en el diagnóstico? ¿Hay unexceso de datos? ¿Hay insuficientes datos? En resumen, tenemos queidentificar las variables que nos permitan un mejor acierto en el diag-nóstico.

Con referencia al Capítulo 9 (UCI), podemos usar la representaciónde Bezdek para variables de tipo binario como “incremento en creatini-na” y “estado vital al salir de la UCI”.

3.10.NLA SELECCIÓN DE CARACTERÍSTICAS

Para poder definir un conjunto de datos C, que nos sirva para eldiagnóstico o el pronóstico, es necesario evaluar si las características deldato xk X son suficientemente representativas del proceso físico, parapermitir la construcción de clusters que clasifican y que son fieles a larealidad. Es necesario establecer si poseemos el conjunto de datos ade-cuado. Asimismo, tenemos que evaluar si es necesario eliminar algunasvariables de xk , modificarlas o crear nuevas variables a partir de ellas(ratios, etc.), de mayor valor informativo.

49LA PERSPECTIVA DIFUSA

Page 60: Técnicas Para El Análisis Clínico de Datos

Otro objetivo en la definición de un conjunto de datos es la identifi-cación de la estructura interna de los mismos. El motivo de identificar laestructura es incrementar la información disponible para el proceso declustering y clasificación del conjunto de datos. En el caso del conjuntode datos de “admisiones hospitalarias” (véase Capítulo 9), hay dos con-sideraciones: (1) reducción del número de variables, seleccionando a lasmás relevantes con respecto a una variable determinada de salida. Porejemplo, la variable de salida podría ser “duración de estancia en el hos-pital en días”; (2) fusionar a las variables más relevantes en dos o tres“super-variables”. De esta forma, podemos realizar un análisis de datosen un número más reducido de dimensiones. En la práctica es posibleque (1) y (2) se lleven a cabo de forma separada y usando técnicas dis-tintas.

3.11.NFUNCIONES DE PERTENENCIA PARA DATOSCLÍNICOS

Amaya y Beliakov, en [Amaya94], presentan un método para laconstrucción de una función de pertenencia para el diagnóstico clínico.Su punto de partida supone que las pruebas de laboratorio en el diagnós-tico clínico son de naturaleza precisa. Por consiguiente, se supone queel resultado de una prueba será un valor numérico, por ejemplo, coles-terol = 211.0mg/dL, o hematocrito = 36,9%. Para poder interpretar estevalor tenemos que especificar dos cosas: el rango normal y el contextoespecífico de la prueba.

En medicina se suelen emplear símbolos como ��, �, N, �, ��para indicar variaciones, dónde N indicaría un valor normal y �� in-dicaría un valor destacadamente por encima de lo normal. Un médi-co que realiza una prueba determinada suele usar una tabla de ran-gos normales como guía, junto con su propia experiencia. Esto esespecialmente determinante cuando el resultado de una prueba está enel umbral entre un rango y otro. Una codificación de los símbolos ��,�, N, etc., podría crear como consecuencia una excesiva restricciónen el diagnóstico. Como alternativa, se podría considerar una esca-la entre, por ejemplo, 0 y 1. En el contexto clínico, podemos decir que una de las causas principales de una situación “difusa” sería una

50 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 61: Técnicas Para El Análisis Clínico de Datos

clasificación realizada en un entorno de datos infra o sobredimen-sionados. Para una representación difusa no consideramos situacio-nes debidas a errores de grabación de datos en pruebas clínicas pre-cisas.

En datos clínicos se suele especificar el rango de los valores “norma-les” para cada prueba. De este modo, el dato “hematocrito = 36,9%” seinterpretaría como “porcentaje de hematocrito normal si 36,9% está den-tro de este rango; si no, el porcentaje de hematocrito será anormal”. Elrango de valores normales especifica el contexto necesario dentro delcual se puede interpretar el valor preciso de hematocrito. Sin embargo, sedificulta la interpretación cuando los valores coinciden con límites oumbrales. Por ejemplo, definimos el rango normal para hematocrito entre36,0% y 47,0%. Pero, si usamos un límite no-difuso, una consecuenciasería que el 36,0% es un valor normal, pero el 35,99% es anormal. Comouna posible solución a esta situación se podría emplear una interpreta-ción difusa del rango de valores normales. Ahora, el problema que tene-mos que solucionar es cómo representar mejor el rango de datos de for-ma difusa.

Ahora suponemos que suficientes datos han sido capturados parapoder aproximar la función de distribución de la probabilidad p(x) quedefine el comportamiento de la variable aleatoria x (el resultado de laprueba).

Una función de la distribución de la probabilidad es una función pque se define en un intervalo (a, b) y que tiene las siguientes propie-dades.

(a) p(x) � 0 para cada x

b(b) � p(x) dx=1

a

Como ejemplo práctico vamos a considerar una encuesta que produ-ce la siguiente distribución de probabilidad para el nivel de hematocritode varones adultos:

51LA PERSPECTIVA DIFUSA

Page 62: Técnicas Para El Análisis Clínico de Datos

Podemos representar estos datos en forma de histograma y generaruna curva de la distribución correspondiente. Esta curva representaríagráficamente a la función p de la distribución de la probabilidad.Hacemos la observación de que la suma de las probabilidades se debesumar a 1 y el intervalo de los valores para el nivel de hematocrito sedefine en el rango entre 24 y 53. Se considera que un valor normalsería entre 36 y 47.

Siguiendo el método de [Amaya94], se hace una interpretacióndifusa de las características de “sensibilidad” y “especificidad” en laspruebas clínicas. Como ejemplo, se consideran a estas dos característi-cas desde el punto de vista de dos grupos de pacientes. El primer gru-po es el de los pacientes que padecen de una enfermedad determinada,mientras que el segundo grupo son los pacientes que no la padecen.Las probabilidades de que el resultado de una prueba esté en el inter-valo [x, x + dx] se indican por p+(x)dx y p-(x)dx, respectivamente. Conreferencia a la Figura 3.3, los resultados negativos quedarán asociadoscon los valores pequeños de x mientras que los resultados positivostendrán valores mayores que un determinado umbral a. Por consi-guiente, la “sensibilidad” de la prueba se define como la probabilidadde un resultado positivo para pacientes que padecen de la enfermedad.Por otra parte, la “especificidad” se define como la probabilidad de unresultado negativo de la prueba para pacientes que NO padecen de laenfermedad. Cuando el umbral se define de forma difusa, la “sensibi-lidad” o “especificidad” se convierte en la probabilidad del sucesodifuso de que el resultado de la prueba sea positivo o negativo, respec-tivamente.

Sensibilidad = � �+(x) �+ (x) dx

-

52 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 3.2.NEjemplo de una distribución de probabilidad para el nivelde hematocrito de varones adultos.

Nivel deHematocrito (%)

Probabilidad

24-30

0,05

30-36

0,20

36-42

0,35

42-47

0,30

47-53

0,10

Page 63: Técnicas Para El Análisis Clínico de Datos

Especificidad = � �-(x) � - (x) dx

-

Dónde �+ (x) y � - (x) representan las funciones de pertenencia de losconjuntos difusos “mayor que a” y “menor que a”, respectivamente.

53LA PERSPECTIVA DIFUSA

Figura 3.3.NRepresentación gráfica de las probabilidades que el resultado del diagnós-tico “tiene enfermedad” (indicado por p+(x)dx) o “no tiene enfermedad” (indicado por

p-(x)dx), esté en el intervalo [x, x + dx].

Page 64: Técnicas Para El Análisis Clínico de Datos

Distinguimos entre el diagnóstico y el pronóstico de la siguiente forma:el diagnóstico se entiende como el problema para establecer qué categoríade enfermedad(es) o herida(s) tiene el paciente, mientras que el pronósticotrata de los indicios de recuperación para un paciente cuyo diagnóstico hasido anteriormente establecido. Se podría decir que el diagnóstico se refie-re a la situación actual del paciente, mientras que el pronóstico se refiere asu situación futura. Dependiendo del diagnóstico, se decide un tratamientodeterminado, y dependiendo del pronóstico, se puede modificar o adaptardicho tratamiento, y planificar una serie de fases de recuperación, con laasignación de los recursos humanos y clínicos necesarios para cada fase.

4.1.NENFOQUE DE LA ESTADÍSTICA “CLÁSICA”

La literatura del tratamiento estadístico del diagnóstico y pronósticomédico es muy extensa. Un libro de referencia que ofrece un resumen deltrabajo en el área es [Lee80], que trata de los métodos estadísticos para elanálisis de cifras de superación (survival), con un extendido resumen delas distribuciones de superación, la identificación de factores de riesgo yde pronóstico, y la ejecución de ensayos clínicos. “Tiempo de supera-ción” se define como el tiempo que pasa hasta que ocurre un sucesodeterminado, como, por ejemplo, el desarrollo de una enfermedad, heri-da, reacción a un tratamiento, recaída o fallecimiento.

4El diagnóstico y el pronóstico clínico

Page 65: Técnicas Para El Análisis Clínico de Datos

Los “datos de superación” se definen en términos de variables como“tiempo de superación”, “respuesta a un tratamiento determinado”, ycaracterísticas del paciente relacionadas con su reacción, superación y eldesarrollo de una enfermedad o herida.

Si no existen observaciones sesgadas, es decir, observaciones condatos ausentes, la función de superación se estima como la proporción depacientes que sobreviven más que tiempo t:

^S(t) =

Número de pacientes que sobreviven más que t(4.1)

Número total de pacientes

donde la tilde indica una aproximación de la función que se ve en la Figu-ra 4.1.

4.2.NSISTEMAS DE PUNTUACIÓN DE PRONÓSTICO EN CUIDADOS INTENSIVOS

Sistemas de puntuación (scoring) de pronóstico son sistemas que pre-dicen el resultado del paciente basados en parámetros fisiológicos que seconsideran correlacionados con el resultado (basado en el análisisestadístico o en opinión del experto). Históricamente, los sistemas depuntuación han sido desarrollados para predecir el resultado en poblacio-nes de pacientes, en vez de para pacientes individuales. Esencialmente,

56 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 4.1.NEjemplo de una curva de superación.

Page 66: Técnicas Para El Análisis Clínico de Datos

los sistemas de puntuación de pronóstico permiten que el médico com-pare el resultado observado, como por ejemplo, la mortalidad, con unamortalidad predicha para la población de pacientes admitidos a su unidadde cuidados intensivos (UCI).

4.3.NEJEMPLOS DE ALGUNOS DE LOS SISTEMAS MÁSCOMUNES DE PUNTUACIÓN DE PRONÓSTICO

Los sistemas principales de puntuación de pronóstico en los EstadosUnidos son el “Acute Physiology and Chronic Health System” (APA-CHE), el “Mortality Prediction Model” (MPM), y el “Simplified AcutePhysiology Score” (SAPS).

El sistema APACHE fue desarrollado por primera vez en 1981 porWilliam Knaus y sus colaboradores [Knaus81] y ahora se encuentra en sutercera generación (APACHE III), aunque APACHE II sigue siendo elsistema más usado debido al alto coste de APACHE III. APACHE II y IIIse basan en cuatro componentes: diagnóstico (incluyendo las categoríasde cirugía y medicina), desorden fisiológico, salud crónica, y edad. En labase de datos también se incluye el “origen” del paciente. El sistemaAPACHE calcula los datos para cada paciente UCI, basándose en las pri-meras 24 horas de hospitalización en la UCI. Se sustituye en la fórmulapredictiva el peor valor registrado para cada variable durante este primerperiodo de 24 horas.

APACHE II fue estrenado en 1985. Fue evaluado inicialmente con unestudio de 5.815 pacientes. Hasta la fecha actual sigue siendo el sistemade uso más extendido para indicar el grado de severidad de una enferme-dad. Por este hecho, es el sistema de puntuación más validado. Es nece-sario que un médico especialmente formado introduzca los datos de for-ma manual en un ordenador. A partir de estos datos, la puntuaciónAPACHE se calcula para cada paciente. Cuanto más alta sea la puntua-ción, mayor es la severidad de la enfermedad. Además, los datos se con-vierten en una probabilidad predictiva de muerte para cada paciente. Losdatos, en combinación con otra información, sirven luego para calcularuna mortalidad predicha para la población de pacientes cuyos datos hansido introducidos en el sistema.

57EL DIAGNÓSTICO Y EL PRONÓSTICO CLÍNICO

Page 67: Técnicas Para El Análisis Clínico de Datos

La fórmula de predicción de mortalidad es la siguiente:

LN(R/1 - R) = -3,517 + {(APACHE II) (0,146) + S + D} (4.2)

donde

R = Riesgo de muerte en el hospital

S = Riesgo adicional impuesto por cirugía de urgencia

D = Riesgo (+ o -) impuesto por una enfermedad concreta

Se introducen los pronósticos individuales para cada paciente en elsistema y la mortalidad predicha para la población completa se comparacon la mortalidad observada para la misma población.

APACHE III fue desarrollado en 1991. Es el primer sistema de pun-tuación que facilita la entrada completamente automatizada de datos.Sigue el mismo patrón que el APACHE II. Fue probado inicialmentecon 17.440 pacientes. En este modelo, factores como el diagnóstico y elorigen del paciente juegan un papel más importante en la fórmula pre-dictiva. Una puntuación de APACHE III se tabula de acuerdo a los peo-res valores para cada parámetro durante el primer periodo de 24 horas.Hay un menor énfasis sobre la puntuación global de APACHE III, conun mayor hincapié en la puntuación de APACHE III dentro de cada gru-po diagnóstico.

Con la intención de conseguir la conversión de la puntuación de APA-CHE III a una probabilidad de mortalidad en el hospital, se empleanecuaciones de regresión logística, que son individualizadas para cada unade las 79 categorías diagnósticas y para cada uno de los nuevos posiblesorígenes de los pacientes. Aunque las ecuaciones predictivas de APA-CHE III no han sido publicadas, se las puede conseguir mediante peticióndirecta a los autores.

MPM, otro de los principales sistemas de pronóstico, fue desarrolladoprimero en 1987 por Terres y colaboradores. El modelo difiere de APA-CHE en el hecho de que no produce una puntuación, sino una probabili-dad directa de mortalidad. En la actualidad, MPM está en su segunda

58 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 68: Técnicas Para El Análisis Clínico de Datos

generación. El sistema se basa en 19.000 casos de pacientes de 139 UCI.Este modelo ofrece dos características que lo distinguen del modelo deAPACHE. Primero, aporta la probabilidad de mortalidad en el hospital enel momento de admisión. Esto permite realizar una predicción antes dellevar a cabo cualquier intervención al paciente en la UCI, y durante lassiguientes 24 horas el pronóstico puede variar. Además, los pacientes quefallecen o son transferidos fuera de la UCI antes de terminar el primerperiodo de 24 horas, reciben una predicción de mortalidad en el momen-to de admisión. Segundo, un modelo de probabilidad específica ha sidodiseñado para su uso 24 horas después de admisión. Esto permite unareevaluación del pronóstico a 24 horas, basado en un modelo diseñadopara una evaluación a 24 horas.

SAPS fue desarrollado por LeGall y sus colaboradores en 1984 yahora está en su segunda generación [LeGall93]. Fue desarrolladopara ofrecer una versión simplificada del modelo original de APA-CHE, que por su parte facilita la recogida de datos. El modelo depen-de de 13 variables fisiológicas más la edad. SAPS II emplea unametodología estadística para determinar el rango para variables predicti-vas, para asignar puntos a cada uno de los rangos, y para convertir lapuntuación de SAPS en una probabilidad de mortalidad hospitalaria.La puntuación SAPS se convierte en una probabilidad estadísticausando una representación gráfica. SAPS usa los peores valores re-gistrados para las variables durante las primeras 24 horas y no nece-sita un diagnóstico para obtener la probabilidad de mortalidad hospi-talaria.

4.4.NENFOQUES DE LA INTELIGENCIA ARTIFICIAL

En la última sección hemos realizado una revisión de algunos de lossistemas “convencionales” de pronóstico clínico. Ahora vamos a revisaruna selección de la diversidad de enfoques que ofrece la “inteligencia ar-tificial” para el entorno clínico.

El proyecto SMASH del Instituto IIIA, Cataluña, España [IIIA96],aplica la tecnología de los “agentes inteligentes” al entorno médico. Elobjetivo de SMASH (Sistemas de Multiagentes para Servicios Médicosen Hospitales) es la definición de una arquitectura racional para multi-

59EL DIAGNÓSTICO Y EL PRONÓSTICO CLÍNICO

Page 69: Técnicas Para El Análisis Clínico de Datos

agentes, y el desarrollo de sistemas prototipos de multiagentes con ca-pacidad de aprendizaje y que cooperan en la solución de problemas complejos en entornos médicos. El sistema contempla cuatro aspectos:(1) comportamiento racional complejo, dividido en ontológico, epistemi-co, motivación y comunicación; (2) transcripción a un entorno orientadoa objetos usando herramientas basadas en la lógica; (3) despliegue deagentes de software que sean de utilidad general, que tengan característi-cas de racionalidad y responsabilidad para sus acciones, y que pueden seradaptados para resolver diversas tareas de forma cooperativa; (4) aplica-ción al entorno médico/clínico y al entorno de gestión hospitalaria para“pruebas de concepto”.

[Armengol00] describe un segundo sistema desarrollado en el IIIA,que aplica un enfoque de CBR (Cased Based Reasoning) o “razonamien-to basado en casos”, al pronóstico individual del riesgo de diabetes a lar-go plazo. El sistema, que se llama DIRAS, es una aplicación que da apo-yo al médico para determinar el riesgo de complicaciones para pacientesindividuales de diabetes.

El patrón de riesgo de cada paciente diabético se obtiene usando unmétodo de razonamiento basado en casos. Esta es una técnica que apro-vecha las experiencias anteriores (los casos) para resolver nuevas situa-ciones. Para cada paciente, se determina el riesgo de cada complicacióndiabética según el riesgo de pacientes que ya han sido diagnosticados.Entonces se construye una descripción que se puede visualizar como unaexplicación del riesgo calculado.

[Escalada99] presenta otro trabajo realizado en el IIIA, que consisteen un sistema basado en el conocimiento para el diagnóstico fisiopatoló-gico en tiempo real, en un entorno de cuidados intensivos. Se considerael caso de una unidad de cuidados intensivos (UCI) de pediatría, dóndelos pacientes están siendo monitorizados de forma continua, captando amuchas variables que indican el estado físico. Según la situación en unmomento dado, se emiten señales de control respecto al paciente paraque su estado clínico siempre se mantenga bajo control. La soluciónemplea un sistema basado en el conocimiento que es apto para un entor-no en tiempo-real, y consiste en una serie de módulos específicos queinteraccionan entre sí.

[Irani95] presenta un enfoque cuyo objetivo es identificar la estruc-tura y relaciones causales a partir de una base de datos de fichas clíni-

60 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 70: Técnicas Para El Análisis Clínico de Datos

cas de hiperlipidemias. Emplea algunos conceptos interesantes, porejemplo una escala lineal que se emplea para colocar las etiquetaslingüísticas en una secuencia numérica. La escala tiene la siguienteforma:

El acuerdo medio de la relación causal como salida se calcula comoun consenso entre el experto cardiólogo, una ecuación de regresión y unsistema experto. El modelo predictivo se basa en una red neuronal de tipo“retro-propagación”. En este caso, la red neuronal consiguió peores re-sultados que un modelo de regresión lineal múltiple.

En contraste con el enfoque de la identificación de relaciones causa-les de [Irani95], el trabajo de [McLeish95] enfoca en el descubrimientode conocimiento, usando técnicas como el “peso de la evidencia” y “fun-ciones de creencias”. [McLeish95] emplea un subconjunto de 18 atribu-tos claves como punto de partida para las entradas a la función de creen-cia. Una de las conclusiones de su estudio fue que los datos derivadosestadísticamente dieron mejores resultados que los datos derivados por elexperto.

Uno de los trabajos recientes de interés es [Dreiseitl99]. En este estu-dio se presenta un conjunto de métodos para seleccionar variables parainfarcción miocardio. Se procede en dos pasos: (1) el uso de diversosmétodos para determinar cuáles de las entradas son relevantes para pre-decir infarcción miocardio; (2) validar y visualizar estas entradas usandomapas autoorganizativos (SOM). Los cuatro métodos de selección de lasentradas son: (a) regresión logística con la selección de variables usandolas diferentes técnicas que ofrece la regresión, usando la función LOGIS-TIC del paquete estadístico SAS; (b) redes neuronales feed-forward conel cálculo automático de relevancia; (c) redes neuronales bayesianas concálculo automático de relevancia; (d) conjuntos aproximados (roughsets). El conjunto inicial de variables consiste en 43 atributos (edad, sexo,fumador, exfumador, historial familiar, diabetes, hipertensión...). A partirde estas variables, cada método debe seleccionar los 8 atributos de mayorrelevancia para el diagnóstico de infarcción miocardio. El resultado fue

61EL DIAGNÓSTICO Y EL PRONÓSTICO CLÍNICO

-3 -2 -1 0 1 2 3

mucho peor un poco sin un poco mejor muchopeor peor cambio mejor mejor

Page 71: Técnicas Para El Análisis Clínico de Datos

un buen consenso entre diferentes métodos, aunque había tres atributoselegidos por el experto médico que no fueron seleccionados por ningunode los tres métodos. El SOM fue utilizado para crear una representacióngráfica de la distribución de la variable de salida y para validar las corre-laciones con otros métodos.

[Demsar99] describe un enfoque que emplea árboles de clasifica-ción ID3 y un clasificador Naive Bayes para predecir la supervivenciade los 68 pacientes en su conjunto de datos de prueba. El número inicialde atributos fue de 174, y para 78 de ellos había datos ausentes para el50% o más de los casos. Los datos fueron preprocesados para categori-zar (discretizar) las variables de tipo numérico. Esto fue necesario dadoque la técnica de Naive Bayes no es capaz de procesar variables numé-ricos directamente. Se realizó la categorización mediante la generaciónde cuantiles y con discretización basada en el método de entropia-MDL.Después de categorización, las variables fueron ordenadas usando el sistema RELIEFF [Kira92], que mide la utilidad de una variable me-diante la observación de la relación entre su valor y el resultado delpaciente.

Después del proceso de selección de variables, el número de varia-bles se redujo desde 174 hasta 12. Las variables eran todas indicado-res clínicos específicos, como por ejemplo, “el peor parcial y trombo-plastina activa” con categorías de “<78,7” y “� 78,7”. Demsar [Dem-sar99] considera que si existe un grupo de pacientes con los mismos (oparecidos) variable-valores, entonces la variable observada es “valio-sa” para predecir en el caso de que tenga valores distintos para pares depacientes con resultados diferentes (así distinguiendo entre ellos), peroteniendo el mismo valor para pares de pacientes que tengan el mismoresultado.

Si se supone la independencia de las variables predictivas, se puedeestimar la probabilidad que un paciente sobreviva, representado por losvalores de variables predictivos V = (v1, … , vn), por la siguiente fórmu-la de Naive Bayes:

nP (R / V) = P (R) � P (R|vi) (4.3)

i=1 P (R)

62 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 72: Técnicas Para El Análisis Clínico de Datos

dónde P(R) es la probabilidad a priori de supervivencia y P(R|vi) es laprobabilidad condicional de sobrevivir si la i-isima variable predictivatiene el valor vi. Ambos valores están calculados de forma aproximada apartir del conjunto de prueba de los pacientes.

[Pessi95] describe la aplicación de redes neuronales SOM a la agru-pación de pacientes. Pessi basa su agrupación de pacientes en datoscómo el “periodo de estancia”, “necesidades de cuidados intensivos”,“diferentes necesidades de servicios”, etcétera. Afirma que una clasifi-cación correcta es importante para facilitar una buena planificación dela asignación de recursos y la optimización de costes. Utiliza códigosdiagnósticos junto con las variables de entrada a una SOM para agrupara unos 8.000 casos de pacientes. Los códigos diagnósticos que utilizason complejos, teniendo una estructura de árbol binario hasta 4 niveles.La mejor precisión alcanzada fue del 75% para una clasificación correc-ta, la cual compara favorablemente con métodos convencionales deasignación.

Por otra parte, [Khang99] presenta una aplicación de los “álgebrastipo hedge”, que fueron definidos por primera vez en [Zadeh73] paraextender un sistema de diagnóstico médico basado en reglas y con unacierta similitud al sistema experto MYCIN. A título de ejemplo, se defi-niría una variable lingüística de la siguiente forma: FIEBRE = {fie-bre_alta, fiebre_baja, fiebre_media, fiebre_continua, fiebre_esporádica,fiebre_por_la_tarde, fiebre_nocturna, fiebre_con_sudor, …}. El análisisse realiza en términos de un álgebra tipo hedge, según lo explicado en[Khang99]. A continuación vemos un ejemplo de una serie de definicio-nes de variables lingüísticas y los posibles valores que pueden asumir:

GRADO_DE_FIEBRE: fiebre_alta, fiebre_media, … .

TIPO_DE_FIEBRE: fiebre_continua, fiebre_esporádica, … .

TIEMPO_DE_FIEBRE: mañana, tarde, fiebre_nocturna, … .

DÍAS_CON_FIEBRE: un_día, dos_días, fiebre_algunos_días, … .

CON_DOLOR_DE_CABEZA: con_dolor_cabeza, sin_dolor_ca-beza, … .

CON_TEMBLORES_FRÍOS: con_temblores_fríos, sin_temblores_fríos, … .

CON_SUDOR: con_sudor, sin_sudor, …

63EL DIAGNÓSTICO Y EL PRONÓSTICO CLÍNICO

Page 73: Técnicas Para El Análisis Clínico de Datos

A partir de las definiciones anteriores, Khang desarrolla reglas delsiguiente tipo, basándose en el álgebra de agregación tipo hedge para laetiqueta objetiva de FIEBRE_DE_HEPATITIS:

Regla 1: Si GRADO_DE_FIEBRE= “fiebre_baja”Y TIPO_DE_FIEBRE= “no_fiebre_esporádica”Y DIAS_CON_FIEBRE= “7-10 días”Y CON_DOLOR_DE_CABEZA= “con_dolor_cabeza”Pues FIEBRE_DE_HEPATITIS= “muy_específica”

Regla 2: Si GRADO_DE_FIEBRE = “fiebre_media”Y TIPO_DE_FIEBRE = “no_fiebre_esporádica”Y DIAS_CON_FIEBRE = “7-10 días”Y CON_DOLOR_DE_CABEZA = “con_dolor_cabeza”Pues FIEBRE_DE_HEPATITIS = “poca_específica”

Regla 3: Si GRADO_DE_FIEBRE = “fiebre_alta”Y TIPO_DE_FIEBRE = “fiebre_esporádica”Pues FIEBRE_DE_HEPATITIS = “muy_no_específica”

4.5.NGRUPO DE LA UNIVERSIDAD DE CALIFORNIAEN IRVING: REPOSITORIO BASE DE DATOSSOBRE APRENDIZAJE AUTOMATIZADO

Este repositorio es una fuente clave para conjuntos de datos de prue-ba para investigadores que desean comprobar nuevos algoritmos y técni-cas sobre conjuntos de datos estándar, para los cuales existen resultadospreviamente publicados. Esto facilita la labor de investigadores que es-tán trabajando en el área de minería de datos cuando quieren realizar comparaciones con otras técnicas. En el dominio clínico, los siguientescuatro conjuntos de datos son destacables: (1) base de datos de ecocar-diogramas del Reed Institute, Miami. Tiene un nivel razonable de docu-mentación, que se compone de 13 atributos con valores numéricos, y unaclasificación binaria: paciente vivo o muerto después de un periodo dado.(2) Datos UCI de Serdar Uckun (AIM “94), que es un conjunto de datosde tratamiento de pacientes en la UCI que sufren de “Adult RespiratoryDistress Syndrome (ARDS). Es uno de los conjuntos de datos más com-plejos. (3) Base de datos de pacientes posperativos de Jserzy W. Grzy-mala-Busse, que se compone de 3 clases, 90 casos y 8 atributos, uno delos cuales es numérico con valores desconocidos. (4) Base de datos

64 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 74: Técnicas Para El Análisis Clínico de Datos

de enfermedades coronarias, que incluye una documentación extensa. Secompone de 4 bases de datos: Cleveland, Hungary, Switzerland y VALong Beach. 13 de los 75 atributos se usan para predicción en dos fiche-ros de prueba distintos, cada uno de los cuales consigue una precisión enclasificar de un 75-80%. Todos los 13 atributos elegidos son valores con-tinuos, e incluyen datos de costes clínicos, siendo estos útiles para estu-dios cuyos objetivos son la optimización de costes operacionales.

65EL DIAGNÓSTICO Y EL PRONÓSTICO CLÍNICO

Page 75: Técnicas Para El Análisis Clínico de Datos

El síndrome de apnea del sueño es un problema común, que en mayoro menor grado afecta a entre un 2 y un 4% de la población adulta en lospaíses desarrollados [Duran96][Olson95]. Se caracteriza por la completa(apnea) o parcial (hypopnea) interrupción de la respiración durante elsueño. La presencia de este síndrome ha sido asociada con somnolenciaexcesiva, con consecuencias como los accidentes de tráfico y la reduc-ción en calidad de vida y desarrollo profesional [Lavie84]. También hasido relacionado con enfermedades cardiovasculares, habiendo una ma-yor prevalencia de hipertensión, arritmias cardiacas, isquemia miocárdi-ca y accidentes neurovasculares (embolias) en estos pacientes.

El Síndrome Obstructivo de Apnea de Sueño (OSAS) es un conjunto demanifestaciones clínicas secundarias relacionadas con la cesación (apnea) oreducción (hypopnea) de flujo de aire durante el sueño, causado por un colap-so parcial o total de las vías respiratorias superiores al nivel de la faringe. Laseveridad del OSAS se define por el Índice Apnea Hipopnea, o AHI, (tambiénconocido como RDI, Índice de Desorden Respiratorio) que es el número deapneas más el número de hipopneas por hora durante el sueño. En general unAHI ��10-15 se considera patológico. Pacientes con un AHI bajo, es decir,menor de 5 apneas, no suelen padecer consecuencias clínicas. Casos leves,que se definen entre 5 y 20, tienen leves consecuencias mientras que casosmoderados, entre 20 y 40, normalmente tienen manifestaciones clínicas.

5El diagnóstico del síndrome de apneadel sueño

Page 76: Técnicas Para El Análisis Clínico de Datos

Casos severos, con un índice mayor de 40, muestran los síntomas másevidentes y presentan un incremento en enfermedades y fallecimiento[Lugaresi83][Partinen88].

5.1.NPRESENTACIÓN CLÍNICA

Existe una diversidad de síntomas que están asociados con OSAS. Amenudo se introducen de forma desapercibida y durante un determinadoperiodo de tiempo y a menudo no se detectan en la clínica ni por los mis-mos pacientes debido a su falta de especificidad. El ronquido es uno delos síntomas principales. Una larga historia de ronquido, que es lo que sesuele caracterizar a pacientes con OSAS, es una indicación del incre-mento de resistencia de la vía respiratoria superior, durante el sueño. Lapresencia de pausas respiratorias, presenciadas por la pareja del paciente,son otros datos clave a que se suele referir en la literatura, y tiende ser unsíntoma bueno para predicción.

Otras manifestaciones clínicas de OSAS suelen ser el resultado deuna desestructuración del sueño, causa de los múltiples microdespertarestransitorios, la pérdida de niveles de sueño profundo, y a episodios re-currentes de hipoxemia arterial. Entre estos síntomas, podemos destacara la hipersomnolencia diurna, alteraciones de personalidad, pérdida dememoria y de concentración, que pueden afectar de forma grave a la vidacotidiana de las personas afectadas.

5.2.NPREVALENCIA

Según los estudios de la literatura, la prevalencia de OSAS oscilaentre el 1% y el 9%. La diferencia en los porcentajes refleja la diversidadde los métodos y criterios usados en el diagnóstico de OSAS, y las posi-bles diferencias en las poblaciones que han sido estudiadas. El estudio dereferencia es el de la población de Wisconsin [Young94], en el cual laprevalencia obtenida alcanzó a 2% para mujeres y 4% para hombres,indicando síntomas mínimos. Cuando extrapolamos estos resultados a lapoblación en general, tendríamos que el 9% de las mujeres y el 24% delos hombres presentarían alteraciones respiratorias relacionadas con elsueño. Esta prevalencia elevada en adultos se considera como un proble-ma significativo para la salud pública. Existen relativamente pocos estu-

68 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 77: Técnicas Para El Análisis Clínico de Datos

dios realizados en poblaciones de ambos sexos, pero se estima que la pro-porción de hombres/mujeres es 3 a 1.

5.3.NMORBIDITY Y MORTALIDAD

La hipersomnolencia diurna ha sido relacionada con una reducción deefectividad física y mental, en la actividad diaria del individuo, incluyen-do el entorno laboral, y en la capacidad para conducir automóviles (con-ducen peor y tienen mayor riesgo de sufrir un accidente de tráfico). Encuanto a hipersomnolencia diurna, una cierta relación ha sido identifica-da entre OSAS y hipertensión arterial sistémica. El paciente con OSAStiende presentar una actividad simpática elevada, la cual puede producirun incremento en la presión sanguínea diurna.

Algunos estudios de pacientes que padecen de alta presión sanguínea,indican que un tercio de ellos sufren de OSAS. Otros estudios indicanque el ronquido y OSAS incrementan el riesgo de padecer accidentesencefalovasculares y cardiovasculares. [Guilleminault92] ha encontradoque la incidencia de morbosidad y mortalidad cardiovascular es más baja,en un grado estadísticamente significativo, en pacientes tratados en com-paración con los pacientes en el grupo de control. Dicha incidencia esindependiente de edad, índice de masa corporal (IMC) e índice de seve-ridad previa. Asimismo, se sabe que OSAS puede contribuir al desarrollode insuficiencia respiratoria, hipertensión pulmonar y fallo del ventrícu-lo derecho. La presencia de una restricción crónica de flujo de aire, hipo-xemia diurna, hipercápnia y hipoxemia nocturna profunda, son factoresrelacionados a este hecho.

Las causas de mortalidad son variables e incluyen complicacionescardiovasculares derivadas de una hipersión sistémica y pulmonar, episo-dios de hipoxemia arterial y aquellos derivados de una excesiva hiper-somnolencia diurna, como por ejemplo, accidentes en el lugar de trabajoy en accidentes de tráfico.

5.4.NDIAGNÓSTICO

El diagnóstico del síndrome de apnea del sueño, y la categorizaciónde su gravedad (ligera, moderada y severa) se consigue mediante la eva-

69EL DIAGNÓSTICO DEL SÍNDROME DE APNEA DEL SUEÑO

Page 78: Técnicas Para El Análisis Clínico de Datos

luación de una combinación de manifestaciones clínicas y datos deriva-dos de la polisomnografía. La polisomnografía consiste de una grabacióncontinua, durante la noche, de diversas variables fisiológicas. Dichasvariables se generan a partir de una diversidad de fuentes y observacio-nes: electroencefalograma (EEG), electrooculograma (EOG), electro-miograma (EMG), movimiento de las piernas, flujo de aire oral-nasal,ronquido, esfuerzo respiratorio en el tórax y abdomen, y electrocardio-grama (ECG), posición del cuerpo y saturación de oxígeno en la hemo-globina. En caso necesario, se pueden incluir otros signos biológicos.

Debido al alto coste de este tipo de estudio clínico, y la falta de cen-tros adecuados, una serie de pruebas más limitadas ha sido elaborada,que sirve para screening en el diagnóstico. En general, las pruebas con-sisten de un número reducido de variables (por ejemplo, sólo las de pul-sioximetría), que permiten la realización de estudios no-supervisados depacientes en sus propios hogares [Martin85].

Una de las herramientas más interesantes que está disponible para eldiagnóstico, debido a su sencillez y bajo coste, es el cuestionario auto-administrado o supervisado. Habiendo identificado un conjunto de varia-bles con alto valor predictivo para el síndrome de apnea del sueño, diver-sos cuestionarios han sido desarrollados, con combinaciones de preguntasy variables clínicas. Sin embargo, este método no ha tenido una gran acep-tación en uso clínico, debido a su baja precisión predictiva y los numero-sos diagnósticos negativos y positivos falsos que produce [Kushida97].

70 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 5.1.NModelos de regresión lineal múltiple para el diagnóstico de apnea delsueño.

n

1001

150

594

180

250

Criteriodiagnóstico

ID4%�5

ID4%

AHI�10

AHI�10

AHI�15

Variables predictivas

Circunferencia del cuello, consumode alcohol, edad, obesidad.Duerme cuando está inactivo.Circunferencia del cuello.IMC, edad, sexo, ronquido, explora-ción de ORL.Circunferencia del cuello, HTA, ron-quido, apneas observadas.IMC, edad, consumo de alcohol.

r2

0,14

0,130,350,36

0,34

0,19

Estudio

Stradling(1991)Davies(1992)Hoffstein(1993)Flemons(1994)Deegan(1994)

ID4%: índice de desaturación con caída de 4%. AHI: índice apnea-hypopnea. r2: cociente de regre-sión. IMC: índice de masa corporal.ORL:exploración otorrinolaringológica.HTA:hipertensión arterial.

Page 79: Técnicas Para El Análisis Clínico de Datos

El valor predictivo de los datos clínicos en el diagnóstico de OSAS esbajo. Hoffstein [Hoffstein93] publicó resultados que indicaron que losdatos clínicos explican un 36% de la variabilidad de la AHI (apnea hipop-nea) y Katz [Katz90] estimó una cifra del 39%, mientras que otros autoresestiman cifras más bajas (Tabla 5.1). El estudio de la evaluación clínicasubjetiva del entrevistador indica que suele tener una baja sensibilidad yespecificidad, del orden del 55% y 65%, respectivamente, para la correctaclasificación de los enfermos. Por otra parte, los modelos predictivos paraAHI que se basan en datos clínicos tienen una sensibilidad mayor de hasta90%. Su especificidad, en los mejores casos, no llega a 70% (Tabla 5.2).

La grabación simultánea de diversos parámetros del sueño nos per-mite identificar sus diferentes fases y la correlación de ellas con eventoscardiorespiratorios, por ejemplo, las apneas, desaturación de oxihema-globina y cambios en el ritmo cardiaco. Para la medición del sueño,incluyendo cambios en la posición del cuerpo, esfuerzo respiratorio y efi-

71EL DIAGNÓSTICO DEL SÍNDROME DE APNEA DEL SUEÑO

n

214

410

300

456

129

180

427

250

Criteriodiagnóstico

AHI�15

AHI�10

AHI�10

IAA�5(�15años)IAA�10(15-50a)IAA�15(�50 a)AHI�10

AHI�10

AHI�10

AHI�15

Variables predictivas

Edad, apneas observadas,IMC, HTA.Edad, IMC, sexo, ronquido.

Sexo, %peso idóneo, duer-me mientras lee, apneas ob-servadas.Ronquido, apneas observadas,duerme mientras conduce+(IMC, sexo, edad)**.sexo, edad, IMC, ronquido,apneas observadas.Circunferencia del tórax,cambio de peso, apneasobservadas, HTA.Índice 1(‡), IMC, edad, sexo.

Sexo, edad, ronquido, ap-neas observadas, IMC, con-sumo de alcohol, duermemientras conduce.

S (%)

85

94

94*

---

95

(†)

-

100

E (%)

61

28

45*

---

64

(†)

-

11

ROC

-

0,77

-

0,78-

0,87-

(†)

0,78

-

Estudio

Crocker(1990)Viner(1991)Rauscher(1993)

Kump(1994)

Dealberto(1994)Flemons(1994)

Maislin(1995)Deegan(1996)

S: sensibilidad. E: especificidad. ROC: área baja la curva. AHI:índice apnea-hipopnea. IAA: índice deincremento en actividad apneica. IMC: índice de masa corporal. HTA: hipertensión arterial. (*) datosobtenidos después de la verificación del modelo. (**): modelo que incluye los síntomas previos y losen paréntesis. (†): refiere a datos similares a los de Viner y Crocker. (‡): incluye ronquido intenso,apneas observadas e insuficiencia respiratoria. (-): datos no disponibles.

Tabla 5.2.NModelos de regresión logística.

Page 80: Técnicas Para El Análisis Clínico de Datos

ciencia en ventilación, existen múltiples métodos y cada clínica sueleusar sus propias variables, que se obtienen con los recursos disponiblesen cada centro.

En el presente, no es apropiado definir criterio diagnóstico de formarígida, dado que es un área en rápido desarrollo. Tampoco es posibleidentificar el equipamiento idóneo para estudios del sueño.

La polisomnografía es una técnica que es compleja para realizar ypara interpretar, y su coste económico es alto. Esto provoca una satura-ción de las pocas instalaciones disponibles para su práctica, la cual resul-ta en una demora en el proceso de diagnóstico. Esta situación ha hechonecesaria una búsqueda para alternativas diagnósticas más sencillas, lamayoría de las cuales se basan en el registro y la evaluación de los pará-metros cardiorespiratorios o en el uso de equipamiento simplificado yportátil para diagnóstico en el hogar. La validación de muchos de estosequipos diagnósticos aún esta en progreso. Se recomienda un filtro pre-vio de pacientes para seleccionar los que son más apropiados para lapolisomnografía. Es necesario realizar un esfuerzo para definir cuál es elmétodo más útil para este objetivo, dado que cualquier método de filtrodebe ser sensible, específico y económico. Debido a la alta incidencia decambios respiratorios durante el sueño, se recomienda evaluar el cos-te/beneficio de estos métodos para poder identificar, diagnosticar y trataruna mayoría de los enfermos.

72 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 81: Técnicas Para El Análisis Clínico de Datos

El tipo que una variable puede asumir es una consideración inicial im-prescindible antes de poder empezar con la exploración o modelización delos datos. En este capítulo, consideramos diferentes representaciones a par-tir de una visión conceptual, simbólica y práctica basada en la estadística.Veremos que se puede calcular una similitud y una disimilitud usando den-sidades y frecuencias estructuradas en un número variable de dimensiones,y entre variables de naturalezas distintas. También consideraremos las dife-rentes necesidades desde el punto de vista del procesamiento de los datos.

6.1.NREPRESENTACIÓN Y PROCESO DE DATOSDE TIPOS DIFERENTES

En esta sección consideramos formas de representar diferentes tiposde variables, usando como ejemplo real, un conjunto de datos de admi-siones hospitalarias de la Unidad de Cuidados Intensivos (UCI). Esteconjunto de datos está resumido en esta sección y presentado en másdetalle en el Capítulo 9 del libro. Presentaremos, también, el desarrollo deun enfoque común para representar, comparar y procesar un conjunto de datos que contiene diferentes tipos. Hacemos hincapié en el tipo difu-so de datos, es decir, el que incluye valores de grados de pertenencia quese interpretan mediante una función correspondiente.

6La representación, comparacióny proceso de datos de diferentes tipos

Page 82: Técnicas Para El Análisis Clínico de Datos

Datos UCI

Los datos UCI están definidos con un registro por paciente, que inclu-ye datos vitales clínicos, como por ejemplo, la presión sanguínea, pulso,y temperatura corporal, junto con los resultados de un análisis de sangre yde orina. Las variables de salida son el pronóstico que indica la supervi-vencia o no del paciente y el número de días de estancia en la UCI y enel hospital general.

Los datos contienen diferentes tipos de variables: categórica no-minal y ordinal, numérica, binaria, y variables adecuadas para una representación en forma difusa, como, por ejemplo, el pronóstico desupervivencia y la estimación para la duración de estancia en laUCI/hospital.

Tipos de Datos

Variable numérica: (por ejemplo temperatura, presión sanguínea).En el caso de los valores numéricos, podemos usar la representación deBezdek [Bezdek81] para el algoritmo Fuzzy c-Means Functionals, (cla-sificación difusa), que generaliza una función de varianza entre grupos.Este tipo de datos incluye números enteros y de punto flotante.

Variable categórica ordinal (o “léxico”): (por ejemplo tipo de pa-ciente, estado anterior de salud). Para este tipo de variable, una ordena-ción implícita existe entre las categorías. Por ejemplo, “estado anterior desalud”=1 indica un estado superior de salud relativo a “estado anterior de salud”=2, etcétera.

Variable nominal: (por ejemplo Conf_Inf {S, N, desconocido},que indica la confirmación de la presencia de infección). Estos valoresson simbólicos pero no es posible establecer una orden entre ellos. El“modelo GOM” [Manton92] establece una representación difusa paraeste tipo de valores. Este tipo de datos también se conoce como “ca-tegórico no-ordinal”.

Variable nominal (binario): (por ejemplo fallo respiratorio {sí, no},estado en UCI para 24 horas o más {sí, no}, Sexo {V, M}). Se puede con-siderar este tipo como un caso especial de las variables nominales. En

74 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 83: Técnicas Para El Análisis Clínico de Datos

registros clínicos hay a menudo un gran número de variables de este tipo,con una respuesta (1 o 0) a las preguntas sobre estados clínicos, nivelesde diferentes concentraciones en la sangre y en la orina, la presencia dediferentes estados, duraciones, etcétera. Como ya hemos comentado enel Capítulo 3 del libro, [Bezdek81] define un método específico paravariables que asumen valores binarios en conjuntos de datos clínicos. Seobserva que una variable como “sexo” puede ser considerada como uncaso especial del tipo de variable nominal (véase más atrás) para el cualhay solo dos posibles valores categóricos. Este tipo de dato puede tam-bién ser considerado como “categórico no-ordinal”.

Variable difusa (fuzzy): (por ejemplo la duración de estancia en hos-pital, riesgo de muerte, pronóstico de recuperación). Para cada variabletenemos que establecer si su mejor forma de representación es la difusa,o si realmente se representa mejor como uno de los tipos de datos “no-di-fuso” que hemos enumerado anteriormente.

El tipo difuso se caracteriza por tener asociado un grado de pertenen-cia, y por el hecho de que cada caso puede ser asignado potencialmente amás de una de las categorías disponibles. Este tipo de datos puede serdifuso numérico, difuso categórico ordinal o difuso categórico no-ordi-nal. En el caso de valores ordinales, una representación y esquema deproceso está expuesto en [Nettleton97] y [Aguilar91] en el que los con-juntos difusos se representan mediante funciones de pertenencia trape-zoidales.

Definición de una representación homogéneay el proceso de todos los tipos de datosen la forma difusa

La búsqueda de una forma homogénea de representar y procesar losdatos está motivada por la complejidad de tener que considerar unmétodo diferente para cada combinación de los mismos. A pesar de susclaras ventajas (por ejemplo simplificación) respecto a los múltiplesenfoques, el enfoque único rebela algunos problemas intrínsecos. Porejemplo, la dificultad de representar de forma conjunta a datos numé-ricos no-difusos y difusos, y diferentes métricas de distancia. Asimis-mo, una consecuencia de un enfoque único y la consecuente generali-zación podría ser una pérdida de precisión. Como posibles soluciones

75LA REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Page 84: Técnicas Para El Análisis Clínico de Datos

a estos problemas, podríamos basar nuestro enfoque único en métodosexistentes y comprobados, como por ejemplo los pares parmenidea-nos de [Aguilar91]. Esta forma de representación ha sido resumida en la Sección 2.4 del libro. Otros posibles métodos son el modeloparamétrico de [Hathaway96] con la extensión detallada en [Nettle-ton99b]. Así que nuestros objetivos serían los de refinar solucionesexistentes para la representación de los datos, junto con un cálculo decovarianza que contempla datos difusos que nos permitirán construiruna técnica de “fusión de datos” que funciona para cualquier tipo devariable.

La representación de los datos: como una generalización inicial,consideramos variables de tipo no-difuso como un caso especial devariables de tipo difuso. Con referencia a Tablas 6.1 y 6.2, vamos aconsiderar como ejemplo la siguiente situación: tres casos (objetos)y dos atributos que describen a los casos (color y tamaño). El atribu-to color tiene tres posibles valores, siendo estos rojo, verde y amari-llo. El atributo tamaño también tiene tres posibles valores, siendoestos anchura, longitud y altura. En el caso no-difuso del atributocolor, un objeto solo puede asumir un color a la vez. Así que un colordeterminado tendrá grado de pertenencia 1 y los otros dos colorestendrán grado de pertenencia 0. En el caso difuso, que mejor repre-senta lo que ocurre en la naturaleza, un objeto nunca tendrá el colorrojo a nivel absoluto, sino que, tendrá unos toques de, por ejemplo,verde y quizás amarillo. Por consiguiente, el objeto 1 podría tener ungrado de pertenencia a rojo de 0,8, un grado de pertenencia a verde de0,02, y un grado de pertenencia a amarillo de 0,18. Estos valores que-dan resumidos en la Tabla 6.1. Las lecturas de “grados de pertenen-cia” podrían ser tomadas por un instrumento como un espectroscopio,que permite distinguir la composición.

76 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 6.1.NGrados de pertenencia para diferentes valores de la variable “color” y losvalores correspondientes de la variable “tamaño”.

caso 1caso 2caso 3

rojo

0,80,00,0

Color

verde

0,021,000,00

amarillo

0,180,001,00

anchura

383

Tamaño

largo

514

altura

225

Page 85: Técnicas Para El Análisis Clínico de Datos

Observamos que el atributo color en caso 1 es de naturaleza difusa,mientras que en casos 2 y 3 es de naturaleza no-difusa. En la forma no-difusa, el color se asigna como el color predominante en cada caso. Porejemplo, podríamos cuantificar el “predominante” como el color cuyaproporción en la composición sea mayor de 50%.

En el caso del atributo tamaño, las cosas no son tan sencillas comoen el caso del atributo color. Tamaño es realmente un atributo jerár-quico, siendo compuesto de tres subatributos. Cada subatributo es unvalor numérico, que se podría medir, por ejemplo, en centímetros.¿Cómo representaríamos el subatributo anchura de forma difusa? Un posible método sería acordar o llegar a un consenso con unamayoría de los expertos, respecto a la categorización de este atributoen el contexto dado. Por ejemplo, se podría llegar a la conclusión deque la mejor representación y descripción de la naturaleza del valornumérico de anchura se da en tres categorías: estrecho, normal yancho. Se podría llegar a esta conclusión después de un estudio de lascaracterísticas de la distribución y tendencias de los valores represen-tados de forma gráfica, usando unos ejes apropiados. Junto con laasignación del número de categorías (en este ejemplo tres), tambiénse debe definir los rangos numéricos correspondientes a cada ca-tegoría.

Como ejemplo, vamos a definir que todos los objetos con una anchu-ra entre 1 y 3 (inclusive) son estrechos; entre 3 y 6 son normales; y entre6 y 10 son anchos. En una interpretación no-difusa, cada objeto cae enuna y solo una categoría, con grado de pertenencia 1. Las demás cate-gorías tendrían asignadas un grado de pertenencia 0. En una interpreta-ción difusa, definimos una función de pertenencia que asigna un grado depertenencia correspondiente al objeto para cada categoría. Una conside-ración clave es la forma original en la cual los datos fueron captados. Silos datos fueron originalmente captados en una forma difusa, es posibleque el proceso de entrada de datos fuera la escritura de una cruz sobreuna escala continua. Dicha escala tendría una serie de etiquetas lingüísti-cas (por ejemplo estrecho, normal, ancho) asignadas en diferentes puntosa lo largo de una línea recta. En vez de la forma difusa, es posible que losdatos fueran captados originalmente de forma no-difusa (numérica ocategórica). Aunque los datos no hayan sido captados en forma difusa, selos podemos proporcionar como entradas a una técnica difusa, por ejem-

77LA REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Page 86: Técnicas Para El Análisis Clínico de Datos

plo, a fuzzy c-Means, que calcula los grados de pertenencia de los casosa los clusters (categorías).

Calculando la fuerza de relación entre atributos–covarianza: has-ta ahora hemos considerado métodos para representar cualquier tipo dedato en la forma difusa, con el objetivo de comparar la fuerza de relaciónentre atributos. Ahora consideramos un cálculo parecido al de la cova-rianza, que nos podría servir para dar una matriz de covarianzas como lade la Tabla 6.2. Los valores han sido calculados usando la función están-dar de correlación (Pearson) de SPSS, con opción de covarianza, para losdos conjuntos de atributos-variables de la Tabla 6.1.

Los valores de las covarianzas en la Tabla 6.2 indican que existe pocarelación (0,66) entre color = rojo y anchura, para estos objetos. Una cova-rianza positiva y significativa entre estos valores-atributos sería, porejemplo, 1,33. Anotamos que los valores de las covarianzas pueden tenerun rango fuera de [-1,1], mientras que el valor de la correlación debeestar en [-1,1]. Algoritmos que procesan datos de casos y generan valoresparecidos a covarianzas suelen hacerlo mediante una serie de manipula-ciones matriciales y vectoriales.

Representación difusa

En el caso de una representación homogénea difusa, se puede com-parar cada valor-variable con cada otro valor-variable, y de esta formaestablecer sus respectivas covarianzas.

Un prerrequisito es que la representación difusa debe ser homogénea.Ahora vamos a considerar el problema real de la admisión de pacientesen la unidad UCI de un hospital. Existen diversas variables para las cua-les una representación difusa encaja bien con el proceso de toma de deci-

78 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 6.2.NEjemplo de una matriz de covarianzas para los variables-atributos color = “rojo” y tamaño (anchura) de la Tabla 6.1.

Color (rojo)Tamaño (anchura)

Color (rojo)1,00,66

Tamaño (anchura)0,661,0

Page 87: Técnicas Para El Análisis Clínico de Datos

sión que hacen los expertos médicos. Por ejemplo, esto podría ser en elcaso para las variables tipo de paciente y probable infección en el momento de admisión a la UCI, dónde el valor que se asigna a cadapaciente se determina mediante un proceso intuitivo.

Un ejemplo de un caso que sería difícil de categorizar sería uno conun grado de pertenencia a cada una de las posibles clases de aproxima-damente 0,50. Una posible causa de esta situación sería que el caso pose-yera algunos síntomas que no fueran característicos de ninguna de lascategorías disponibles. Esta es una situación frecuente en el entorno clí-nico. El ejemplo detallado en [Bezdek81] es de un conjunto de datos de107 casos con 11 variables descriptivas de tipo binario. Las variables sonsíntomas que se consideran clínicamente relevantes para pacientes quepadecen dolor abdominal causado por (1) hernia hiatal o (2) piedras deriñón. Se consigue obtener una clasificación en la presencia de grados depertenencia de interpretación ambigua.

Esperamos que la representación difusa pueda proporcionarnos una pla-taforma común para poder tratar todos tipos de variables de una forma ho-mogénea. Una posible implementación sería la modificación del algoritmode fusión de atributos de Hartigan [Hartigan75] para hacer posible su apli-cación a matrices de variables de tipo difuso. A continuación vamos a con-siderar cómo representar a variables de tipo difuso en diferentes situaciones.A partir de esta representación, usamos un cálculo de covarianza difusa[Bezdek81] que nos permite elegir las variables a fusionar en cada paso.

La representación de los datos de “admisioneshospitalarias”

En el caso del conjunto de datos de “admisiones UCI” (véase Capítu-lo 9 y Anexo 1 para una descripción completa), usaríamos la representa-ción difusa sólo para las variables indicadas como adecuadas por losexpertos médicos. Las siguientes variables fueron propuestas: “estadoprevio de salud”, “tipo de paciente”, “infección probable en el momentode admisión a la UCI”, e “incremento de creatinina > 124 Mol/l en lasúltimas 24 horas asociado con oliguria”. Recordamos que el conjunto dedatos UCI fue capturado de forma no-difusa, y estas propuestas fueron elresultado del análisis posterior de los datos (véase Capítulo 9) y median-te conversaciones con el experto médico.

79LA REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Page 88: Técnicas Para El Análisis Clínico de Datos

80 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 6.1.NRepresentación de la variable de entrada “estado previo de salud”.

Figura 6.2.NRepresentación de la variable de entrada “tipo de paciente”.

Figura 6.3.NRepresentación de la variable de entrada “infección probable en el mo-mento de admisión a la UCI”.

Figura 6.4.NRepresentación de la variable de entrada “incremento de creatinina��124 Mol/l en últimas 24 horas asociado con oliguria”.

Page 89: Técnicas Para El Análisis Clínico de Datos

Representación de las respuestas de un cuestionarioclínico en forma de escalas continúas

Proponemos un cuestionario para capturar datos de admisiones queusa escalas continuas sobre las cuales el doctor indica con una cruz (porejemplo) el lugar donde él/la pensó apropiado como respuesta a aquellapregunta. Por ejemplo:

¿Existencia de coma o estupor profundo en el momento de admisióna la UCI?

En el ejemplo de la Figura 6.5 podemos ver una escala de cuatro eti-quetas lingüísticas asignadas por el experto médico (usando su propiaterminología). La función de pertenencia determinará si la distancia a lolargo de la escala es lineal (equidistante entre puntos discretos), logarít-mica, u de otra forma.

La principal ventaja de este enfoque es la mayor precisión y valor dela información captada, que es lo que ofrece la forma de representacióndifusa.

La desventaja principal y problemas a resolver son: la necesidad de definir las etiquetas lingüísticas (junto con el experto); la necesidad deencontrar la mejor definición posible para la función de pertenencia (unasimplificación sería el uso de una forma trapezoidal o triangular); y elhecho de que la definición depende de la subjetividad del experto médi-co en cada aplicación.

En la práctica, el método que se elige debe dar una decisión no-difu-sa como salida o resultado. Es decir, o el paciente se debe operar conurgencia o no. Existen muchas representaciones para reglas difusas queproducen estados no-difusos como salida de un proceso difuso de losdatos. Una de las representaciones más referenciadas de este tipo es la de[Takagi85].

81LA REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Ningunaindicación

Algunaindicación

Indicaciónsignificativa

Indicaciónclara

Figura 6.5NEjemplo de una escala continua con cuatro etiquetas lingüísticas.

Page 90: Técnicas Para El Análisis Clínico de Datos

La captura de datos de tipo no-difuso

y de tipo difuso

Para datos reales, es vital diseñar y comprobar diferentes métodosde representación. En el caso de los datos clínicos existen muchasvariables de tipo binario para las cuales una pregunta compleja requie-re una respuesta sencilla con posibles valores “sí” o “no”, como se veen el ejemplo (a). Existen también respuestas de selección múltiple auna pregunta, como en el ejemplo (b). O podemos tener una preguntaque requiere que la respuesta sea indicada en una escala, como en elejemplo (c).

(a)NPregunta (al doctor): ¿Es probable que el paciente ha tenido algunainfección antes de admisión a la UCI?

(a)NSí __ No __

(b)NPregunta (al doctor): ¿Cuál es su evaluación del estado previo desalud del paciente?

(a)N1 __ 2 __ 3 __ 4 __

(c)N¿Incremento de creatinina � 124 Mol/l en las últimas 24 horas asocia-do con oliguria?

(a)NNo Sí

La captura de datos en la forma difusa es evidente en el ejemplo (c),mientras que preguntas (a) y (b) requieren una sola categoría como res-puesta y capturan los datos en la forma no-difusa. La función de perte-nencia subyacente es crítica a la conversión de la representación de da-tos de entrada a un grado de pertenencia. Esto se puede hacer medianteuna colaboración entre el experto médico y el estadístico. Se verificaríanlos resultados del método con datos reales de prueba, y una comproba-ción posterior del experto. Para evaluar una función de pertenencia,podemos usar una mezcla de casos con un alto y bajo grado de perte-nencia a una clase, y otros casos que caen de forma ambigua entre unaclase y otra.

82 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 91: Técnicas Para El Análisis Clínico de Datos

6.2.NCOMPARACIÓN ENTRE DIFERENTES TIPOSDE DATOS

A menudo, en la labor del análisis estadístico de datos se dedica untiempo insuficiente a la asignación de tipos a las variables que mejorrepresentan a la naturaleza de los datos. Como consecuencia, el análisisposterior sufre debido a fallos en la veracidad de las suposiciones inicia-les. Esto es aún más evidente cuando consideramos la problemática decomparar a variables de tipos distintos. Descubrimos que hay muchasdiferentes posibles maneras de comparar, por ejemplo, una variablecategórica con una numérica. En esta sección del libro, vamos a verejemplos de comparación mediante diagramas de densidad de puntos, so-lapamiento, consideración de casos en puntos extremos o ambiguos,etcétera.

El enfoque del material presentado en esta sección es la definiciónde los cálculos de correlación entre diferentes tipos de variables. Elmotivo es la definición de una base que nos permita crear una matrizde correlación. Esta matriz luego sirve como entrada al algoritmo defusión de Hartigan, que unifica a las variables en un número reduci-do de factores. Como una simplificación inicial, vamos a considerarlos tipos categórico ordinal (por ejemplo, alto, medio, bajo) y ca-tegórico no-ordinal (por ejemplo azul, amarillo, rojo) como un solotipo.

Los siguientes algoritmos han sido implementados en funciones “C”:(A) Comparación de variables de tipo entero o flotante con variables detipo entero o flotante; (B) Comparación de variables de tipo categóricono-ordinal con variables de tipo categórico no-ordinal. Las pruebas condatos de entrada han sido validadas con SPSS, en el primer caso con lafunción de correlación estándar y en el segundo caso con la función de chi-cuadrado (�2), los resultados siendo idénticos.

Los siguientes algoritmos han sido desarrollados “en papel” y verifi-cados dando datos de prueba de entrada y comprobando los resultados:(C) Comparación de variables de tipo categórico no-ordinal con varia-bles de tipo entero o flotante; (D) Comparación de variables de tipo di-fuso categórico ordinal con variables de tipo categórico no-ordinal;(E) Comparación de variables de tipo categórico ordinal difuso con va-riables de tipo categórico no-ordinal difuso.

83A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Page 92: Técnicas Para El Análisis Clínico de Datos

El siguiente algoritmo no fue desarrollado por completo, pero seconsidera que sucede de forma natural a partir de los algoritmos que yahemos definido en más detalle: (F) Comparación de variables de tipocategórico ordinal difuso con variables de tipo categórico ordinal di-fuso.

Proponemos que (E) es una simple variante de (D) y (C) , mientrasque (F) es una variante de (D) . Para representar la diferencia entre varia-bles de tipo categórico ordinal a las de tipo categórico no-ordinal,podríamos calcular la información adicional aportada por la ordenaciónexplícita de las clases en las variables de tipo ordinal.

Hacemos constar que los resultados de los cálculos de todas las corre-laciones tienen que ser normalizados (que es trivial) y calibrados (redis-tribuidos) para asegurar valores homogéneos que puedan ser comparadosentre sí. Un modus operandi es el de realizar las pruebas incluyendodatos en puntos extremos (max, min), junto con una selección de puntosintermedios. Para estos valores podemos usar cocientes o factores deescala, cuando sea necesario, para calibrar en cada caso. Como ejemplode una calibración, suponemos que la correlación entre categórico ordi-nal y categórico ordinal difuso tiene un sesgo hacía 1 (mayor densidadhacía la parte de la escala acabando en 1). Por otra parte, suponemos quela correlación de entero o flotante y categórico ordinal difuso tiene unsesgo más hacía el 0. La consecuencia sería que la segunda correlación(hacía 0) sería perjudicada y elegida con menos frecuencia en el momen-to de elegir pares de variables para fusionar, debido a los valores másbajos de correlación mutua. Como posible solución se podría introducirun valor compensatorio para “calibrar”, en este sentido, a las distribucio-nes de las dos variables.

A)NComparación de las variables de tipo entero o punto flotante convariables de tipo entero o punto flotante

Esta comparación implica una correlación estándar de variables nu-méricas que hemos implementado como una función de “C”. Si entramoslos datos que se ven en las columnas 3 y 4 de la Tabla 6.3, la función pro-duce la matriz de correlación que se ve en la Tabla 6.4. Los resultadosfueron comprobados con SPSS (stats-correlate-bivariate-Pearson) des-viaciones cross product y covarianza.

84 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 93: Técnicas Para El Análisis Clínico de Datos

B)NComparación de las variables de tipo categórico no-ordinal convariables de tipo categórico no-ordinal

El método que usamos compone de tres pasos, cada paso dependien-do de la salida del paso anterior. (1) Se calcula la matriz de contingen-cias; (2) se calcula el valor de Chi-Cuadrado (�2); (3) se calcula el co-ciente de Cramer. Las funciones que corresponden a los tres pasos hansido implementadas en código “C”. Ahora vamos a ver en detalle a cada paso.

1)NMatriz de contingencias. Podemos usa una prueba de indepen-dencia en una tabla de contingencia según el método detallado en [Cua-dras80]. Primero definimos la distancia de �2 como:

�2 = n� � �f2

ij ! - 1!

(6.1)"�" i,j fi fj # #

Donde i indica el valor i de la primera variable, j indica el valor j dela segunda variable, y n es el número de valores o casos. f2

ij es la fre-cuencia de valor i de la primera variable, con respecto al valor j de la se-gunda variable, en el conjunto de datos. Por ejemplo, si el valor i de la

85A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Tabla 6.3.NValores correspondientes para la variable categórica “sexo”, la categóri-ca (ordinal) “diag” (nosis), y las variables numéricas “edad” y “fio2” (datos clínicos).

sexo

VMMVMVMVV

diag

151815501821302121

edad

255023407365483539

fio2

658075856070604555

Tabla 6.4.NMatriz de correlación para las variables “edad” y “fio2”.

edadfio2

edad

1.000-0,244

fio2

-0,2441.000

Page 94: Técnicas Para El Análisis Clínico de Datos

variable “sexo” es igual a “V”, y valor j de la variable “diagnóstico” es 5,entonces el número de ocurrencias de sexo=“V” y diagnóstico = 5 en elconjunto de datos es f2

ij . El valor fi representa la suma de las frecuenciaspara cada posible valor de la primera variable, y el valor fj representa lasuma de las frecuencias para cada posible valor de la segunda variable.En general, se puede considerar f como la “tabla de contingencia”, de lacual se ve un ejemplo en la Tabla 6.5.

Como ejemplo, consideramos la variable binaria “sexo”, que es detipo categórico con dos posibles clases; la segunda variable “diag” tam-bién se considera de tipo categórico, y en los datos de ejemplo de la Ta-bla 6.3 se ve que tiene 5 posibles clases. La tercera columna, “edad”, unavariable de tipo numérico, se usa en ejemplos posteriores.

Ahora volvemos al proceso en sí: primero procesamos los casos quese ven en la Tabla 6.3, columnas “sexo” y “diag”, en orden de calcular susfrecuencias relativas. Dichas frecuencias se ven en la Tabla 6.5, en unamatriz de contingencia. En la Tabla 6.5, las columnas corresponden a losdiferentes valores de la variable “diag” que existen en el conjunto dedatos. Las filas corresponden a los diferentes posibles valores de la varia-ble categórica “sexo”. Los valores que se ven en la tabla son frecuencias,o el número de casos que corresponden a cada pareja atributo-valor. Porejemplo, “diag”=21 y “sexo”=V ocurren 3 veces en el conjunto de datos.

2)NValor de �2. En el siguiente paso, calculamos el valor �2, que tie-ne los siguientes subpasos: calcular el número total de casos, calcular lasuma para cada columna, calcular la suma para cada fila, calcular elnúmero de valores para cada atributo, entonces repetir para todos los ele-mentos en la matriz.

((0,1 + 0,2 + 0,6 + 0,125 + 0,5 + 0,25 ) - 1) = 9 × (1,775 -1) = 6,975

9

86 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 6.5.NFrecuencias relativas para los casos de la Tabla 6.3.

variable V“sexo” M

51111

12

1802

2

501110

11

211310

13

301011

11

suma de las ocurrencias para cadaatributo-valor de “sexo”

54

variable “diag”

Page 95: Técnicas Para El Análisis Clínico de Datos

3)NComo último paso, calculamos el cociente de contingencia deCramer:

6,975 / 9 = 0,3875

2

Observaciones:

En la práctica se puede considerar la distancia Chi-Cuadrado (�2) nosólo como una estadística de comprobación, sino también como unamedida de adecuación. En este sentido, el �2 es una medida de adecua-ción global del modelo respecto a los datos. Mide la distancia (diferencia,discrepancia, desvío) entre la matriz de covariancias de la muestra y lamatriz adecuada de covarianzas. En el ejemplo que acabamos de estudiaren esta sección, podemos considerar la primera fila de la Tabla 6.5(sexo=“V”) como la matriz de covarianzas de la muestra. Asimismo,podemos considerar la segunda fila de la Tabla 6.5 (sexo=“M”) como lamatriz adecuada de covarianzas. Así que estamos buscando una adecua-ción (relación o distancia) entre los valores de “diag” para sexo=“V” ylos valores de “diag” para sexo=“M”. De otra parte, �2 es una medida deno-adecuación en el sentido de que un valor pequeño de �2 correspondea una buena adecuación, mientras que un valor grande de �2 indica unamala adecuación. Un valor cero para �2 correspondería a una adecuaciónperfecta. Así que en el ejemplo anterior, el valor de �2 calculado en elpaso (2) es 6,975 / 9 = 0,775. Para los datos en la Tabla 6.5 este valorresultante indica una adecuación razonable y demuestra una dependenciasignificativa entre los valores.

C)NComparación de variables de tipo categórico no-ordinal convariables de tipo entero o flotante

Para poder calcular una correlación con esta combinación de tipos devariable tenemos que elegir un algoritmo que nos permita compararnúmeros reales con símbolos (categorías). Hay dos principales opcio-nes: (1) usar un método de cosecha propia basado en simples frecuencias;(2) elegir un algoritmo “estándar” a partir de los disponibles. En esta sec-ción, hemos elegido la opción (1), que sirve como ejercicio desde prime-ros principios. La Tabla 6.6 muestra algunos valores para dos variablestípicas de tipo numérico y categórico, respectivamente.

87A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Page 96: Técnicas Para El Análisis Clínico de Datos

Si procesamos los valores de las columnas “sexo” y “edad” de la Ta-bla 6.3, tendremos como resultado la matriz de correlación que se ve enla Tabla 6.6, que indica una baja correlación entre estas dos variables.

Como modus operandi, primero estudiamos una por una las cate-gorías de la variable categórica, y después calculamos el máximo, míni-mo y media de la variable numérica. En el caso de la variable “sexo”,podemos ver los resultados en las Tablas 6.7 y 6.8.

Un ejemplo de una correlación perfecta sería sí todos los casos desexo=V tuvieron una edad menor o igual a 50 años y todos los casos de sexo=M tuvieron una edad mayor de 50 años.

88 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 6.6.NResultado de la correlación de la variables “edad” y “sexo”.

edadsexo

edad

1,00,3

sexo

0,31,0

Tabla 6.7.NEjemplo 1: valores de la variable numérica “edad” para cada de las cate-gorías de la variable categórica “sexo”.

sexo = V

2535394065

sexo = M

23485073

Tabla 6.8.NEstadísticas básicas para la variable numérica “edad” para cada categoríade la variable categórica “sexo” (ref.Tabla 6.7, ejemplo 1).

mín

2523

máx

6573

VM

media

40,848,5

rango

4050

% solap. derangos

100%80%

número totalde puntos

54

número totalde puntosen solap.

54

% de puntosen solap.

100%50%

Page 97: Técnicas Para El Análisis Clínico de Datos

En la Tabla 6.8, la media de ambas categorías es 0,9, siendo esto igualal porcentaje en el que los rangos solapan, como se ve en la columna cincode la tabla. Esto implica que casi no hay diferencia entre las categorías V,M con respecto a la variable de “edad”. La correlación sería 1 - 0,9 = 0,1,que podemos interpretar en este caso como una correlación muy pe-queña.

En la Figura 6.6 vemos que el rango de valores correspondiente asexo=“V” se define desde punto A hasta punto B, mientras que el rangode los valores correspondiente a sexo=“M” va desde punto C hasta pun-to D. El solapamiento de los dos rangos existe entre los puntos A y B,según lo indicado por la zona en gris. La última columna de la Tabla 6.8indica el porcentaje calculado de solapamiento que toma en cuenta ladensidad para los puntos de datos seleccionados.

Ahora, en la Tabla 6.9 consideramos una distribución un poco dife-rente como ejemplo de lo que sería una mayor correlación entre las dosvariables “edad” y “sexo”.

89A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

V

M

A

C

B

D

0 10 20 30 40 50 60 70 80edad

Figura 6.6.NRepresentación gráfica de la densidad de puntos, usada para identificar elgrado de solapamiento de los valores de la variable numérica “edad” con las categorías

de la variable categórica “sexo” (ref.Tabla 6.7, ejemplo 1).

Tabla 6.9.NEjemplo 2: valores de la variable numérica “edad” para cada de las cate-gorías de la variable categórica “sexo”.

sexo = V

2535454850

sexo = M

45505575

Page 98: Técnicas Para El Análisis Clínico de Datos

En la Tabla 6.10 se ven las estadísticas básicas de la variable “edad”respecto a la variable “sexo”. A partir del valor de “solapamiento” (co-lumna 5), observamos que la correlación es mucho mayor que en loscasos de los valores de las Tablas 6.7 y 6.8.

En la Tabla 6.10, la media de las dos categorías es igual a((20+17)/2)/100 = 0,185, que es igual al porcentaje de rangos que se sola-pan. Esto implica que existe una diferenciación mucho mayor (que elejemplo previo de la Tabla 6.8) para sexo={V, M} comparada con “edad”.La correlación sería 1 - 0,185 = 0,815.

Sin embargo, este método aún no toma en cuenta la densidad de lospuntos. Es decir, no sólo hay que considerar el porcentaje de solapa-miento entre los respectivos rangos, sino también hay que incluir la infor-mación de cuántos puntos hay en el solapamiento. Para poder calcular elnúmero de puntos, podemos usar un factor de ponderación, como porejemplo, el número en la zona de solapamiento dividido por el número depuntos en total (fuera y dentro del solapamiento).

En la Figura 6.7, vemos una representación gráfica de una zona desolapamiento y de densidad de puntos. El rango de los valores para se-xo=V es de puntos A hasta B, mientras que el rango de valores parasexo=M es de C hasta D. Los dos rangos solapan entre puntos C y B,según lo indicado por la zona gris. La última columna de la Tabla 6.10indica el porcentaje de solapamiento calculado que tiene en cuenta ladensidad de los puntos de datos seleccionados.

Esto implica que, a pesar de que el solapamiento de la Figura 6.7 esmucho menor (5 en comparación con 25) que el de los datos de la Figu-ra 6.6, posee una media de 55% de los casos (puntos), lo que implica unamayor “densidad”. Este hecho tiene que quedar reflejado en el cálculo dela correlación, y a continuación vamos a considerar dicho cálculo.

90 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 6.10.NEstadísticas básicas para la variable numérica “edad” para cada categoríade la variable categórica “sexo” (ref.Tabla 6.9, ejemplo 2).

mín

2545

máx

5075

VM

media

40,6156,25

rango

2530

% solap. derangos

20%17%

número totalde puntos

54

número totalde puntosen solap.

32

% de puntosen solap.

60%50%

Page 99: Técnicas Para El Análisis Clínico de Datos

Se proponen a continuación tres métodos alternativos para calcu-lar la correlación en términos del solapamiento que acabamos de co-mentar:

1)NDefinimos los valores de los casos en el solapamiento como{v1,v2, …, vn}, entonces la suma de los valores en el solapamiento será

nS = vi

i=1

Si el número de puntos (casos) en el solapamiento es Nsolapa, el nú-mero de puntos (casos) fuera del solapamiento es Nno solapa, y se defineel % de solapamiento como Psolapa, entonces el valor de la correlaciónserá:

C = (S / (Nsolapa + Nno solapa ) ) * Psolapa

Si existiera un rango muy amplio, esto mantendría la comparabilidadde los valores.

2)NLa media de los valores dentro del solapamiento. Es decir,C = S / Nsolapa .

3)NCalcular un cociente que relaciona el tamaño relativo del solapa-miento con el número de casos dentro del solapamiento. Si Psolapa es el %de solapamiento, y Pcasos es el % de casos dentro del solapamiento, enton-ces C = Psolapa × Pcasos.

91A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

V

M

A

C

B

D

0 10 20 30 40 50 60 70 80

edad

Figura 6.7.NRepresentación gráfica de la densidad de puntos usados para identificar elgrado de solapamiento de los valores de la variable numérica “edad” con respecto a las

categorías de la variable categórica “sexo” (ref.Tabla 6.9, ejemplo 2).

Page 100: Técnicas Para El Análisis Clínico de Datos

Por ejemplo:

Primer atributo-valor, sexo=“V”. Si el solapamiento es 20% y el % de ca-sos dentro del solapamiento es 60%, entonces Psolapa = 0,20 y Pcasos = 0,60,el cual resulta en 0,20 × 0,60 = 0,12

Segundo atributo-valor, sexo=“M”. Si el solapamiento es 17% y el % de ca-sos dentro del solapamiento es 50%, entonces Psolapa = 0,17 y Pcasos = 0,50,el cual resulta en 0,17 × 0,50 = 0,085

Esto produce un valor medio (de los dos atributos-valor) de (0,12 +0,085) = 0,205/2 = 0,1025

Observamos que para poder comparar dos variables de tipo ordinal esnecesario incorporar la magnitud.

D)NComparación de variables de tipo categórico ordinal difuso convariables de tipo categórico no-ordinal

En procesos (A) hasta (C), todos los tipos de las variables que hemoscomparado entre sí han sido “no-difusos”. Hemos comprobado lassiguientes combinaciones de tipos: numérico con numérico, categóricocon categórico, y categórico con numérico. En proceso (D) vamos aincorporar el tipo difuso, que será considerado como una categoría conun rango.

Vamos a usar como ejemplo la variable “Mac_Cabe” del conjunto dedatos UCI, que tiene 3 categorías, 1, 2 y 3. Las categorías tienen elsiguiente significado: 1=sin enfermedad o no-mortal, 2=finalmente mor-tal (<5años), 3=rápidamente mortal (<1 año). La versión difusa de estavariable incluye un grado de pertenencia para cada posible categoría.Nuestro objetivo es poder comparar o calcular una correlación entre losdatos difusos de Mac_Cabe, que consiste en tres grados de pertenenciapor valor, y la variable categórica “sexo” cuyo tipo es no-difuso (un valorsólo puede pertenecer a una categoría a la vez). Se ve un resumen deestos datos en la Tabla 6.11.

Si consideramos “Mac_Cabe” como “no-difuso”, asignando la cate-goría en cada caso como la que tiene el grado de pertenencia más alto, elresultado son los valores que se ven en la Tabla 6.12.

92 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 101: Técnicas Para El Análisis Clínico de Datos

Ahora, para cuantificar el grado de relación entre las dos variables,usamos �2, según la definición dado en el Capítulo 7, Sección 1.

Sin embargo, hay que tener en cuenta que ya no estamos tratando desimples frecuencias. Como un enfoque sencillo y viable, podemos sumarlos grados de pertenencia y dividir por el número de casos. Entoncestenemos como resultado intermedio M matrices, dónde M es igual alnúmero de categorías de la variable difusa. Como paso final, calculamosuna sola matriz, cuyos elementos serían los promedios de los valores

93A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Tabla 6.11.NGrados de pertenencia de los valores de la variable “Mac_Cabe” (de tipocategórico ordinal difuso) respecto a los valores de la variable “sexo (de tipo categórico

no-ordinal no-difuso).

1

0,050,550,100,330,550,150,300,300,05

2

0,100,350,800,330,350,500,300,300,90

3

0,850,100,100,330,100,350,400,400,05

Sexo

VMMVMVMVV

Mac_Cabe

Tabla 6.12.NValores (no difusos) de la variable “Mac_Cabe” (de tipo categórico ordinal)respecto a los valores de la variable “sexo” (de tipo categórico no-ordinal.

Mac_Cabe

312212332

Sexo

VMMVMVMVV

Page 102: Técnicas Para El Análisis Clínico de Datos

correspondientes de las M matrices. En estos pasos hay que evitar la pér-dida de información.

En este proceso estamos buscando una consistencia en los valores.Es decir, si Mac_Cabe es igual a {0,05, 0,10, 0,85} para sexo=“V” enel caso A, esperamos que será similar en otro caso B y para unos valo-res parecidos. Por consiguiente, podríamos definir un “rango difuso”esperado para cada categoría, que nos permitirá calcular las diferen-cias (distancias) y promedios. Una menor diferencia implicaría unarelación más cercana. Podríamos seguir el mismo método para otrascombinaciones de tipos de variable. Por ejemplo, para dos variables,ambas de tipo difuso, o una variable de tipo difuso con otra de tiponumérico.

94 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 6.13.N“Matriz de grado de relación” para las variables “Mac_Cabe” y “sexo”.

Mac_

Cabe

V M

Sexo

* = grados de pertenencianúmero de categorías

Tabla 6.14.NGrados de pertenencia de los valores de la variable “Mac_Cabe” (detipo categórico ordinal difuso) que corresponden al valor de la variable categórica

“sexo” =“V”.

1

0,050,330,150,300,05

2

0,100,330,500,300,90

3

0,850,330,350,400,05

Sexo=“V”

VVVVV

Mac_Cabe

1*

2*

3*

Page 103: Técnicas Para El Análisis Clínico de Datos

E)NComparación de variables de tipo categórico ordinal difuso convariables de tipo categórico no-ordinal difuso

Para esta comparación de tipos, vamos a considerar dos casos deprueba de cercanía y lejanía en términos de grado de relación. Compa-ramos la variable “Mac_Cabe”, de tipo “categórico ordinal difuso”, conla variable “sexo”, de tipo “categórico no-ordinal difuso”. Como primerpaso, los valores para los grados de pertenencia que corresponden a cadacategoría de la primera variable se comparan con los grados de perte-nencia que corresponden a la primera categoría de la segunda variable(véase Tabla 6.16). Para claridad de este ejemplo, hemos definido estavez a “Mac_Cabe” con sólo dos posibles categorías. Como segundopaso, los valores para los grados de pertenencia que corresponden a cadacategoría de la primera variable se comparan con los grados de perte-nencia que corresponden a la segunda categoría de la segunda variable(véase Tabla 6.17). Observamos que los valores correspondientes a laprimera variable son diferentes en Tablas 6.16 y 6.17, dado que corres-ponden a las diferentes categorías de la segunda variable. Ahora supone-mos que tenemos los datos representados de la forma adecuada, como seve en las cinco primeras filas de la Tabla 6.16 y en las cuanto primerasfilas de la Tabla 6.17. A partir de ahí, primero calculamos los promediosde las columnas de grados de pertenencia, seguido por el cálculo de ladistancia de la media del grado de pertenencia para cada caso. Entoncescalculamos el promedio de la distancia de la media para cada columna,como se ve en la última fila de la Tabla 6.16. Este proceso se repite paralos valores de la Tabla 6.17. A continuación se calcula el promedio de las

95A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Tabla 6.15.NGrados de pertenencia de los valores de la variable “Mac_Cabe” (detipo categórico ordinal difuso) que corresponden al valor de la variable categórica

“sexo” =“M”.

1

0,550,100,550,30

2

0,350,800,350,30

3

0,100,100,100,40

Sexo=“M”

MMMM

Mac_Cabe

Page 104: Técnicas Para El Análisis Clínico de Datos

distancias de la media de las categorías de la segunda variable, que es elúltimo valor que se ve en la última fila a la derecha en cada tabla. Estepromedio se multiplica por 2 y se resta de 1 para dar un valor de “corre-lación”.

Ahora vamos a expresar lo que acabamos de comentar en términosformales:

El objetivo es comparar los grados de pertenencia � de cada categoríade la primera variable, v1, de tipo categórico ordinal difuso, con los gra-dos de pertenencia de cada categoría de la segunda variable, v2, de tipocategórico no-ordinal difuso. El objetivo es producir un valor de “corre-lación” entre las dos variables.

Sea ��ij la media de los grados de pertenencia de la categoría i de v1,respecto a la categoría j de v2. Sea ��j la media de los grados de perte-nencia de la categoría j de v2.

Entonces, la distancia de la media del grado de pertenencia � paracada categoría i y caso k de v1será

$�ik % �ik &���

ij

y la distancia de la media del grado de pertenencia � para cada categoríaj y caso k de v2 será

$�jk % �jk &���

j

El promedio de la distancia de la media para cada categoría i de v1será

n$�i % ( $�ik ) / n

k=1

El promedio de la distancia de la media para categoría j de v2 será

n$�j % ( $�jk) / n

k=1

96 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 105: Técnicas Para El Análisis Clínico de Datos

El promedio de los promedios de las distancias de la media para cadacategoría respectiva de las variables, dónde nc1 es el número de cate-gorías de v1 y nc2 es el número de categorías de v2 , será:

nc1 nc2� % ( ( $�i ) + ( $�j) ) / (nc1 + nc2)

i=1 j=1

La correlación resultante será:

C = 1 & (� × 2)

Las pruebas siguientes están diseñadas para validar la coherencia deeste método: (1) prueba para números que tienen correlación (aleatoria,casi todos distintos); y (2) pruebas para números que tienen una correla-ción muy acentuada (casi todos iguales). Para que la presentación seamás clara, las distancias de la media se calculan en una tabla distinta paracada atributo-valor de v2, es decir, sexo=“V” y sexo=“M”.

1)NEl caso cuando las variables se consideran “cercanas”

Consideramos el caso cuando las dos variables se consideran “cerca-nas” (en su grado de relación mutua).

En referencia a las Tablas 6.16 y 6.17, observamos que las prime-ras dos columnas contienen los grados de pertenencia de la variable“Mac_Cabe” de los casos correspondientes a los dos posibles valorescategóricos de la segunda variable “sexo”. En la tercera columna se ve elgrado de pertenencia de las categorías correspondientes de la variable“sexo”, es decir, V o M. En la Tabla 6.16 (sexo=“V”), está claro que exis-te una relación entre columnas 1 y 3, dado que todos los valores de lacolumna 1 son altos cuando todos los valores de la columna 3 son bajos.Asimismo, todos los valores de columnas 2 y 3 son bajos, aunque indi-cando una relación en menor medida a los valores de la columna 1. Estose refleja en el cálculo de los promedios de las distancias de la media,que confirma una relación más acentuada o “cercana” entre las dos va-riables.

En referencia a Tabla 6.17, se ve una situación similar a la de Ta-bla 6.16, con la excepción de que la magnitud de columnas 1 y 2 esinversa.

97A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Page 106: Técnicas Para El Análisis Clínico de Datos

98 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 6.16.NPromedio y distancia de la media de los grados de pertenencia de la variablecategórica ordinal difusa “Mac_Cabe” para “sexo” = “V”, y cuando existe una correlación

“cercana” entre los grados de pertenencia.

Promedio

Dist. media

Mac_Cabe

0,9000,8000,9000,7000,800

0,820

0,0800,0200,0800,1200,020

0,064

0,1000,2000,1000,3000,200

0,180

0,0800,0200,0800,1200,020

0,064

Sexo=“V”

0,1000,2000,3000,1000,100

0,160

0,0600,0400,1400,0600,060

0,072 Promedio = 0,067

Tabla 6.17.NPromedio y distancia de la media de los grados de pertenencia de la variablecategórica ordinal difusa “Mac_Cabe” para “sexo” = “M”, y cuando existe una correlación

“cercana” entre los grados de pertenencia.

Promedio

Dist. media

Mac_Cabe

0,1500,2000,0500,100

0,125

0,0250,0750,0750,025

0,050

0,8500,8000,9500,900

0,875

0,0250,0750,0750,025

0,050

Sexo=“M”

0,1000,3000,2000,100

0,175

0,0750,1250,0250,075

0,075 Promedio = 0,0583

Page 107: Técnicas Para El Análisis Clínico de Datos

El promedio de los promedios de las distancias de la media es (0,067+ 0,058)/2 = 0,0625, que multiplicado por 2 resulta 0,125. Por último, (1-0,125) resulta 0,875.

2)NEl caso cuando las variables se consideran “lejanas”

Ahora vamos a considerar el caso cuando las dos variables se consi-deran “lejanas” (en su grado de relación mutua). En referencia a lasTablas 6.18 y 6.19, observamos que las primeras dos columnas contienenlos grados de pertenencia de la variable “Mac_Cabe” de los casos corres-pondientes a los dos posibles valores categóricos de la segunda variable“sexo”. En la tercera columna se ve el grado de pertenencia de las cate-gorías correspondientes de la variable “sexo”, es decir, V o M. En laTabla 6.18 (sexo=“V”), está claro que hay poca relación entre las colum-nas 2 y 3, dado que existen diferencias aleatorias entre los valores corres-pondientes.

99A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Tabla 6.18.NPromedio y distancia de la media de los grados de pertenencia de la varia-ble categórica “Mac_Cabe” para “sexo” = “V”, cuando existe una correlación “lejana”

entre los grados de pertenencia.

Promedio

Dist. media

Mac_Cabe

0,900

0,100

0,500

0,900

0,100

0,500

0,400

0,400

0,000

0,400

0,400

0,320

0,100

0,900

0,500

0,100

0,900

0,500

0,400

0,400

0,000

0,400

0,400

0,320

Sexo=“V”

0,900

0,400

0,100

0,700

0,700

0,560

0,340

0,160

0,460

0,140

0,140

0,248 Promedio = 0,296

Page 108: Técnicas Para El Análisis Clínico de Datos

En la Tabla 6.19 vemos una situación parecida a la de Tabla 6.18, conla excepción de que la distancia de la media en cada caso es un poco másalta.

El promedio de los promedios de las distancias de la media es (0,296 +0,333)/2 = 0,3145, multiplicado por 2 es igual a 0,629. Por último, (1-0,629) resulta 0,371.

En resumen, de los casos (1) y (2), observamos que el caso “cercano”produce un valor de 0,875 y el caso “lejano” produce un valor de 0,371.Este resultado es consecuencia del simple promedio de promedios de lasdistancias de la media de los grados de pertenencia de cada de las cate-gorías de las dos variables, restando 1 de este valor. Nos permite obteneruna medida agregada y cuantitativa para la correlación entre una variablede tipo categórico ordinal difuso (en este caso “Mac_Cabe”) y una varia-ble de tipo categórico no-ordinal difuso (en este caso “sexo”).

F)NComparación de variables de tipo categórico ordinal difuso convariables de tipo categórico ordinal difuso

En el caso siguiente vamos a considerar que ambas variables son detipo difuso y tienen categorías que son ordenables. En el ejemplo a con-

100 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 6.19.NPromedio y distancia de la media de los grados de pertenencia de la varia-ble categórica “Mac_Cabe” para “sexo” = “M”, cuando existe una correlación “lejana”

entre los grados de pertenencia.

Promedio

Dist. media

Mac_Cabe

0,90,10,90,1

0,5

0,40,40,40,4

0,4

0,10,90,10,9

0,5

0,40,40,40,4

0,4

Sexo=“M”

0,90,40,40,3

0,5

0,40,10,10,2

0,2 Promedio = 0,333

Page 109: Técnicas Para El Análisis Clínico de Datos

tinuación, para mantener la claridad de la presentación hemos asignado 3y 4 categorías difusas a las variables “Mac_Cabe” y “P_H_Stat”, respec-tivamente. Sin embargo, se podría aumentar o reducir el número de cate-gorías según la naturaleza de las variables y la aplicación.

Como primer paso para analizar la relación entre estas dos variables,vamos a buscar “correspondencias”. Por ejemplo, observamos que losvalores {0,05, 0,05, 0,90} para Mac_Cabe corresponden a los valores{0,45, 0,20, 0,35, 0,00} para P_H_Stat. Luego, si observamos otra in-cidencia de los valores {0,05, 0,05, 0,90} (o otros parecidos) paraMac_Cabe, esperaríamos que los valores correspondiente para P_H_Stattambién fueran alrededor de {0,45, 0,20, 0,35, 0,00}. Este proceso re-quiere una comparación de todas las posibles combinaciones, y es afín alproceso de “detección de patrones similares”.

Para cuantificar el grado de relación entre las variables, un posibleenfoque sería convertir la segunda variable a tipo “no-difuso”, dejan-do a la primera variable como “difusa”, y después aplicar proceso (D).A continuación se convertiría la primera variable a “no-difusa”,dejando la segunda variable como “difusa”, aplicando otra vez el pro-ceso (D). Por último, se haría la media de los dos cálculos de cova-rianza.

101A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Tabla 6.20.NGrados de pertenencia de los valores de la variable “Mac_Cabe” (de tipocategórico ordinal difuso) y los correspondientes grados de pertenencia de los valores

de la variable “P_H_Stat” (de tipo categórico ordinal difuso).

10,050,600,100,330,500,100,250,300,05

20,050,300,800,330,350,550,250,300,90

30,900,100,100,330,150,350,500,400,05

10,450,900,400,050,400,500,100,600,70

20,200,050,400,450,300,400,400,050,20

30,350,050,200,450,200,100,400,300,10

40,000,000,000,050,100,000,100,050,00

Mac_Cabe P_H_Stat

Page 110: Técnicas Para El Análisis Clínico de Datos

Como alternativa, se podría calcular la proximidad de cada valor a cadade los demás valores, como se ve en las Tablas 6.21 y 6.22. Esto resultaríaen una distancia con la cual se podría calcular la respectiva media, distan-cia de la media, y promedio, de una forma parecida al proceso (E).

Ahora necesitamos una matriz de dimensión 3 por 4 para guardar lasdistancias, como se ve en la Tabla 6.22.

Si sumamos todas las diferencias en la Tabla 6.22, entonces tendre-mos una especia de “distancia” entre las dos variables.

102 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 6.21.NEjemplo de los grados de pertenencia para la variable “Mac_Cabe” y lascategorías de la variables “P_H_Stat”.

10,05

20,05

30,90

P_H_Stat

10,45

20,20

30,35

40,00

Mac_CabeEjemplo:

Tabla 6.22.NDistancias (diferencias) entre los grados de pertenencia para la variable“Mac_Cabe” y la variable “P_H_Stat” a partir de la Tabla 6.21.

0,05

0,05

0,90

0,45

0,40

0,40

0,45

0,20

0,15

0,15

0,70

0,35

0,30

0,30

0,55

0,00

0,05

0,05

0,90

Figura 6.8.NFunciones de pertenencia de forma trapezoidal y triangular para la varia-ble “Mac_Cabe”, de tipo categórica ordinal difusa.

Page 111: Técnicas Para El Análisis Clínico de Datos

6.3.NLA MEJORA DEL CUESTIONARIO PARAEL DIAGNÓSTICO DE APNEA DEL SUEÑO(ESTUDIO DEL CAPÍTULO 11)

En el estudio de los datos de casos de apnea en el Capítulo 11, nues-tro objetivo es el de mejorar el cuestionario como herramienta de filtropara el diagnóstico. Hemos diseñado un estudio en el cual se entrega alpaciente un cuestionario general del sueño, que sirve como una dobleevaluación en formato de escalas y en formato categórico para cada pre-gunta. De este modo evaluamos si el formato de escalas captura unamayor información del paciente y así produce una mayor correlación conel AHI (Índice de Apnea Hipopnea: véase Capítulo 5).

Hemos procesado hasta la fecha un total de 143 pacientes con estemétodo. Los pacientes han sido elegidos de forma aleatoria en el Centrode Estudios del Sueño del Hospital de la Santísima Trinidad, Salamanca.Los pacientes han sido evaluados desde el punto de vista de diversos pro-blemas: insomnio, somnolencia, ronquido, apneas, movimiento corporaldurante el sueño, ahogo nocturno, etc. Además, los pacientes del estudiofueron sometidos a un polysomnograma nocturno completo, o un poli-grama cardio-respiratorio nocturno supervisado, en el Centro de Estudiosdel Sueño. Las siguientes variables fueron grabadas: flujo del aire oral-nasal, ronquido, esfuerzo respiratorio torácico y abdominal, posicióncorporal, actimetría, electrocardiograma, pulso y saturación de oxígenoen la hemoglobina. El AHI fue determinado para todos los pacientes, y

103A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Figura 6.9.NFunciones de pertenencia de forma trapezoidal y triangular para la varia-ble “P_H_Stat”, de tipo categórica ordinal difusa.

Page 112: Técnicas Para El Análisis Clínico de Datos

este valor fue usado para comparar la precisión predictiva de los diferen-tes tipos de cuestionario.

Problemas inherentes de los cuestionarios estándary soluciones propuestas

El objetivo del cuestionario es el de proporcionar un perfil de infor-mación del paciente que permite un prediagnóstico de su condición. Estosirve como “filtro” y evita que pacientes con una baja probabilidad desufrir del síndrome de apnea (por ejemplo los que sufren de otra pato-logía), entran en el centro del sueño para recibir pruebas costosas entiempo y dinero.

El cuestionario consiste de dos principales secciones. La primeraregistra datos clínicos, con 15 variables clínicas clave: edad, sexo, pre-sencia de pareja, profesión, horario laboral, nivel de estudios, peso, altu-ra, circunferencia del cuello, IMC (Índice de Masa Corporal), presiónsanguínea, consumo de alcohol, consumo de cigarrillos, autoevaluaciónde los síntomas más importantes, otras enfermedades. La segunda sec-ción consiste en 41 preguntas a las cuales el paciente responde en unaescala de cinco puntos {nunca, raramente, a veces, a menudo, siempre}.Las preguntas están divididas en 3 subcategorias: 15 preguntas generalesdel sueño, 16 preguntas relacionadas con aspectos respiratorios y 9 pre-guntas relacionadas con aspectos de somnolencia. A partir de esta infor-mación, el doctor realiza una evaluación clínica: sano, roncador simple,dudoso, apnea típica, otra enfermedad. En el presente libro, y para losestudios de los Capítulos 10 y 11, interpretamos esta evaluación comodos categorías: apnea típica, o sin apnea. En la representación difusa,estas dos categorías tendrán vinculados los correspondientes grados de“pertenencia” para cada paciente. Remitimos al Anexo 2 para la versióndel cuestionario que hemos usado en el estudio del Capítulo 11, con laspreguntas representadas en forma de escalas. En el Capítulo 10 hemosusado el mismo cuestionario con la diferencia de que las preguntas serepresentan por categorías normales (no-difusas).

Uno de los problemas fundamentales de las respuestas al cuestionarioes el siguiente: en las preguntas de las secciones de “sueño general” y“patología respiratoria del sueño” hay varias preguntas clave que depen-

104 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 113: Técnicas Para El Análisis Clínico de Datos

den de la pareja del paciente como testigo. Por supuesto, si el pacienteduerme solo, o la pareja del paciente no sabe contestar, quedamos sinesta información clave para el diagnóstico. Para mejorar esta situación,en los casos para los cuales disponemos de la pareja, proponemos queél/la rellenen el cuestionario por separado. De esta forma podemos haceruna comprobación cruzada de las respuestas para identificar contradic-ciones e inconsistencias entre las respuestas de la pareja y las del mismopaciente.

Otro aspecto a considerar es que los pacientes en general pueden res-ponder de forma incorrecta, o insincera, o simplemente no entendercorrectamente las preguntas. Existen varias técnicas “estándar” para eldiseño de cuestionarios que nos ayudan a identificar inconsistencias ocontradicciones. Una de estas técnicas consiste en realizar la misma pre-gunta varias veces en diferentes lugares en el cuestionario, escrito en for-mas diferentes. Otra técnica es hacer una pregunta y luego tener otra pre-gunta que plantea de forma disimulada la inversa de la primera, paradetectar contradicciones. De esta información podemos derivar un índicede fiabilidad para las respuestas al cuestionario en su conjunto para unpaciente determinado, y/o un índice de fiabilidad para cada respuestaindividual a cada pregunta.

Cada paciente rellena dos versiones del cuestionario: la primera ver-sión con respuestas categóricas y la segunda con respuestas difusas deescalas. A cada paciente se le explicó previamente cómo rellenar los dostipos de cuestionario. En la práctica, los pacientes provinieron de unadiversidad de grupos socioeconómicos, con diferentes niveles educati-vos, culturales y profesionales. En lo que se refiere a las respuestas, aveces había errores en la forma en que el paciente respondió a la formacategórica y de escalas. Un error típico consistió en que el paciente res-pondió a la representación escalar como si fuera categórica, poniendouna cruz justo en el punto delimitador de las etiquetas lingüísticas, encada caso. De este modo, la respuesta pierde la interpretación como gra-do de pertenencia. Lo que aprendimos de esta situación fue la necesidadde dedicar un mayor tiempo a explicar a cada paciente la importancia dereflexionar sobre la respuesta escalar. De este modo, los pacientes pudie-ron comprender nuestros objetivos en el estudio. Por ejemplo, la sutilezaque aporta la indicación de una cruz en la escala entre las etiquetas de“frecuentemente” y “siempre”, dos terceras partes desde “frecuentemen-

105A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Page 114: Técnicas Para El Análisis Clínico de Datos

te” y una tercera parte desde “siempre”. Desde luego, dado que los pa-cientes fueron captados del público en general, explicarles el proceso noera un objetivo fácil de conseguir.

Por último, tuvimos que superar el problema relacionado con el volu-men de datos disponible: conseguir un número suficiente de casos paraprobar el método. Muchas de las técnicas de aprendizaje automatizadorequieren N*10 casos para cada N variables descriptivas. Además, losdatos deberían representar a un grupo homogéneo de la población. Porejemplo, pacientes entre 45 y 65 años de edad con un nivel medio deestudios, viviendo en la misma zona geográfica, sin enfermedades secun-darias. En el caso de los datos de los estudios de los Capítulos 10 y 11,tenemos datos reales con una muestra aleatoria de pacientes que cual-quier clínica tiene que tratar en cualquier día. Por consiguiente, nuestroobjetivo es conseguir que nuestros métodos de proceso de datos aportenresultados aceptables e útiles a partir de ellos.

Existen algunas preguntas en el cuestionario que sólo pueden serrespondidas por la pareja del paciente, mediante su observación du-rante sueño. A continuación veremos algunos ejemplos de este tipo depregunta, junto con otras que requieren la respuesta del mismo pa-ciente.

Ejemplos de preguntas al paciente y a su pareja

AL PACIENTEG11 ¿SABE UD. O LE HAN DICHO QUE MUEVE MUCHO

LAS PIERNAS MIENTRAS DUERME?1–nunca 2–raramente 3–a veces 4–a menudo 5–siempre

A LA PAREJAG11 ¿SU COMPAÑERO DE HABITACIÓN MUEVE MUCHO

LAS PIERNAS MIENTRAS DUERME?1–nunca 2–raramente 3–a veces 4–a menudo 5–siempre

A LA PAREJAR1 ¿ SU COMPAÑERO DE HABITACIÓN RONCA MIEN-

TRAS DUERME?1–nunca 2–raramente 3–a veces 4–a menudo 5–siempre

106 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 115: Técnicas Para El Análisis Clínico de Datos

A LA PAREJAR2 ¿LOS RONQUIDOS DE SU PAREJA LE DESPIERTAN O

SE OYEN DESDE OTRA HABITACIÓN?1–nunca 2–raramente 3–a veces 4–a menudo 5–siempre

A LA PAREJAR7 ¿SU PAREJA “DEJA”DE RESPIRAR MIENTRAS DUERME?1–nunca 2–raramente 3–a veces 4–a menudo 5–siempre

A LA PAREJAR8 ¿UD. HA DESPERTADO A SU COMPAÑERO DE HABI-

TACIÓN POR MIEDO A QUE DEJE DE RESPIRAR ?1–nunca 2–raramente 3–a veces 4–a menudo 5–siempre

Ejemplos de preguntas realizadas más de una vez en diferentesformas

R5 ¿ HA NOTADO UN AUMENTO EN LA INTENSIDAD DESU RONQUIDO ÚLTIMAMENTE?

1–no 2–<6 meses 3–6–12 meses 4–>1 año

R17 ¿HACE CUÁNTO TIEMPO QUE SU NIVEL DE RON-QUIDO NO HA CAMBIADO?

1–No ha cambiado 2–<6 meses 3–6–12 meses 4–>1 año

(a)NRepresentación difusa de los datos – Cuestionario de evalua-ción para casos de apnea

Hemos usado la problemática del filtro de pacientes mediante el usode cuestionarios como ejemplo de la comparación del enfoque de larepresentación categórica respecto al enfoque de la representación difu-sa (en escalas continuas). Esta problemática también nos sirve paracomprobar unas técnicas “teóricas” con datos reales. Para definir elcuestionario, tenemos que tomar una serie de decisiones: (a) decidircuáles preguntas incluir en el cuestionario; (b) el orden de las preguntas;(c) la forma de expresar las preguntas; (d) el número de etiquetaslingüísticas para cada pregunta; (e) la naturaleza y forma de las funcio-nes de pertenencia. Existen otras dos áreas de consideración, que son:(1) cómo capturar los datos y (2) como procesarlos. El método “teórico”que hemos probado para generar el diagnóstico a partir de los datos es eloperador de agregación “WOWA”. Modificamos a WOWA para poder

107A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Page 116: Técnicas Para El Análisis Clínico de Datos

procesar datos con valores desconocidos, y para aprender los vectoresde cocientes usando un algoritmo genético. Remitimos a la última partede la presente Sección 6.3, y a las Secciones 2.3, 7.4 y 8.2 del libro, parauna descripción detallada de WOWA y de su adaptación y uso para eldiagnóstico de apnea.

Representación de las etiquetas lingüísticasde las respuestas al cuestionario en la forma difusa

Ahora vamos a considerar cómo podemos representar las etiquetaslingüísticas de forma difusa. Primero consideramos el uso de trapezoidescon formas lineales, y después vamos a considerar el uso de curvas. Laventaja de las curvas es que ofrecen una transición más progresiva entreuna etiqueta (o categoría difusa) y otra.

Pares parmenideanos: en general, la representación de los paresparmenideanos se basa en las particiones difusas con una función de per-tenencia trapezoidal, según detallado anteriormente en la Sección 2.4 dellibro.

De funciones de pertenencia lineales hacía funcionesde pertenencia no-lineales

Las formas trapezoidales representadas por líneas rectas, realmenteson aproximaciones de funciones de pertenencia no-lineales (es decir,curvas). Por consiguiente, si usamos curvas para las secciones ascenden-tes y descendentes, podemos llegar a una mejor aproximación de larepresentación natural de las etiquetas lingüísticas. Para conseguir eso, sepodría usar una función apropiada para generar los puntos de la curva enla forma deseada. En algunos casos, deseamos reforzar una transiciónentre etiquetas lingüísticas, usando “hedges” como “muy” o “extrema-damente”. Se refiere al Capítulo 3, “los cuantificadores”, para una expli-cación de los “hedges”. En otros casos, deseamos disminuir una transi-ción usando un “hedge” como “ligeramente”. Para reforzar o disminuir,podemos usar una función de tipo sigmoide, como por ejemplo, la S-fun-ción de Zadeh (Figura 6.10).

108 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 117: Técnicas Para El Análisis Clínico de Datos

Para segmentos de curvas de pertenencia lineales y no-lineales, supo-nemos una relación simétrica entre el valor del grado de pertenencia des-cendiente a la etiqueta lingüística anterior, y el valor del grado de perte-nencia ascendente a la etiqueta lingüística siguiente. De esta forma, lasuma de los grados de pertenencia será siempre igual a 1.

Construcción de curvas de pertenencia.Algunas consideraciones

En la Figura 6.11, vemos una construcción geométrica de una fun-ción de pertenencia con tres segmentos. Vamos a llamar segmento 1 alsegmento cóncavo que empieza en la esquina izquierda inferior y ter-mina en el punto 3. Vamos a llamar segmento 2 al segmento lineal queempieza en el punto 3 y termina en el punto 5. Por último, vamos a lla-mar segmento 3 al segmento convexo que empieza en el punto 5 y termina en la esquina superior derecha. Se observan siete puntos de in-terpolación. A partir de estos siete puntos usamos la función de cons-trucción de curvas de Microsoft Excel, que emplea splines para aproxi-mar las curvas a los puntos. Los puntos de referencia se ven ubicadosen puntos medios e intersecciones que se dividen sucesivamente encuadrantes y diagonales. La curva en el cuadrante superior derecho esuna rotación e imagen invertida de la curva en el cuadrante inferiorizquierda. De este modo, la forma que resulta es simétrica en su con-junto.

109A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Figura 6.10.NSe puede usar la s-función de Zadeh para customizar las transiciones enuna función de pertenencia.

Page 118: Técnicas Para El Análisis Clínico de Datos

Ahora imaginamos que arrastramos el punto 2 abajo y hacía la de-recha. El resultado sería un incremento en el pendiente y el “hedge” en-trante a la etiqueta lingüística correspondiente se acentuaría. De formasimilar, si arrastramos a puntos 1, 2 y 3 un poco más hacia arriba, conse-guiremos que la pendiente sea más suave y el “hedge” sea menos acen-tuado. Cuando estamos manipulando de forma manual las curvas, estáclaro que es necesario ser cauteloso, para evitar crear inflexiones que da-rían como resultado situaciones indeseables o “antinaturales”. Por ejem-plo, sería indeseable crear un segundo segmento cóncavo en el cuadrantesuperior derecho.

La curva de una función de pertenencia suele tener la forma que seve en la Figura 6.11. Primero hay un segmento inferior cóncavo, segui-do por un segmento superior convexo. En la Figura 6.11 el segmentocóncavo ocupa un 50% de la longitud total de la curva en el eje-x. Sireducimos el tamaño relativo de este segmento a un 25%, asignando el

110 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 6.11.NConstrucción de una curva de transición para una etiqueta lingüística.

Page 119: Técnicas Para El Análisis Clínico de Datos

75% restante al segmento convexo superior, el resultado sería una apa-riencia general de campana, una forma natural. Lo que no sería tan natu-ral sería tener un segmento superior que también fuera cóncavo. Podría-mos preguntar por qué esto no se hace. En general, la transición de unestado a otro en la función de pertenencia, cuando los estados estánordenados, tiene por naturaleza una fase convexa seguida por una fasecóncava, la cual evita “saltos” en los correspondientes grados de perte-nencia.

Ejemplo de la representación difusa de una respuestaal cuestionario

Para cada pregunta diseñamos una función de pertenencia que se co-loca encima de la escala horizontal donde se indicará la respuesta. Estopermite realizar una lectura del grado de pertenencia de la respuesta acada etiqueta lingüística.

S5. ¿Se duerme usted mientras conduce por la autopista?

En la Figura 6.12 vemos que las curvas están compuestas por la s-fun-ción de Zadeh. Podemos manipular este tipo de curva según lo comenta-do anteriormente, para potenciar o disminuir a una etiqueta lingüística.En referencia a la Figura 6.13, el paciente indica su respuesta a la pre-gunta: por ejemplo, S5, con una cruz sobre la escala continua. En el cues-tionario, esto se vería como:

111A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Figura 6.12.NEjemplo de representación para una pregunta crítica.

Page 120: Técnicas Para El Análisis Clínico de Datos

Guardamos la respuesta difusa a la pregunta como un quíntupla, conun grado de pertenencia para cada de las cinco etiquetas lingüísticas. Porejemplo, la respuesta a S5 (arriba) se guarda como: {0:0,0; 1:0,3; 2:0,7;3:0,0; 4:0,0}. Vemos en este ejemplo que solo las etiquetas lingüísticas“raramente” y “a veces” tienen valores de pertenencia non-cero, siendo0,3 y 0,7, respectivamente. Para tener un resultado “no difuso” (o ca-tegórico), podríamos tomar como respuesta la etiqueta lingüística con elgrado de pertenencia más alto, en este caso “a veces” con 0,7. De estemodo, podemos disponer de datos de respuestas difusas y no-difusas.Sin embargo, hay que distinguir de una respuesta categórica derivada apartir de una respuesta difusa, y una respuesta categórica “de verdad”, esdecir, a partir de una pregunta presentada originalmente de forma ca-tegórica.

Disponemos de diferentes opciones para capturar los grados de perte-nencia de las respuestas de los pacientes a las preguntas. Una primeraopción sería elaborar un programa informático que encuentre el puntocorrespondiente en el eje-y, para el punto indicado por la respuesta en eleje-x. Otra opción sería, poner una hoja transparente encima de cadalínea de respuesta en el cuestionario y leer el grado de pertenencia en eleje-y. La curva en la hoja transparente habrá sido generada por un paque-te estadístico, o diseñado a mano alzada según una construcción geomé-trica, como la de Figura 6.11. En nuestro caso, hemos elegido la opcióndos, el uso de una hoja transparente que evita tener que dedicar tiempo aprogramar, y nos permite dibujar una hoja de funciones de pertenencia amedida para cada pregunta.

En la Figura 6.14 se observan unas formas distintas a las funciones depertenencia simétricas y equidistantes de la Figura 6.12. En la Figu-ra 6.14, la escala horizontal inferior, titulada “etiqueta lingüística”, tienecuatro posibles valores (o grupos) difusos: “ninguna”, “ligera”, “modera-da” y “alta”, que se refieren a la incidencia de apnea en un paciente. La

112 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Nunca Raramente SiempreA veces A menudo

Figura 6.13NLa respuesta tal y como aparece en el cuestionario, que corresponde conlas funciones de pertenencia de la Figura 6.12.

S5. ¿Se duerme usted mientras conduce por la autopista?

Page 121: Técnicas Para El Análisis Clínico de Datos

escala horizontal titulada “índice” es, simplemente, una escala equidis-tante de cero a 1,0. Por último, la escala horizontal titulada “RDI” es elvalor real de RDI que ha sido derivado a partir de las pruebas clínicas. Deesta forma, se puede usar el gráfico para realizar una lectura del grado depertenencia correspondiente en el eje vertical, a partir de tres posiblesvalores en el eje horizontal. Los conjuntos difusos corresponden a las eti-quetas lingüísticas cuyos rangos están definidos sobre el primer eje ho-rizontal titulado “etiqueta lingüística”. Como alternativa, o además, sepuede convertir el RDI a un valor entre 0 y 1 usando el eje horizontal“índice”. Las curvas que se ven en la Figura 6.14 tienen un diseño me-ticuloso que respeta el peso “clínico” relativo asignado a cada etiquetalingüística. Por ejemplo, la etiqueta “ninguna” ocupa sólo un 5% de lalongitud del eje horizontal, y tiene la pendiente más acusada (tambiénconocida como “hedge” o “cuantificador”) de todas las etiquetas lingüís-ticas.

En contraste, la etiqueta “alta” tiene el “hedge” de menor pendientey ocupa aproximadamente un 50% de la escala horizontal. Observamostambién que la etiqueta “moderada” es simétrica, mientras que “ligera”no lo es. Esto es debido a la influencia de la etiqueta “ligera” al lado iz-quierdo de la etiqueta “ninguna”.

Dos de los criterios de diseño de las curvas (o funciones de pertenen-cia) involucran el juicio de los expertos médicos: (1) el porcentaje de la escala (eje-x) que ocupará cada etiqueta lingüística, y (2) el grado dela pendiente por el lado izquierdo y derecho. El primer criterio dependedel rango clínico para el cual se define el grado de manifestación de ap-nea. De esta forma, y en términos clínicos, el grado de apnea se conside-ra “alta” cuando el RDI es aproximadamente 45 o más. El segundo crite-rio depende del grado de fuzziness (o grado “difuso”) de la transición deuna etiqueta a la etiqueta contigua. Por ejemplo, en referencia a la Figu-ra 6.14, se observa que la diferenciación en clasificar pacientes como“ninguna” y pacientes como “ligera” es más categórica (“no-difusa”) quela diferenciación en clasificar pacientes como “moderada” y los que sean“alta”. Las curvas en la Figura 6.14 fueron definidas usando la función decreación de curvas de Microsoft Word 97. Esta función posee el mismomecanismo de interpolación automática que Microsoft Excel 97. Una vezque una curva básica ha sido definida, la podemos manipular usandopuntos de inflexión o por la inserción de “nudos”.

113A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Page 122: Técnicas Para El Análisis Clínico de Datos

El diagnóstico de apnea con la versión adaptadadel operador WOWA

A continuación detallamos cómo usamos el operador WOWA adapta-da para el diagnóstico de casos de apnea. Los resultados de su aplicacióna casos reales están recogidos en los Capítulos 10 y 11 del presente libro.

Aprendizaje de los valores de “relevancia”usandouna técnica evolutiva (algoritmo genético)a partir de datos históricos de casos

Función objetiva

Definimos Op como el diagnóstico predicho por el operador de agre-gación WOWA, y Or como el valor normalizado de AHI (índice de apneahipópnea), es decir, el diagnóstico real. El objetivo es minimizar el cua-drado de la suma de las diferencias entre el Op y el Or para todos los

114 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 6.14.NEjemplo de funciones de pertenencia representadas por curvas no-simé-tricas, para la variable de diagnóstico de apnea (AHI).

Page 123: Técnicas Para El Análisis Clínico de Datos

casos de pacientes, según lo definido en la fórmula (6.2). Se utiliza el cuadrado para que los valores negativos y positivos se compensen en-tre sí.

Min (Op - Or)2 (6.2)

Ahora vamos a explicar cómo usamos la técnica del algoritmo ge-nético para aprender los valores de relevancia � a partir de datos his-tóricos. Un algoritmo genético necesita lo siguiente: un conjunto dedatos de entrada y de salida (ejemplos), un conjunto de valores modifica-bles (en este caso los valores de relevancia), un conjunto de restric-ciones (en este caso la suma de los valores de relevancia debe ser iguala 1), y una función objetiva. En nuestro caso, la función objetiva mini-miza la diferencia entre el diagnóstico predicho y el diagnóstico real.Nuestro objetivo es encontrar los valores de relevancia que mejor apro-ximan los datos de entrada y de salida, y que a la vez minimizan la fun-ción objetiva.

Ejemplo:

Entrada (datos): I = {5, 6, 4, 6, 1, 5, 2, 5, 2, 2, 1, 2, 2, 5, 9, 7, 2, 2, 8},un valor para cada variable.

Entradas (valores de relevancia a aprender): valores iniciales de � = {0,90; 0,20; 0,85; 0,25; 0,50; 0,90; 0,62; 0,90; 0,63; 0,68; 0,55; 0,67;0,61; 0,93; 0,74; 0,63; 0,64; 0,27; 0,94}, un valor para cada variable.

Salida (resultado): Op = [0,1] (valor diagnóstico predicho) Or = [0,1](valor diagnóstico real)

y, Or = AHI / max (AHI)

Conjunto de restricciones

(1) Los valores de � deben estar entre 0 y 1, con una precisión de 2dígitos decimales; (2) la suma de los valores de � debe estar igual a 1; (3) los valores de � deben estar normalizados.

El módulo “evaluar”, emplea una “función objetiva” que establece unranking de todos los individuos en la población actual y asigna un gradode “aptitud” a cada uno. El grado de “aptitud” para cada individuo se cal-cula ejecutando el operador de agregación WOWA para cada caso de

115A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Page 124: Técnicas Para El Análisis Clínico de Datos

paciente (1 hasta j) y con el vector de valores � asignado al cromosomade individuo i.

Para realizar el diagnóstico de un paciente, se ejecuta WOWA de la si-guiente forma:

n (Ai, V�, V�j)j=1

donde Ai es el vector de datos para paciente i , V� es el vector de valoresde relevancia para todas las variables, y V�j es el vector de datos para lavariable j.

Asignación manual de los valores de “relevancia”y de “fiabilidad”

En constraste con la forma automática de asignación que hemos vis-to en la sección anterior, podemos considerar la asignación manual de losvalores. Por asignación manual queremos decir que los valores de rele-vancia y fiabilidad quedan asignados por el experto médico, basándoseen la literatura clínica actual respecto al diagnóstico de apnea. Tambiénel experto se apoya en sus propios conocimientos y experiencia, y tieneen cuenta la tipología de pacientes que existe en su clínica o unidad.

En la sección anterior hemos visto un método para generar los valo-res de relevancia de forma “automática”. Emplea un algoritmo genéticopara aprender los valores a partir de datos históricos de casos de pacien-tes. En el Capítulo 11 comparamos los resultados del diagnóstico conWOWA usando valores de “relevancia” asignados por el experto médico,con valores aprendidos por el algoritmo genético.

En el caso de las variables demográficas de datos clínicos como edad,sexo, altura, peso y circunferencia del cuello, es más fácil que el expertomédico evalúe su fiabilidad y relevancia respecto al diagnóstico. En elcaso de las variables que refieren al consumo de alcohol y tabaco, hayuna dependencia sobre la sinceridad y acierto del paciente. Como apoyo,se podrían usar los resultados de la prueba de sangre como evidenciacomplementaria a las respuestas del paciente. Además, podemos incor-porar índices de relevancia y fiabilidad aportados por la literatura clínica.

116 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 125: Técnicas Para El Análisis Clínico de Datos

Las preguntas que componen el cuestionario en sí, también pueden sercategorizadas según su relevancia y fiabilidad, teniendo en cuenta quedependen de la sinceridad y acierto del paciente. Algunas preguntas sonmás sensibles que otras a una falta de sinceridad o acierto por parte dequien las responden. Como fase de postproceso de los datos de las res-puestas, se pueden identificar inconsistencias y contradicciones que nospermiten hacer una evaluación global de la fiabilidad de un cuestionariorellenado por un paciente determinado. Esta evaluación nos da informa-ción para “potenciar” o “disminuir” los valores de fiabilidad en general.

Asignación de los valores de “relevancia”y “fiabilidad”usando técnicas estadísticas

En la Sección 6.3 del libro, hemos considerado la asignación manualde los valores por el médico experto. También hemos considerado laasignación de los valores (cocientes) por técnicas de aprendizaje auto-matizado a partir de los datos, usando un algoritmo genético. En el Capí-tulo 10 veremos una tercera opción para asignar los valores, que consisteen el uso de diferentes métodos de clustering y clasificación/predicciónpara establecer una ordenación de las variables por su relevancia, usandoun índice cuantitativo. En este caso, entendemos “relevancia” como elgrado de correlación de una variable de entrada, como “circunferenciadel cuello”, con la variable de salida, en este caso, “diagnóstico de ap-nea”. El propósito es que, como “resultado secundario” de los modelosde clustering y de clasificación/predicción, identificamos las variablesmás relevantes en un modelo de datos. Esto es debido a que las técnicasen las que los modelos se basan, descartan de forma progresiva las entra-das que contribuyen en menor grado al resultado. Este análisis es uno delos temas principales a tratar en la fase de exploración de cualquier pro-yecto de “minería de datos”. Por supuesto, podemos ahorrarnos muchotiempo si uno o más “expertos en el dominio” nos proporcionan unas pis-tas al seleccionar un conjunto inicial de variables candidatas, basándoseen su experiencia e intuición. Volviendo al planteamiento del Capítu-lo 10, usamos diferentes métodos de clustering, como k-Means, Koho-nen SOM y Condorcet, que pueden resultar en diferentes ordenacionesde las variables por relevancia. Lo mismo es cierto para las técnicas declasificación/predicción, como regresión logística y lineal, inducción

117A REPRESENTACIÓN, COMPARACIÓN Y PROCESO DE DATOS...

Page 126: Técnicas Para El Análisis Clínico de Datos

de reglas C4.5, y redes neuronales de retropropagación. Si realizamosuna “votación” sobre los resultados de los diferentes métodos, podemos lle-gar a un consenso general para la ordenación de las variables. Destaca-mos la utilidad de cuantificar el grado de consenso en forma de un índi-ce. De este modo podemos concluir que un mayor grado de consensoimplica una mayor fiabilidad (de la relevancia de una variable). Al con-trario, un índice de consenso menor implica una menor fiabilidad. Deeste modo podemos conseguir a la vez un valor ponderado para la rele-vancia y para la fiabilidad para cada variable usando exclusivamente téc-nicas estadísticas.

118 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 127: Técnicas Para El Análisis Clínico de Datos

En este capítulo presentamos con más detalle las técnicas de análisisde datos que usamos posteriormente en los Capítulos 9 a 11 para proce-sar los tres conjuntos de datos clínicos. Vamos a presentar las siguientesocho áreas y técnicas: técnicas estadísticas estándar, inducción de reglas,amalgamación, agregación, agrupación difusa, agrupación con red neu-ronal tipo SOM, predicción con red neuronal y algoritmos genéticos.

7.1.NTÉCNICAS ESTADÍSTICAS

En esta sección presentamos una selección de los conceptos y métodosde la estadística “clásica” que usamos para el análisis de datos en los Capí-tulos 9 a 11 del presente libro. Las técnicas que consideramos son: varianza,covarianza, correlación, pronóstico (likelihood), chi-cuadrado (�2), análisisde la varianza (ANOVA), análisis de la covarianza y modelos de regresión.

La varianza, covarianza y correlación [Lebart85]

Definimos (', P('), P) como un espacio finito probabilístico en elcual las variables aleatorias X y Y han sido definidas. Designamos que �x= E(X) y �y = E(Y). Definimos las siguientes cantidades:

(1) varianza de X: Var(X) = E[(X - �x)2 ] (7.1)

(2) covarianza entre X e Y: Cov(X,Y) = E[(X - �x) (Y - �y) (7.2)

(3) correlación entre X e Y: � (X, Y) = Cov(X,Y) / ( ( Var(X) Var(Y) ) (7.3)

7Técnicas

Page 128: Técnicas Para El Análisis Clínico de Datos

Pronóstico

Definimos una variable aleatoria X que puede asumir una serie de valores x1, x2,... xn con probabilidades respectivamente iguales a p1,p2,... pn. Podemos definir su pronóstico (likelihood) E(X) con la siguien-te fórmula:

nE(X) = xi pi (7.4)

i=1

Suponemos que se realiza una serie s de pruebas independientes y secalcula su valor medio. La probabilidad de este resultado tiende hacía elpronóstico cuando s se acerca a infinito. El pronóstico posee unas pro-piedades interesantes de linealidad:

E(X + Y) = E(X) + E(Y) (7.5)E(aX) = aE(X) (7.6)

El análisis de la varianza [Peña84]

El análisis de la varianza es una técnica que fue definida por primeravez por R A Fisher en 1925. Su objetivo es la descomposición de la va-rianza de un experimento en componentes independientes que se puedenasignar a distintas causas.

Ejemplo:

Definimos el objetivo de establecer si el tiempo de estancia de pa-cientes parecidos que se ingresan en un grupo de ) hospitales es igual alargo plazo (es decir, que no depende del hospital). Suponemos que eltiempo de estancia de los pacientes ingresados en el mismo hospitalvaría debido a diversos factores no-controlables. Algunos ejemplos defactores no-controlables serían: infección en el momento de ingreso,asignación aleatoria de pacientes a médicos, habilidad del médico.Suponemos que hemos medido el tiempo de estancia de n1 pacientes dehospital 1, y ni del hospital i, con un total de n datos para el conjunto de ) hospitales:

ni = n

120 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 129: Técnicas Para El Análisis Clínico de Datos

Definimos yij como la variable aleatoria “tiempo de estancia depaciente j ingresado en hospital i”. El objetivo del estudio es:

1)Nverificar si todos los hospitales son idénticos: es decir, que eltiempo de estancia de pacientes parecidos es el mismo;

2)Nen el caso de que los hospitales no sean iguales, estimar el tiempomedio de estancia de los pacientes para cada uno.

Para conseguir esto es necesario formalizar la situación con un mode-lo matemático.

Se puede entender el análisis de la varianza en dos posibles formas:

1)NEs un procedimiento que compara grupos que podrían diferir o noen sus promedios.

2)NEs un tipo de modelo estadístico en el cual se emplea una variablecualitativa para explicar las posibles diferencias entre variablescuantitativas y con referencia al grupo que pertenecen.

Si nos basamos en la construcción de un modelo, demostramos que ladiferencia depende de determinadas hipótesis que, una vez verificadas,garantizan su validez.

Covarianza [Cuadras80]

Definición de la covarianza: se supone que disponemos de una mues-tra de n pares de observaciones de dos variables X e Y

X: x1 x2 ... xnY: y1 y2 ... yn

Definimos x’= 1 xi , y’= 1 yi .n n

A continuación se define la “covarianza de la muestra”

nSxy = 1 ( xi - x’) ( yi - y’)

n i = 1

121TÉCNICAS

Page 130: Técnicas Para El Análisis Clínico de Datos

Se verifique que

nSxy = 1 xi yi - x’y’

n i = 1

Para generalizar la covarianza a variables aleatorias se define

cov(X, Y) = E[(X - E(X)) · (Y - E(Y))]

para dos variables aleatorias X, Y, suponiendo que existan E(X), E(Y) yE(X · Y).

La covarianza de valores cualitativos [Cuadras80]

El análisis de la covarianza es una combinación del “análisis de lavarianza” y los métodos de “regresión”. Compara un número de variablescualitativas con un número de variables cuantitativas. Su propósito esrelacionar una variable observable Y con una segunda variable X llama-da la concomitante, que influye en su comportamiento, y establecer unahipótesis que explique la relación entre las dos.

La prueba de chi-cuadrado (�2) [Cuadras80]

Es una medida que permite evaluar el grado de relación entre dosvariables de tipo categórico. Se basa en una prueba estadística que evalúasi algunas frecuencias observadas se ajustan a algunas frecuencias espe-radas. Se basa en dos teoremas: el primero se refiere al caso en el cual lasprobabilidades pi se conocen. El segundo teorema se refiere al caso en elcual las probabilidades dependen de determinados parámetros que debenser estimados.

Análisis de regresión

La “regresión” es la técnica más usada para crear modelos de datos en la estadística tradicional. Hay tres tipos principales: regresión linealpara datos cuya distribución tiende a ajustar a una línea recta, regresión

122 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 131: Técnicas Para El Análisis Clínico de Datos

no-lineal para datos cuya tendencia se ajuste a una curva, y regresiónlogística para modelizar datos cuando la salida es de tipo binario.

La regresión lineal es una técnica de modelización estadística queexamina la relación entre una variable “dependiente” y una o más varia-bles “independientes”. Por ejemplo, podríamos intentar predecir el tiem-po previsto de estancia en días de un paciente en el hospital (la variabledependiente) a partir de unas variables independientes como: “edad”, unindicador “diagnóstico” (código diagnóstico, ...) y “estado previo de sa-lud”. Tanto las variables dependientes como las independientes deben sernuméricas. En el caso de variables categóricas como “sexo” o “estadoprevio de salud”, es necesario recodificarlas como variables binarias (doscategorías) o numéricas.

Para medir el grado de encaje del modelo de regresión respecto a losdatos, se pueden examinar los “residuales”, identificando los valores quemenos concuerden con la línea (valores atípicos). La regresión lineal ana-liza la relación entre dos variables X e Y, y se intenta encontrar la mejorlínea recta que pasa por los datos, como se ve en la Figura 7.1. En algu-nos modelos se puede interpretar el pendiente de la línea y el punto don-de cruce los ejes “x” e “y” en términos de las variables. El objetivo de laregresión lineal es encontrar la línea que mejor predice Y a partir de X,mediante el ajuste de los valores de pendiente y punto de cruce de la líneacon los ejes.

La regresión no-lineal es una técnica general que ajusta una curva(en vez de la línea de la regresión lineal) para un conjunto de datos deter-minado. Se ajusta a cualquier fórmula que define Y como una función de

123TÉCNICAS

Figura 7.1.NEjemplo de una regresión lineal con la línea ajustada a los puntos de datos.

Page 132: Técnicas Para El Análisis Clínico de Datos

X y uno o más parámetros. Encuentra los valores de aquellos parámetrosque generan la curva que más se acerca a los datos. Es decir, se minimi-za la suma de los cuadrados de las distancias verticales entre los puntosde datos y la curva. En la mayoría de casos, se suele usar un proceso ite-rativo de base matemática para definir la fórmula. Esto es debido a la difi-cultad de derivar la fórmula directamente de los datos.

La regresión logística es una técnica de modelización por regresiónen la cual la variable dependiente es de tipo binario (1 o 0, Sí o No, etc.).Por ejemplo, se podría usar un modelo de regresión logística para es-timar la probabilidad de que un paciente sobreviva (variable de salida:sobrevivirá, no sobrevivirá), basado en las características del paciente yla severidad de la enfermedad o lesión (variables de entrada). En gene-ral, se emplea una técnica de selección de variables para identificar elsubconjunto de variables de entrada que están más relacionados con lavariable de salida. La selección de variables está acompañada por técni-cas que asesoran el acierto del modelo y la identificación de valores atí-picos.

La regresión logística produce una fórmula que predice la probabili-dad de que ocurra un evento, como una función de las variables indepen-dientes (las entradas).

¿Qué técnica estadística utilizar?

Si la variable dependiente tiene más de dos categorías (no es binaria),se puede usar un análisis discriminante para identificar las variables quemejor clasifican los datos.

124 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 7.2.NEjemplo de una regresión no-lineal con la curva ajustada a los puntosde datos.

Page 133: Técnicas Para El Análisis Clínico de Datos

Un modelo de regresión lineal es adecuado si la variable dependientees continua (numérica). Esta técnica predice los valores de la variabledependiente a partir de un conjunto de variables independientes.

Un modelo de regresión no lineal sería el más adecuado en el caso deque conozcamos de antemano la fórmula de ajuste y sus parámetros seanno-lineales.

Un modelo de regresión logística sería lo más adecuado cuando lavariable dependiente sea binaria. Por ejemplo, en el caso de un diagnós-tico que resulta en positivo o negativo.

Si la variable es sesgada, como es el caso de “tiempo en volver a rein-gresar”, algunas técnicas apropiadas serían Life Tables, Kaplan-Meier ouna regresión tipo Cox.

7.2.NLA TÉCNICA DE INDUCCIÓN DE REGLAS:ID3 Y C4.5/5.0

En esta sección presentamos algunas de las técnicas de clasificaciónpor inducción más establecidas en la literatura del Data Mining: ID3 yC4.5. Hacemos hincapié en C4.5, dado su uso extensivo en el Capítulo 9del libro para procesar los datos UCI. Explicaremos cómo C4.5 crea par-ticiones en los datos, su forma de manejar los datos desconocidos, larepresentación de las estructuras de datos en formato árbol o reglas, yalgunas de las mejoras que manifiesta la nueva versión C5.0 respecto a laversión anterior C4.5.

Descripción del algoritmo de inducción de reglas, ID3

ID3 [Quinlan86] construye arboles de decisión de clasificación usan-do un método de inducción tipo top-down (desde arriba hacía abajo), y esel antecesor a C4.5. En la Figura 7.3 se ve un ejemplo de un árbol indu-cido por ID3. Observamos que la característica más genérica es “longi-tud”, debido a que ocurre en la parte más alta del árbol. De otra parte,“peso” es la característica más específica, dado que aparece en la partemás baja del árbol. Las partes más bajas del árbol también se conocencomo “nodos terminales u hojas”.

125TÉCNICAS

Page 134: Técnicas Para El Análisis Clínico de Datos

ID3 añade la siguiente información (en paréntesis en la Figura 7.3) acada nodo: (n, m) dónde n es el número de individuos que correspondena la rama o el nodo en concreto, y m es la medida de confianza para dicharama o nodo.

El objetivo de la técnica de inducción ID3 es construir un árbol dedecisión que sea razonablemente bueno (aunque no necesariamente elmejor) sin un excesivo esfuerzo computacional. Esta técnica es adecua-do para conjuntos de datos con un número elevado de variables y decasos.

ID3 es un algoritmo iterativo que elige al azar un subconjunto dedatos a partir del conjunto de datos de “entrenamiento” (llamada la “ven-tana”) y construye un árbol de decisión a partir de ello. El árbol debe cla-sificar de forma correcta a todos los casos en la ventana. A continuación,y usando este árbol, intenta clasificar a todos los demás casos en el con-junto completo de datos de “entrenamiento”. Si el árbol consigue clasifi-car los casos en la ventana (es decir, el subconjunto), entonces serácorrecto para todo el conjunto de datos, y el proceso termina. En casocontrario, se incorpora a la ventana una selección de los casos que no haconseguido clasificar correctamente, y se repite el proceso. De esta for-ma, puede hallar el árbol correcto en unas pocas iteraciones, procesandoun conjunto de datos con, por ejemplo, unos 30.000 casos, y 50 variablesdescriptivas. El diseño de ID3 tiene un aspecto anecdótico, dado que sucreador, Quinlan, usó una ventana sobre el subconjunto de datos en vezde todo el conjunto debido a las restricciones de memoria de los ordena-dores de la época.

126 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

10 *�longitud *�30(100; 0,85)

20 *�longitud *�30(65; 0,75)

10 *�longitud *�20(35; 0,67)

0 *�peso *�5(30; 0,80)

5 *�peso *�10(20; 0,80)

0 *�peso *�5(15; 0,80)

5 *�peso *�10(35; 0,76)

Figura 7.3.NEjemplo de un árbol construido por ID3, usando las variables “longitud”y “peso”.

Page 135: Técnicas Para El Análisis Clínico de Datos

El algoritmo C4.5

C4.5 [Quinlan93] es un algoritmo de inducción que genera unaestructura de reglas o árbol a partir de subconjuntos (ventanas) de casosextraídos del conjunto total de datos de “entrenamiento”. En este sentido,su forma de procesar los datos es parecido al de ID3. C4.5 genera unaestructura de reglas y evalúa su “bondad” usando criterios que miden laprecisión en la clasificación de los casos. Emplea a dos criterios princi-pales para dirigir el proceso: (1) calcula el valor de la información pro-porcionada por una regla candidata (o ramo del árbol), con una rutina quese llama “info”; (2) como segundo criterio calcula la mejora global queproporciona una regla/ramo usando una rutina que se llama gain (benefi-cio). Con estos dos criterios puede calcular una especie de valor de cos-te/beneficio en cada ciclo del proceso, que le sirve para decidir si crear,por ejemplo, dos nuevas de reglas, o si es mejor agrupar los casos en unasola.

El algoritmo realiza el proceso de los datos en sucesivos ciclos. Encada ciclo se incrementa el tamaño de la “ventana” de proceso en un por-centaje determinado respecto al conjunto total. El objetivo es obtenerreglas a partir de la ventana que clasifiquen correctamente a un númerocada vez mayor de casos en el conjunto total. El planteamiento de C4.5asienta sobre la idea de que es más fácil identificar reglas en un subcon-junto de casos de menor número que en la totalidad de los mismos. Cadaciclo de proceso emplea como punto de partida los resultados consegui-dos por el ciclo anterior.

En cada ciclo de proceso se ejecuta un submodelo contra los casosrestantes que no están incluidos en la ventana. De esta forma se calcula laprecisión del modelo respecto a la totalidad de datos. En el próximo ciclode proceso, cuando se eligen los casos para incluir en la próxima venta-na, se dará prevalencia a los casos que han sido clasificados incorrecta-mente. Cada ventana sucesiva es x% mayor que la ventana anterior. Deeste modo, la precisión de las reglas mejora continuamente respecto alconjunto total de casos.

Las entradas a C4.5 son las filas de casos con datos para las varia-bles seleccionadas. Se debe comprobar previamente que los datos pro-porcionados como entradas son representativos del conjunto total. Sesupone una distribución correcta de los casos y los valores de cada

127TÉCNICAS

Page 136: Técnicas Para El Análisis Clínico de Datos

variable. El valor de la variable de salida debe estar relacionado contodas las entradas. En general, en técnicas de aprendizaje supervisado,como C4.5 e ID3, se proporciona la variable de salida (el resultado) almodelo durante la fase de entrenamiento. De esta forma, el “aprendi-zaje” está “supervisado” (o dirigido) por un resultado previamente co-nocido.

La inducción de reglas y árboles de decisión:formación de conceptos en los algoritmos ID3 y C4.5

ID3 [Quinlan86] y C4.5 son técnicas de inducción que extraen unaestructura de clasificación a partir de los datos. El autor tanto de ID3como de C4.5 es Ross Quinlan, que vive y trabaja en Australia. ID3 secrea en el año 1986, mientras que C4.5 fue publicado en 1993. Se puede considerar C4.5 como el sucesor a ID3, dado a que la idea bá-sica de usar “ventanas” o subconjuntos de datos es común a ambastécnicas. En el caso de ID3, la variable de salida debe ser numéri-ca, mientras que C4.5 requiere que sea de tipo categórico. Otra dife-rencia de C4.5 con ID3 es que el primero construye árboles más com-pactos.

En resumen, C4.5 incorpora las siguientes mejoras respecto a ID3:

a)NEn vez de elegir los casos de entrenamiento de forma aleato-ria para forma la ventana, C4.5 sesga la selección para con-seguir una distribución más uniforme de la clase en la venta-na inicial.

b)NID3 emplea un límite fijo para el número de excepciones(casos clasificados incorrectamente) por ciclo. C4.5, por suparte, incluye como mínimo un 50% de las excepciones en lapróxima ventana. El resultado es una convergencia más rápidahacía el árbol definitivo.

c)NEn el caso de que no se demuestre una mejora en la precisiónconseguida en un ciclo respecto al anterior, C4.5 termina laconstrucción del árbol sin tener que clasificar los datos entodas las categorías (clases) posibles.

128 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 137: Técnicas Para El Análisis Clínico de Datos

Descripción del proceso de inducción de C4.5

C4.5 induce la estructura de un conjunto de datos en dos posibles formas:

a)NRepresentación tipo árbol.

b)NRepresentación en forma de reglas.

Las variables de entrada pueden tener valores categóricos o numéri-cos. Sin embargo, la variable de salida debe ser de tipo categórico. Lavariable de salida (o resultado), puede ser, por ejemplo, un rango, indica-dor, categoría, etcétera.

C4.5 es más conciso que su “primo hermano” ID3, y genera arbolesmás pequeños. La variable de salida debe ser de tipo categórico, lo quecontrasta con, y además complementa, a ID3, que requiere que la varia-ble objetivo sea numérica.

Representación tipo árbol

El proceso de inducción de C4.5 puede generar un clasificador en laforma de un árbol de decisión. La estructura del árbol está compuesta pordos tipos de nodos:

—nuna hoja (nodo terminal), que indica una clase;

—nun nodo de decisión, que especifica una comprobación a realizarsobre el valor de una variable. Tiene una rama y subárbol paracada resultado posible de la comprobación.

C4.5 emplea criterios para simplificar el árbol de decisión que gene-ra. El objetivo es producir una estructura que se pueda interpretar conmayor facilidad, pero sin perder precisión cuando se aplica a conjuntosde datos nuevos.

C4.5 es una técnica de inducción que se basa en el método clásicode “dividir y vencer” [Hunt75], aunque introduce una serie de mejorascon respecto al método original de Hunt. La primera mejora es res-pecto a la evaluación de las pruebas/preguntas que se hacen para divi-dir los casos. También se introduce un “criterio de beneficio” cuyo

129TÉCNICAS

Page 138: Técnicas Para El Análisis Clínico de Datos

objetivo es cuantificar y maximizar el incremento en información enel sistema completo. Para cada partición candidata, se calcula el “be-neficio” y a partir de este criterio se seleccionan las mejores parti-ciones.

Ejemplo de proceso de C4.5: conjuntos de datosde pacientes posoperatorios

Se puede encontrar el siguiente conjunto de datos en la UCI-IrvingData Repository (un repositorio de bases de datos de dominio públicodisponible para fines de investigación —se refiere a la descripción alfinal de Capítulo 4). Este conjunto de datos en concreto fue donadopor Sharon Summers y Jerzy W. Grzymala-Busse, ambos de la Escue-la de Enfermería del Centro Médico de la Universidad Missouri,EE UU (1993).

El objetivo de clasificación de este conjunto de datos es el de deter-minar cuál es el destino más adecuado para pacientes actualmente en lazona de recuperación después de salir del quirófano. La hipotermia esuno de los principales riesgos después de cirugía, y por esta razón lasvariables corresponden a lecturas de temperatura corporal.

Hay un total de 90 casos, con 8 variables descriptivas de entrada yuna variable de salida (la categoría a la que corresponde el paciente). Enlo que se refiere a valores desconocidos, hay tres que corresponden avariable 8 (CONFORT). La distribución de las categorías es la siguien-te: I, 2 casos; S, 24 casos; A, 64 casos. En la Tabla 7.1 se ve una lista delas variables.

Un ejemplo de la interpretación de la Figura 7.4 sería el siguiente:si el valor de CORE-STBL es igual a “estable”, y el valor de CON-FORT es mayor de 7, y el valor de L-BP es igual a “medio”, y el valorde L-SURF es igual a “bajo”, y el valor de BP-STBL es igual a “es-table”, entonces la clase a la que pertenece el paciente es “A”. Lascifras entre paréntesis indican el número de casos de entrenamientoasociados a cada hoja, y el número de casos clasificados de forma in-correcta por aquella hoja, respectivamente. Si el segundo número noaparece, esto indica que todos los casos fueron clasificados correcta-mente.

130 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 139: Técnicas Para El Análisis Clínico de Datos

131TÉCNICAS

Tabla 7.1.NVariables en el conjunto de datos de pacientes posoperatorios.

Nombre

variable

L-CORE

L-SURF

L-O2

L-BP

SURF-STBL

CORE-STBL

BP-STBL

CONFORT

ADM-DECS

Descripción

Temperatura interna delpaciente en ºC.

Temperatura del pacien-te a superficie.

Saturación de oxígenoen %.

Última lectura de pre-sión sanguínea.

Estabilidad de la tem-peratura superficial delpaciente.

Estabilidad de la tem-peratura interna delpaciente.

Estabilidad de la pre-sión sanguínea del pa-ciente.

Confort percibido delpaciente al darse dealta.

Decisión de dóndeenviar el paciente.

Categorías

Alto.Medio.Bajo.

Alto.Medio.Bajo.

Excelente.Buena.Moderada.Pobre.

Alta.Mediana.Baja.

Estable.Mod-estable.Inestable.

Estable.Mod-estable.Inestable.

Estable.Mod-estable.Inestable.

Medido como unnúmero entero en-tre 0 y 20.

I

S

A

Rangos

correspondientes

� 37� 36 y * 37� 36

> 36,5� 36,5 y * 35< 35

� 98� 90 y < 98� 80 y < 90< 80

��130/90*�130/90��90/70

Enviar paciente ala UCI.Enviar paciente acasa.Enviar paciente aplanta del hospi-tal general.

Page 140: Técnicas Para El Análisis Clínico de Datos

132T

ÉC

NIC

AS

PAR

A E

L AN

ÁLIS

IS D

E D

ATOS

CLÍN

ICO

S

Figura 7.4.NEjemplo de un árbol de decisión generado por C4.5 a partir del conjunto de datos “posoperatorios”.

CORE-STBL = mod-estable CORE-STBL = estable CORE-STBL = inestable

A (1,0)

CONFORT * 7 CONFORT > 7 BP-STBL =estable

BP-STBL =estable

BP-STBL =estable

BP-STBL =mod-estable

BP-STBL =mod-estable

BP-STBL =mod-estable

BP-STBL =inestable

BP-STBL =inestable

BP-STBL =inestable

BP-STBL =estable

BP-STBL =mod-estable

BP-STBL =inestable

S (3,1/1,1) S (3,0)

L-BP =bajo

L-SURF =medio

L-SURF =medio

L-SURF =bajo

L-CORE =alto

L-CORE =medio

L-CORE =bajoL-SURF =

bajo

L-SURF =alto

L-SURF =alto

L-BP =alto

L-BP =medio

A (1,0)

A (3,0)

A (3,0)A (0,0) A (6,0) S (1,0)

A (9,0)

S (2,0)

A (6,0/1,0)

A (5,0/2,0)

S (3,0/1,0) A (6,0/1,0)A (15,0/4,0)

A (7,0/2,0)

A (9,0/1,0)

S (5,0/2,0)

A (2,0)

Page 141: Técnicas Para El Análisis Clínico de Datos

Tratamiento de valores desconocidos

Si procesamos datos reales es fácil encontrarse con la situación deque en un 30% de los casos falta algún valor para una variable determi-nada. Una técnica de inducción puede incorporar criterios que permitenprocesar un conjunto de datos con valores desconocidos. Por ejemplo, sepuede modificar el cálculo de “beneficio” que comentamos antes, en tér-minos del contenido de la información de la siguiente forma:

beneficio(X) = probabilidad que A es conocida ×(info(T) - infox(T))

+ probabilidad que A es desconocida × 0= F × (info(T) - infox(T))

(7.7)dónde:

info(T) es igual al valor medio de la información necesaria para iden-tificar la clase de un caso T.

infox(T) mide el valor de la información que se espera será requerida.Es igual a la suma ponderada respecto a los subconjuntos dedatos.

T = conjunto de casos de entrenamiento.beneficio(X) mide la información obtenida por la creación de una

partición T usando prueba X.

Partición del conjunto de datos de pruebas

El proceso de crear particiones de C4.5 tiene un enfoque probabilísti-co. Por ejemplo, asignamos a un caso que pertenece a T (véase descrip-ción anterior) un resultado conocido Oi y un subconjunto Ti. Entonces, laprobabilidad de que este caso pertenezca al subconjunto Ti es 1, y la pro-babilidad de que el caso pertenezca a cualquier otro subconjunto es 0.

Cuando es resultado es desconocido, sólo podemos hacer una infe-rencia probabilística débil. Por esta razón, se asocia un cociente a cadacaso en cada subconjunto Ti. Los cocientes representan la probabilidadde que un caso pertenezca a cada subconjunto.

133TÉCNICAS

Page 142: Técnicas Para El Análisis Clínico de Datos

Representación en forma de reglas

Además de la representación de un modelo en forma de árbol, pode-mos también representarlo en forma de reglas. Cuándo un árbol llega auna cierta complejidad, su interpretación empieza a ser difícil. Comoalternativa, podemos representar la misma información contenida en elárbol en forma de reglas, que podrían ser más fáciles de interpretar.

Ejemplo de una regla:

Regla 5:CORE-STBL = “estable”CONFORT > 7L-BP = “medio”L-SURF = “bajo”BP-STBL = “inestable”→ clase es “S” [60.0%]

Interpretación: si el valor de CORE-STBL es igual a “estable”, y elvalor de CONFORT es mayor de 7, y el valor de L-BP es igual a “medio”,y el valor de L-SURF es igual a “bajo”, y el valor de BP-STBL es igual a“inestable”, entonces el paciente es un miembro de la clase “S” con unaprobabilidad de 60%.

C5.0 – mejoras respecto a C4.5

En el año 2000, Quinlan publicó C5.0, el sucesor de C4.5. Se desta-can las siguientes mejoras:

1)NConjuntos de reglas que ocupan menos memoria y entrenan conmayor rapidez.

2)NÁrboles de decisión: incremento en velocidad para entrenamien-to con la misma precisión que C4.5.

3)N“Boosting”: técnica para generar y combinar múltiples clasifica-dores con el objetivo de mejorar la precisión predictiva. Reduc-ción de la tasa de error para el conjunto total de datos.

134 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 143: Técnicas Para El Análisis Clínico de Datos

4)NNueva funcionalidad: C4.5 trata a todos los errores de la mismaforma, mientras que C5.0 permite la definición de un coste distin-to para cada pareja de valores {predicho, real} de una clase. Siusamos esta opción, C5.0 construye un clasificador que minimizalos costes esperados de una clasificación errónea, en vez de mini-mizar las tasas de error.

5)NNuevos tipos de datos: fecha, etiqueta de clase, valores ordinalesdiscretos. Además de valores desconocidos, C5.0 permite indicarque un valor es “no-aplicable”. Se pueden definir nuevas varia-bles como funciones de variables existentes.

6)NUna ventana de referencia-cruzada permite enlazar un caso conun componente del clasificador que sea relevante.

Previamente a la publicación de C5.0, Quinlan había trabajado sobrela mejora del uso de atributos continuos en C4.5. Dicho trabajo quedaresumido en [Quinlan96].

7.3.NLA TÉCNICA DE “AMALGAMACIÓN”:LOS ALGORITMOS DE CLUSTERING DE HARTIGAN

En [Hartigan75], Hartigan define CLUSTER, que es un conjunto deprogramas escritos en el lenguaje Fortran y que sirven para el análisisde agrupaciones (clusters). CLUSTER incluye programas para la agru-pación de variables y/o casos, usando algoritmos como el direct joiningy splitting, la optimización exacta de Fisher, single-link, k-Means, mu-taciones mínimas, y programas para la valoración de valores descono-cidos.

A continuación se resumen los diferentes tipos de algoritmos deamalgamación/agrupación que componen CLUSTER:

Ordenación (sorting) – se elige una variable clave, y las observacio-nes se dividen según los valores que tenga esa variable. Dentro de cadaagrupación de la partición, se puede volver a dividir usando otras varia-bles claves.

Intercambio (switching) – se crea una partición inicial a partir de lasobservaciones, y se obtienen nuevas particiones por el intercambio de

135TÉCNICAS

Page 144: Técnicas Para El Análisis Clínico de Datos

observaciones entre agrupaciones. El algoritmo termina cuando no exis-ten más intercambios que mejoren un criterio que mide la “calidad” delas particiones creadas.

División (splitting) – en el estado inicial, todas las observaciones seencuentran en una sola partición. A partir de este estado inicial, se eligeuna agrupación según un criterio dado, y se divide en agrupaciones demenor tamaño.

Sumar (adding) – se supone que ya existe una estructura de agrupa-ción que podría ser una partición o en forma de árbol. A continuación seañade cada objeto a la agrupación más próxima, según un criterio de“distancia” o “similitud”.

Búsqueda (searching) – a partir de un subconjunto de todas las agru-paciones posibles, se busca la óptima según un criterio determinado.

El análisis factorial y la “fusión de atributos”

En esta sección consideramos el uso del joining algorithm o “algorit-mo de amalgamación” de Hartigan [Hartigan75] para el análisis factorial.El algoritmo usa como entradas a los valores de una matriz de covarian-zas calculada a partir de las variables. Este algoritmo sirve para dos obje-tivos: el primero, siendo la reducción del número de variables mediantela unificación progresiva de las mismas; el segundo objetivo es la identi-ficación de los factores más relevantes y los factores que estén más rela-cionados entre sí. De hecho, el segundo objetivo es un prerrequisito parael primero. Los detalles de la implementación de este algoritmo por Net-tleton se encuentren en [Nettleton99c]. Existen otros joining algorithms,detallados en el libro de Hartigan, y es útil comparar las diferencias entresus respectivas funcionalidades.

Preliminares: consideramos una matriz de covarianzas {C(I,J),1 * I *�N, 1 * J * N}, dónde N es el número inicial de variables a proce-sar. Dicha matriz será aproximada por el producto de las matrices de car-ga B, donde B tiene una estructura simple en forma de árbol. Eso impli-ca que cada columna de B tiene elementos constantes no iguales a cero(posiblemente un distinto valor constante por columna). Además, se for-ma un árbol a partir de los grupos de variables definidos por los elemen-

136 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 145: Técnicas Para El Análisis Clínico de Datos

tos no iguales a cero en cada columna. Esto supone que la representaciónde datos ha sido adaptada a la forma de representación necesaria parapoder definir la matriz C. Un prerrequisito es la capacidad de calcular lamatriz C. En el caso de datos no-numéricos, se necesita una medida apro-piada de distancia para poder calcular las covarianzas. A la matriz B seasignan valores iniciales por defecto, como se verá a continuación en elpaso 1 del algoritmo.

Una matriz de covarianzas C es exactamente igual al producto deunas matrices de carga del mismo tipo, únicamente en el caso de que –Ces una ultramétrica. Es decir, únicamente en el caso de que para tresvariables I,J,K, C(I,J) � min [C(I,K),C(J,K)].

El algoritmo procede a buscar parejas de variables cuya covarianza esla más alta, para poder combinar las dos variables correspondientes en unfactor nuevo. La covarianza de este factor con respecto a cada de las otrasvariables será la media ponderada de las covarianzas de las variablescombinadas. Entonces, la próxima covarianza más alta indicará la próxi-ma pareja para ser fusionada.

Ejemplo de proceso del joining algorithm de Hartigan

A continuación vamos a seguir los pasos del primer ciclo de procesousando un conjunto de datos de prueba. El estado inicial de los datos estárepresentado por una matriz de covarianzas para las siete variables a serfusionadas. (Se refiere a la Tabla 7.2.)

Paso 1: Asignar K, el número de clusters, a 7. Definir WT(I) = 1,JT(I) = 0. Definir B(I,I) = 1 para 1 * I * 7 y B(I,J) = 0 para todas las demásI,J (1 * I * 7, 1 * J * 13). El máximo de ciclos del algoritmo será 2N-1=7x2-1=13. La estructura de cada cluster se escribe en el vector JT, donde JT(I)es el cluster construido mediante la fusión de I con algún otro cluster.

Paso 2: La pareja de variables FM y FR tienen la covarianza más alta,así que I=4, J=5.

Paso 3: Incrementar K a 8. Definir JT(4) = JT(5) = 8, C(8,8) = 0,846[dado a que el valor de C(4,5) es menor que C(4,4) o C(5,5) ], WT(8) = 2.Definir B(4,4) = [1-0,846 ]½ = 0,392, B(5,5) = [1-0,846]½ = 0,392, B(4,8) = B(5,8) = 1. JT(8) = 0.

137TÉCNICAS

Page 146: Técnicas Para El Análisis Clínico de Datos

Paso 4: Se define lo siguiente:C(1,8) = 1/2[C(1,4) + C(2,4)] = 1/2(0,305 + 0,301) = 0,303.

De la misma forma, las demás covarianzas quedan definidas para elnuevo cluster o factor, calculando la media de las anteriores. Dado a queK < 13, volvemos a Paso 2, etcétera.

Tabla 7.2.NEjemplo de la aplicación del algoritmo de fusióna un conjunto sencillo de datos de ejemplo.

Estado inicial de los datos

1.HL 1.0002.HB 1.402 1.0003.FB 1.395 1.618 1.0004.FM 1.305 1.135 1.289 1.0005.FR 1.301 1.150 1.321 1.846 1.0006.FT 1.339 1.206 1.363 1.797 1.759 1.0007.HT 1.340 1.183 1.345 1.800 1.661 1.736 1.000

HL HB FB FM FR FT HT

Paso 1. Fusión de variable FR con variable FM

HL 1.000HB 1.402 1.000FB 1.395 1.618 1.000FMFR 1.303 1.142 1.305 1.846FT 1.339 1.206 1.363 1.778 1.000HT 1.340 1.183 1.345 1.730 1.736 1.000

Paso 2. Fusionar factor FMFR con variable FT

HL 1.000HB 1.402 1.000FB 1.395 1.618 1.000FMFRFT 1.315 1.163 1.778HT 1.340 1.183 1.345 1.732 1.000

Paso 3. Fusionar factor FMFRFT con variable HT

HL 1.000HB 1.402 1.000FB 1.395 1.618 1.000FMFRFTHT 1.321 1.168 1.328 1.732

138 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 147: Técnicas Para El Análisis Clínico de Datos

Paso 4. Fusionar variable HB con variable FB

HL 1.000FBHB 1.398 1.618FMFRFTHT 1.321 1.248 1.732

Paso 5. Fusionar factor HBFB con variable HL

HLFBHB 1.398FMFRFTHT 1.270 1.732

Paso 6. Fusionar factor HLFBHB con factor FMFRFTHT

HLFBHBFMFRFTHT 270

El árbol que resulta de la secuencia de fusiones es:

dónde la primera fusión, FM con FR, se indica por “1”, la segunda fusiónde FMFR con FT se indica por “2”, etcétera.Quedan fusionadas las pare-jas con las covarianzas más altas. Se consideran a las nuevas covarian-zas como la media ponderada de las anteriores.

7.4.NLA TÉCNICA DE “AGREGACIÓN”: CP, OWA Y WOWA

En esta sección consideramos las técnicas de agregación de datos.Estas técnicas emplean vectores de valores de ponderación (cocientes)para sesgar los datos. En el presente libro, interpretamos los cocientes entérminos de la relevancia de las variables y la fiabilidad y los valores delos datos. A continuación, vamos a considerar tres técnicas en detalle:componentes principales (CP), “ordered weighted average” (OWA), y“weighted ordered weighted average” (WOWA). Cada una de estas téc-nicas usa diferentes factores de ponderación. En el caso de CP, se haceuna correlación de las variables de entrada con el objetivo de reducir ladimensionalidad en uno o dos factores. OWA, por su parte, pondera losvalores de los datos, mientras que WOWA pondera tanto las variablescomo los valores de los datos.

139TÉCNICAS

4 15 2

36

HL FB HB FM FR FT HT

Page 148: Técnicas Para El Análisis Clínico de Datos

Una cuarta técnica de agregación es el weighted mean (WM) o mediaponderada, que tiene como entrada un vector de datos y un vector decocientes. El vector de cocientes contiene un valor de fiabilidad entre 0 y 1, para cada variable correspondiente.

Se puede decir que los operadores de agregación producen un “mode-lo” de los datos, con sus variables y cocientes de entrada, y variable desalida (resultado) que sirve para el pronóstico o diagnóstico. Por consi-guiente, los operadores de agregación son complementarios a las técnicasde modelización más conocidas, como la regresión, las redes neuronaleso la inducción de reglas. Se puede decir que sus ventajas son su flexibili-dad y su uso de la información adicional que aportan los vectores decocientes, y su capacidad para producir resultados aceptables con pocoscasos y un número elevado de variables de entrada.

Ponemos una atención especial en el operador de agregación WO-WA[Torra97a]. Este operador es un híbrido de los operadores “mediaponderada” (WM) y OWA, y por consiguiente ofrece una gran flexibi-lidad en el proceso de los datos. El operador OWA fue presentado porprimera vez en [Yager88] y es una de las referencias clave de técnicasde agregación de datos. OWA emplea un vector de cocientes que asig-na un factor de fiabilidad para cada valor. Por su parte, el operador WMemplea un vector de cocientes que asigna un factor a la variable (que enel presente libro hemos interpretado como la relevancia). Por último,WOWA combina los enfoques de OWA y WM para definir dos vecto-res de cocientes, uno que pondera los valores y otro que pondera lasvariables.

Definiciones básicas

A continuación detallamos tres técnicas de agregación, CP – compo-nentes principales, OWA ordered weighted average y WOWA weightedordered weighted average. En el caso de OWA y WOWA hay una pre-sentación más teórica. Si desea, el lector puede saltar estas descripcionesdado a que su compresión no es imprescindible para los capítulos poste-riores.

140 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 149: Técnicas Para El Análisis Clínico de Datos

CP – Componentes principales

CP es una técnica estadística estándar usada para generar una corre-lación de las variables de entrada, con el objetivo de reducir la dimensio-nalidad hasta llegar a uno o más factores. Para poder combinar dos varia-bles en un solo factor, podemos representar la correlación entre las dosvariables de forma gráfica en un scatterplot (gráfico de dispersión).Entonces podremos dibujar la línea de regresión que mejor representa larelación lineal (si lo hay) entre las dos variables. Si podemos definir unavariable que aproxime la línea de regresión en el gráfico, entonces diga-mos que dicha variable ha captado una “síntesis” de dicha relación. Losvalores individuales de los casos del nuevo factor, representado por la lí-nea de regresión, podrían ser usados en el futuro para representar la “sín-tesis” de las dos variables originales. En este sentido, hemos reducido lasdos variables a un solo factor.

Este ejemplo ilustra la idea básica de análisis factorial, o el análisisde componentes principales. Si extendemos el ejemplo de dos variablesa variables múltiples, entonces el esfuerzo computacional se incrementa,pero el principio básico de expresar dos o más variables en un solo factorsigue igual.

OWA – Ordered weighted average

OWA es un método de agregación de datos que fue definido por pri-mera vez por Yager en [Yager88]. Ordered weighted average tiene dosvectores de entrada: un vector de datos y un vector de cocientes. El vec-tor de cocientes contiene dos o más grados de relevancia entre 0 y 1, quese usan para interpretar los valores de los datos. OWA permite efectuarun control de tipo AND/OR (Y/O) sobre los datos de entrada, dirigidopor los cocientes de relevancia.

Definición: un mapeo F desde

In → I (donde I = [0, 1])

Se llama un operador OWA de dimensión n, sí existe un vector depesos + asociado con F,

141TÉCNICAS

Page 150: Técnicas Para El Análisis Clínico de Datos

+1+ = +2

...+n

tal que

1) +i (0,1)2) i+i = 1oo

y dónde

F(a1, a2, ..., an) = +1b1 + +2b2 + ... + +nbn, (7.8)

dónde bi es el i-ísimo elemento más grande en el conjunto a1, a2, ..., an. Bes un vector de argumentos ordenados, si cada elemento bi [0,1] y bi � bjsi j � i. Definimos un operador OWA F con vector de pesos + y un tuplede argumentos (a1, a2, ..., an). A este operador, se le puede asociar un vec-tor de entradas ordenadas B tal que B es un vector de los argumentos deF puestos en orden descendiente. Destacamos que los cocientes estánasociados con una posición concreta en el orden, en vez de estar asocia-dos con un elemento particular.

El artículo posterior [Yager93], publicado cinco años más tarde que elartículo original [Yager88], demuestra la evolución del trabajo de Yagerhacia operadores OWA cada vez más especializados, incluyendo nuevasmejoras y formas de establecer o aprender los cocientes.

Un ejemplo de la aplicación del operador OWA es el siguiente. Asig-namos el vector de pesos: W = [0,4, 0,3, 0,2, 0,1]T

Entonces f(0,7, 1,0, 0,3, 0,6) = (0,4)(1,0) + (0,3)(0,7) + (0,2)(0,6) +(0,1)(0,3)=0,76.

Es decir, a partir de un vector de pesos W y un vector de valores dedatos de entrada “f”, el resultado final del operador OWA es 0,76.

WOWA – Weighted ordered weighted average

Torra definió el operador de agregación WOWA en [Torra96]. El ope-rador WOWA combina las características de los operadores OWA y WM(weighted mean o media ponderada). Emplea dos vectores de pesos, uno

142 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

,---.

,---.

Page 151: Técnicas Para El Análisis Clínico de Datos

que corresponde a la “relevancia” y otro que corresponde a la “fiabili-dad” de las fuentes de datos, y que se usan para agregar los valores.

El operador WOWA se puede considerar como una combinación losoperadores OWA y WM. De esta forma, combina los aspectos favorablesde los dos operadores, y compensa algunas de sus carencias, que comen-tamos a continuación.

El operador OWA satisface la propiedad conmutativa, mientras que elWM no lo hace. Esta propiedad es importante, dado que implica quetodas las fuentes de datos son igualmente fiables. Torra proporciona algu-nos ejemplos de interpolación de datos y los resultados de la agregaciónpara conjuntos de datos sencillos. Por último, contempla posibles varian-tes de WOWA, por ejemplo el “WOWA lingüístico” que combina infor-mación en forma cualitativa (o simbólica), en vez de forma cuantitativa onumérica. Esta versión se basa en la combinación de etiquetas lingüísti-cas en una forma convexa.

Definición 1. Un vector v= [v1 v2 .... vn] es un vector de ponderación(cocientes) de dimensión n sólo en el caso de que

vi [0,1] i vi = 1

Definición 2 [Torra97a]. Sea p un vector de ponderación de dimen-sión n, entonces un mapeo WM: Kn - > K es una media ponderada dedimensión n si WMp (a1,...,an) = i pi ai.

Definición 3 [Yager88]. Sea w un vector de ponderación de dimen-sión n, entonces un mapeo OWAw: Kn - > K es un operador OWA (Orde-red weighted average) de dimensión n si

OWAw (a1,...,an) = i wi a�/i)

donde {�(1),...,�(n)} es una permutación de {1,..,n} tal que a�(i-1) a�(i)para todos i=2, ..., n. (es decir, a�(i) es el i-ísimo elemento más grande delconjunto a1,..., an).

Definición 4. Sean p y w dos vectores de ponderación de dimensión n,entonces un mapeo WOWA:Kn - > K es un operador (WOWA) Weightedordered weighted averaging de dimensión n si

WOWAp, w (a1,...,an) = i �i a �(i)

143TÉCNICAS

Page 152: Técnicas Para El Análisis Clínico de Datos

donde {�(1),...,�(n)} es una permutación de {1,..,n} tal que a�(i-1) a�(i)para todos i=2, ..., n. (es decir, a�(i) es el i-ísimo elemento más grande delconjunto a1,..., an), y el cociente wi se define como

�i = w* ( j*i p�(j)) - w* ( j<i p�(j))

donde w* es una función monótona que incrementa y que interpola lospuntos (i/n, j*i wj) juntos con el punto (0,0). Es necesario que la funciónw* sea una línea recta cuando se interpolan a los puntos de esta forma.

Proposición 1 [Torra97a]. El operador WOWA satisface las siguientespropiedades:

1)NEs un operador de agregación que queda entre el mínimo y elmáximo.

2)NSatisface idempotencia (unanimidad).

3)NEs conmutativo sólo en el caso de que pi=1/n para todos i=1,…,ntal que wi � 0.

4)NEs monótono en relación con los valores de entrada ai.

5)NSe establece el i-ísimo valor de forma dominante cuando pi = 1 ypj = 0 para todos j = 1, …, n y con j � i.

6)NSe establece como la media aritmética cuando pi = 1/n y wi =1/npara todos i=1, …, n.

7)NSe establece como la media ponderada cuando wi=1/n.

8)NSe establece como el operador OWA cuando pi=1/n.

Orness y andness

Yager, en [Yager93], definió formalmente a dos conceptos clave parala toma de decisiones: el orness y el andness. El primero es un especie desesgo que se puede relacionar con el “optimismo” (se puede elegir entreA o B), y que se puede cuantificar y aplicar a un conjunto de variables ysus valores. El opuesto de orness en este contexto es el andness, queequivale a “pesimismo” (se debe elegir A y B). Estas definiciones repre-

144 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 153: Técnicas Para El Análisis Clínico de Datos

sentan un enfoque cuyo objetivo es captar la subjetividad que siempreexiste cuando un experto hace un juicio respecto a una determinadavariable y su correspondiente valor.

A continuación se encuentra una definición de orness, o el grado enque un operador OWA tiende hacía una condición absoluta de “or”.

orness(F) = ½ + ((n-i)/(n-1))wi – ½ (7.9)i

Una segunda definición interesante es la de “biasness” (o grado desesgo):

biasness(W) = ½ (orness(W) – ½ ) (7.10)

Yager, en [Yager93] define el biasness del promedio. Al asumir unvalor positivo, su efecto es acentuar los valores más altos, mientras que siasume un valor negativo, su efecto es acentuar los valores más bajos.

En un entorno donde se toman decisiones, se ha observado que esposible interpretar el grado de dispersión como la entropía de la distri-bución de la probabilidad. Además, se puede interpretar la medida deorness en términos del optimismo de la decisión tomada. De otra par-te, se puede interpretar la medida de andness como un grado de “pesi-mismo”.

Para el modelo Hurwicz [Yager93], se obtiene el siguiente resultado:

noptimismo(W) = 1/(n-1) (n-i)• wi (7.11)

i=1

= 1/(n-1) ((n-1)0)+(n-n)/(n-1) (1- 0)= 0

Yager, en [Yager93], hace la observación que en algunas aplicacioneslos cocientes asociados con un operador OWA deben ser aprendidos a par-tir de las observaciones. Suponemos que F es un operador OWA de dimen-sión n y con vector de cocientes W. También suponemos que existe unacolección de m datos, cada uno de los cuales es un tuple n+1 de la forma

(ai1, ai2, … ain, yi).

145TÉCNICAS

Page 154: Técnicas Para El Análisis Clínico de Datos

donde las aij, j=1, …. , n son los valores de entrada (agregados) para la i-ísima muestra, mientras que yi es el valor agregado para la i-ísimamuestra. El objetivo es encontrar los cocientes de un operador OWA paramodelar este proceso. Yager propone un método usando una red neuronalestándar para aprender una primera aproximación de los cocientes, y quecontempla una ordenación los valores de los datos como fase de prepro-ceso. La red neuronal procesa los datos hasta que el cambio de los valo-res de los cocientes entre el ciclo actual y el anterior sea menor que unvalor predeterminado. El valor predeterminado se suele llamar “criteriode terminación”.

7.5.NLA TÉCNICA DE “AGRUPACIÓN DIFUSA”:FUZZY C-MEANS

Antes de entrar en la descripción de Fuzzy c-Means, vamos a comen-tar primero k-Means [Dubes88]. Esto es porque se puede considerarFuzzy c-Means como la versión “difusa” de k-Means, que es un algorit-mo de agrupación “no-difusa” que proviene de la estadística “tradicio-nal”. k-Means establece una distancia entre los casos mediante la se-lección de un número predefinido de casos. k-Means usa los casosseleccionados como “semillas” en el proceso de construcción de los clus-ters. A cada caso se le asigna un cluster, en un proceso iterativo. El clus-ter asignado para cada caso es el más “cerca” al caso, y la distancia semide entre el caso a incluir y el valor medio para todos los clusters. Elproceso de generación de clusters termina después de un número prede-finido de ciclos. En este punto los clusters actuales se fijan como el resul-tado del proceso. Hacemos la observación de que k-Means es un algorit-mo que requiere un conocimiento a priori del número de clusters a crear.Hartigan y Wong posteriormente desarrollaron una versión supervisadade k-Means [Hartigan79].

Fuzzy c-Means [Bezdek81], por su parte, es un algoritmo de cluste-ring que actúa sobre casos definidos por atributos numéricos. Es capaz deestablecer el mejor número de particiones (clusters) para un conjunto de datos determinado. Esto lo hace mediante la comprobación de dife-rentes números de particiones y la aplicación de un indicador de calidadde cluster para identificar el número de particiones que producen los

146 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 155: Técnicas Para El Análisis Clínico de Datos

clusters de mejor calidad. Como primer paso, Fuzzy c-Means calcula loscentros de los clusters difusos para el número de clusters elegido. A con-tinuación calcula el grado de pertenencia de cada caso a cada cluster, ypara cada variable. A partir de esta información, y mediante una inspec-ción de los valores calculados, se establecen cuáles de las variables sonde mayor relevancia para cada cluster, y cuáles tienen ambigüedades.

En la Sección 9.6 del libro, procesamos los datos UCI con Fuzzy c-Means. Se generan unas particiones difusas de los casos, las variablesy sus interrelaciones, indicadas por los centros de los clusters difusos.También en la Sección 9.6, contrastamos esta técnica con el análisis delos mismos datos por otras técnicas. Por ejemplo, las técnicas estadísticasde Componentes Principales y el joining algorithm de Hartigan. Además,comparamos Fuzzy c-Means con técnicas provinientes del “aprendizajeautomatizado”, como ID3, C4.5, redes neuronales de propagación haciaadelante, y el Kohonen SOM.

A continuación se proporciona una explicación teórica de Fuzzy c-Means. Los lectores que deseen pueden saltar esta parte más teórica ypasar al ejemplo de un “resultado típico de un proceso de clustering”.

Fuzzy c-Means [Bezdek77] generaliza la función Jw , que se interpre-te como la suma del error cuadrado dentro de grupos. Esta técnica ha sidoel punto de partida para una diversidad de algoritmos de clustering detipo “infinito”, desarrollados por diferentes investigadores.

Descripción de los parámetros de “Fuzzy c-Means”

El algoritmo Fuzzy c-Means tiene los siguientes parámetros: c , m ,U(0) , ||.||A , 1L .

c: es el número de clusters esperados. Se puede fijar, por ejemplo a 2,y cuando se ejecuta, el algoritmo intentará crear c=2 clusters (o particio-nes) en el conjunto de datos. Podemos incrementar c de forma progresi-va (c=1, 2, ..., n) y comparar la calidad de los resultados para cada c , paraencontrar el valor óptimo.

m: indica un grado de fuzziness, y se puede considerar como uncociente que controla el grado en que las pertenencias están compartidasentre los clusters difusos en X (el conjunto total de datos). Un mayor

147TÉCNICAS

Page 156: Técnicas Para El Análisis Clínico de Datos

valor de m implica una mayor característica “difusa” en las asignacionesde pertenencia. Valores típicos son, por ejemplo: 2,00, 1,25 y 1,00.

U(0): una matriz que contiene las funciones de pertenencia, con susvalores iniciales asignados.

||.||A: es una norma inducida sobre �p de un producto interno. �p esun espacio de p-tuples de números reales. Por ejemplo, se pueden definirlas siguientes tres normas: NE , la norma Euclideana; ND , la norma Dia-gonal, y NM , la norma de Mahalonobis. Se suele elegir como norma a NDcuando se desean compensar distorsiones en los datos debido a grandesdiferencias entre la varianza de características en las muestras, y en lasdirecciones de los ejes de los coordinados. De otra parte, se suele elegircomo norma a NE cuando los clusters en X tienen una apariencia generalde “nubes esféricas”.

1L : es el umbral épsilon que opera como un criterio de partición paralos centriodes de los clusters. Un valor típico para 1L sería 0,01.

Normas

Una norma es un cociente que actúa sobre el valor de la distancia enel proceso de partición. Mediante su variación, es posible inferir propie-dades geométricas y estadísticas a partir de los datos. Se puede conside-rar la norma como un parámetro más de Fuzzy c-Means. Requiere unvalor inicial adecuado para garantizar que los clusters difusos tengan unabuena calidad final. Un cluster tiene una buena calidad si es “compacto”,distinto de los demás clusters, e interpretable en términos de las carac-terísticas del conjunto de datos. Como ejemplo, consideramos la aplica-ción de Fuzzy c-Means al problema de reconocimiento de patrones. Elproceso podría generar dos clusters difusos que representan dos formasgeométricas. Una de estas formas geométricas podría representar unacruz, mientras que la otra podría representar un círculo. Por consiguien-te, se pueden interpretar ambos clusters en términos de las característi-cas geométricas deseadas, y los clusters son fácilmente distinguiblesentre sí. Para determinar el grado en que los clusters son “compactos”, sepodría calcular la media de las distancias entre los puntos y los centrosde los clusters.

148 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 157: Técnicas Para El Análisis Clínico de Datos

Hay tres principales normas que se suelen usar dependiendo de dife-rentes clases de características en los datos:

NE: se usa cuando las características son estadísticamente indepen-dientes, y varían en la misma medida para clusters con una forma hipe-resférica.

ND: se usa cuando las características son estadísticamente indepen-dientes, y varían en medidas desiguales para clusters con una forma hipe-relipsoidal.

NM: se usa cuando las características son estadísticamente depen-dientes, y varían en medidas desiguales para clusters de una forma hipe-relipsoidal.

Algoritmo

Los algoritmos de clustering como Fuzzy c-Means son en esenciauna “iteración Picard” para un conjunto determinado de condiciones.

Paso 1: Fijar c como el número de clusters, 2 * c < n ; seleccionarcualquier métrica norma de producto interior para �p; y fijar m, 1 *m < .Inicializar U(0) Mfc . Seguir para las iteraciones l, l=0,1,2,.....,:

Paso 2: Calcular los centros para los c-fuzzy clusters { vi(l) } con U(l) .

Paso 3: Actualizar U(l) usando {vi(l) }.

Paso 4: Comparar U(l) con U(l+1) , una norma conveniente de tipomatricial: si ||U(l+1) - U(l) || * 1L el algoritmo termina: si no, se vuelve alPaso 2.

Cálculo de la calidad de los clusters

Para el número de clusters que hemos definido como parámetro deentrada (kbegin y kcease) el algoritmo evalúa cada cluster, calculando el siguiente: fstop, 1-fstop, entropía y ganancia. Dos de los objetivos son: (a) maximizar el grado de partición; y (b) minimizar la entropía. Sikbegin=2 y kcease=3, el algoritmo se ejecuta para 2 particiones y para 3particiones, y calcula los clusters, los centroides y los indicadores de

149TÉCNICAS

Page 158: Técnicas Para El Análisis Clínico de Datos

calidad. Entonces es posible la interpretación de los valores de “ganan-cia” que sirven para identificar el valor más favorable de c.

Resultado y salida típica de un procesode clustering usando la técnica Fuzzy c-Means

A continuación vemos un resultado típico generado por Fuzzy c-Means, y para el cual el número de clusters ha sido fijado en 3. En el pri-mer bloque vemos los datos de entrada, que consisten en dos columnasde 21 casos. A continuación se ve la matriz escalar cc, que se usa paraaplicar la norma elegida, por ejemplo, la norma diagonal, euclideana o deMahalonobis. En el caso del ejemplo, la norma se asigna a 2, que corres-ponde a la euclideana. El bloque titulado MM-Clusters muestra los ciclossucesivos del proceso, en este caso 8, con el error máximo en el que in-curre cada uno. El algoritmo puede terminar según un criterio definidopor el máximo número de ciclos, o por un criterio de error mínimo alcan-zado. En el ejemplo, hemos usado el segundo criterio, y el error se redu-jo en cada ciclo de forma progresiva hasta llegar a un valor mínimo de0,0011 en ciclo de proceso 8. Dado que este valor de error es igual o infe-rior al criterio de terminación, se termina el proceso.

El estado del proceso cuando termina queda reflejado por los indica-dores fstop, entropía y ganancia. Los centros de cluster (o prototipos) aterminación están indicados como 3, definidos por su posición (coordi-nados) x,y. A continuación se ve una lista de los grados de pertenencia decada caso (un total de 21) a cada cluster (una columna por cluster). Porejemplo, caso 14 (J=14) tiene un grado de pertenencia de 0,0118 a clus-ter 1, un grado de pertenencia de 0,9737 a cluster 2, y un grado de perte-nencia de 0,0145 a cluster 3. Se observa que caso 14 tiene una fuerte per-tenencia a cluster 2, y una pertenencia débil a clusters 1 y 3.

Comienzo de la salida de Fuzzy c-MeansMM-Clusters

DATOS DE ENTRADAy[11][ 1]= 10,00 y[11][ 2]= 10,00y[12][ 1]= 10,00 y[12][ 2]= 13,00y[13][ 1]= 11,00 y[13][ 2]= 11,00y[14][ 1]= 11,00 y[14][ 2]= 12,00

150 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 159: Técnicas Para El Análisis Clínico de Datos

y[15][ 1]= 12,00 y[15][ 2]= 11,00y[16][ 1]= 12,00 y[16][ 2]= 12,00y[17][ 1]= 13,00 y[17][ 2]= 10,00y[18][ 1]= 13,00 y[18][ 2]= 13,00y[19][ 1]= 10,00 y[19][ 2]= 19,00y[10][ 1]= 10,00 y[10][ 2]= 10,00y[11][ 1]= 10,50 y[11][ 2]= 19,50y[12][ 1]= 11,00 y[12][ 2]= 19,00y[13][ 1]= 11,00 y[13][ 2]= 10,00y[14][ 1]= 18,00 y[14][ 2]= 10,00y[15][ 1]= 18,00 y[15][ 2]= 11,00y[16][ 1]= 18,00 y[16][ 2]= 12,00y[17][ 1]= 19,00 y[17][ 2]= 10,00y[18][ 1]= 19,00 y[18][ 2]= 12,00y[19][ 1]= 20,00 y[19][ 2]= 10,00y[20][ 1]= 20,00 y[20][ 2]= 11,00y[21][ 1]= 20,00 y[21][ 2]= 12,00Número de casos = 21 MM-Clusters

Matriz escalar cc0,1 0,10,0 0,00,0 0,00,3 0,3

MM-ClustersNúmero de clusters = 3 icon = 2 exponente = 2.00Ciclo = 1 Error Máximo = 0,6119 Número de clusters = 3Ciclo = 2 Error Máximo = 0,3242 Número de clusters = 3Ciclo = 3 Error Máximo = 0,2245 Número de clusters = 3Ciclo = 4 Error Máximo = 0,3035 Número de clusters = 3Ciclo = 5 Error Máximo = 0,3529 Número de clusters = 3Ciclo = 6 Error Máximo = 0,1827 Número de clusters = 3Ciclo = 7 Error Máximo = 0,0114 Número de clusters = 3Ciclo = 8 Error Máximo = 0,0011 Número de clusters = 3

Fstop 1-Fstop Entropía Ganancia0,957 0,043 0,112 6,648

151TÉCNICAS

Page 160: Técnicas Para El Análisis Clínico de Datos

Centros de los cluster v[i][j]V[1][1] = 10.4936 V[1][2] = 9,4918V[2][1] = 18.9947 V[2][2] = 0,9966V[3][1] = 11.4903 V[3][2] = 1,4886

Funciones de pertenenciaJ = 11 0,0223 J = 11 0,0244 J = 11 0,9533J = 12 0,0366 J = 12 0,0240 J = 12 0,9394J = 13 0,0031 J = 13 0,0031 J = 13 0,9938J = 14 0,0040 J = 14 0,0033 J = 14 0,9928J = 15 0,0034 J = 15 0,0035 J = 15 0,9931J = 16 0,0043 J = 16 0,0037 J = 16 0,9919J = 17 0,0256 J = 17 0,0341 J = 17 0,9403J = 18 0,0462 J = 18 0,0329 J = 18 0,9208J = 19 0,9925 J = 19 0,0035 J = 19 0,0040J = 10 0,9934 J = 10 0,0031 J = 10 0,0035J = 11 1,0000 J = 11 0,0000 J = 11 0,0000J = 12 0,9924 J = 12 0,0038 J = 12 0,0038J = 13 0,9933 J = 13 0,0033 J = 13 0,0033J = 14 0,0118 J = 14 0,9737 J = 14 0,0145J = 15 0,0034 J = 15 0,9930 J = 15 0,0036J = 16 0,0173 J = 16 0,9678 J = 16 0,0149J = 17 0,0087 J = 17 0,9814 J = 17 0,0100J = 18 0,0125 J = 18 0,9772 J = 18 0,0103J = 19 0,0108 J = 19 0,9775 J = 19 0,0117J = 20 0,0031 J = 20 0,9940 J = 20 0,0029J = 21 0,0153 J = 21 0,9727 J = 21 0,0120

Número de casos N = 21Número de características NDIM = 2Límite “por defecto” de pertenencia EPS = 0,010Norma para esta prueba ICCN = 2Exponente de peso M = 2,00

N.o de Part. Límite Entropía Número declusters coeff. inferior ciclos

(C) (F) (1-F) (H) (IT)2 0,830 0,170 0,272 113 0,957 0,043 0,112 8

Terminación normal del proceso

152 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 161: Técnicas Para El Análisis Clínico de Datos

7.6.NLA TÉCNICA DE REDES NEURONALESPARA CLUSTERING (TIPO KOHONEN SOM)

Las “redes neuronales”, en general, se llaman así porque intentanmodelar el funcionamiento del cerebro humano, simulando una red deneuronas interconectadas y comunicando entre sí.

Este algoritmo en concreto, que fue publicado por Teuvo Kohonenen [Kohonen84], cae dentro de la familia de técnicas conocidas comoSOM (Self organizing maps) o en castellano, “mapas autoorganizati-vos”. Es un tipo de red neuronal que se usa para el clustering (en cas-tellano segmentación), y que tiene variables de entrada pero no desalida. Esto es porque el mismo clustering se considera la “salida”, oel resultado en sí. Consiste de una matriz de nodos, que “compiten”entre sí para “ganar” una mayor activación y “atraer” los datos de en-trada. En consecuencia, después de sucesivas iteraciones, algunos gru-pos de nodos (clusters) llegarán a estar altamente activados, mientrasque otros nodos estarán en un estado de relativa desactivación. Losnodos están interconectados en una arquitectura neuronal típica, y lainformación se propaga de la capa de entrada hacía una capa (o ma-triz) de nodos de clasificación. En la versión básica de la red KohonenSOM hay dos capas de nodos. La primera capa es de entrada, mientrasque la segunda sirve para realizar el clustering. La arquitectura Koho-nen ha demostrado ser aplicable a una diversidad de dominios dedatos, en especial los que poseen un gran volumen y muchos atribu-tos. Puede conseguir un resultado aceptable con datos que contienen“ruido” y valores desconocidos. En el entorno clínico, el grupo deinvestigación de Heike Mannila, de la Universidad de Helsinki, hausado el Kohonen SOM y técnicas derivadas para la clasificación depacientes.

Descripción de la funcionalidad del mapaautoorganizativo Kohonen

Kohonen hizo la observación de que algunas redes de topología planacompuestas de unidades interconectadas y adaptativas, son capaces demodificar su estado interno para reflejar las características de un conjun-

153TÉCNICAS

Page 162: Técnicas Para El Análisis Clínico de Datos

to de valores de entrada. Se puede considerar el Kohonen SOM como unconjunto de procesadores que se organizan ellos mismos de una formaautónoma, a partir de los datos de entrada en su formato original. El otrocomponente del Kohonen SOM es el algoritmo que propaga los cambiosen la red neuronal.

El estado de la red reside en los cocientes asignados a las intercone-xiones entre las unidades. La red tiene dos capas: capa uno, que contie-ne los nodos de entrada, y capa dos, que contiene los nodos de “salida”.Los cocientes modificables definen el grado de activación de las cone-xiones entre los nodos de salida y los nodos de entrada. Una descripciónmás teórica sería la siguiente: se emplea una función de point densityque se aplica a los vectores de cocientes. Como resultado, los valores delos cocientes tienden a aproximarse a una función de densidad proba-bilística p(x) de los vectores de datos de entrada. Por último, los vecto-res de cocientes tienen la tendencia a ordenarse en acuerdo con sus simi-litudes mutuas.

Los lectores que deseen pueden saltar la siguiente sección que con-siste en una definición formal del Kohonen SOM.

Terminología

A continuación se resume la terminología usada para explicar la fun-cionalidad del modelo de clustering Kohonen.

X = {x0, x1, x2,...,xN-1} representa un conjunto de N entradas y para elcual cada xi tiene m dimensiones (o características).

m = número de nodos de entrada

c = número de nodos de salida (o de clustering).

Wj es el vector [w0j , w1j,...,w(m-1)j]T que corresponde al nodo de

salida j, donde (0 * j * c-1).

Cuando se presenta el vector de entrada xi a la red, el nodo de salida jqueda asignado a dij = (xi-Wj)

T(xi-Wj) . Wj es el vector que contiene loscocientes de los m nodos de entrada hasta nodo de salida j.

154 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 163: Técnicas Para El Análisis Clínico de Datos

Algoritmo básico

El objetivo global es mover los cocientes hacía los centros de clustersmediante la actualización de los mismos por cada valor de las entradas.

Paso 1: inicializar los cocientes Wj de una forma aleatoria para todoslos nodos j y asignar el tamaño de la “vecindad” (EN) a c/2. Asignartodas las actualizaciones de pesos 2Wj a cero. El parámetro “tasa deaprendizaje” (Lrate) se inicializa a un valor entre 0 y 1.

Paso 2: para cada entrada xi, seleccione el nodo de entrada j*, (0 * j** c-1), tal que dij* sea mínimo. Se actualice Wj, usando la regla:

Wj=Wj+Lrate*2Wj,2Wj=2Wj+(xi-Wj),

donde j incluye el nodo de salida j* y cada de sus NE vecinos hacia laderecha y la izquierda. Se repite el Paso 2 hasta que no haya cambios enlos cocientes.

Paso 3: comprobar sí NE=0. Si es así, el algoritmo termina. En casocontrario, se reduce el valor de NE en 1 y se vuelve al Paso 2.

155TÉCNICAS

W0

xi

W1W(c-1)

Capa de distancias (agrupación,salida)dij = (xi - Wj)

T (xi - Wj)

Capa de entrada

N.b.:habrá una ocurrencia de es-ta estructura para cada caracte-rística de entrada (variable)

Figura 7.5.NArquitectura de la Red neuronal Kohonen “Mapa auto-organizativa”.

Page 164: Técnicas Para El Análisis Clínico de Datos

7.7.NLA TÉCNICA DE “REDES NEURONALES”PARA PREDICCIÓN

En contraste con la red neuronal Kohonen que hemos visto en la sec-ción 7.6, las redes neuronales predictivas tienen una capa más de neuro-nas, que es la capa de salida. Esto es debido a que las predictivas pro-ducen una variable de salida como resultado, mientras que las redesneuronales de clustering, como Kohonen, muestran el resultado (losclusters) en la capa “intermedia”. En general, las redes neuronales caenen la categoría de técnicas que se llaman de “caja negra”. Se llaman asíporque no se puede ver dentro del modelo para identificar cómo funcio-na o qué proceso usa para llegar al resultado. Sólo son visibles las varia-bles de entrada y de salida. Las redes neuronales suelen ser muy preci-sas y son capaces de modelar datos complejos. Funcionan mejor condatos de tipo numérico en vez de categórico, tanto como entrada comopara salida. También tienen una buena capacidad para procesar y filtrar“ruido” en los datos. “Ruido” es un término que se suele usar para defi-nir datos erróneos o no relevantes. Las redes neuronales predictivas hansido usadas extensivamente en el ámbito financiero. Ejemplos de apli-caciones son: predicción de las cotizaciones de la bolsa, los valores“futuros” (de las acciones y materias primas), la composición de fondos,e indicadores micro y macro económicos en general. También se emple-an en sistemas de control numérico, reconocimiento de patrones e imá-genes, la clasificación de pacientes y, por supuesto, el pronóstico ydiagnóstico clínico.

Si pudiésemos ver por dentro de una red neuronal, podría tener la apa-riencia de la Figura 7.6. Representa una red neuronal de tres capas(entrada, oculta y salida), indicando las interconexiones entre las neuro-nas y cocientes asignados a las interconexiones que definen en grado deactivación de las “neuronas”. Los cocientes van variando como conse-cuencia de la aplicación de los datos de entrada y su propagación por lared. El valor en sí está calculado por una función de activación que usa elvalor actual de cociente, los valores de los datos de entrada y los valoresde la variable de salida. En consecuencia, algunas de las neuronas quedanpotenciadas con una mayor activación, mientras que otras quedan relati-vamente inactivas. Podemos decir que las activaciones se “amoldan” alos datos de entrada y de salida.

156 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 165: Técnicas Para El Análisis Clínico de Datos

Una red neuronal básica consiste de 3 capas de neuronas: una pri-mera capa de entrada, una capa intermedia que se suele llamar “capaoculta”, y una tercera capa, que es la capa de salida. La capa de entra-da, como el nombre sugiere, es por donde se introducen los valores delos datos de entrada. Cada variable numérica corresponde a una neuro-na, así que una capa de entrada de 10 neuronas de ancho corresponderíaa 10 variables numéricas de entrada. La capa de salida es por donde saleel resultado del proceso. Por ejemplo, la capa de salida puede consistiren una sola neurona (valor binario) o dos o más. Entre la capa de entra-da y la capa de salida están las capas ocultas. Puede haber una, dos omás capas ocultas. La capa oculta suele tener un número de neuronasparecido al de la capa de entrada. Entre las neuronas de las diferentescapas hay interconexiones, y asignada a cada interconexión un valorque es un cociente. Este cociente puede variar de 1 a 0, donde 1 permiteel paso de forma inhibida al flujo de datos, y 0 inhibe completamente elpaso. Mediante la sucesiva presentación de valores a la capa de entra-da, y la comparación del correspondiente valor de salida con un valorhistórico real, el proceso interno (representado por los valores de loscocientes) se va amoldando a los datos hasta que se maximiza el acier-to entre las entradas, la salida predicha y la salida real. La red neuronalmás común es de tipo “propagación hacía delante” (en inglés feedfor-ward). Este término indica la forma de propagación de los valores delos datos por la red y la forma de actualización de los cocientes corres-pondientes a cada interconexión.

157TÉCNICAS

Figura 7.6.NRepresentación esquemática de una red neuronal.

Page 166: Técnicas Para El Análisis Clínico de Datos

7.8.NLA TÉCNICA DEL “ALGORITMO EVOLUTIVO”(O “GENÉTICO”)

La idea que hay detrás de los algoritmos genéticos es imitar un pro-ceso que ocurre en la naturaleza y que es eficiente y efectivo. Este proce-so es la evolución de las especies durante un gran número de generacio-nes sucesivas. El resultado de la evolución es generar una población deseres vivos cada vez más adaptada al entorno en que se encuentra. Elobjetivo en el caso de las especies es esencialmente sobrevivir y garanti-zar las futuras generaciones. Cuando aplicamos el concepto de la evolu-ción a problemas como la optimización de recursos hospitalarios o de unpronóstico, el objetivo es encontrar una solución óptima.

El método es el siguiente: se empieza con una población inicial elegi-da aleatoriamente. Se generan sucesivas generaciones de individuos, me-diante la selección para reproducción (crossover) de los más aptos, segúnuna función determinada de “evaluación de aptitud”. Junto con el con-cepto de crossover (reproducción entre dos individuos), el proceso evo-lutivo contempla también la mutación. La mutación afecta a un solo indi-viduo a la vez, y modifica, en su modo más simple, de forma aleatoria, alos individuos en la población. La mutación permite “escapar” de “míni-mos locales”, e introduce un factor de novedad en la población, que deesta forma evita el estancamiento.

Generalmente se utilizan los algoritmos genéticos para problemas deoptimización, es decir, con el objetivo de maximizar o minimizar unafunción. Son muy eficientes en encontrar soluciones semióptimas en pro-blemas “NP-Hard”, cuando el número de posibles soluciones incremen-ta de forma exponencial. Una de las primeras referencias a algoritmosevolutivos fue en una publicación titulada “Programación Evolutiva”[Fogel66]. Este artículo propuso una técnica de búsqueda en un espaciode máquinas pequeñas de estado-finito (finite state machines). Como unareferencia reciente de programas evolutivos se puede recomendar el librode [Michalewicz96].

En referencia a Figura 7.7, un programa evolutivo es un algoritmo pro-babilistico que mantiene una población de individuos P(t) = {x1

t,...,xnt}

para un ciclo de proceso t. Cada individuo representa una solución po-tencial al problema que se desea solucionar. Se suele definir el individuocomo una estructura de datos S.

158 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 167: Técnicas Para El Análisis Clínico de Datos

Se evalúa cada solución xit para dar una medida de su “aptitud”. Enton-

ces se genera una población nueva (ciclo t + 1) mediante la selección delos individuos más aptos. Esto se llama “paso de selección” y correspondea la línea “seleccionar P(t) desde P(t-1)” en la Figura 7.7. Algunos miem-bros de la nueva población son transformados mediante operadores “gené-ticos” que forman nuevas soluciones. Esto se llama “paso de modifica-ción” y corresponde a la línea “modificar P(t)” en la Figura 7.7.

Existen dos principales tipos de transformaciones. El primer tipo, launitaria mi (tipo mutación), crea nuevos individuos mediante un pequeñocambio en un solo individuo (mi : S → S). El segundo tipo de transfor-mación es la de orden superior cj (tipo crossover), que crea nuevos indi-viduos mediante la combinación de componentes de dos o más indivi-duos (cj : S ×, ... ×, S → S).

Después de un número determinado de ciclos (o “generaciones”), elprograma converge y termina. Se espera que el mejor individuo presenteen la población final representa una solución próxima a la óptima.

El uso de un algoritmo genético para aprender los vectores de cocientes de fiabilidad de los valores y relevancia de las variables

Forma de representación

En nuestro caso, la función de evaluación de los individuos en la po-blación es el operador de agregación WOWA. Para cualquier solución

159TÉCNICAS

Procedure programa evolutivobegin

t 0inicializar P(t)evaluar P(t)mientras (no condicion-de-terminación) hacerbegin

t t +1seleccionar P(t) desde P(t-1)modificar P(t)evaluar P(t)

endend

Figura 7.7.NLa estructura básica de un programa evolutivo.

Page 168: Técnicas Para El Análisis Clínico de Datos

potencial, que en el caso de WOWA será una permutación de cocientes,se compara el resultado obtenido (diagnóstico 1 ó 0) con el resultado real(dato histórico para el caso). De esta forma, en una población de posiblesvalores para el vector de cocientes, se puede comparar fácilmente la cali-dad del resultado. Sin embargo, el uso efectivo de la técnica de algorit-mos genéticos requiere la definición previa de dos aspectos claves: (1) laelección de una forma de representación para un problema concreto, porejemplo, los datos que corresponden a un paciente; (2) la selección deltipo de operador a utilizar para el crossover y la mutación, y sus respec-tivos parámetros.

Cuando se implementa un algoritmo genético se suele experimentarcon diferentes mecanismos de crossover (intercambio de informaciónentre padres para crear sucesores) y “mutación” (modificación de la in-formación de un solo padre de forma aleatoria). También se puede inten-tar mejorar “la salud” de la población total, o la “aptitud media”. Esto seconsigue usando una función que seleccionan y reproducen a los indivi-duos cuyas aptitudes sean mayores que la media de la población en cadageneración.

Ejemplo: crossover en 1 punto y mutación uniforme

Se elige un punto de forma aleatoria (entre 1 y el número de variableso valores), y se intercambian todos los elementos entre los dos individuosseleccionados, a partir de aquel punto.

Ejemplo:

padre 1: 7 3 2 8 | 4 9 1 5 6padre 2: 3 8 2 4 | 6 5 1 9 7

En el ejemplo, el punto de intercambio (o crossover), elegido aleato-riamente, es 5. De esta forma, se copian a todos los elementos a partir dela posición 5 de padre 1 a padre 2, y viceversa (mediante un vector tem-poral). En el ejemplo de arriba el resultado sería:

hijo 1: 7 3 2 8 | 6 5 1 9 7hijo 2: 3 8 2 4 | 4 9 1 5 6

160 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 169: Técnicas Para El Análisis Clínico de Datos

Es posible que exista alguna restricción sobre los valores de cada hijo.Como proceso posterior, se “reparan” los nuevos individuos para quecumplan cualquier restricción que pueda existir. Como ejemplo, conside-ramos la restricción de que un valor no se puede repetir en un cromoso-ma. En el caso de hijo 1, se ve que los elementos 1 y 9 tienen el mismovalor “7”, mientras que en el caso de hijo 2, elementos 4 y 5 tienen elmismo valor “4”. En este ejemplo, la reparación de los elementos se con-sigue generando números aleatorios entre 1 y el número de variables ovalores (en este caso 9), hasta que se encuentre un número que no esté enel cromosoma actual. El resultado de la reparación en el caso de hijo 1sería la asignación del valor “4” al elemento 1. En el caso de hijo 2, elresultado sería la asignación del valor “7” al elemento 4.

En el Capítulo 11 veremos el uso de un algoritmo genético paraaprender los valores del vector (cromosoma) de cocientes del algoritmoWOWA. Cada cociente representa la relevancia de una de las variables deentrada. Para WOWA, el tipo de reparación que hemos comentado no esla más idónea, debido a que puede romper cadenas “buenas” que repre-sentan soluciones locales ya encontradas.

Ahora volvemos a la descripción de crossover: se seleccionan indivi-duos para el intercambio de forma aleatoria de la población, y con la pro-babilidad de intercambio definida como parámetro de entrada. Unos va-lores típicos para la probabilidad de intercambio serían 0,85 o 0,9. En elcaso del aprendizaje de los cocientes de WOWA detallado en el Capítulo11, conseguimos los mejores resultados con un valor de probabilidad de0,85. Esto concuerda con los resultados publicados en la literatura, queconfirman que esta cifra de intercambio es la que suele dar un resultadoaceptable. Sin embargo, es interesante realizar más ensayos sobre el efec-to del valor de probabilidad de intercambio sobre la calidad de la solu-ción y el tiempo de convergencia.

Ejemplo de mutación uniforme

La función de mutación realiza un cambio en los individuos de la po-blación con una frecuencia definida como parámetro de entrada. En el ca-so del aprendizaje de los cocientes de WOWA detallado en el Capítulo 11,usamos un valor típico dado en la literatura, de modo parecido a la pro-

161TÉCNICAS

Page 170: Técnicas Para El Análisis Clínico de Datos

babilidad de intercambio, comentado anteriormente. El valor que diomejor resultado fue 0,05, aunque realizamos algunas pruebas adicionalescon los valores 0,01 y 0,001.

Un proceso de mutación de tipo uniforme sigue los siguientes pasos:(1) al inicio se define la probabilidad de mutación PMUT. (2) para cadageneración se hace un repaso de todos los individuos en la población dela generación actual (1 hasta el número de variables NVAR). Para cadaindividuo se genera un número aleatorio NALEA entre 0 y 1; Si NALEAes menor que la probabilidad de mutación PMUT, entonces se realiza unamutación del individuo actual.

La mutación que usamos para la aplicación en el Capítulo 11 simple-mente intercambia dos valores, elegidos de forma aleatoria en el mismoindividuo. Por ejemplo:

individuo: 7 3 2 8 4 9 1 5 6

Suponemos que este individuo ha sido elegido para mutación de unamanera uniforme según lo detallado anteriormente, y con probabilidadPMUT (0,05). Ahora se generan dos números enteros entre 1 y NVAR (9en este ejemplo), que serán 3 y 8.

Se intercambian los valores en posiciones 3 y 8, dando el nuevo indi-viduo.

Individuo después de mutación: 7 3 5 8 4 9 1 2 6

Ejemplo de la selección de individuospara la próxima generación

El método usado para seleccionar individuos para la próxima genera-ción es el de Cormier y Raghavan [Michalewicz96], que emplea unaselección basada en la aptitud cumulativa. Aunque se consigue identifi-car individuos cada vez más aptos con este método, la aptitud media dela población total no mejora (o mejora poco). Conseguimos mejoresresultados con la siguiente implementación que tiene como criterio adi-cional la mejora de la aptitud media de la población de una generación a otra.

162 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 171: Técnicas Para El Análisis Clínico de Datos

Selección de individuos por encima de la aptitud media

Este método incrementa significativamente a la aptitud media de unageneración a otra, y también consigue un incremento en la calidad del in-dividuo más apto en cada generación.

Se calcula la aptitud media de la población actual (suma de todas lasaptitudes, dividido por el número de individuos). Entonces se repasantodos los individuos en la generación actual, y se copian en el vector dela próxima generación sólo aquellos individuos cuyas aptitudes estén porencima de la media.

Si la generación actual es de 100 individuos, este método elige, porejemplo, unos 50 individuos para la próxima generación, y se rellenan elresto (de 51 hasta 100), repitiendo los 50 individuos iniciales.

163TÉCNICAS

Page 172: Técnicas Para El Análisis Clínico de Datos

En este capítulo revisamos los aspectos claves de adaptación e implementa-ción de las técnicas para procesar los tres conjuntos de datos clínicos detalladosen los Capítulos 9 al 11. Hay ocho principales aspectos que vamos a resumir:

(1) La aplicación de técnicas de IA al pronóstico de pacientes de UCI.Este aspecto contempla el análisis de datos clínicos UCI usando diversastécnicas de minería de datos (estándar y propias) y el análisis estadísticotradicional con el motivo de comparar los resultados de dichas técnicas. (2) El proceso y la representación de tipos mixtos de datos. (3) El uso delalgoritmo de “amalgamación” de Hartigan con matriz de “covarianzas difu-sas” como entrada. (4) El cálculo de covarianzas difusas. (5) El uso de unalgoritmo genético para seleccionar los cocientes para el vector de valores� del WOWA. (6) La modificación del WOWA con un vector de valores detamaño variable que permite el proceso de datos con valores desconocidos.(7) La representación de datos y el diseño de funciones de pertenencia paradefinir la forma de proceso de las respuestas al cuestionario de apnea delsueño. (8) La aplicación de las técnicas de IA al diagnóstico de apnea.

Por último, y a continuación del resumen de los ocho aspectos queacabamos de comentar, se entra en un mayor detalle en dos de ellos: Sec-ción 8.1, el cálculo de covarianzas difusas entre variables y Sección 8.2,las adaptaciones realizadas al operador de agregación WOWA.

8Resumen de los aspectos clavesen la adaptación e implementaciónde las técnicas

Page 173: Técnicas Para El Análisis Clínico de Datos

Proceso de datos UCI con diversas técnicasde análisis de datos

Hemos procesado el conjunto de datos clínicos de pacientes de la UCIusando una diversidad de técnicas estadísticas y de minería de datos. Elmotivo ha sido el de establecer la capacidad de las técnicas para producirresultados coherentes a partir de los datos. Las técnicas estadísticas inclu-yen el análisis de covarianza, máx., mín., media, promedio, análisis dedistribución, etcétera. De otra parte, las técnicas de minería de datos in-cluyen la inducción de reglas (C4.5, ID3), y las redes neuronales. En elcaso de las redes neuronales, hemos usado un RN de propagación hacíadelante para predicción y el Kohonen SOM para clustering.

Analizamos los datos UCI de forma exhaustiva usando una diversidadde técnicas provenientes de la estadística clásica y de la inteligencia artifi-cial. De esta forma identificamos algunos de los puntos fuertes y débiles decada técnica [Nettleton96][Nettleton99a]. A continuación, contrastamosestos resultados con el uso del “algoritmo de amalgamación” de Hartiganpara procesar los mismos datos, usando covarianzas difusas y no-difusascomo entradas. Por último, usamos la técnica de Fuzzy c-Means para agru-par los datos e indicar las relaciones entre las variables y los prototiposdifusos de los clusters. Las técnicas quedan detalladas y comentadas en losCapítulos 2, 3 y 7 del libro, y los resultados se hallan en el Capítulo 9.

La representación y el proceso conjuntode diferentes tipos de datos

En la estadística, el proceso de forma conjunta de distintos tipos dedatos es un área que queda por resolver de forma satisfactoria. Haymuchas técnicas que no intentan afrontar el problema, y optan por obli-gar una representación única para los datos de entrada: o todos categóri-cos o todos numéricos. En el Capítulo 6 hemos considerado de forma sis-temática las diferentes formas de representación, comparación y procesode los principales tipos de datos: numérico, categórico (nominal, ordinal),binario y difuso. Como ejemplo, ¿considérase cómo se podría calcular lacovarianza entre una primera variable definida como numérica y unasegunda variable definida como categórica nominal? En el Capítulo 6,

166 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 174: Técnicas Para El Análisis Clínico de Datos

desarrollamos posibles enfoques a partir de nociones básicas para calcu-lar la covarianza entre variables de tipos diferentes. Por ejemplo, consi-deramos los diagramas de densidad de puntos de las Figuras 6.6 y 6.7 delCapítulo 6. En dicho capítulo presentamos algunas interpretaciones no-vedosas partiendo de conceptos básicos de la estadística. En el Capítu-lo 9 se aplican algunas de las técnicas comentadas a los datos reales depacientes de UCI. Para un mayor detalle teórico del material sobre esteárea acúdase a las publicaciones [Nettleton97][Nettleton98a].

Uso del algoritmo de amalgamación de Hartigan(Joining Algorithm)

Los algoritmos de clustering de Hartigan [Hartigan75] son una obrade referencia en el campo de la estadística. En el presente libro, hemosempleado el joining algorithm en un contexto nuevo, siendo este lareducción de factores a partir de las covarianzas de variables de diferen-tes tipos (numéricos, categóricos, difusos...). Aplicamos la técnica a con-juntos de datos reales (pacientes UCI, casos de apnea) y a datos de prue-ba, con el motivo de crear un número reducido de factores y realizar unanálisis posterior de los factores que resultan. Una de las característicasmás útiles del joining algorithm de Hartigan es la de poder observar lasagrupaciones sucesivas de variables en una estructura tipo “árbol”. Encada ciclo de proceso, se va reduciendo progresivamente el número devariables, fusionándolas en parejas. Esto permite el estudio de las agru-paciones de variables en un conjunto de datos determinado, como porejemplo el conjunto de datos UCI [Nettleton98b]. Esta área de estudioqueda resumida en la Sección 7.3 del libro, y en el Capítulo 9 presenta-mos los resultados de su aplicación a los datos UCI.

Cálculo de la covarianza difusa entre dos variablesde tipo difuso

Bezdek, Gustafson y Kessel definieron las bases para el cálculo decovarianzas difusas entre un prototipo difuso (en el centro de un clusterdifuso) y un dato difuso específico. En el presente libro, hemos extendi-do este concepto para incluir el cálculo de covarianza entre dos variables

167RESUMEN DE LOS ASPECTOS CLAVES EN LA ADAPTACIÓN...

Page 175: Técnicas Para El Análisis Clínico de Datos

difusas en un conjunto difuso. En la sección 8.1 del presente capítulo, defi-nimos distintas versiones del algoritmo. En [Nettleton98b] se compruebael algoritmo con diferentes conjuntos de datos de prueba (Iris, la cruz deGustafson...) y con un conjunto de datos reales (UCI). Se comparan lascovarianzas que resultan con las covarianzas no-difusas (normales) gene-radas para los mismos datos por la técnica de covarianza estándar deSPSS. Asimismo, se comparan los resultados con los de otras técnicas,como por ejemplo los componentes principales, las redes neuronales y lainducción de reglas. De esta forma se pueden identificar y ordenar lasvariables más relevantes en cada conjunto de datos (véase [Nettleton98b]).En el presente libro hay una presentación teórica resumida de las cova-rianzas difusas en la Sección 8.1, y en la Sección 9.5 se ve la aplicaciónpráctica de las covarianzas difusas a un conjunto de datos reales (UCI).

El uso de un algoritmo genético para aprender delos valores de relevancia y fiabilidad del operador WOWA

WOWA es un operador muy flexible debido a sus dos vectores devalores de ponderación que, junto con los valores de los datos, puede con-trolar dos aspectos clave respecto a los datos: su relevancia y su fiabilidad.Sin embargo, los vectores de ponderación presentan alguna dificultad adi-cional, por ejemplo, ¿cómo asignar los valores iniciales de ponderaciónpara que estos valores sean óptimos? Según comentamos, el operador deagregación WOWA emplea dos vectores de valores que se pueden in-terpretar en términos de la relevancia de las variables y la fiabilidad de losdatos. Diferentes pruebas han sido realizadas para aprender los cocientesdel vector de relevancia, el vector de fiabilidad, y ambos vectores a la vez.La técnica de aprendizaje de los valores en todas las pruebas ha sido elalgoritmo genético. En referencia a la literatura actual, esto es un enfoquenovedoso para establecer los valores de ponderación para operadores deagregación en general, y el operador de WOWA en particular. El métododel algoritmo genético fue comparado con otras técnicas con los mismosdatos: el método ASM Active Set Method y el método de asignación de losvalores por un experto médico. Los resultados de la comparación quedanresumidos en [Nettleton01b] y el método del algoritmo genético da resul-tados favorables en comparación con las técnicas más “tradicionales”. Enel libro, esta área de estudio queda resumida en términos teóricos en lasSecciones 7.8 y 8.2, y a nivel práctico en los Capítulos 10 y 11.

168 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 176: Técnicas Para El Análisis Clínico de Datos

Modificación del WOWA para incorporar vectoresde cocientes de longitud variable para permitirel proceso de datos con valores desconocidos

El operador de agregación WOWA en su versión “estándar” ha sidomodificado para facilitar el proceso de variables con valores ausentes ono asignados. Esto permite el proceso de conjuntos de datos reales paralos cuales la ausencia de un determinado porcentaje de los valores es unproblema típico. La versión modificada del operador WOWA detecta alos valores ausentes en una fase de preproceso y “contrae” a los vectoresde cocientes y de datos para cubrir únicamente a los valores conocidos.Además, se han probado otros métodos que permiten una interpretación“dinámica” de los cocientes de fiabilidad, que pueden variar según elcaso. Esto permite que el operador se adapte a las diferentes distribucio-nes que pueden existir de un conjunto de datos a otro, o de un diagnósti-co respecto a un pronóstico. En la publicación [Nettleton01b], se encuen-tra una descripción detallada del método. En el presente libro, losaspectos teóricos están resumidos en las Secciones 2.3, 7.4 y 8.2, mien-tras que los resultados prácticos de la aplicación del método a datos rea-les (diagnóstico de apnea) se encuentran en los Capítulos 10 y 11.

La representación de datos para su procesoen la forma difusa; cuestionario de apnea

El screening (o el filtro) de pacientes de apnea es una práctica que sir-ve para evitar la admisión innecesaria y consecuentes pruebas diagnósti-cas de pacientes que no tienen la enfermedad. Sin embargo, el screeningde pacientes mediante el uso de un cuestionario, siendo este el métodoestándar, no consigue un alto índice de acierto. Una de las razones de ellopodría ser, y esto es una de las sugerencias del presente libro, debida a lafalta de una interpretación con suficiente sutileza, de las respuestas de lospacientes al cuestionario. Como posible solución, proponemos en estelibro el uso de una representación difusa de los datos con “grados de per-tenencia”.

Hemos introducido un formato de escalas (línea continua) para repre-sentar las respuestas al cuestionario. Como siguiente paso, hemos diseña-do una curva para la función de pertenencia que se pone encima de la

169RESUMEN DE LOS ASPECTOS CLAVES EN LA ADAPTACIÓN...

Page 177: Técnicas Para El Análisis Clínico de Datos

escala correspondiente de tal forma que coincide la línea horizontal de la escala con el eje-x del gráfico de la función de pertenencia. Esto permite realizar la lectura de la respuesta en términos de un grado de per-tenencia a una etiqueta lingüística (por ejemplo, “muy bajo”, “bajo”,“medio”, “alto”, “muy alto”). El uso de una escala permite una respuesta“difusa” por parte del paciente. Por ejemplo, el paciente puede dar su res-puesta marcando una cruz sobre la escala. Dicha cruz puede estar posicio-nada en cualquier punto entre dos posibles valores, por ejemplo, “alto” y“medio”. Asimismo, la respuesta sobre una línea continua permite el cálcu-lo de un grado de pertenencia de la respuesta a cada etiqueta lingüística.En nuestro cuestionario usamos típicamente cinco etiquetas lingüísticas.Para procesar los datos, usamos el operador WOWA (véase secciones 2.3,7.4 y 8.2 del libro) para dar un valor diagnóstico a partir de las variablesseleccionadas de entrada (las respuestas del cuestionario). WOWA nosproporciona dos vectores de cocientes, uno de la relevancia de las varia-bles y otro de la fiabilidad de los mismos. Los vectores de cocientes nosdan una mayor flexibilidad en el proceso de los datos, y nos permitenintroducir información respecto a la fiabilidad de los mismos y la relevan-cia de las variables. Con los cocientes, podemos controlar el impacto deuna determinada variable o dato sobre el resultado global (el diagnósticode un paciente). Una parte del trabajo resumido en el presente libro sobrela agregación y representación de datos de casos de apnea, ha sido pre-sentado previamente en los artículos [Nettleton99b], [Nettleton99c], [Net-tleton99e] y [Nettleton01a]. En el presente libro los aspectos teóricos deesta área están detallados en las Secciones 2.4, 6.3 y 8.2; su aplicaciónpráctica al diagnóstico de apnea está detallada en los Capítulos 10 y 11.

Aplicación de las técnicas de IA al diagnóstico de apnea

En contraste con el pronóstico de pacientes UCI, que es un área que harecibido mucha investigación por parte de la comunidad científica médica(tanto con la estadística tradicional como con técnicas de IA), el diagnósti-co de apnea está poco explorado con técnicas de IA. Usamos el operador deagregación WOWA para dar un diagnóstico, empleando valores de fiabili-dad y de relevancia para mejorar el resultado. Usando el WOWA contrasta-mos la asignación de los cocientes de relevancia de las variables por el mé-dico experto, con la asignación de los cocientes mediante el aprendizaje por

170 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 178: Técnicas Para El Análisis Clínico de Datos

un algoritmo genético. Realizamos pruebas comparativas del WOWA (ver-sión adaptada) con otras técnicas: redes neuronales, inducción de reglas,componentes principales, y agregación OWA. Los resultados de estas prue-bas con datos reales quedan resumidos en los Capítulos 10 y 11.

8.1.NEL CÁLCULO DE COVARIANZAS DIFUSASENTRE VARIABLES

Si los datos que deseamos procesar contienen dos o más variables detipo difuso, entonces es necesario que seamos capaces de compararlasentre sí. Como modus operandi calculamos la distancia entre pares devariables, su correlación y covarianza mutua, y su similitud y disimilitudrelativa.

Para poder comparar una variable de tipo difuso con otra variabletambién de tipo difuso, necesitamos un método que calcule distancias enun conjunto de datos agrupado de forma difusa. Vamos a usar el plantea-miento de los conjuntos difusos de [Bezdek81] y las covarianzas difusasde [Gustafson79] como base para desarrollar un cálculo de covarianzaentre dos variables, ambas de tipo difuso. Primero, consideramos la cap-tura de los datos reales de dos variables difusas A y B. Cada variable, Ay B se define por los valores de datos en sí, junto con los grados de per-tenencia, para cada dato, a dos o más conjuntos difusos. A continuaciónvamos a cuantificar la relación entre A y B en términos de un valor pare-cido a una covarianza.

En la literatura existen pocos métodos que son de uso general (no customizados para una aplicación específica) y sencillos, que permitencalcular covarianzas entre variables de tipo difuso. Otra consideración esdisponer de un método que nos permita procesar datos reales como elconjunto de la UCI, y comparar los resultados con un cálculo no-difusode covarianzas estándar. De este modo, podemos identificar posiblesmejoras en la precisión diagnóstica y la capacidad explicativa en térmi-nos clínicos. Las covarianzas difusas nos permiten identificar la presen-cia, o ausencia de relación entre las distintas variables. Si usamos la téc-nica Fuzzy c-Means para realizar el clustering, los datos de entradapueden ser originalmente de tipo no-difuso. La medida difusa se derivadel cálculo de la distancia de los casos de una variable a un prototipo en

171RESUMEN DE LOS ASPECTOS CLAVES EN LA ADAPTACIÓN...

Page 179: Técnicas Para El Análisis Clínico de Datos

cada conjunto difuso. A continuación vamos a entrar en más detalle delsignificado de esto.

a)nConsideraciones para la representacióny comparación de variables de tipo difuso

La representación de variables de tipo difuso y su comparación entresí, se nos presenta con ciertas cuestiones que requieren respuesta, y quevamos a comentar a continuación.

(1) ¿Tiene sentido representar variables de forma difusa cuando noson deterministas ni probabilísticas? (véase el Capítulo 3 para la defini-ción de estos términos). Por ejemplo, escojamos el caso de tomar unamedida de un dato de una variable, en la cual existe un factor de error(más o menos x) debido a los límites de precisión y calibración del ins-trumento lector. En este caso, podríamos usar la distribución normal delerror para construir una función de pertenencia para el valor no-difuso.

Ahora consideremos una variable categórica ordinal, como por ejem-plo, “duración de estancia en el hospital”, cuyos posibles valores son,“corta”, “mediana” y “larga”. No existe una definición exacta, ni hay unconsenso entre los médicos expertos. Es decir, las definiciones varíansegún diferentes combinaciones de condicionantes y circunstancias: con-diciones clínicas, estructura organizativa de distintos hospitales, casosconcretos de pacientes, etc... Por consiguiente, esta variable es una can-didata para ser interpretada por grados de pertenencia. Por ejemplo, elpaciente 312 podría tener las siguientes grados de pertenencia a las tresposibles categorías de estancia: {corta: 0,5}, {mediana: 0,3}, y {larga: 0,0}.Esto significaría que el paciente pertenece en medida 0,5 al grupo depacientes de corta estancia, y en menor medida (0,3) al grupo de pacien-tes de estancia media. Esta representación podría resultar útil para médi-cos con responsabilidades de planificación, para la evaluación de la asig-nación de recursos y para la estimación de las necesidades de pacientesconcretos. Podría ocurrir que no tenga sentido representar una variablede forma difusa cuando la manera de medir o leer un dato es totalmenteprecisa en todos los casos. Es decir, que la lectura está dentro del rangopermitido de error (tolerancia) asignado a aquella variable. Se concluyeque, para esta variable, su margen de variación no es significativo.

172 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 180: Técnicas Para El Análisis Clínico de Datos

(2) La representación de la variable en la forma difusa depende de sutipo. Si la variable es de tipo numérico, podemos visualizar su distribu-ción mediante un histograma, por ejemplo, y dividir el gráfico que resul-ta en rangos. Si la variable es de tipo categórico ordinal, podemos esta-blecer rangos basándonos en su valor cuantitativo, aconsejado por unexperto en el dominio de datos. Si la variable es de tipo categórico nomi-nal (no ordenable), podemos establecer una medida basada en el númerode casos que coinciden con cada valor (frecuencias).

(3) La covarianza entre dos variables difusas (X e Y). La técnica declustering Fuzzy c-Means establece un prototipo difuso para cada con-junto difuso. Entonces calcula la distancia entre cada caso y el prototi-po en una agrupación (cluster) determinada, calculándola después paralos demás agrupaciones. Primero, es necesario convertir X e Y en valo-res que sean comparables entre sí, usando, por ejemplo, algún procesoparecido a la normalización. A continuación presentamos una defini-ción formal que los lectores no-matemáticos pueden saltar y pasar alpunto (4).

Si tenemos una muestra de n pares de grados de pertenencia de dosvariables difusas X e Y

X: x1 x2 ... xn

Y: y1 y2 ... yn

Si x– = 1/n xi, y– = 1/n yi, la covarianza difusa de la muestra será

nSxy = 1/n (xi - x–)(yi - y–) (8.1)

i=1

siendo

nSxy = 1/n –xi

–yi - x– y– (8.2)i=1

En el contexto difuso, podríamos interpretar x e y como el centrode cluster vi , que explicaremos con más detalle más adelante en estasección.

173RESUMEN DE LOS ASPECTOS CLAVES EN LA ADAPTACIÓN...

Page 181: Técnicas Para El Análisis Clínico de Datos

De esta forma aprovechamos el resultado de Fuzzy c-Means (los gra-dos de pertenencia), y al calcular las covarianzas no será necesario con-siderar el tipo de la variable. Esto es debido a que el preproceso de lasvariables produce un fichero de entrada en el formato estándar requeridopor fuzzy c-Means.

Por consiguiente, interpretamos la covarianza en el contexto actualcomo la varianza del grado de pertenencia de dos variables en un con-junto. Los datos originales, dados como entradas a Fuzzy c-Means,podrían, por ejemplo, consistir de dos columnas, una para cada varia-ble y con una fila para cada caso. Fuzzy c-Means produce dos colum-nas de datos como salida; las columnas corresponden al grado de per-tenencia de cada variable, y las filas corresponden a los grados depertenencia de cada caso. Ahora vamos a considerar el uso de los gra-dos de pertenencia para el cálculo de la covarianza usando la formulaestándar de covarianza. Esto produce como resultado una “distancia”entre los grados de pertenencia de cada variable. Intuitivamente, estaes la distancia entre la suma ponderada de la varianza de la distanciade cada variable desde el prototipo difuso de cada clase.

(4) Suponemos que hemos calculado las covarianzas difusas, segúndetallado en el paso (3). Ahora podemos proceder a aplicar el algoritmode fusión de Hartigan a las covarianzas difusas. Se recuerda que el algo-ritmo de Hartigan busca los pares cuyas covarianzas sean máximos, parafusionarlas (amalgamación) para formar una sola variable (o factor) nue-vo en cada ciclo de proceso. ¿Qué problema podría surgir al usar el algo-ritmo estándar de fusión? ¿Estamos pasando por alto algo en la interpre-tación de las covarianzas difusas? ¿Es verdad que la covarianza difusamáxima en cada iteración señala a las dos variables con mayor relaciónen el ciclo de proceso correspondiente?

En contestación a la última pregunta, podemos decir que si la cova-rianza difusa entre dos variables es un máximo, entonces esto indicaque las dos variables en cuestión poseen la variación más pequeña ensus respectivos grados de pertenencia al mismo centro de la agrupacióndifusa (o prototipo difuso). Esto se puede ver de forma gráfica en laFigura 8.1.

Con referencia a la Figura 8.1, se ven cinco variables {a, b, c, d, e}que se encuentran asociadas al conjunto difuso X. Las variables “a” y “b”

174 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 182: Técnicas Para El Análisis Clínico de Datos

son las que tienen la varianza mutua más pequeña entre sus respectivasdistancias al centro de cluster “x” (también conocido como “prototipodifuso”).

(5) El algoritmo de fusión nos proporciona tres resultados para unapareja de variables fusionadas:

a)NLa covarianza de la variable nueva respecto a las demás variables.

b)NLas dos variables que han sido seleccionadas para ser unidas,quedan identificadas mediante un marcador simbólico.

c)NUna matriz B almacena los cocientes y factores necesariospara poder “volver atrás” a las variables originales a partir delos factores nuevos. Esta información nos indica además, lasproporciones fraccionadas con que cada variable original con-tribuye al nuevo factor, de una manera parecida a la técnica decomponentes principales.

Si las variables son de tipo difuso, podemos interpretar la nueva va-riable difusa producida por la fusión como un consenso entre las dosvariables difusas originales. ¿Qué problema podría surgir de esta situa-ción? Una posible consecuencia sería una pérdida de sentido de losdatos. Por ejemplo, si variable A es “índice de riesgo de fallecimiento”

175RESUMEN DE LOS ASPECTOS CLAVES EN LA ADAPTACIÓN...

X

c�

a� x

b�

d�

e�

Figura 8.1.NVariables a y b son las que poseen las covarianzas difusas más altas.

Page 183: Técnicas Para El Análisis Clínico de Datos

y variable B es “duración de estancia en el hospital”, podríamos dudardel sentido en términos prácticos de la variable resultante de unafusión de A con B. Suponemos que las variables A y B son las que tie-nen la correlación mutua más alta, entre sus respectivos grados de per-tenencia, de todos los pares de variables. En este caso podríamos decirque hemos establecido que la relación difusa de mayor relevancia eneste conjunto de datos, es la que existe precisamente entre estas dosvariables.

No hay que olvidar que es el centro de cluster, o prototipo, que usa-mos como punto de referencia y de comparación. Fuzzy c-Means generauno o más conjuntos difusos, el número de conjuntos definidos por elparámetro de entrada “c”. Estos conjuntos son, en esencia, agrupacionesabstractas. Es decir, que no se pueden asociar a un conjunto difuso, deforma a priori, con una clasificación predeterminada. Después del pro-ceso de agrupación, el investigador puede asociar características a losgrupos en términos de las variables. Por ejemplo, el investigador podríaestablecer que los conjuntos difusos “X”, “Y” y “Z” han agrupado a loscasos en términos de “duración de estancia en el hospital en días”, y quelos grupos corresponden, de manera predominante, a casos de “corta”,“mediana” y “larga” duración de estancia.

(6) Ahora vamos a entrar en una definición formal de proceso difusode los datos. En este punto, los lectores no-matemáticos pueden pasardirectamente a la Sección 8.2. Para los lectores que van a seguir con estasección, se recomienda acudir a la Sección 7.5 del libro La técnica deagrupación difusa Fuzzy c-Means y especialmente la parte referente aNormas. Para llegar a una descripción formal de la variable difusa C, quees la fusión de las dos variables difusas A y B, es necesario volver a lospasos usados para calcular la covarianza de las dos variables difusas. En[Bezdek81], se describe el cálculo para una matriz de covarianzas difusasque permite interpretar las distancias a partir del centro del cluster. Sinembargo, la covarianza se define entre una variable y el centro del clus-ter, en vez de entre dos variables.

Según Bezdek, la “matriz difusa de dispersión” de cluster ui es:

nSfi = (uik )m(xk - vi)(xk - vi)

T (8.3)k=1

176 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 184: Técnicas Para El Análisis Clínico de Datos

para los ni puntos en cluster “no-difuso” ui que tiene centro de cluster vi.De esta forma, si U 1 Mc , el número (xk - vi)

T Ci-1 (xk - vi) será el cuadra-

do de la distancia mahalonobis entre xk 1 ui , y la media de muestreo serávi

”, donde Ci-1 es el inverso de la matriz de muestreo de covarianzas de los

puntos en ui. Esto puede ser interpretado como el cuadrado de la distan-cia difusa mahalonobis entre xk y el centro de cluster difuso vi. Los gra-dos de pertenencia quedan distribuidos para minimizar el “volumen glo-bal de dispersión difusa” de los c clusters difusos. Como modus operandipara encontrar una solución óptima, se puede aplicar diferentes “normas”(se refiere a la Sección 7.5 del libro). Por ejemplo, primero probamos lanorma mahalonobis (NM), seguida por la euclidiana (NE) o diagonal (ND).Además, podemos realizar una serie de pruebas con particiones no-difu-sas (categóricas) en orden de establecer si el enfoque de una interpreta-ción difusa de los datos mejora el resultado final. Un criterio de calidadpara el resultado final sería “error de clustering”, definido en términosdel porcentaje de casos clasificados incorrectamente respecto a los datoshistóricos.

b)NLos cálculos de covarianzas difusa

Un algoritmo de “covarianza difusa” ha sido desarrollado por Nettle-ton, que permite un cálculo de covarianza entre variables de tipo difuso.

Como base, hemos usado el algoritmo de covarianza difusa de Gus-tafson y Kessel [Gustafson79]. Sin embargo, este algoritmo no calculauna distancia entre variables, sino entre valores, es decir, puntos en dosdimensiones. Su adaptación para calcular una distancia entre variables hasido detallada en los artículos publicados [Nettleton98b][Nettleton99b].En la sección que se encuentre a continuación se presenta una síntesis delos cuatro métodos de cálculo probados.

El cálculo de covarianzas difusas

En la literatura hay pocos ejemplos de algoritmos genéricos que cal-culan una “covarianza difusa”. El algoritmo de Gustafson y Kessel [Gus-tafson79] calcula las covarianzas de las variables respecto a los centros

177RESUMEN DE LOS ASPECTOS CLAVES EN LA ADAPTACIÓN...

Page 185: Técnicas Para El Análisis Clínico de Datos

de cluster, y no de las variables entre sí. Hacemos constar que en el pre-sente libro consideramos como sinónimos los términos “cluster” y “par-tición”, siendo ambos una agrupación de casos de datos generados poruna técnica de agrupación. A continuación vamos a desarrollar un méto-do, basado en el de Gustafson y Kessel, que calcula la covarianza entredos variables de tipo difuso. En la literatura existen otros algoritmos decovarianza difusa, diseñados para problemas específicos, como por ejem-plo los de [Nakamori97] y [Babuska96]. Sin embargo, faltan más solu-ciones que no sean específicas para un dominio concreto.

Ahora vamos a detallar nuevos métodos genéricos para calcular cova-rianzas difusas. Cada método utiliza las particiones difusas generadaspor Fuzzy c-Means. Al final del proceso de datos por parte de Fuzzy c-Means, cada método posprocesa los vectores y matrices de datos queresultan como salida de Fuzzy c-Means.

Métodos 1 hasta 4: el método 1 produce las covarianzas difusas usan-do un solo algoritmo. En contraste, los métodos 2 hasta 4 crean unamatriz de datos (j variables por k casos) de diferentes elementos ponde-rados de las particiones difusas: el centro del cluster, los grados de per-tenencia, los valores de los datos, y los cocientes de las normas. Estoselementos se pasan posteriormente a un algoritmo estándar de covarian-za que calcula las mismas. En el caso de los métodos 2, 3 y 4, se utilizala matriz C que resulta del cálculo de las covarianzas entre las variables, esdecir, los valores de los datos correspondientes y los grados de pertenen-cia correspondientes. El proceso se repite para cada partición difusa i.

(1)nVariante del Método de Gustafson - Método 1

Usamos como punto de partida el algoritmo de Gustafson y Kessel[Gustafson79], que por su parte se basa en la familia de algoritmos deFuzzy c-Means. La variante del método de Gustafson nos genera una ma-triz de covarianzas difusas, que damos como entrada al algoritmo de Har-tigan, que lo usa para agrupar las variables en un número reducido de factores.

El método 1 fue definido por primera vez en [Nettleton98b] y fuecomprobado con otros métodos usando conjuntos de datos de prueba. Acontinuación entramos en la explicación teórica de los métodos. Los lec-

178 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 186: Técnicas Para El Análisis Clínico de Datos

tores que no deseen seguir los aspectos más teóricos pueden pasar direc-tamente a la Sección 8.2.

Sea ui la matriz de grados de pertenencia de n casos relativos a parti-ción i; uik es el grado de pertenencia de caso k a partición i; xk es el vec-tor de características (datos) pertenecientes al caso k; vi es el centroide departición i; m es un factor de ponderación que define el grado difuso;(xk - vi )(xk - vi ) es una distancia parecida a la de mahalonobis.

Medimos el grado de relación entre una variable V1 con el centroidede una partición C1. Entonces medimos el grado de relación de unasegunda variable V2 al centroide de la misma partición C1. La distanciamide la diferencia entre el grado de relación de V1 a C1 y el grado de rela-ción de V2 a C1, es decir, d(V1, C1) – d(V2, C1). Por consiguiente, el cál-culo de las covarianzas difusas entre las variables en partición i se repre-senta con la siguiente fórmula:

� n �Cfi = � (uik)

m ||d(V1, C1) – d(V2, C1)|| (8.4)j=1 k=1 q=1

donde

d(V1, C1) = (xjk - vi )(xjk - vi )

y

d(V2, C1) = (xqk - vi )(xqk - vi )

siendo � el número de variables, y n el número de casos.

(2)nMétodo 2

Este método mide la relación entre los grados de pertenencia y losvalores de los datos de los objetos (casos). Si uik es el grado de pertenen-cia de caso k a la partición i, e ykj es el valor del j-ísima variable de casok, entonces Ckj será el producto para el k-ísimo caso de variable j, y Ckqserá el producto para el k-ísimo caso de variable q. A la primera colum-na de Ckj (variable 1) se asignan los grados de pertenencia para la parti-

179RESUMEN DE LOS ASPECTOS CLAVES EN LA ADAPTACIÓN...

Page 187: Técnicas Para El Análisis Clínico de Datos

ción actual uik. A las columnas posteriores de Ckj se les asignan los valo-res de datos correspondientes de ykj .

Ckj = uik , j = 1

y

Ckj = ykj-1 , j = 2, � (8.5)

donde � es el número de variables. La matriz resultante C tiene dimen-sión n por � +1.

(3)nMétodo 3

Este método mide la relación entre las distancias entre los objetos y elcentro de partición, ponderadas por los cocientes norma. En el método 3,ykj y Ckj tienen el mismo sentido que en el método 2. En el método 3, in-troducimos dos nuevos factores: vij , que representa el centro de partición ipara variable j; y ccjq , que es la norma calculada para variable j y caso q.La norma que ha sido usada para todas las pruebas es la euclideana.

�Ckj = ( ykj - vij ) × ccjq × (ykq - viq ) (8.6)

q=1

donde � es el número de variables. La matriz resultante C tiene dimen-siones n (el número de casos) por � (el número de variables).

(4)nMétodo 4

Este método mide la relación entre las sumas del cuadrado de la dis-tancia entre los objetos y el centro de una partición. La distancia estáponderada por el cociente norma y los correspondientes grados de perte-nencia. El método 4 realiza el mismo cálculo que el método 3, y despuésrealiza el siguiente cálculo:

C’kj = Ckj × (uik)m (8.7)

180 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 188: Técnicas Para El Análisis Clínico de Datos

donde m es un factor de ponderación que define un grado de difuso, de lamisma forma que en el método 1. La matriz resultante C se proporcionacomo entrada a un algoritmo estándar de covarianzas que calcula las mis-mas entre las variables y los grados de pertenencia. El proceso se repitepara cada partición i.

Resumen de los métodos 1 hasta 4

Método 1 genera las covarianzas difusas directamente, mientras quelos métodos 2 hasta 4 nos permiten estudiar los distintos componentes yvalores que intervienen en Fuzzy c-Means. Además, nos permiten eva-luar la fuerza de la relación entre estos componentes, usando un algorit-mo estándar de covarianza. Estos métodos fueron comprobados con da-tos de prueba y con otros algoritmos en [Nettleton98b].

8.2.NRESUMEN DE LAS ADAPTACIONESDEL OPERADOR DE AGREGACIÓN WOWA

En esta sección resumimos las adaptaciones realizadas a la versión“estándar” del operador WOWA [Torra96]. Hay una definición teórica desiete puntos que los lectores que deseen pueden saltar. A continuación setrata con mayor profundidad al aspecto de la definición de un vector defiabilidad para cada variable (en la versión estándar hay un solo vectorpara todas las variables). Esto permite customizar el proceso de los valo-res de cada variable, según sus características y distribución.

Las siguientes tres adaptaciones fueron realizadas al operador deagregación WOWA: (1) reformulación para casos con un número dife-rente de variables, la cual permite el proceso de valores desconocidos; (2)el cálculo y entrada de grados de pertenencia al WOWA; (3) una curvainterpolada distinta para cada variable.

El aprendizaje de los valores del vector � usando el algoritmo genéti-co no necesitó de modificaciones código del WOWA en sí. Esto es debi-do a que los valores se asignan desde/hasta los cocientes � y + de WOWAusando una función independiente (el algoritmo genético). En contrastecon la versión estándar del operador WOWA, que realiza una interpola-

181RESUMEN DE LOS ASPECTOS CLAVES EN LA ADAPTACIÓN...

Page 189: Técnicas Para El Análisis Clínico de Datos

ción de los valores en el vector + sólo una vez, la versión modificada de WOWA, que hemos bautizado AWOWA, debe ejecutar la interpo-lación cada vez que encuentra una nueva variable y sus valores corres-pondientes.

AWOWA agrega una fila de valores en uno solo, empleando dos vec-tores de cocientes � y +. � se interpreta como la relevancia de las varia-bles y contiene un cociente para cada variable. + se interpreta como lafiabilidad de los datos y también contiene un cociente por variable. 0 esel tercer vector de entrada del AWOWA y contiene los valores (los datosen sí) para un caso (paciente). Los vectores �, + y 0 se proporcionan aAWOWA en cada llamada a la función.

0, es el vector de datos con valores para un caso que se pasan en cadallamada de función AWOWA de la siguiente forma: AWOWA (�, +, 03.

(1)nReformulación para casos con un número distinto de variables. Elobjetivo es poder procesar datos con valores desconocidos.

Sea Nv el número de variables incluyendo aquellas con valores des-conocidos; sea Nmv el nuevo número de variables una vez que los valo-res desconocidos han sido identificados y eliminados. Para cada varia-ble vi, se comprueba cada uno de sus valores para establecer si es nulo(es un valor que indica que no está asignado). Para cada variable vi queposee valores desconocidos, se procede a eliminar la posición corres-pondiente al dato en los vectores 04�+�y �. Las posiciones restantes semueven una casilla a la izquierda (es decir, los vectores quedan com-pactados).

(2)nCálculo y entrada de los grados de pertenencia.

Para cada variable de tipo difuso, se calcula un solo valor, fvi . Sean el número de variables difusas, y m el número de etiquetas difusas(igual para todas las variables), li será el valor ordinal numérico de laetiqueta lingüística {1, 2, 3, …}, y �i será el grado de pertenencia que corresponde a cada etiqueta lingüística. Así, para cada variabledifusa:

nfvi = lij × �ij

j=1

182 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 190: Técnicas Para El Análisis Clínico de Datos

(3)nPara todas las variables vj, j=1,n se define una función de interpola-ción para cada variable.

Se asignan los valores en el vector �, para cada variable difusa fvj .Para cada elemento i,

�ji = sesgoi

donde sesgo es la función característica seleccionada para esta variable.

(4)nLa función SetQ realiza la interpolación de � y la coloca en unaestructura apropiada, siendo esto �*.

� es un vector con n puntos a ser interpolados, donde n es el númerode variables.

�* = SetQw

(5)nLa función OrderA coloca los valores 0 de los datos en orden ascen-diente y mueve los valores correspondientes de � a las mismas posi-ciones.

OrderAp, 0

(6)nSe realiza una ponderación de la interpolación del vector �, que hasido asignado a �* en el paso (4), usando el segundo vector decocientes �.

Esto resulta en un nuevo vector de ponderación ' que actuará sobrelos valores de los datos en 0, según lo detallado en el paso (7). Para cadafila de valores j para cada caso, se calcula el nuevo vector de pondera-ción, usando una función creciente monótona que se representa por �*

n n'j = �* ( p�(j) ) – �* ( p�(j) )

j*i j<i

(7)nEn el último paso, la función T calcula el producto escalar de los dosvectores, ' y 0, esto siendo el valor definitivo de salida para el caso(paciente) actual, y donde 0 es el vector de puntos de datos.

AWOWA = T', 0

183RESUMEN DE LOS ASPECTOS CLAVES EN LA ADAPTACIÓN...

Page 191: Técnicas Para El Análisis Clínico de Datos

Observación: para poder proporcionar los grados de pertenenciacomo entradas a WOWA, agregamos los grados de pertenencia que sonno-cero usando la media ponderada (WM o Weighted Mean) para conse-guir un solo valor numérico, según lo detallado en el paso (2). Este valorse normaliza y se proporciona como entrada al WOWA. Para poder com-parar los grados de pertenencia de distintas variables, es necesario usar lamisma función de pertenencia para todas las variables.

Implementación del vector de valores “�” (fiabilidad)distinto para cada variable

Consideremos dos aspectos: (1) permitir un número limitado de for-mas para los vectores de valores “�”; (2) la definición de un vector “�”para cada variable y un valor “�” para cada variable. El operador WOWAestándar tiene un vector “�” y un vector “�” que no varían durante el pro-ceso de un conjunto de datos. En nuestra versión, se considera el conjun-to de datos en dos dimensiones (una matriz) que tiene un vector “�” aso-ciado con cada columna (variable), y un vector “�” asociado con cada fila(datos de un caso). Los vectores “�” y “�” se interpretan en términos de“fiabilidad” y “relevancia”, respectivamente.

Asignación de valores �: los vectores de valores � dependen de lacurva característica asignada a cada variable. Es el experto médico quiendecide cuál de las curvas características se asigna a cada variable.

Usamos un vector de “sesgo” para guardar cuál de las cinco posiblescurvas características se asigna a cada variable. Por ejemplo, considerarun vector de sesgo, sesgo[i], i=1..N, donde N=5 (el número de variables).Un ejemplo de las asignaciones al vector de sesgo sería: sesgo[1]=“M”,sesgo[2]=“E”, sesgo[3]=“H”, sesgo[4]=“M”, sesgo[5]=“E”. De esta for-ma, el contenido de sesgo[2], por ejemplo, indica la curva característicaa aplicar a la variable 2. En este caso, dicha curva será la “E”, que da unsesgo equilibrado a todos los posibles valores de esta variable (véase Fi-gura 8.3).

Las curvas características pueden asumir una de las cinco formas po-sibles: sesgo equilibrado (E) se asigna como {0,2, 0,2, 0,2, 0,2, 0,2}; ses-go valores bajos (L) se asigna como {0,3, 0,3, 0,2, 0,1, 0,1}; sesgo valo-res altos (H) se asigna como {0,1, 0,1, 0,2, 0,3, 0,3}; sesgo valores altos

184 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 192: Técnicas Para El Análisis Clínico de Datos

y bajos (O) se asigna como {0,3, 0,15, 0,1, 0,15, 0,3}; sesgo valoresmedianos (M) se asigna como {0,1, 0,25, 0.3, 0,25, 0,1}. Por consi-guiente, los valores de los índices que quedan almacenados en el vectorde sesgo pueden asumir uno de los siguientes valores: “E”, “L”, “H”,“O”, “M” (véase Figura 8.2). Esto permite un gran número de posiblespermutaciones de los valores en el vector de sesgo.

En lo que se refiere a los valores asignados al vector “�”, estos luegoquedan interpolados por el cuantificador, de la misma forma que en laversión estándar de WOWA. Como ejemplo práctico, considerar la Figu-ra 8.2. Suponemos que los sesgos (M, H, L, E, O) han sido asignados pre-viamente para cada variable a sesgos[i], i=1...N. Se recuerda que al vec-tor “�” le asignamos los valores de “fiabilidad”. Si consideramos laprimera variable i=1, su asignación sería el sesgo M, con la correspon-diente curva característica. La interpretación sería que los valores extre-mos de la variable 1 no son tan fiables (en la escala y grado definido) yque la influencia de estos valores extremos, por consiguiente, quedarádisminuida. En contraste, los valores medianos se considerarán relativa-mente más fiables y su influencia en el resultado (la salida) será poten-ciada.

En las Figuras 8.3 hasta 8.7 se ven cada una de las curvas carac-terísticas definidas por los vectores E, L, H, O y M, cuyos vectores decocientes han sido definidos previamente. Estos vectores representanel vector � (fiabilidad) que se puede utilizar para reforzar algunas delas respuestas (al cuestionario de apnea), mientras disminuyendootras, según como se ve en las Figuras 8.3 hasta 8.7. Como ejemplo,en la Figura 8.4 una respuesta de “nunca” será reforzada y afectará enmayor grado al resultado (salida agregada). En contraste, una respues-ta de “siempre” quedará disminuida y su contribución al resultado serámenor.

185RESUMEN DE LOS ASPECTOS CLAVES EN LA ADAPTACIÓN...

Figura 8.2.NEl vector de sesgo es un índice que asignan las curvas características defiabilidad para cada variable.

Page 193: Técnicas Para El Análisis Clínico de Datos

Hacemos una distinción de dos aspectos: (1) el efecto de ponderaciónsobre la fiabilidad de la respuesta; y (2) el grado de pertenencia de lasrespuestas detalladas anteriormente. Podemos decir que el grado de per-tenencia refleja la información cualitativa proporcionada por el paciente.

186 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 8.3.NVector de sesgo equilibra-do (E).

Figura 8.4.NVector de sesgo valoresbajos (L).

Figura 8.5.NVector de sesgo valoresaltos (H).

Figura 8.6.NVector de sesgo valoresaltos y bajos (O).

Figura 8.7.NVector de sesgo valores me-dianos (M).

Page 194: Técnicas Para El Análisis Clínico de Datos

Por otra parte, se puede decir la ponderación � de las respuestas reflejael conocimiento del médico experto respecto a cuáles de las respuestasson las más esperadas para cada pregunta.

En lo que se refiere a la asignación de los valores al vector �, cadavariable puede tener asignada una de cinco posibles curvas característi-cas, según lo indicado en el vector de “sesgo”. Cada curva característicase almacena en un vector distinto, representado por cinco puntos/valores.A partir de estos puntos/valores, el WOWA utiliza el método de interpo-lación de Chen y Otto [Chen95], para crear una curva (una función con-tinua) que se usa para ponderar todos los valores de cada variable.

187RESUMEN DE LOS ASPECTOS CLAVES EN LA ADAPTACIÓN...

Page 195: Técnicas Para El Análisis Clínico de Datos

En esta Parte II detallamos la aplicación de los métodos y las técni-cas explicadas previamente en los Capítulos 2 hasta 8, a conjuntos dedatos reales, y con un énfasis en dos dominios clínicos reales. Losdominios clínicos que consideramos son: el pronóstico de pacientesUCI y el screening de pacientes para el diagnóstico del síndrome deapnea del sueño. La diversidad y complejidad de estos conjuntos dedatos nos permite comprobar el comportamiento de las técnicas comoherramientas de exploración y modelización de los datos. Asimismo,nos permite evaluar y contrastar los resultados con otros métodos queprovienen de los campos de la estadística tradicional y de la minería dedatos.

En el Capítulo 9 presentamos un análisis extensivo de un conjunto dedatos reales de pacientes UCI, usando técnicas de la estadística, de laminería de datos y métodos propios. Los métodos propios incluyen el usodel algoritmo de Hartigan (joining algorithm) con covarianzas discretasy difusas como entradas, y el uso del algoritmo Fuzzy c-Means para agru-par los datos e indicar relaciones entre variables y los centros de cluster.

En el Capítulo 10 se emplean diversas técnicas de clustering y clasi-ficación para establecer la fiabilidad y relevancia de las variables en unconjunto de datos de casos de apnea proporcionados por el Hospital Clí-nico de Barcelona. A continuación, se aplican las técnicas de agregación,OWA y WOWA, al mismo conjunto de datos de casos de apnea. Losdatos de entrada fueron capturados mediante un cuestionario de datos enformato no-difuso, y la salida es un diagnóstico de tipo binario con valo-res sí/no. Se presentan y comparan los resultados usando dos métodosdistintos para la asignación de los valores de relevancia/fiabilidad y laselección de las variables en sí. En el primer método, el médico experto

Parte IIAplicación de las técnicas a casos reales

Page 196: Técnicas Para El Análisis Clínico de Datos

realiza la asignación, mientras que en el segundo se emplean métodosestadísticos y de aprendizaje automatizado.

Por último, en el Capítulo 11 aplicamos el operador de agregaciónWOWA al diagnóstico de casos de apnea usando un conjunto de datosrecogido por el Hospital de la Santísima Trinidad, Salamanca (España).En este estudio, los datos fueron captados tanto en la forma no-difusa(categórica) como en la forma difusa (escalas continuas), usando uncuestionario diseñado especialmente. Este enfoque ofrece un contraste alestudio de Capítulo 10, en el cual se capturaron los datos únicamente enla forma no-difusa.

190 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 197: Técnicas Para El Análisis Clínico de Datos

En este capítulo, analizamos un conjunto de datos reales de “admi-siones hospitalarias” de la UCI (Unidad de Cuidados Intensivos). Losdatos fueron preparados previamente de una forma adecuada para el aná-lisis estadístico y el estudio del diagnóstico y pronóstico. En el Anexo 1del libro se encontrará un inventario completo de las variables usadas. Elconjunto de datos UCI es complejo, dado el número de variables, pero lacalidad, en términos estadísticos, es buena. Es decir, existe una distribu-ción representativa de los casos, hay pocos valores desconocidos o erró-neos, etcétera. El conjunto de datos UCI consiste de unos 1.100 casos,con 100 variables por cada uno de ellos. Las primeras 17 variables sonlos signos vitales y otros datos generales respecto al paciente. Las demásvariables están derivadas de una muestra de orina, una muestra de sangre,observación del paciente, y el diagnóstico inicial. Las primeras 24 horasde admisión del paciente en la UCI son las más críticas, y la situación del paciente al final de este periodo queda recogida por una serie devariables en el conjunto de datos. Dado que la UCI es una unidad críticaen el hospital, con una concentración de recursos costosos y limitados, esmuy importante poder asignar prioridades a las admisiones y anticiparsus necesidades, a corto y medio plazo.

9Pronóstico de pacientes de la UCIHospital Parc Taulí de Sabadell

Page 198: Técnicas Para El Análisis Clínico de Datos

Uno de los objetivos del análisis del conjunto de datos de pacientesde la UCI es encontrar las características y factores más significativosque relacionan las variables de entrada con tres variables de salida:“duración_uci”, “duración_hos” y “estado_vital_uci”. La primera varia-ble de salida se llama “duración_uci”, y es el número de días de estan-cia del paciente en la unidad UCI. La segunda variable se llama “du-ración_hos”, y representa el número de días de estancia del paciente enel hospital en total, contado desde su admisión hasta su salida del mis-mo, incluyendo el tiempo de estancia en la UCI. La tercera variable desalida, “estado_vital_uci”, indica el estado vital del paciente al salir de la UCI, y que tiene como posibles valores, “vivo” o “fallecido”. Lasvariables “duración_uci” y “duración_hos” son importantes por variasrazones, la primera respecto al pronóstico del paciente: el tiempo derecuperación indica posibles complicaciones o necesidades adicionalesde recursos hospitalarios.

Las variables de duración también son importantes para la planifica-ción en el hospital. El reto es poder evaluar la carga prevista respecto a lacapacidad del hospital para atender pacientes, mientras se mantienenunos niveles predeterminados de calidad de asistencia. La variable desalida “estado_vital_uci” es un pronóstico directo de si el paciente sobre-vivirá o no las primeras 24 horas, siendo un periodo determinante.

La primera fase del proyecto de minería de datos es la fase de explo-ración de los datos. Deseamos descubrir factores y características queindiquen tendencias y relaciones entre las 100 variables de entrada y unavariable determinada de salida. Después, en la fase de modelización,comprobamos diferentes técnicas para modelizar los datos y para crearmodelos que nos permitan predecir las variables de salida. Como varia-bles de entrada, podemos usar los mejores factores y características quehemos identificado en la fase de exploración.

Vamos a procesar los datos con algunos de los algoritmos más esta-blecidos en el campo de la minería de datos. Por ejemplo, usamos lainducción de reglas C4.5 e ID3; el Kohonen SOM para clustering; lasredes neuronales feedforward, y la correlación estadística. A continua-ción probamos con técnicas específicas que han sido explicadas en loscapítulos anteriores del libro: el joining algorithm (algoritmo de amal-gamación) de Hartigan, covarianzas difusas y Fuzzy c-Means. Compa-ramos estas técnicas menos convencionales con los algoritmos estándar

192 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 199: Técnicas Para El Análisis Clínico de Datos

(C4.5, etc.), y de esta forma evaluamos la hipótesis que un enfoque di-fuso puede complementar o mejorar los resultados de las fases de ex-ploración y modelización de los datos en el caso del conjunto de datosde la UCI.

Una de las áreas clave para el análisis de los datos es la selección defactores, o “reducción de datos”. En este proceso, se identifican subgru-pos de variables con la mayor relación con una variable de salida deter-minada, por ejemplo, “duración de estancia en la UCI” o “estado vital”.Distinguimos entre “selección de factores” y “selección de característi-cas”, dado que “características” representan la naturaleza de los datos,como por ejemplo, el “incremento en mortalidad para casos de fallorenal cuando FIO2 = 1’. Por otra parte, “factores” se consideran comoentradas al modelo de datos, siendo estas variables específicas, co-mo por ejemplo, FIO2 . Algunas variables, como por ejemplo, “edad”,“sexo” y “presión sanguínea”, son más fáciles de identificar, mientrasque otras son indicadores técnicos. Un ejemplo de un indicador técnicosería “FIO2”, que es un indicador (flag) de tipo binario que indica si elnivel de FIO2 (Fractional Inspired Oxygen medido por un pulsoxíme-tro) ha sido mayor que 0,50 durante las primeras 24 horas. Otro ejemplode un indicador técnico sería “mech_ven”, un valor numérico que indi-ca el número de horas de ventilación mecánica durante las primeras 24horas.

En lo que se refiere a la selección de “conjuntos reducidos” de “varia-bles más significativas”, el objetivo es identificar y seleccionar un núme-ro manejable de variables. Estas variables se usan posteriormente comoentradas a modelos de clasificación y clustering, y en nuevas fases deexploración de los datos. Por ejemplo, si el número total de variables es100, como es el caso de los datos UCI, un número manejable de variablespara el conjunto reducido sería entre 10 y 25. En el caso de los datos UCI,hemos elegido entre 15 y 17 variables. El primer método de selección delas variables ha sido mediante un ranking respecto a un “factor de rele-vancia”. El criterio de ranking u ordenación, puede variar según el méto-do de modelización o análisis usado. Después de haber aplicado el crite-rio de ordenación, identificamos un umbral para el grado de relevancia,por debajo del cual el índice de relevancia (o el grado de confianza) de lavariable disminuye con mayor rapidez. Las variables seleccionadas seránlas que tienen un índice de relevancia por encima del umbral, siendo des-

193PRONÓSTICO DE PACIENTES DE LA UCI

Page 200: Técnicas Para El Análisis Clínico de Datos

cartadas las demás. La selección de las variables por parte de un expertomédico, también puede variar dependiendo de diferentes consideracio-nes. En colaboración con el analista de datos, el médico tiene que evaluarel criterio usado, la variable de salida, la disponibilidad y fiabilidad dedeterminadas variables, y la distribución y características de los casos enel conjunto de datos.

Resumen: con el motivo de poder comparar, hemos aplicado distintastécnicas para la segmentación y clasificación de los diferentes tipos dedatos. Las principales técnicas usadas para segmentación son tres: lasredes neuronales de tipo Kohonen, el joining algorithm de Hartigan yFuzzy c-Means. Para la clasificación y predicción hemos empleado prin-cipalmente las siguientes técnicas: las redes neuronales feedforward y lainducción de reglas (ID3 y C4.5). El primer objetivo de la aplicación delas técnicas es determinar sí se puede mejorar la calidad de la clasifica-ción y predicción con los datos en cuestión, mediante el proceso y repre-sentación difusa de los datos. Un segundo objetivo es la exploración delos datos UCI para mejor entender las relaciones subyacentes y la natu-raleza de ellas. De esta forma, creamos la base para una metodología detrabajo que sirve para el desarrollo y aplicación de nuevas técnicas.

9.1.NEXPLORACIÓN INICIAL DE LOS DATOS

La siguiente sección representa la primera fase de un proyecto deminería de datos. Es decir, la exploración de los datos con el objetivo de establecer las distribuciones de las variables, la calidad de los datos,con el objeto de conseguir un entendimiento general del conjunto de da-tos. Para este fin, vamos a emplear inicialmente herramientas estadísticassencillas y diferentes técnicas de visualización gráfica.

194 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 201: Técnicas Para El Análisis Clínico de Datos

En la Tabla 9.1 se presenta un resumen de una selección (inicial) devariables junto con una breve descripción de cada una, posibles valoresque pueden asumir y la distribución de estos valores en el conjunto dedatos. Acúdase al Anexo 1 para una lista completa de las variables en elconjunto de datos UCI.

195PRONÓSTICO DE PACIENTES DE LA UCI

Tabla 9.1.NVariables seleccionadas con valores posiblesy la distribución de dichos valores dentro del conjunto de datos.

Descripción

Presencia de coma o estupor profundoen el momento de admisión a la UCI.Tipo de paciente {1=Cirugía de emergen-cia, 2=Cirugía planificada, 3=Sin cirugía}.

¿Un Neoplasm Maligno forma parte delproblema actual?Servicio en el momento de admisión a la UCI.{0=Médico, 1=Cirugía}.Número de líneas a 24 horas después deadmisión.

Fallo renal agudo.

Estado previo de salud.

Patologías crónicas {1=si, 0=no}.

Número de sistemas de órganos que fa-llan, calculado por un programa informático.

Posiblesvalores

101113121110101110111415131216171118101910101111121314101110111213141516

%Distribución

76,2723,7354,6829,7415,0710,5182,3817,6250,2149,8116,5115,8915,7814,2613,4418,5516,2513,4612,4411,6311,5387,9812,0249,2932,7916,0911,8384,4215,5849,5928,6213,8514,0713,4610,3110,10

Variable

COMA_ADM

TIPO_ADM

MALIG

ICU_SER

LINES

A_R_FAIL

P_H_STAT

COPD

OSF

Page 202: Técnicas Para El Análisis Clínico de Datos

En la Figura 9.1, se ve que la variable “temperatura corporal” tiene unperfil y rango muy distintivo para el cuerpo humano. El médico sabe quecuando los valores salen fuera de este rango, esto implica una situaciónpotencial de peligro mortal para el paciente.

En la Figura 9.2 se ve la distribución característica de la variable“urea sanguínea”, donde el eje-x indica la concentración de urea en lasangre. Llega a un máximo entre 6 y 10 unidades y disminuye rápida-mente a partir de 20 unidades.

196 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 9.1.NDistribución de la variable “temperatura corporal” (ºC).

Figura 9.2.NDistribución de la variable “urea sanguínea”.

400

300

200

100

00 10 20 30 40

Temperatura corporal (°C)

Número decasos

300

200

100

00 20 40 60 80

Valor de B_Urea

Número decasos

Page 203: Técnicas Para El Análisis Clínico de Datos

En la Figura 9.3 se ve la distribución de la variable “a_fio2”, que pre-senta una distribución aproximadamente normal entre los valores de 0,2y 0,6, y una concentración de casos en el punto extremo 1.

En la Figura 9.4, se ve la distribución característica de la variable“duración_UCI”, que mide el tiempo de estancia en días de un pacienteen la UCI. Vemos una tendencia clara hacía una estancia corta, es decir,5 días o menos, mientras que la frecuencia para duración de estanciareduce casi a cero a partir de 40 días. “duración_UCI” es una de las varia-bles (de salida) para la cual desarrollamos modelos predictivos e intenta-mos identificar relaciones con las demás variables (de entrada).

197PRONÓSTICO DE PACIENTES DE LA UCI

Figura 9.3.NDistribución de la variable “a_fio2”.

Figure 9.4.NDistribución de la variable “duración_UCI” en días.

200

150

100

50

00 0,2 0,4 0,6 0,8 1

Valor de A_FIO2

Número decasos

400

200

050 100

Duración de estancia en UCI (días)

Número decasos

Page 204: Técnicas Para El Análisis Clínico de Datos

En la Figura 9.5, se ve la distribución característica de la variable“duración_hos”, que mide el tiempo de estancia en días de un paciente enel hospital. Observamos un máximo alrededor de 10 días, a partir del cualla distribución disminuye hasta 50 días, dónde se mantiene relativamen-te constante hasta reducir a cero a 100 días. “duración_hos” es otra de lasvariables para la cual creamos modelos predictivos e intentamos identifi-car relaciones con las demás variables (de entrada).

Figura 9.6 indica, para la variable “estado_vital_UCI”, la proporciónde casos de mortalidad respecto a la proporción de casos que sobreviven,

198 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 9.5.NDistribución de la variable “duración_hos” en días.

Figura 9.6.NDistribución de la variable “estado_vital_uci”.

200

150

100

50

050 100 150

Duración de estancia en hospital (días)

Número decasos

Page 205: Técnicas Para El Análisis Clínico de Datos

en el entorno UCI. El ratio de sobrevivir respecto a fallecimiento es apro-ximadamente 3 a 1. “estado_vital_uci” es la tercera variable que usamosde “salida” para crear modelos e identificar relaciones con las variables deentrada.

En la Figura 9.7 se ve un ejemplo de sobreponer (overlay), una técni-ca común en la fase de exploración de los datos que sirve para identificarrelaciones entre pares de variables. En el caso de la Figura 9.7, se mues-tra un histograma de la variable binaria “fallo_renal” en el eje-x contra elnúmero de casos en el eje-y. La proporción de casos que corresponden alos dos posibles valores de la variable “estado_vital_uci” se “sobrepone”(indicado por los diferentes colores) para cada respectivo valor de la va-riable “fallo_renal”. En la Figura 9.7, vemos que para la columna izquier-da (sin fallo Renal) la tasa de mortalidad es aproximadamente del 15%.En contraste, como vemos en la columna a la derecha (con fallo renal), latasa de mortalidad es mayor de 50%. Dada la importancia de poder con-trastar las conclusiones iniciales con conocimientos clínicos, se confirmóla validez de este resultado con el experto médico.

Las siguientes estadísticas fueron generadas para algunas de lasvariables numéricas en el conjunto de datos de pacientes UCI. A partir dedichas estadísticas, podemos observar que estos datos representan unproblema difícil de modelizar. A pesar de que hemos preseleccionado las

199PRONÓSTICO DE PACIENTES DE LA UCI

Figura 9.7.NDistribución de las variables “fallo_renal” y “estado_vital_uci”.

Histograma que contrasta “incidencia de fallo renal”

con “Estado vital UCI”

Número

de

casos

1000

800

600

400

200

0

Leyenda

Estado vital UCI

(variable MUERTE_UCI

Muerto

Vivo

Sin fallo renal Con fallo renal

Fallo renal (variable RENAL_F)

Page 206: Técnicas Para El Análisis Clínico de Datos

variables que consideramos más representativas del problema, hay pocacorrelación estadística entre ellas. Un posible enfoque para este tipo deconjunto de datos sería asumir la dificultad de crear un modelo de calidada partir de las variables de entrada en su forma original y, por consi-guiente, crear nuevos factores derivados a partir de dos o más variablesoriginales. Otro enfoque sería el de identificar grupos homogéneos (clus-ters de casos), para los cuales existiera una correlación más alta entre lasvariables originales. Por ejemplo, los pacientes con fallo renal podrían serun grupo a partir del cual se crearía un modelo predictivo específico. Eneste grupo debería existir una mayor correlación entre las variables de en-trada y la variable de salida (por ejemplo, “duración_uci”).

Estadísticas para variable : T_CORPORALMínimo = 0Máximo = 42Ocurrencias = 982Media = 36,889Desviación estándar = 2,6645Correlación (Pearson Product-Moment) para variable :A_FIO2 = 0,129 (Baja correlación positiva)DURACIÓN_UCI = 0,077 (Baja correlación positiva)B_UREA = 0,070 (Baja correlación positiva)DURACIÓN_HOS = 0,053 (Baja correlación positiva)

Estadísticas para variable : B_UREAMínimo = 0Máximo = 97Ocurrencias = 982Media = 10,081Desviación estándar = 10,138Correlación (Pearson Product-Moment) para variable :A_FIO2 = 0,157 (Baja correlación positiva)DURACIÓN_UCI = 0,157 (Baja correlación positiva)T_CORPORAL = 0,070 (Baja correlación positiva)DURACIÓN_HOS = 0,050 (Baja correlación positiva)

Estadísticas para variable : A_FIO2Mínimo = 0Máximo = 1Ocurrencias = 982Media = 0,44379

200 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 207: Técnicas Para El Análisis Clínico de Datos

Desviación estándar = 0,24205Correlación (Pearson Product-Moment) para variable :DURACIÓN_UCI = 0,169 (Baja correlación positiva)B_UREA = 0,157 (Baja correlación positiva)T_CORPORAL = 0,129 (Baja correlación positiva)DURACIÓN_HOS = 0,022 (Baja correlación positiva)

Estadísticas para variable : DURACIÓN_UCIMínimo = 1Máximo = 115Ocurrencias = 982Mean = 9,1792Desviación estándar = 11,740Correlación (Pearson Product-Moment) para variable:DURACIÓN_HOS = 0,580 (Correlación positiva mediana)A_FIO2 = 0,169 (Baja correlación positiva)B_UREA = 0,157 (Baja correlación positiva)T_CORPORAL = 0,077 (Baja correlación positiva)

Estadísticas para variable : DURACIÓN_HOSMínimo = 1Máximo = 153Ocurrencias = 982Media = 21,845Desviación estándar = 19,559Correlación (Pearson Product-Moment) para variable:DURACIÓN_UCI = 0,580 (Correlación positiva mediana)T_CORPORAL = 0,053 (Baja correlación positiva)B_UREA = 0,050 (Baja correlación positiva)A_FIO2 = 0,022 (Baja correlación positiva)

9.2.NPROCESO DEL CONJUNTO DE DATOS UCI CONLA TÉCNICA DE INDUCCIÓN DE REGLAS C4.5

A continuación vamos a hacer referencia a diferentes conjuntos dedatos (A, A1, A2, B, …) que se diferencian por el número de variables de entrada, la forma de seleccionar las variables de entrada y la distribu-ción de los valores de la variable de salida. El conjunto de prueba A tiene las siguientes características: (1) se utilizan como entradas a la tota-lidad de las 100 variables disponibles; (2) la salida es la variable “esta-

201PRONÓSTICO DE PACIENTES DE LA UCI

Page 208: Técnicas Para El Análisis Clínico de Datos

do_vital_uci” de tipo binario, que tiene como valores posibles “0” (vivo)o “1” (no vivo). El algoritmo C4.5 fue usado para crear los modelos pre-dictivos a partir del conjunto de prueba A. Dentro de conjunto de pruebaA, el subconjunto A1 tiene la distribución original de datos, relativo a lavariable de salida “estado_vital_uci”. Es decir, el 77,51% de los pacien-tes tienen el valor “estado_vital_uci”=0 y un 22,49% de los pacientes tie-nen el valor “estado_vital_uci”=1. Por otra parte, en el subconjunto A.2hemos cambiado la distribución de la variable “estado_vital_uci”,mediante la replicación de casos cuyo resultado es “1”. En subconjuntoA2, el 50% de los pacientes tienen el valor “estado_vital_uci”=0 y un50% de los pacientes tienen el valor “estado_vital_uci”=1.

El grupo de prueba B consiste en un número reducido de variables,elegidas por el experto médico y por el análisis estadístico de correlación.La variable de salida sigue siendo “estado_vital_uci”, de tipo binario ycon posibles valores “1” ó “0”. El algoritmo usado para crear un modelopredictivo a partir del conjunto B es C4.5.

Grupo de prueba A: usando todas las 100 variables como entradas; salida es“estado_vital_uci”; algoritmo de modelización es C4.5

Subgrupo de prueba A.1. El siguiente grupo de pruebas utiliza C4.5para clasificar los casos en términos de la variable “estado_vital_uci”,que puede asumir dos valores: 0=supervivencia del paciente, 1=no-supervivencia del paciente. Se utilizó el modo “básico” de C4.5, en elcual las opciones de podado y windowing asumen valores por defecto. Ladistribución de casos para “estado_vital_uci” es {0: 77,51%; 1: 22,49%}.En el grupo de pruebas A1, todas las 100 variables descriptivas fueronusadas como entradas.

La Figura 9.8 muestra un gráfico de los datos de la Tabla 9.2. Se obser-va que la variación del porcentaje de casos de prueba respecto al total de ca-sos no influye de forma significativa en la precisión. Cada conjunto de prue-ba se extrae del conjunto total de datos mediante una selección aleatoria de casos, y después validamos la calidad de la muestra. Para ser una mues-tra válida debe poseer una distribución aleatoria de casos y los perfiles

202 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 209: Técnicas Para El Análisis Clínico de Datos

de distribución (visto en histogramas) de las variables claves deben serlos adecuados. Además, eliminamos valores extremos (outliers) quepodrían distorsionar el conjunto de datos de prueba. El conjunto comple-to de datos ha sido filtrado anteriormente para identificar y eliminar valo-res erróneos o desconocidos. Tengamos en cuenta que, para 1.000 casos,una muestra de 10%, si bien elegida y cuyos valores sean distribuidos deforma representativa, permite que C4.5 consiga una buena generalizaciónhacia el restante 90% de los casos. Sin embargo, la precisión predictivapara “estado_vital_uci”=1 sigue estando por debajo del 60% (eje-y en

203PRONÓSTICO DE PACIENTES DE LA UCI

Tabla 9.2.NPrecisión predictiva para diferentes porcentajes de casos de pruebarespecto al total de casos (prueba+entrenamiento).

% Casos deentrenamiento

102030405060708090

Precisión (% clasificados correctamente){0,1}

818487868283838382

0

959396948891929291

1

254252525554495156

Figura 9.8.NPrecisión predictiva para diferentes porcentajes de casos de prueba res-pecto al total de casos: variable objetivo “estado_vital_uci”.

Page 210: Técnicas Para El Análisis Clínico de Datos

Figura 9.8) y alcanza un máximo global (columna {0,13} de Tabla 9.2)empleando un 30% del conjunto total como prueba (eje-x en Figura 9.8).

Subgrupo de pruebas A.2. Este grupo de pruebas fue realizado bajolas mismas condiciones que las pruebas de A.1, con la excepción de quese igualó la distribución de los valores de la variable “estado_vital_uci”.Es decir, un 50% de valores 0 y un 50% de valores 1.

En la Tabla 9.3 observamos la mejora en precisión para “estado_vi-tal_uci”=1, con un porcentaje menor de casos de entrenamiento, debido a laredistribución de los valores de “estado_vital_uci”. La redistribución asegurauna distribución normal de los valores para la variable que se usa para la cla-sificación, en este caso, “estado_vital_uci”. En el conjunto de datos original,un 77% de los casos tienen “estado_vital_uci”=0, mientras que sólo un 23%de los casos tienen “estado_vital_uci”=1. Si no igualáramos la proporción decasos, el algoritmo de inducción daría un énfasis excesivo en los casos con“estado_vital_uci”=0. Replicamos los casos donde “estado_vital_uci”=1hasta que ocupen un 50% del total de casos en el conjunto de datos de prue-ba. Otra opción sería la reducción proporcional de los casos para los cuales“estado_vital_uci”=0. El aspecto en contra de esta última opción sería quepodría resultar en una pérdida de información de los casos eliminados, mien-tras que si duplicamos los casos de menor incidencia, esto se evita.

Grupo de prueba B: usando un conjunto reducidode 15 variables de entrada;“estado_vital_uci”como salida; C4.5 como algoritmo de modelización

Para este grupo de pruebas usamos el algoritmo C4.5 en modo “bási-co”, es decir, con asignación por defecto de podado y windowing. Como

204 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 9.3.NPrecisión predictiva para diferentes porcentajes de conjunto de prueba,con una distribución de 50:50 para los valores de “estado_vital_uci”.

% Casos deentrenamiento

102020*30*

Precisión (% clasificados correctamente){0,1}

81848381

0

95939188

1

33525657

* modo experto: con las opciones de windowing y podado activadas.

Page 211: Técnicas Para El Análisis Clínico de Datos

antes, predecimos la variable “estado_vital_uci”, que tiene como posiblesvalores {0,1}. En contraste con el grupo de prueba A, usamos esta vez unconjunto reducido de 15 variables, que se dan como entradas para entre-nar el modelo. Las variables han sido seleccionadas conjuntamente por elexperto médico y por las pautas indicadas por el análisis estadístico.

La Figura 9.9 muestra los datos de la Tabla 9.4 de forma gráfica. Demodo parecido al del grupo de prueba A; los resultados indican que lavariación del porcentaje de casos de prueba respecto al número total decasos no influye de forma significativa en la precisión final del modelo.

205PRONÓSTICO DE PACIENTES DE LA UCI

Tabla 9.4.NPrecisión predictiva para diferentes porcentajes de casosde entrenamiento, usando un conjunto reducido de variables

preseleccionadas como entradas.

% Casos deentrenamiento

102030405060708090

Precisión (% clasificados correctamente){0,1}

838887858584868485

0

929794939094939196

1

545663566551565854

Figura 9.9.NPrecisión predictiva para diferentes porcentajes de casos de entrenamien-to, usando un conjunto reducido de variables.

Page 212: Técnicas Para El Análisis Clínico de Datos

Observamos que la precisión para {0} y {0,1} es bastante constante,mientras que la precisión para {1} tiene dos pequeños picos cuando elporcentaje de casos de prueba es igual al 30% y al 50%. Para “es-tado_vital_uci”=1, el porcentaje de 50% es el que ha dado el mejor re-sultado.

Grupo de prueba C: categorización de la variable“duración_uci”

En el grupo de pruebas C, contrastamos la selección de un conjuntode variables de entrada y la definición de los rangos de las categorías pordos diferentes enfoques. El primer enfoque emplea medios automáticos,siendo estos las técnicas estadísticas y de minería de datos detallado enpasos (1) y (2). El segundo enfoque consiste en la selección de variablesy la definición de rangos por un experto médico, detallado en paso (3).En el paso (1) se entrenó un modelo con la técnica de redes neuronales,con el objetivo de generar como “producto secundario” (además delmodelo predictivo en sí), un “análisis de sensibilidad” que sirve paraseleccionar las variables. En una red neuronal, los “cocientes” asignadosa las entradas reflejan su nivel de activación interna (estimulación) en lared, y en relación con la capa de salida (el resultado). De esta forma, alconcluir el entrenamiento de un modelo, la red neuronal puede producirun listado del grado de activación de cada entrada respecto a la salida.Podemos interpretar este grado de activación o sensibilidad como uníndice de relevancia, y la red neuronal genera una lista de las variables enorden descendiente de grado de activación.

En lo que se refiere a la categorización de los tres rangos numéricosde estancia “corta”, “mediana” y “larga”, estos fueron derivados a par-tir del histograma de distribución de la variable numérica “duración_uci”, la unidad de medida siendo “días de estancia”. A continuaciónusamos este formato de datos para entrenar un modelo nuevo usando latécnica de C4.5 (inducción de reglas), que produce una serie de reglaspara el modelo, que podemos interpretar posteriormente en términosclínicos.

Como segundo paso (2), los valores extremos (outliers) fueron elimi-nados del conjunto de datos, con el umbral de estancia en días definido a

206 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 213: Técnicas Para El Análisis Clínico de Datos

32,35 días. Este umbral fue asignado por inspección visual y estadísticade los valores de la variable “duración_uci”. El modelo de C4.5 fue reen-trenado con este nuevo conjunto de datos (con los valores extremos eli-minados), y el resultado mostró una mejora en precisión para todas lascategorías de duración de estancia.

En paso (3), usamos un nuevo conjunto de variables de entrada, se-leccionadas por el experto médico. Además, hay una nueva definiciónpara los rangos de las categorías “larga estancia”, “mediana estancia” y“estancia corta”, para los mismos casos. Con estos datos, se reentrenó unmodelo usando la técnica de C4.5, que resultó en una mejora significati-va para la categoría “larga estancia”, pero sin mejora para las categorías“corta” y “mediana”.

Pasos (1) hasta (3) representan una metodología típica de “minería dedatos” para desarrollar modelos a partir de datos complejos. Dentro de unmarco metódico de análisis, se caracteriza por una forma de trabajar deltipo “probar y ver qué ocurre” (en inglés, trial and error).

Paso (1) – Prueba inicial usando una categorización de 3 valores

En este primer paso, categorizamos a la variable “duración_uci” entres posibles valores de salida. A continuación usamos una red neuronalpara seleccionar un conjunto reducido de variables como entradas, me-diante el “análisis de sensibilidad”. Por último, damos las entradas a latécnica C4.5 para crear un modelo predictivo.

Categorizamos la variable “duración_uci” de la siguiente forma: seasigna “corta” a los casos cuya duración en la UCI es de 10 días o menos;se asigna “mediana” a los casos cuya duración es mayor que 10 días ymenor o igual a 20 días; por último se asigna “larga” a los pacientes cuyaduración es mayor de 20 días. Estos rangos fueron asignados inicialmen-te con el consenso del experto médico y por una inspección gráfica yestadística de la distribución de la variable “duración_uci”. Mediante unainspección más exhaustiva, los rangos fueron refinados a “0 a 9,19”,“9,19 a 20,42” y “mayor de 20,42”.

En la Tabla 9.5, se ve la distribución final dentro del conjunto dedatos, de los rangos asignados para cada categoría de duración de estan-cia en la UCI.

207PRONÓSTICO DE PACIENTES DE LA UCI

Page 214: Técnicas Para El Análisis Clínico de Datos

Usando una red neuronal con opción “dinámica” se generó unmodelo predictivo a partir de los datos. La opción “dinámica” hace quela red neuronal varíe su arquitectura de forma dinámica durante el en-trenamiento, para encontrar la configuración que dé la mayor precisiónpredictiva. En la Tabla 9.6 se resume la precisión conseguida por estemodelo.

Según comentado previamente, la técnica de red neuronal que usa-mos hace un posproceso que produce un “análisis de sensibilidad”, que,basándose en el índice de activación de las neuronas de entrada,calcula la relevancia de cada variable respecto al resultado global (la sali-da). El “análisis de sensibilidad” se presenta en la forma de un ranking dela variables, ordenados por su relevancia. En la Tabla 9.7, se ve el resul-tado del “análisis de sensibilidad”, que ha producido un ranking de lasvariables de entrada en términos de su peso relativo de contribución

208 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 9.5.NDistribución por frecuencia de las categorías en los datos,para los rangos asignados (derivados a partir de un histograma

de distribución de la variable “duración_uci”).

Categoría

cortamedianalarga

%de casos que correspondena la categoría en el conjunto

de datos

74 %14 %12 %

Rango de categoría(duración de estancia

en la UCI)

< 9,19 < 20,42,,

� 9,19 < 20,42,,� 20,42 < 20,42

Tabla 9.6.NEstadísticas de resultados para una red neuronal usandotodas las variables disponibles de entrada, con una arquitectura de RN

de 116-2-2-1 y un total de 757 casos de prueba (70% de la totalidadde casos.

Resultados cortamedialarga

Precisión global: 69%

Correcto

82 % (452 casos)55 % (72 casos)110 % (72 casos)1

Page 215: Técnicas Para El Análisis Clínico de Datos

al resultado predictivo. Por ejemplo, observamos que la variable“MECH_VEN” ha sido identificada como la que más contribuye al resul-tado, con un peso relativo de 0,070. Por otra parte, la variable “MAP” esla que contribuye menos al resultado, con un peso relativo de 0,0124.Observamos que hemos reducido la lista de variables a 27, de un total de100 (el umbral ha sido definido cómo índice de peso relativo igual a0,0120). Las demás 73 variables serán descartadas, y sólo las 27 másrelevantes serán usadas como entradas al modelo de datos.

En la Tabla 9.8 vemos los resultados para el modelo de red neuronalque ha sido reentrenado con las 27 variables de entrada de mayor relevan-cia, según indicadas en la Tabla 9.7. Si comparamos estos resultados conlos del modelo que usó la totalidad de las 100 variables de entrada dispo-nibles (véase Tabla 9.3), observamos que no existe una mejora en la pre-cisión predictiva. Esto podría ser debido a un tiempo insuficiente de entre-namiento, un exceso de entradas en general, o una definición inadecuadade las variables de entrada y sus tipos. Otra posible causa podría ser algúnproblema con los datos mismos, como por ejemplo, una falta de generali-zación desde el conjunto de entrenamiento hacia en conjunto total.

209PRONÓSTICO DE PACIENTES DE LA UCI

Tabla 9.7.NResultados del “análisis de Sensibilidad”: rankingde relevancia de las variables de entrada respecto a la variable

de salida “duración_uci”, representada como una variablecategórica. Peso relativo de las primeras 27 variables.

Ranking

111213141516171819101112131415

Variable

MECH_VENPAO2B_UREAHEMA_FCONF_INFC_REN_FARTER_PHS_HCO3OSFT_CORPORALPROB_INFS_GLUCOSS_H_RATEPEEPEDAD

Pesorelativo

0,07010,03010,02710,02310,02210,02110,02010,01810,01610,01610,01610,01610,01590,01570,0154

Ranking

161718192021222324252627

Variable

H_RATES_SODIUMWBCSBP_ADMCERE_DISS_CREASEXOSHOCKA_RES_RITYPE_ADMSBMAP

Pesorelativo

0,01490,01450,01410,01380,01360,01350,01330,01320,01310,01290,01270,0124

Page 216: Técnicas Para El Análisis Clínico de Datos

Una vez que hemos reducido el conjunto de variables, ahora podemosusar el algoritmo C4.5 para crear un modelo predictivo a partir de ellas,con el objetivo de predecir la variable “duración_uci” definida en trescategorías.

En la Tabla 9.9 vemos los resultados del modelo predictivo, entrena-do usando C4.5 en modo básico. Recordamos que el modo básico asignalos parámetros de forma automática o con valores asignados por defectopor el algoritmo. Dos de los parámetros claves para C4.5 son los que con-trolan el windowing (el uso “ventanas” para entrenar el modelo de formaincremental), y en pruning (el “podado” del árbol de decisión que resul-ta). En cuanto a la interpretación de los resultados, observamos una pre-cisión global buena (66%) pero un resultado pobre para las categorías de“mediana” y “larga” estancia.

En la Tabla 9.10 vemos los resultados del modelo predictivo, entrena-do usando C4.5 en modo experto, el cual implica la activación de las op-

210 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 9.8.NResultados estadísticos para una red neuronal reentrenadacon variables de entradas seleccionadas (arquitectura 36-2-2-1).

Resultados cortamedialarga

Precisión global: 68%

Correcto

82 % (450 casos)50 % (66 casos)110 % (72 casos)1

Tabla 9.9.NEstadísticas de resultados del entrenamientodel algoritmo C4.5 en modo “básico” (la asignación

de parámetros es automática/por defecto).

global

cortamedialarga

Correcto

66 %

82 %29 %14 %

Page 217: Técnicas Para El Análisis Clínico de Datos

ciones de “ventanas” (windowing), “podado” (pruning) y “prueba de re-levancia”. Observamos un empeoramiento de los resultados para las cate-gorías de “mediana” y “larga” estancia, la categoría “corta” siendo usadacomo valor “por defecto”.

Con referencia a las reglas que se ven a continuación, y a las Ta-blas 9.5 hasta 9.10, observamos que entre las reglas generadas hay algu-nas de alto valor. Estas reglas son precisas y, además, corresponden a unnúmero significativo de casos (como porcentaje del conjunto de entrena-miento, que tenía aproximadamente 300 casos). Por ejemplo, las reglas 1y 2 para “estancia corta” son buenas, con alta precisión (0,926 y 0,907respectivamente) y poseen un número significativo de casos (17 y 185,respectivamente). Para “estancia media”, identificamos regla 1 como unade las más precisas y significativas. En la categoría “larga estancia” esmás difícil encontrar reglas buenas.

A continuación veremos las reglas predictivas que han sido generadaspor C4.5 para la variable “duración_uci” definida en 3 categorías: “estan-cia corta”, “estancia media” y “estancia larga”.

Reglas para “estancia media”:Regla #1 para media:

Si PROB_INF 5 1y MECH_VEN > 21y T_CORPORAL * 37,6y S_GLUCOS > 9,4y PAO2 * 186entonces → media (13, 0,809)

211PRONÓSTICO DE PACIENTES DE LA UCI

Tabla 9.10.NEstadísticas de resultados del entrenamiento de C4.5en modo “experto” con activación de “ventanas”, “podado” y “prueba

de relevancia”.

global

cortamedialarga

Correcto

66 %

89 %11 %19 %

Page 218: Técnicas Para El Análisis Clínico de Datos

Regla #2 para media:Si EDAD * 62y HEMA_F 5 1y MECH_VEN * 21entonces → media (7, 0,512)

Reglas para “estancia larga”:Regla #1 para larga:

Si MECH_VEN > 21y PAO2 > 186y PAO2 * 235entonces → larga (7, 0,82)

Regla #2 para larga:Si WBC > 14.1y S_SODIUM * 121entonces → larga (3, 0,63)

Regla #3 para larga:Si H_RATE * 74y MECH_VEN > 21y T_CORPORAL > 37,6entonces → larga (3, 0,63)

Regla #4 para larga:Si EDAD * 35y MECH_VEN > 21y T_CORPORAL > 38,1entonces → larga (9, 0,61)

Regla #5 para larga:Si MECH_VEN > 21y B_UREA > 27,9entonces → larga (4, 0,546)

Regla #6 para larga:Si MECH_VEN > 21y PACO2 * 25entonces → larga (5, 0,373)

Reglas para “estancia corta”:Regla #1 para corta:

Si PACO2 * 19Entonces → corta (17, 0,926)

212 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 219: Técnicas Para El Análisis Clínico de Datos

Regla #2 para corta:Si C_REN_F 5 0y HEMA_F 5 0y MECH_VEN *�21y S_SODIUM > 121entonces → corta (185, 0,907)

Por defecto : → corta

Aunque la precisión global del modelo representado por las reglas noes alta, existen subgrupos (reglas individuales con alta precisión) de bue-na calidad. Esto implica que C4.5 ha encontrado unas relaciones comu-nes entre las variables para estos casos, y el conocimiento que las reglasrepresentan es útil. Para usar estos resultados en la práctica, se podríanincorporar dichas reglas en una base de conocimiento, después de verifi-cación adicional y pruebas contra diferentes muestras de datos. En lo quese refiere a los casos, hay algunos que tienen una clasificación imprecisa,es decir, que no han quedado incluidos en ninguna regla específica. Estoscasos suelen quedar asignados a la clase “por defecto”, que se define alfinal del conjunto de reglas. En las reglas generadas, vemos que la clasepor defecto es estancia “corta”. Hay varias posibles razones por la asig-nación de un caso a la clase “por defecto”:

a)NRealmente no existe una agrupación entre los casos en términosde las variables presentadas a la técnica de modelización.

b)NUna relación difusa existe con grados de pertenencia a la clasecategórica correcta y también a la clase asignada. Para estos casos,un método categórico intentaría interpretar esta ambigüedad, colo-cando un cierto porcentaje de los casos en otra clase. Por ejemplo,podría clasificar correctamente al 50% de los casos en la categoría“estancia media”, colocar 5% de los casos en “estancia larga” ycolocar los demás casos en “estancia corta”, siendo esta última elvalor por defecto. Sin embargo, no se puede interpretar de formadirecta a estos porcentajes como grados de pertenencia globales.

Paso (2) – Reducción del conjunto de datos para eliminar valoresextremos (outliers)

En el paso (2) vamos a simplificar el problema: sólo consideramos laparte de la distribución de la variable “duración_uci” menor de 32,35,

213PRONÓSTICO DE PACIENTES DE LA UCI

Page 220: Técnicas Para El Análisis Clínico de Datos

que es donde encontramos la mayor concentración de casos (85%). Esteproceso también se conoce como la “eliminación de valores extremos ooutliers”, que en este ejemplo son valores muy altos.

A partir de la Tabla 9.11 observamos que la precisión ha mejoradopara todas las categorías, especialmente para “estancia media”, y elmodelo sigue asignando el valor por defecto a “estancia corta”. La cate-goría más difícil de predecir sigue siendo “estancia larga”.

Vemos en la lista de reglas generadas (abajo) que C4.5 ha extraído dosreglas buenas para “estancia corta”, 3 reglas para “estancia media” y sólouna para “estancia larga”. Es evidente que las mejores reglas son las de lacategoría “estancia corta”, tomando en cuenta que esta misma categoría seusa como valor por defecto. Las demás reglas requieren mejora.

Reglas para “larga estancia”:Regla #1 para larga:

Sí PEEP 5 1y S_H_RATE * 135entonces → larga (3, 0,63)

Reglas para “estancia media”:Regla #1 para media:

Si B_UREA * 8,6y HEMA_F 5 1y MECH_VEN * 22entonces → media (4, 0,707)

214 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 9.11.NResultados estadísticos para las reglas generadaspara la distribución de la variable “duración_uci” < 32,35 días.

Categorización cualitativapara duración de estancia en la UCI: corta < 9,19 días

media � 9,19 y < 20,42larga � 20,42 y < 32,35

Resultados categorizacióndel modelo C4.5 (predicha)

categorización corta media larga(real) corta 96,26 13,74 0

media 47,82 52,17 0larga 68,18 18,18 13,63

Page 221: Técnicas Para El Análisis Clínico de Datos

Regla #2 para media:Si SHOCK 5 0y MECH_VEN > 22y WBC > 19entonces → media (13, 0,587)

Regla #3 para media:Sí MECH_VEN > 22y PEEP 5 0y S_HCO3 > 23y ARTER_PH * 7.53entonces → media (20, 0,471)

Reglas para “corta estancia”:Regla #1 para corta:

Si EDAD * 76y WBC * 19y S_HCO3 * 23y A_RES_R * 31y PAO2 * 278y ARTER_PH * 7,52entonces → corta (98, 0,926)

Regla #2 para corta:Si C_REN_F 5 0y HEMA_F 5 0y MECH_VEN * 22entonces → corta (136, 0,905)

Por defecto : → corta

Paso (3) – Asignación de las variables de entrada y los rangos de cate-gorías por el experto médico.

En este paso, comparamos los resultados conseguidos por los mode-los que usan entradas seleccionadas por métodos estadísticos y deminería de datos, con los resultados conseguidos por un modelo cuyasentradas han sido seleccionadas por un experto médico. Veremos que esteconjunto de variables de entrada consiguió una precisión significativa-mente mejor para los casos de “larga duración”, que los modelos desa-rrollados en pasos (1) y (2). Un 70% del conjunto total de casos fue usa-do para entrenar el modelo, y un 30% fue usado para comprobación.

Las 34 variables seleccionadas por el experto médico a partir de las100 variables iniciales fueron las siguientes:

215PRONÓSTICO DE PACIENTES DE LA UCI

Page 222: Técnicas Para El Análisis Clínico de Datos

EDAD ON_MECH SIDACOMA_ADM SEP_SHOK TERA_CHCPR FAIL_CARD INT_VENTC_REN_F CERE_DIS CREA_INCPROB_INF A_R_FAIL RES_FCOMA_24H LIMIT CARD_F (OSF PRIMER DÍA)SHOCK CIRRHOS RENAL_FURINE PEEP HEMA_FCONF_INF VEN_CPAP NEURO_FFIO2 GCS_SAPS HEPA_FMECH_VEN CARD_F (CHS) OSF

HEMA_MAL

Los rangos definidos para “duración_uci” por el experto médico, fue-ron los siguientes:

0-4 días: estancia corta5-14 días: estancia media>14 días: estancia larga

A partir de la Tabla 9.12, vemos que la categoría que tiene mejor pre-cisión es “larga duración”. Esto es un resultado distinto para los pasos (1)y (2), en los cuales la categoría “corta duración” fue la más precisa. Con-cluimos que la causa de este cambio es la diferente selección de variablesde entrada, en igualdad de las demás condiciones. También podríamosconcluir que existen modelos distintos con diferentes conjuntos de varia-bles de entrada, cada de los cuales predice bien para una categoría deter-minada de duración de estancia. A continuación se ve el árbol de decisióngenerado por C4.5:

216 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 9.12.NResultados estadísticos para C4.5, reentrenadocon las entradas definidas por el experto.

Resultados cortamedialarga

Precisión global: 63,25%

Correcto

51 % (56 casos)133 % (130 casos)85 % (499 casos)

Page 223: Técnicas Para El Análisis Clínico de Datos

En la Figura 9.10 observamos que el algoritmo C4.5, como parte delproceso de inducción, ha descartado la mayoría de las 34 variables de en-trada, y sólo ha usado las nueve siguientes: OSF, GCS_SAPS, HEPA_F,MECH_VEN, PROB_INF, COMA_ADM, EDAD, CREA_INC, CARD_F.En la Figura 9.10 los rangos correspondientes están indicados entre paréntesis;por ejemplo, Mediana (5-14), indica una estancia de entre 5 y 14 días. La pre-cisión de los nodos terminales (decisiones) se indica con el porcentaje corres-pondiente, por ejemplo, Larga (>14) 57%, indica una precisión de 57% parala categoría “larga” y para la “rama” correspondiente del árbol de decisión.

9.3.NPROCESO DEL CONJUNTO DE DATOS UCICON LA TÉCNICA DE INDUCCIÓN DE REGLAS ID3

Esta sección consiste en cuatro grupos de pruebas D.1 hasta D.4,usando la técnica de inducción de reglas ID3 para modelizar los datos. En

217PRONÓSTICO DE PACIENTES DE LA UCI

OSF<2,5

GCS_SAPS<3,5

COMA_ADM=1

CREA_INC=1

MECH_VEN<14,5

CARD_F=0

EDAD<50,5

MECH_VEN<17,5

PROB_INF=1

HEPA_F=1

Corta (0-4)73%

Media (5-14)67%

Media (5-14)57%

Media (5-14)79%

Larga (>14)67%

Larga (>14)87%

Media (5-14)54%

Larga (>14)57%

Media (5-14)50%

Corta (0-4)57%

Larga (>14)70%

Figura 9.10.NÁrbol de decisión inducido por C4.5 para las variables seleccionadas porel experto médico.

Page 224: Técnicas Para El Análisis Clínico de Datos

el grupo de prueba D.1 usamos como entradas a las 100 variables. Encontraste con las pruebas de la Sección 9.2, predecimos dos variables desalida: “duración_hos”, que es la duración de estancia en días del pacien-te en el hospital; y “duración_UCI”, que es la duración de estancia endías del paciente en la unidad UCI. Ambas variables de salida han sidodefinidas como tipo numérico entero. Recordamos que una de las dife-rencias de la técnica ID3 respecto a C4.5, es que la variable de salida deID3 es numérica, mientras el tipo de la variable de salida de C4.5 debeser categórica. En el grupo de prueba D.2 usamos como entradas a unconjunto reducido de 15 variables. En grupo de prueba D.3 los resultadosde ID3 se comparan con los de un modelo entrenado usando la técnicaC4.5, y con los resultados anteriores con la red neuronal. Para esta prue-ba usamos los mismos datos de entrada para C4.5 e ID3. La única dife-rencia en el caso de C4.5, fue que la variable de salida “duración_UCI”se quedó definida como un valor categórico. Por último, en grupo deprueba D.4 usamos la técnica de ID3 para intentar predecir la variable“b_urea” como un valor de tipo numérico continuo.

Grupo de prueba D.1: proceso de datos con ID3y usando todas las variables como entradas.

El siguiente grupo de pruebas emplea la técnica de ID3 para predecirla variable “duración_UCI”, usando todas las 100 variables como entra-das. En este grupo de pruebas, usamos ID3 en modo básico, es decir, conasignación por defecto de los valores de windowing y podado.

A partir de la Tabla 9.13 y la Figura 9.11 observamos, en el caso delos datos UCI, el efecto de un incremento progresivo en la proporción de casos de entrenamiento respecto al total de casos. Se ve que hay pocoefecto sobre la precisión global. Existe un mínimo local a 30%, y la inter-sección con el eje-x ocurre a 74%, que indica el punto en el cual el errores cero. En la última fila de la Tabla 9.13 vemos también el resultado deprocesar las mismas variables de entrada y casos de datos usando una redneuronal, y con un porcentaje de casos de prueba del 30%. En términosde la media absoluta del error, el resultado de la RN es ligeramente mejorque ID3 para el mismo porcentaje de casos de prueba: 6,75 para la RN com-parado con 6,47 para ID3. En términos de la correlación lineal, la RN

218 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 225: Técnicas Para El Análisis Clínico de Datos

registra 0,32 comparado con la correlación superior de 0,43 para ID3.Por último, en términos de la desviación estándar, la red neuronaldemuestra un valor menor respecto a ID3, siendo 11,75 comparado con12,33 para ID3. Esto podría indicar que la RN consigue una mayor esta-bilidad en el error, aunque el error agregado sea superior. Esta situación

219PRONÓSTICO DE PACIENTES DE LA UCI

Tabla 9.13.NPredicción de “duración_UCI” con ID3 y usando todaslas variables como entradas: resultados de una variación del tamaño

del conjunto de entrenamiento sobre la tasa de error.

% Entr.

102030405060708090

30

Min.

-23-45-74-75-75-58-60-74-61

-11

Máx.

111110108109109160145159159

108

Media

-2,06-1,19-0,41-1,76-0,79-1,26-0,49-1,26-0,91

-1,01

Mediaabsoluta

7,167,086,476,627,016,466,466,847,45

6,75

Error

Desviaciónestándar

12,7112,8512,3312,3114,0412,1111,4512,5113,41

11,75

Correlaciónlineal

0,090,250,430,380,320,460,500,400,31

0,32

Ocurr.prueba

983875768652545423322205101

768Prueba con Red Neuronal

Figura 9.11.NPredicción de “duración_UCI” con ID3 y usando todas las variables comoentradas: resultados de una variación del tamaño del conjunto de entrenamiento sobre

la tasa de error.

Page 226: Técnicas Para El Análisis Clínico de Datos

podría ser conveniente si lo que buscamos es un modelo más establecuyo error se puede mantener entre dos límites predefinidos (límite infe-rior y superior).

Grupo de prueba D.2: proceso de datos con ID3y 15 variables seleccionadas como entradas

El siguiente subgrupo de prueba emplea la técnica ID3 en modo bási-co (valores por defecto para windowing y podado). El objetivo es prede-cir la variable “duración_UCI” con un subconjunto de 15 variables, se-leccionadas por métodos estadísticos y por consejo del experto médico.Dos de los métodos estadísticos usados para seleccionar las variablesfueron el análisis de correlación y el podado del árbol de inducción queresultó del grupo de prueba D.1.

A partir de la Tabla 9.14 y la Figura 9.12, podemos ver que en el pro-ceso de los datos UCI, un incremento progresivo del porcentaje de casosde entrenamiento respecto al total tiene poco efecto sobre la precisiónglobal conseguida. Esta característica es igual que en el caso del subcon-junto de prueba D.1. Existe un mínimo local al 50%, y la intersección con

220 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 9.14.NPredicción de “duración_UCI” usando conjunto reducido de variablescomo entradas: resultados de la variación del tamaño del conjunto de datos

de entrenamiento sobre la tasa de error.

% Entr.

102030405060708090

30

Min.

-46-44-76-46-60-45-62-38-28

-25

Máx.

110,4193,4194,4108,4109,4195,4149,4147,4140,4

103,4

Media

-1,47-0,35-0,97-1,08-0,13-1,40-0,36-0,29-1,22

-1,59

Mediaabsoluta

7,457,667,096,536,936,426,805,795,85

5,76

Error

Desviaciónestándar

13,05113,33113,01112,32112,83112,15111,90119,86119,511

10,292

Correlaciónlineal

0,100,220,320,420,420,410,460,520,60

0,55

Ocurr.prueba

983872768652545423322205101

768Prueba con Red Neuronal

Page 227: Técnicas Para El Análisis Clínico de Datos

el eje-x ocurre al 67%, que indica el punto en el cual el error es cero. Enla última fila de la Tabla 9.14 vemos también el resultado de procesar lasmismas variables de entrada y casos de datos usando una red neuronal,y con un porcentaje de casos de prueba del 30%. En términos de la me-dia absoluta del error, el resultado de ID3 es claramente mayor que laRN para el mismo porcentaje de casos de prueba: 7,09 para ID3 compa-rado con 5,76 para la RN. Esto contrasta con la situación inversa (para lamedia absoluta) que encontramos para grupo de prueba D.1 con 100variables de entrada. En términos de la correlación lineal, la RN registra0,55 comparado con la correlación inferior de 0,32 para ID3. Por último,en términos de la desviación estándar, la red neuronal demuestra unvalor menor respecto a ID3, siendo 10,29 comparado con 13,01 paraID3. Esto podría indicar que la RN se beneficia de una reducción en el“ruido” inherente en los datos, debido al menor número y mayor rele-vancia de variables. Si comparamos los resultados del subgrupo de prue-bas D.2 con los del subgrupo D.1, observamos que el subgrupo D.2muestra una cierta (aunque no conclusiva) mejora global en términos dela media absoluta del error, la desviación estándar y la correlación line-al. Esto sería de esperar, debida a la mayor calidad de información pro-porcionada como entradas al modelo. Es decir, hay menos variables deentrada y existe una mayor correlación de cada variable de entrada conla variable de salida.

221PRONÓSTICO DE PACIENTES DE LA UCI

Figura 9.12.NPredicción de “duración_UCI” usando conjunto reducido de variablescomo entradas: variación del tamaño del conjunto de entrenamiento sobre tasa

de error.

Page 228: Técnicas Para El Análisis Clínico de Datos

Grupo de prueba D.3: comparación

de los algoritmos ID3, C4.5 y red neuronal

Habiendo probado predecir “duración_uci” (en días) como una varia-ble de tipo numérico, ahora probamos a categorizarla y predecirla comouna variable de tipo categórico ordinal. Podemos afirmar que es de tipocategórico ordinal, dado a que la variable está definida en términos detres categorías, y podemos ordenar estas categorías desde la más pequeña(corta estancia) hasta la más grande (larga estancia). La categorización dela variable “duración_uci” sigue el mismo proceso que en el grupo de prue-ba C, paso (1). En este proceso, “0” indica “corta estancia”, es decir,menos de 10 días estancia en la UCI; “1” indica “estancia media”, esdecir, estancia de entre 10 y 20 días en la UCI; y por último “2” indica“larga estancia”, esto indicando una estancia de más de 20 días en la UCI.

Los siguientes resultados corresponden al entrenamiento de un mode-lo usando la técnica C4.5, con las opciones de windowing y “podado”activadas.

{0,1} correcto 78%incorrecto 22%

{0} correcto 89%incorrecto 11%

{1} correcto 38%incorrecto 62%

{2} correcto 41%incorrecto 59%

En la prueba usando C4.5, los resultados demuestran una buena pre-cisión para la categoría “estancia corta”, y una precisión inadecuada paralas categorías de “mediana estancia” y “larga estancia”. Observamos quela mayoría de los casos son menores a 10 días de duración, y como con-secuencia las otras categorías tienen un número insuficiente de casos deentrenamiento. Mediante la replicación de los casos de “mediana estan-cia” y “larga estancia”, podemos conseguir un equilibrio en cuanto al nú-mero de casos, aunque los casos resultantes no tendrían la diversidad dedatos reales.

222 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 229: Técnicas Para El Análisis Clínico de Datos

Ahora vamos a usar la técnica de ID3 para procesar los mismos datosque hemos procesado con C4.5 en el presente subgrupo de pruebas. Laúnica diferencia será que la variable categórica de salida (duración_uci)será definida como una variable numérica, con posibles valores de 0, 1 y2. Esto es posible debido a que la variable categórica es de tipo ordinal,y por consiguiente, tiene sentido predecirla como un resultado numéricoentero.

Estadísticas para la tasa de error en el modelo de ID3

Min. -2Máx. 2Media 0,14Media absoluta 0,24Desviación estándar 0,564Correlación lineal 0,588Ocurrencias 761

La prueba, usando ID3, ha resultado en una correlación de 0,588,siendo esto razonable en comparación con los resultados de los grupos deprueba D.1 y D.2, y respecto a la prueba que acabamos de realizar conC4.5. La precisión global del modelo C4.5 fue del 56%. El mejor mode-lo de red neuronal dio una correlación de 0,55 (prueba D.2). Sin embar-go, como porcentaje del valor máximo, la media absoluta del error (12%en comparación con 5,59% para la red neuronal) y la desviación estándardel error (29,4% comparada con 9,9% para la red neuronal) son resulta-dos inferiores.

Grupo de prueba D.4: composición y tasade error de un subconjunto de datos

En esta sección veremos los resultados de ejecutar ID3 con las mis-mas variables de entrada usadas para C4.5 en el grupo de prueba Cpaso (3). Recordamos que estas variables fueron seleccionadas por elexperto médico en vez de mediante el análisis estadístico y la mineríade datos.

Una vez realizado el proceso de datos, guardamos el valor de la sali-da (DUR_HOS), y el error (DUR_HOS real – DUR_HOS predicho).

223PRONÓSTICO DE PACIENTES DE LA UCI

Page 230: Técnicas Para El Análisis Clínico de Datos

Después seleccionamos un subconjunto de casos a partir del total dis-ponible, mediante la identificación de criterios que parecen “interesan-tes”. Por ejemplo, si estudiamos la Figura 9.14, se observa una alta inci-dencia de “entubado/ventilación” (INT_VENT), y “respiración asistida”(ON_MECH, VEN_CPAP, MEC_VEN).

A partir de la variable EDAD, se observa que el subconjunto corres-ponde a un grupo con un rango específico de edad, siendo esto de 61hasta 70 años. En las Figuras 9.13 y 9.14 las variables están ordenadaspor el valor de “chi-cuadrado” (�2). El valor de �2 es una medida pare-cida a la “relevancia” para variables categóricas en un subconjunto dedatos relativa al conjunto total de los mismos. Una mayor diferenciaentre la distribución de una variable en el subconjunto de datos (Figu-ra 9.14) y la distribución de la misma variable en el conjunto total dedatos (Figura 9.13), producirá un valor de �2 mayor para aquella varia-ble. En la Figura 9.14, después de la variable de salida (DUR_HOS) yel error, observamos que la variable con el valor �2 más alto es INT_VENT,siendo esto 0,791. Está seguida por ON_MECH con un valor �2 de0,777, VEN_CPAP con 0,753, MECH_VEN con 0,251, EDAD con0,173, etcétera. Para poder ordenar todas las variables con el mismo criterio de �2, es necesario categorizar las variables numéricas, comoMECH_VEN y EDAD, usando la técnica de cuantiles. En las Figu-ras 9.13 y 9.14 hay dos tipos de representación gráfica de las variables:un histograma para las variables numéricas y un “pastel” para las varia-bles categóricas. Al mostrar juntas a las Figuras 9.13 y 9.14, podemoscompararlas e identificar tendencias y diferencias entre el conjunto totalde pacientes (Figura 9.13), y el subconjunto escogido (Figura 9.14). Porejemplo, se ve que en el caso de la variable “OSF – número de sistemasde órganos que fallan”, la distribución para el subconjunto está sesgadahacia un número más bajo de OSF, en comparación con la distribuciónpara el conjunto total de casos. Asimismo, podemos observar que lasvariables categóricas INT_VENT, ON_MECH y VEN_CPAP tienenuna incidencia de aproximadamente el 50% en el conjunto total decasos, mientras que en el subconjunto su incidencia es mayor del 95%.Otra variable categórica de interés es DIAG (código diagnóstico) que enel subconjunto de datos tiene una alta incidencia de “código diagnósti-co”=43 (cirugía GI debido a neoplasia) y 34 (craneotomía debido a neo-plasia).

224 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 231: Técnicas Para El Análisis Clínico de Datos

225PRONÓSTICO DE PACIENTES DE LA UCI

Figura 9.13.NTotal de pacientes. Representación gráfica de las distribuciones de lasvariables de entrada, la variable de salida (DUR_HOS), y el error en el subconjunto de

datos seleccionados.

Figura 9.14.NSubconjunto de pacientes. Representación gráfica de las distribuciones delas variables de entrada, la variable de salida (DUR_HOS), y el error en el subconjunto

de datos seleccionados.

Page 232: Técnicas Para El Análisis Clínico de Datos

A continuación vamos a comentar los resultados del modelo predicti-vo para DUR_HOS, empezando con el análisis de la distribución de lavariable DUR_HOS. Con referencia a la Figura 9.14, se puede ver la dis-tribución de DUR_HOS en la primera fila de arriba y la primera colum-na desde la izquierda. La distribución del error (la variable inmediata-mente a la derecha de DUR_HOS), representa la diferencia entre el valorreal de DUR_HOS y el valor predicho (DUR_HOS - $DUR_HOS).

En la Figura 9.15 se hace un zoom a partir de las Figuras 9.13 y 9.14sobre el histograma de los valores para la variable DUR_HOS. A laizquierda se ve la distribución de los valores del conjunto total dedatos, y a la derecha se ve la distribución de los valores para el sub-conjunto de datos. Observamos que en el subconjunto de datos hay unatendencia para casos de más larga duración, con un pico destacableentre 60 y 65 días.

En la Figura 9.16 hacemos otro zoom a partir de las Figuras 9.13 y9.14 sobre el histograma de los valores para la variable que indica elerror. Como antes, en el histograma de la izquierda están los valores parael conjunto total de casos, mientras que a la derecha se ve la distribuciónde los valores para el subconjunto de casos. Observamos que hay dife-rencias marcadas entre las dos distribuciones. Mientras que el histogramaa la izquierda está distribuido de una forma continua con un valor mediode 5,0, la distribución a la derecha está fragmentada en cuatro bloques derangos muy específicos: de -29,25 a -22,75, de -16,25 a -3,25, de 3,25 a9,75 y de 16,25 a 22,25.

226 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

15

10

5

0

%

0 5 10 15 20 25 30 35 40 45 50 55 60 65

DUR_HOS (días)

Total de pacientes

15

10

5

0

%

0 5 10 15 20 25 30 35 40 45 50 55 60 65

DUR_HOS (días)

Subconjunto de pacientes

Figura 9.15.NHistograma de la distribución de la variable de salida DUR_HOS (duraciónde estancia en el hospital) para la totalidad de pacientes (izquierda) y del subconjunto de

casos seleccionados (derecha).

Page 233: Técnicas Para El Análisis Clínico de Datos

9.4.NCLUSTERING CON LA RED NEURONALKOHONEN SOM

El objetivo de procesar los datos con la técnica Kohonen es intentarestablecer “agrupaciones homogéneas” en los datos, cada una de las cua-les nos puede servir para entrenar un modelo distinto de datos. De estaforma podemos buscar tendencias entre agrupaciones y variables que nosayudarán a definir nuevos factores significativos. Además, podemoscomparar los resultados de este método de aprendizaje no-supervisado,con métodos de aprendizaje supervisado como C4.5 e ID3.

En la Figura 9.17 se ve que la técnica de clustering Kohonen SOM ha conseguido una agrupación razonable de casos, en el sentido de que hasido capaz de distinguir las agrupaciones en términos de la variable obje-tiva “estado_vital_uci”. Los casos indicados en blanco son las mortalida-des. Se observan agrupaciones que no tienen mortalidades, mientras queotras tienen una mayoría de ellas. La mayoría de agrupaciones contienenuna mezcla de mortalidades y no-mortalidades, en mayor o menor grado.En las agrupaciones dónde las mortalidades y no-mortalidades estánmezcladas, podemos decir que la técnica Kohonen no ha conseguido dis-tinguir los casos según el criterio “estado_vital_uci”. Sin embargo, sedebería estudiar cada agrupación individualmente para ver las caracterís-ticas y distribuciones de las variables en el subconjunto de casos que lacorresponden.

227PRONÓSTICO DE PACIENTES DE LA UCI

20

15

10

5

0

%

-29,25 -22,75 -16,25 -9,75 -3,25 3,25 9,75 16,25 22,75 29,25

<ERROR>

Total de pacientes

20

15

10

5

0

%

-29,25 -22,75 -16,25 -9,75 -3,25 3,25 9,75 16,25 22,75 29,25

<ERROR>

Subconjunto de pacientes

Figura 9.16.NHistograma de la distribución del error (duración real en el hospital–dura-ción predicha en el hospital) para la totalidad de pacientes (izquierda) y del subconjun-

to de casos seleccionados (derecha).

Page 234: Técnicas Para El Análisis Clínico de Datos

228 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 9.17.NVariable “estado_vital_uci”: agrupación Kohonen usando el conjunto re-ducido de variables como entradas (sin duración_hos, duración_icu o estado_vital_uci

como entradas y “sobrepuesto” la variable “estado_vital_uci”)

Figura 9.18.NVariable “duración_uci”: agrupación Kohonen usando el conjunto reduci-do de variables (sin duración_hos, duración_icu o estado_vital_uci como entradas y

“sobrepuesto” la variable “duración_uci”).

y

6

4

2

2 4 6 8x

Estado vital UCI

Vivo Muerto

y

6

4

2

2 4 6 8x

Duración de estancia

Corta LargaMediana

Page 235: Técnicas Para El Análisis Clínico de Datos

En la Figura 9.18, se ve que el Kohonen SOM ha creado algunasagrupaciones que consisten casi totalmente en casos de color negro (cor-ta estancia), otras agrupaciones con una alta incidencia de casos de colorgris (mediana estancia), y otras con una menor incidencia de casos decolor blanco (larga estancia). Sin embargo, no ha conseguido distinguirentre los casos de mediana estancia y larga estancia. Sería necesarioestudiar las frecuencias relativas de cada categoría de “duración_uci” encada agrupación para poder de identificar las diferencias menos aparen-tes. Por ejemplo, podemos identificar la agrupación con el ratio más altode larga estancia respecto a estancia mediana. Observamos que las Figu-ras 9.17 y 9.18 representan el mismo resultado de agrupaciones (o parti-ción), pero con diferentes variables sobrepuestas.

El conjunto de datos de la Tabla 9.15, representa los casos de unaagrupación determinada del resultado del Kohonen SOM que hemos vis-to en las Figuras 9.17 y 9.18. Esta agrupación contiene una mezcla devalores para “duración_uci” (de tipo categórico) y “estado_vital_uci”.Es decir, esta es una agrupación que no discrimina los valores de estasvariables. Una metodología típica para aplicar para estos datos sería estu-diar cada variable para identificar las tendencias subyacentes. Para estefin, se podría entrenar un modelo de inducción usando sólo los casoscorrespondientes a esta agrupación. Las reglas y el árbol inducido reve-larían la estructura subyacente y las relaciones entre las variables y losdatos. Mediante una simple inspección, podemos comprobar, por ejem-plo, que la variable “p_h_stat” (estado anterior de salud) siempre esigual a “1”, con la excepción de un solo caso. También observamos quelos valores de las siguientes variables son prácticamente invariantes:“osf” (número de sistemas de órganos que fallan), “tipo_adm” (tipo deadmisión) y “a_r_fail” (fallo renal agudo). Antes de llegar a conclusio-nes falsas, hay que establecer la distribución de estas variables en el con-junto total de datos. Por ejemplo, es posible que “osf” también sea siem-pre igual a “1” en el conjunto total de datos, así que pierde importanciaque sea “1” en esta agrupación en concreto. Por otra parte, la situacióncontraria también es posible: que una variable que es constante en el con-junto total de datos (o en otras agrupaciones) sea altamente variable en laagrupación que estamos analizando. Un ejemplo de esta última situaciónen la agrupación de la Tabla 9.15 es la variable “líneas” (en el conjuntototal tiene una varianza mucho menor).

229PRONÓSTICO DE PACIENTES DE LA UCI

Page 236: Técnicas Para El Análisis Clínico de Datos

230 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 9.15.NCasos correspondientes al cluster {6,4} (cluster arriba y a la derecha)de Figuras 9.17 y 9.18.

coma tipo malig uci líneas a_r_ temp_ b_ p_h_ copd a_ osf estado_ dur_ dur_ estanciaadmis admis ser fail corp urea stat fio2 vital_ uci hos

uci

0 3 0 1 4 0 38,0 14,0 1 0 1,01 1 0 33 51 20 3 0 0 1 0 38,0 19,0 1 0 0,51 1 0 15 14 00 3 0 0 3 0 40,0 15,0 1 0 0,51 1 0 16 21 00 2 1 1 7 0 39,0 11,0 1 0 0,81 1 0 57 90 20 3 0 0 1 0 37,0 16,0 1 1 0,31 1 0 15 13 00 3 0 0 3 0 39,0 15,0 1 0 0,21 1 0 15 13 00 3 0 1 6 0 37,0 12,0 1 0 0,31 1 0 13 18 00 3 0 1 4 0 36,7 13,0 1 0 0,31 1 0 15 21 00 3 0 1 6 0 38,9 13,8 1 0 0,31 1 0 12 17 10 3 0 1 6 0 37,0 13,0 1 1 0,41 1 0 15 13 00 3 0 1 6 0 39,5 19,8 1 0 0,31 1 0 17 16 00 3 0 1 3 0 37,3 11,7 1 0 0,61 1 0 17 13 00 3 0 1 4 0 36,4 15,7 1 0 0,51 1 0 10 16 10 3 0 1 4 0 37,3 13,7 1 1 0,41 1 0 14 15 00 3 0 1 4 0 37,5 17,0 1 1 0,51 1 0 19 24 00 3 0 1 6 0 38,1 17,5 1 1 0,71 1 0 14 21 00 3 0 1 3 0 39,2 19,7 1 1 1,01 1 1 28 28 20 3 1 0 6 0 37,1 16,8 1 0 0,41 1 0 16 13 01 3 0 1 3 0 35,8 16,7 1 0 0,21 1 0 17 17 01 3 0 1 3 0 38,3 16,5 1 0 0,31 1 0 16 11 00 3 0 1 4 0 35,7 16,0 1 0 0,41 1 0 13 51 11 3 0 1 6 0 37,9 13,7 1 0 0,51 1 0 17 16 00 3 0 1 3 1 39,5 14,9 1 1 0,61 1 0 14 10 00 3 1 1 2 0 37,5 11,0 1 0 0,51 1 0 14 14 10 3 0 1 7 0 37,6 15,0 1 0 1,01 1 1 22 22 20 3 0 1 3 0 37,0 18,7 1 0 0,31 1 0 13 19 01 3 0 1 6 0 37,4 14,8 1 0 0,51 1 0 17 21 00 3 0 1 3 0 39,5 12,5 1 0 0,51 1 0 16 21 00 3 0 1 5 0 36,5 17,0 1 1 0,41 1 0 29 48 20 3 0 1 5 0 37,1 13,5 1 0 0,21 1 0 11 16 11 3 0 1 5 0 38,5 15,0 1 0 0,51 1 0 18 19 10 3 0 1 4 0 37,0 14,3 1 0 0,81 1 0 18 11 00 3 1 1 8 0 35,0 11,7 1 0 0,61 1 0 11 11 00 3 0 0 4 0 37,0 14,0 1 0 0,51 1 1 14 14 01 3 0 0 0 0 36,5 19,5 1 0 0,41 1 0 12 12 00 3 0 1 6 0 37,7 15,2 1 0 0,61 1 0 16 19 00 3 0 1 5 1 35,0 14,2 1 0 0,51 1 0 19 19 00 3 0 1 4 1 38,6 43,0 1 0 0,41 1 0 19 92 01 3 0 0 5 0 34,8 18,5 1 0 0,51 1 0 16 24 10 3 0 0 6 0 38,6 18,0 1 0 1,01 1 1 22 22 20 3 0 0 3 1 38,0 23,0 1 0 0,51 1 1 21 21 20 3 0 0 3 0 37,6 13,6 1 0 0,35 1 0 16 20 01 3 0 0 5 0 37,8 16,0 1 0 0,41 1 0 19 19 01 3 0 0 5 0 38,1 17,9 1 0 0,35 1 1 14 14 01 3 0 1 5 0 37,2 17,8 1 0 0,51 1 0 59 59 21 3 0 1 3 0 38,2 15,9 1 0 0,41 1 0 15 41 00 3 0 1 3 0 37,0 22,0 1 0 0,31 1 0 14 14 00 3 0 1 3 0 38,7 19,0 1 0 0,51 1 0 17 13 01 3 0 1 5 0 35,0 16,0 1 0 0,51 1 1 14 14 01 3 0 1 5 0 39,0 14,3 1 0 0,51 1 1 14 14 00 3 0 1 3 0 37,1 15,0 1 1 0,31 1 0 13 15 01 3 0 1 8 0 38,7 12,0 1 0 1,01 1 0 38 55 21 3 0 1 8 0 36,5 19,8 1 1 0,41 1 0 23 41 21 3 1 1 6 0 38,0 13,3 1 0 0,31 1 0 15 31 10 3 0 1 7 0 39,2 10,9 4 0 0,61 1 0 12 27 10 3 0 1 4 1 37,5 41,7 1 0 0,61 1 0 19 21 00 3 0 1 4 1 36,0 36,0 1 0 0,61 1 0 19 42 11 3 0 1 5 0 40,0 11,0 1 0 0,61 1 1 11 11 11 1 0 1 2 0 35,8 19,0 1 1 1,01 1 0 15 12 00 3 0 1 2 0 36,8 15,0 1 0 0,41 1 1 15 15 01 3 0 1 1 0 38,0 15,0 1 0 0,81 1 1 11 11 11 3 0 1 2 0 36,0 10,0 1 0 0,31 1 1 58 58 20 3 0 1 5 1 38,4 18,0 1 0 0,41 1 0 14 28 10 3 0 1 6 0 36,0 10,0 1 0 0,41 1 1 16 16 01 3 0 1 7 0 35,5 10,0 1 0 0,51 1 1 11 11 10 3 0 1 5 0 36,2 13,0 1 0 0,61 1 1 14 14 0

Page 237: Técnicas Para El Análisis Clínico de Datos

9.5.NAPLICACIÓN DEL JOINING ALGORITHMDE HARTIGAN A LOS DATOS UCI, USANDOCOVARIANZAS “DIFUSAS”Y “NO-DIFUSAS”COMO ENTRADAS

Habiendo procesado los datos de los casos UCI con las técnicas deC4.5, ID3 y red neuronal, ahora pasamos a comprobar la técnica del joi-ning algorithm de Hartigan. El proceso empieza con la generación de unamatriz de covarianzas, según lo detallado a continuación en el apartado(1). Las siguientes combinaciones han sido probadas: covarianzas no-difusas (normales) generadas por SPSS a partir de datos numéricos;covarianzas difusas generadas por la versión modificada del algorit-mo de Gustafson [Gustafson79]. Para los lectores que desean los detallesdel cálculo de las covarianzas difusas puede acudirse a la Sección 8.1 dellibro.

Primero ejecutamos el joining algorithm con una matriz de covarianzasno-difusas como entradas, según lo detallado en el apartado (2) a continua-ción. Como segunda prueba, lo ejecutamos con una matriz de covarianzasdifusas según explicado en el apartado (3). La matriz de covarianzas sirvepara indicar el grado de relación entre las variables.

(1)NResumen y comparativa de las covarianzas difusas y no-difusas

En las Tablas 9.16 y 9.17 se ven las covarianzas difusas y no-difusas,respectivamente, de algunas de las variables que describen los pacientesde la UCI. Al comparar los resultados con covarianzas difusas y no-difu-sas observamos que algunas de las correlaciones entre variables mantie-nen su orden respectivo. Algunos de los pares que mantienen el mismoorden son: {fallo renal agudo, infección probable}, {fallo renal agudo,estado vital} y {fallo renal agudo, coma24hrs}. En contraste, lossiguientes pares no mantuvieron su orden respectivo: {fallo renal agudo,fallo cardiaco} y {estado vital, infección probable}. Concluimos que lascovarianzas difusas, aunque derivadas de los mismos datos, producenresultados diferentes. La topología de las particiones difusas, los valoresde grados de pertenencia de los casos, y la métrica de distancia (normas),son algunos de los aspectos que distinguen a las covarianzas difusas res-

231PRONÓSTICO DE PACIENTES DE LA UCI

Page 238: Técnicas Para El Análisis Clínico de Datos

pecto a las no-difusas. Concluimos que las covarianzas difusas ofrecenun método alternativo para agrupar variables clínicas, formando gruposque tienen sentido clínico y distintas a las que formaron las covarianzasno-difusas.

Las covarianzas difusas de las 17 variables detalladas en la Tabla 9.18fueron calculadas usando el algoritmo que ha sido presentado en la Sec-ción 8.1 del libro. En la Tabla 9.16 se puede ver una parte de la matriz decovarianzas difusas calculadas como resultado. La covarianza difusade cada variable consigo misma (el diagonal) produce un número grandey positivo en cada caso. Observamos que estos valores han sido asigna-dos a “1” para mejorar la claridad y teniendo en cuenta que los valores enel diagonal no se usan en el análisis factorial o en el proceso de fusión.

Las covarianzas no-difusas de las 17 variables detalladas en la Ta-bla 9.18 fueron calculadas usando la función estándar de covarianza deSPSS. En la Tabla 9.17 se puede ver una parte de la matriz de covarian-zas no-difusas calculadas como resultado.

232 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 9.16.NMatriz de covarianzas difusas calculadas para algunas de las variablesdel conjunto de datos de “Admisiones UCI”.

Fallo renal agudoFallo cardiacoProbable infecciónEstado vitalComa 24h

Fallo renalagudo

11*11,14,86711,43211,28611,807

Fallocardiaco

14,86711111,11,43711,28911,800

Probableinfección

11,43211,43711111,12,53110,799

Estadovital

11,28611,28912,53111111,10,751

Coma24 h

1,8071,8000,7990,7511,751

Tabla 9.17.NMatriz de covarianzas no-difusas calculadas para algunasde las variables del conjunto de datos de “Admisiones UCI”.

Fallo renal agudoFallo cardiacoProbable infecciónEstado vitalComa 24h

Fallo renalagudo

111,10,2030,1060,3460,111

Fallocardiaco

0,2031111,0,2010,3240,208

Probableinfección

-0,106-0,201-1111,-0,079-0,122

Estadovital

0,3460,3240,0791111,0,269

Coma24 h

-0,111-0,208-0,122-0,269-1,751

*nEl valor 1 ha sido asignado al diagonal y no se usa en el proceso de fusión.

Page 239: Técnicas Para El Análisis Clínico de Datos

(2)NProceso de los datos UCI con el joining algorithm

de Hartigan, usando covarianzas no-difusas como entradas

El conjunto de datos fue analizado con SPSS y las covarianzas no-difusas fueron calculadas para las 17 variables seleccionadas y por unamuestra representativa de 100 casos de “admisiones UCI”. Fue necesarioconvertir los valores binarios a tipo numérico para que SPSS pudiera pro-cesarlos. Esta conversación podría tener algunas implicaciones en lasestadísticas que podrían ser evaluadas. SPSS produce una matriz decovarianzas a partir de los datos básicos, y fue esta matriz la que dimoscomo entrada al algoritmo de Hartigan. Para generar las covarianzas no-difusas, usamos la función de SPSS, Statistics→Correlate→Bivariate,con la opción two-tailed Pearson Correlation Coefficient. Este procesogenera una matriz de covarianzas de dimensión 17 × 17 (17 siendo elnúmero de variables). En la Tabla 9.18 se ve un resumen de las variablesusadas.

233PRONÓSTICO DE PACIENTES DE LA UCI

Tabla 9.18.NVariables usadas como entradas al joining algorithm de Hartigan.

Nombre Corto

(usado en laFigura 9.18)

OS

PHDIDH

ARBUCACO

CR

FIINNE

PR

RERFSETY

Nombre

OSF

P_H_STATDEAD_ICUDUR_HOS

A_R_FAILB_UREACARD_FCOMA_24H

CREA_INC

FIO2IN24HRSNEURO_F

PROB_INF

RENAL_FRES_FSEXOTYPE_ADM

Tipo

de Dato

Numérico

CategóricoBinario

Numérico

BinarioNumérico

BinarioBinario

Binario

BinarioBinarioBinario

Binario

BinarioBinarioBinario

Categórico

Descripción

Número de fallos de sistemas de órganos, cal-culado por un programa informático.Estado previo de salud. {1, 2, 3, 4}.Estado vital UCI {0=vivo, 1=muerto}.Duración estimada en el hospital desde elmomento de admisión a la UCI.Fallo renal agudo.Concentración de urea en la sangre.Fallo cardiovascular.En coma o estupor profundo a 24 horas des-pués de admisión.Creatinina > 2,0mg/dl (176,8�Mol/l) duranteprimeras 24 horas.FIO2 > 0,50 durante las primeras 24 horas.Estancia en la UCI de 24 horas o más.Fallo neurológico (excluyendo administraciónde calmantes).Infección probable en el momento de admisióna la UCI.Fallo renal.Fallo respiratorio {1=si, 0=no}.{1=hombre, 0=mujer}.Tipo de paciente {1=cirugía de emergencia,2=cirugía planificada, 3=sin cirugía}.

Page 240: Técnicas Para El Análisis Clínico de Datos

Los números en la Figura 9.19 indican el nuevo factor y el orden enque ha sido creado. Observamos que las 17 variables originales han si-do fusionadas en tres nuevos componentes, representados por los núme-ros 14, 10 y 12, respectivamente. La primera fusión es el 1, que se ve porel lado extremo derecho (AR y RE), seguida por el 2 (CO y NE), etcéte-ra. Ahora vamos a analizar la forma en que la “fusión” ha agrupado a lasvariables, comparándola con las técnicas de ID3, C4.5, la red neuronal,SPSS y la fusión usando covarianzas difusas (que veremos en el aparta-do (3) de esta sección). A continuación, comentamos la secuencia de lasfusiones para las 17 variables seleccionadas:

Secuencia de fusiones para las covarianzas no-difusas: con referen-cia a la Tabla 9.18 y a la Figura 9.19, todos los datos de entrada fueron con-siderados como numéricos. En el caso de las variables de tipo binario, losvalores fueron definidos como 1 ó 0. Los datos fueron procesados por SPSSpara calcular las covarianzas entre las variables. Este proceso dio comoresultado una matriz que proporcionamos como entrada al algoritmo deHartigan, que por su parte produjo la siguiente secuencia de fusiones:

La primera fusión se produjo entre la variable “Fallo renal agudo”y “Fallo Renal”. Es muy razonable que haya una alta correlación en-tre estas variables dado el vínculo de ambas al fallo renal en sí. Lla-maremos al resultado de esta fusión, factor uno.

La segunda fusión se produjo entre la variable “En coma o estuporprofundo a 24 horas después de admisión” y “Fallo neurológico (exclu-yendo suministro de calmantes)”. Llamaremos al resultado de esta fu-sión, factor dos.

234 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

SE IN DH PR DI FI CA OS RF TY CO NE PH BU CR AR RE

1413

119

86

53

102 1

47

12

Figura 9.19.NÁrbol de fusiones producido por el joining algorithm de Hartigan usandolas covarianzas no-difusas.

Page 241: Técnicas Para El Análisis Clínico de Datos

La tercera fusión se produjo entre la variable “Fallo respiratorio”y “Número de sistema de órganos que fallan”. Llamaremos al resul-tado de esta fusión, factor tres.

Con estas primeras tres fusiones, el algoritmo de Hartigan ya ha iden-tificado la base de los tres factores que va a construir a partir de las 17variables de entrada. Ahora procede a fusionar las restantes variables aestas tres bases, formando una estructura de pirámide invertida.

La cuarta fusión vuelve al factor uno y adjunta la variable “Crea-tinina > 2,0mg/dl (176,8µMol/l) durante primeras 24 horas”. Fueconfirmado por el experto médico que el nivel de creatinina se aso-cia con fallo renal. Si falla el riñón, el nivel de creatinina puede subirde su nivel normal de aproximadamente 1 mg/dl, hasta llegar a unvalor de 9 o 10 mg/dl, que sería un nivel patológico. Esto es debidoa la acumulación de creatinina en la sangre, dado que es el funciona-miento correcto del riñón que normalmente lo mantiene a un nivelestable.

La quinta fusión va al factor tres y adjunta la variable “Fallo car-diovascular”. Esto parece seguir la tendencia de este factor a identifi-car fallos de sistemas de órganos.

La sexta fusión sigue con factor tres y adjunta la variable “FIO2 >0,50 durante las primeras 24 horas”. Comprobamos con el expertomédico si el nivel de FIO2 se asocia con fallos de sistemas de órganosen general, o fallo cardiovascular o respiratorio en particular.

La séptima fusión vuelve al factor uno y adjunta la variable “Con-centración de urea en la sangre”. Comprobamos con el experto mé-dico si la concentración de urea suele estar asociada con fallo renal ynivel de creatinina.

La octava y novena fusión vuelven al factor tres y adjunta “Estadovital UCI” e “Infección probable en el momento de admisión a laUCI”, respectivamente. Esto parece seguir la tendencia de este factora identificar estados globales.

La décima fusión se dirige al factor dos y adjunta a “Tipo depaciente”. Con esta fusión, el factor dos es completo (el algoritmo yano adjunta más variables para ello).

235PRONÓSTICO DE PACIENTES DE LA UCI

Page 242: Técnicas Para El Análisis Clínico de Datos

La fusión número once es al factor tres, adjuntando a “Duracióncalculada en el hospital desde el momento de admisión a la UCI”.Esto parece seguir otra vez a la tendencia de este factor a identificarestados globales.

La fusión número doce es al factor uno, adjuntando a “Estado pre-vio de salud”. Con esta fusión, el factor uno es completo (el algorit-mo ya no adjunta más variables para ello).

Las últimas dos fusiones, trece y catorce, se hacen al factor tres.Adjuntan a “Estancia en la UCI de 24 horas o más” y “Sexo”, respec-tivamente. Una vez más, el factor tres ha agrupado “estados genera-les” y con estas dos fusiones, el factor tres es completo, no hay másvariables a adjuntar y el algoritmo termina.

Es posible que las últimas dos variables se adjunten al factor tres por-que ya no haya otro factor donde ponerlas. Para evitar este comporta-miento “por defecto”, se podría incorporar un “umbral de relevancia”,por debajo del cual se descarta la variable.

En resumen, hemos visto que tres factores han sido construidos, unosignificativamente más complejo que los otros dos. Factor uno pareceser específico para casos renales. Factor dos parece relevante a casosneurológicos. Factor tres parece identificar estados globales del pacien-te o datos temporales (con punto de referencia en el tiempo).

A continuación resumimos cada uno de los factores según las varia-bles que los componen:

Factor uno: “Fallo renal agudo” + “Fallo renal” + “Nivel de crea-tinina” + “Concentración de urea en la sangre” + “Estado previo desalud”.

Factor dos: “En coma o estupor profundo a 24 horas de admisión” +“Fallo neurológico” + “Tipo de paciente”.

Factor tres: “Fallo respiratorio” + “Número de sistemas de órganosque fallan” + “Fallo cardiovascular” + “Nivel de FIO2” + “Estado vitalUCI” + “Infección probable en el momento de admisión a la UCI” + “Du-ración en hospital a partir del momento de admisión a la UCI” + “Estan-cia en UCI � 24 horas” + “Sexo”.

236 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 243: Técnicas Para El Análisis Clínico de Datos

Observaciones: una posible comprobación para las secuencias defusiones y la ordenación de las variables en ellas sería la siguiente: crearuna o más variables artificiales aleatorias que no tengan ninguna relevan-cia con los datos, y observar lo que hace el algoritmo con ellas. Es ne-cesario tener en cuenta que las variables de tipo categórico y binario han sido consideradas como numéricas, para hacer posible que SPSS calcule las covarianzas. Si usamos un algoritmo para calcular las cova-rianzas que permita mantener el tipo original de las variables, se podríanestudiar las diferencias en los valores de covarianza , el orden de fusión yla manera de agrupar a las variables. Del mismo modo, los datos de tipodifuso han sido definidos como no-difusos (categóricos). Usando un cálculo de covarianza difusa podemos observar los cambios que resultande los valores de la covarianza, en el orden de fusión y en las agrupacio-nes de las variables. Cuanto más respetemos el tipo natural de los datos,evitando así una pérdida de información, más preciso será el orden defusión y las agrupaciones de las variables reflejarán en mayor grado a lanaturaleza subyacente de los datos.

(3)NProceso de los datos UCI con el joining algorithm

de Hartigan, usando covarianzas difusas como entradas

Las covarianzas difusas de las 17 variables preseleccionadas fue-ron calculadas usando el algoritmo detallado en los Capítulos 6 al 8. Lamatriz que resultó (véase Tabla 9.16) fue presentada como entrada alalgoritmo de fusión de Hartigan. El proceso de fusión usando “cova-rianzas difusas” generó cuatro factores, uno más que el proceso usan-do “covarianzas no-difusas”. Las variables iniciales elegidas para fac-tor uno fueron “En coma o estupor profundo a 24 horas” y “Fallorenal”. Las variables iniciales elegidas para el factor dos fueron “In-fección probable en el momento de admisión a la UCI” y “Estado vitalal salir de la UCI”. Las variables iniciales elegidas para el factor tresfueron “Creatinina > 2.0mg/dl (176.8µMol/l) durante las primeros 24horas” y “Estado previo de salud” y por último, las variables inicialeselegidas para el factor cuatro fueron “Fallo renal agudo” y “Fallo car-diovascular”.

La composición de los cuatro factores finales fue:

237PRONÓSTICO DE PACIENTES DE LA UCI

Page 244: Técnicas Para El Análisis Clínico de Datos

Factor uno: “En coma o estupor profundo a 24 horas de admisión” +“Fallo renal” + “Fallo neurológico”.

Factor dos: “Infección probable en el momento de admisión a laUCI”+ “Estado vital UCI” + “Sexo” + “Nivel de FIO2”.

Factor tres: “Nivel de creatinina” + “Estado previo de salud” +“Concentración de urea en la sangre” + “Tipo de paciente” + “Número desistemas de órganos que fallan” + “Estancia en UCI � 24 horas”.

Factor cuatro: “Fallo renal agudo” + “Fallo cardiovascular” +“Duración en hospital a partir del momento de admisión a la UCI” +“Fallo respiratorio”.

En contraste con la fusión con covarianzas no-difusas, la fusión concovarianzas difusas ha puesto más claramente a las variables que refierena fallos de sistemas de órganos en dos factores, 1 y 4. En el caso de lafusión con covarianzas difusas, las variables “Fallo renal” y “Fallo renalagudo” quedan separadas en factores distintos, mientras que la fusión concovarianzas no-difusas las agrupa en el mismo factor. La variable “Dura-ción en hospital” ha sido asociada con algunas de las variables que refie-ren a los fallos de sistemas de órganos, de modo parecido a los factores“no-difusos”.

9.6.NPROCESO DE LOS DATOS UCI CON LA TÉCNICA“FUZZY C-MEANS”

El conjunto de datos UCI fue preparado de una forma adecuada paradar como entrada al algoritmo Fuzzy c-Means. Cien casos fueron selec-cionados de forma homogénea y aleatoria a partir del conjunto completode datos. Usamos la misma selección de 17 variables que en pruebas an-teriores:

Variable 1: Sexo.Variable 2: Tipo de admisión.Variable 3: Probable infección en el momento de admisión a la UCI.Variable 4: Coma a 24 horas de admisión a la UCI.Variable 5: Fio2.Variable 6: Crea_Inc.

238 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 245: Técnicas Para El Análisis Clínico de Datos

Variable 7: A_R_Fail.Variable 8: B_Urea.Variable 9: Estado previo de salud.Variable 10: Fallo respiratorio.Variable 11: Fallo cardiaco.Variable 12: Fallo renal.Variable 13: Fallo neurológico.Variable 14: OSF.Variable 15: Estado_vital_UCI.Variable 16: Dur_Hos.Variable 17: In24hrs.

A continuación detallamos las estadísticas resultando del proceso dedatos usando Fuzzy c-Means. El número de clusters fue asignado a prio-ri a tres. (Para una explicación del funcionamiento de Fuzzy c-Means,se refiere a la Sección 7.5 del libro).

Número de clusters = 3, icon = 1, exponente = 2.Ciclo de proceso = 1, error máximo = 0,7459.Ciclo de proceso = 2, error máximo = 0,2889.Ciclo de proceso = 3, error máximo = 0,4464.Ciclo de proceso = 4, error máximo = 0,3979.Ciclo de proceso = 5, error máximo = 0,3378.Fstop 1-Fstop Entropía Ganancia0,661 0,339 0,590 7862.106

Comparamos la proximidad de los centros de cluster en relación conlas variables de la Tabla 9.19. Observamos que existe una relación entrelas variables “Fallo respiratorio”, “Fallo cardiaco”, “Fallo renal” y “Falloneurológico”, dado la proximidad relativa de los centros de cluster paraestas variables en las agrupaciones 1, 2 y 3. Otra proximidad identifica-ble sería entre las variables “Sexo”, “Fio2” y “Número de sistemas deórganos que fallan”.

En la Tabla 9.20 podemos apreciar los grados de pertenencia paracasos seleccionados en cada de las tres agrupaciones generadas porFuzzy c-Means. En la columna cinco (cluster asignado) se ve la asigna-ción de la agrupación “dominante”, es decir, la agrupación que indica un grado de pertenencia claramente más alta que las otras dos agrupacio-nes para un caso determinado. En algunos casos no hay un ganador claro,

239PRONÓSTICO DE PACIENTES DE LA UCI

Page 246: Técnicas Para El Análisis Clínico de Datos

240 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 9.19.NFuzzy c-Means: centros de cluster v[i][j].

Variable

Sexo, v[n][1]Tipo de admisión, v[n][2]Infección probable en el momento deadmisión a la UCI, v[n][3]Coma a 24 horas después de admisión ala UCI, v[n][4]Fio2, v[n][5]Crea_Inc, v[n][6]A_R_Fail, v[n][7]B_Urea, v[n][8]Estado previo de salud, v[n][9]Fallo respiratorio, v[n][10]Fallo cardiaco, v[n][11]Fallo renal, v[n][12]Fallo neurológico, v[n][13]Número de sistemas de órganos quefallan, v[n][14]Estado_vital_UCI, v[n][15]Dur_Hos, v[n][16]In24hrs, v[n][17]

Cluster 1,v[1][n]

10,574612,226210,3532

10,1906

10,581910,089110,079318,465711,492210,184710,171610,100710,144010,6950

10,031945,357210,9981

Cluster 2,v[2][n]

0,54722,31640,2440

0,1138

0,36640,09910,07588,41951,81660,29320,29610,12990,18070,9481

0,34149,26250,8266

Cluster 3,v[3][n]

10,609412,454910,1812

10,0247

10,430910,095310,076619,360311,581810,314010,118910,123710,145710,7870

10,128122,320610,9276

Tabla 9.20.NFuzzy c-Means: grados de pertenencia para casos seleccionados.

Número delcaso en elconjunto dedatos

11

12

13

14

15

11

16

20

41

74

Grado dePertenenciaa cluster 1

0,0311

0,1308

0,0030

0,0243

0,0108

0,0440

0,7593

0,7588

0,4679

0,4667

Grado dePertenenciaa cluster 2

0,6656

0,5071

0,9748

0,2285

0,9220

0,0892

0,0884

0,0886

0,1118

0,1008

Grado dePertenenciaa cluster 3

0,3033

0,3621

0,0221

0,7472

0,0672

0,8668

0,1523

0,1526

0,4203

0,4325

Clusterasignado

2 / 3

2 / 3

2

3

2

3

1

1

1 / 3

1 / 3

Page 247: Técnicas Para El Análisis Clínico de Datos

y esto indica que el caso tiene pertenencia parcial a dos o más agrupacio-nes. Idóneamente, todos los casos deberían tener una asignación a unasola agrupación. En caso contrario, podría indicar que el valor “c”, el nú-mero de agrupaciones esperadas no ha sido óptimo para Fuzzy c-Means.Es decir, que los datos encajan mejor en 2, 4 o más agrupaciones, en vezde en 3. Otra posible razón sería un problema con la calidad de los datoso en la selección de las variables de entrada o en la muestra de casosextraídos. También, podría indicar la necesidad de una mejor asignaciónde uno o más de los demás parámetros de Fuzzy c-Means. Por ejemplo,un parámetro “m” más grande hace que las asignaciones de los grados depertenencia sean más difusos. Otro parámetro que podemos variar es la norma. La norma ||.||A puede asumir uno de los siguientes tipos: NE , lanorma euclidiana; ND , la norma diagonal, y NM , la norma mahalonobis;El último parámetro es 1L , el umbral de épsilon, que actúa como un cri-terio de limitación, en la definición de los centriodes de los clusters.

Sin embargo, en el contexto actual del proceso de datos clínicosreales de una cierta complejidad, una asignación del 73% de los ca-sos a agrupaciones individuales es bastante razonable. A partir de la Ta-bla 9.21 confirmamos esta afirmación. En la Tabla 9.21 vemos que un22% de los casos ha sido asignado de forma ambigua entre las agrupa-ciones 2 y 3, y un 5% ha sido asignado de la misma forma entre lasagrupaciones 1 y 3.

Visualización de las agrupaciones difusas: para poder obtener unavisualización gráfica de los grados de pertenencia, calculamos los com-ponentes principales de ellos según el método de [Kaufman90]. Se pue-de ver el gráfico que resulta en la Figura 9.20. Los datos que usamos paracalcular los componentes principales han sido procesados previamentepor Fuzzy c-Means. Los detalles del proceso de los datos por Fuzzy c-Means ha sido presentado en las Tablas 9.19 hasta 9.21. Para generar larepresentación gráfica, y según el método de Kaufman, primero defini-mos el número de componentes principales. El número de componentes

241PRONÓSTICO DE PACIENTES DE LA UCI

Tabla 9.21.NFrecuencias de los grados de pertenencia a los clusters, para un totalde 100 casos.

Cluster 1

9

Cluster 2

45

Cluster 3

19

Cluster 1,3

5

Cluster 2,3

22

Cluster 1,2

0

Page 248: Técnicas Para El Análisis Clínico de Datos

principales es igual que el número de agrupaciones difusas menos 1, queen el presente ejemplo resulta en un valor de 2. Si aplicamos este métodoa la muestra de cien casos de admisiones, obtenemos el gráfico de laFigura 9.20. Al inspeccionar los datos correspondientes al gráfico, es-tablecemos que una mayor proximidad de un caso al origen implica unamayor incidencia de complicaciones en el paciente.

En la Figura 9.20 podemos observar tres tendencias, definidas por lospuntos (2,8, 1,7), (0,5, -1,3) y (-0,6, 1,3) que corresponden a las agrupa-ciones C1, C2 y C3, respectivamente. Los dos componentes principales secalculan a partir de los grados de pertenencia generados por Fuzzy c-Means. Podemos concluir que las agrupaciones tienen una correspon-dencia razonable con los siguientes factores: “duración de estancia” (C1),“fallos de sistemas de órganos” (C2) y características que dan positivo engeneral (C3).

9.7.NRESUMEN

En la Sección 9.2, realizamos una serie de pruebas con la intención decomprobar la precisión predictiva cuando las variables “duración_uci” y“duración_hos” fueron de tipo “categórico”, usando el conjunto de datosde “admisiones hospitalarias” y la técnica C4.5. A continuación, en la

242 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 9.20.NComponentes principales de los grados de pertenencia de 100 pacientesen tres agrupaciones difusas.

Page 249: Técnicas Para El Análisis Clínico de Datos

Sección 9.3, hemos comprobado la predicción de “duración_uci” y“duración_hos” como variables de tipo numérico continuo, con los mis-mos datos que en 9.2, pero usando la técnica de ID3 en vez de C4.5. Sícategorizamos el valor continuo de la variable predicha en tres categorías(estancia corta, mediana y larga), los resultados indican una mejora enla precisión para las categorías corta y mediana.

En el caso del conjunto de datos UCI, la calidad de los datos está garan-tizada, dado que es un conjunto que fue recopilado por varios hospitalescon el motivo de realizar estudios estadísticos de pacientes UCI. Sinembargo, los datos en principio fueron enfocados en el objetivo de relacio-nar las variables de entrada con la variable “estado_vital_uci”, es decir, unpronóstico de sobrevivir. Por consiguiente, el nuevo objetivo de relacionarlas variables de entrada con las variables “duración_hos” y “duración_ uci”fue decidido por el autor, en consulta con el experto médico.

A continuación vamos a resumir los resultados de los modelos de datosgenerados. Conseguimos una buena precisión para la variable predicha“duración_hos” en la categoría estancia corta (< 10 días). La precisión dela técnica C4.5 fue 89% (Tabla 9.10), mientras que la red neuronal consi-guió una precisión de 82% (Tabla 9.8). En el caso de la variable objetiva“estado_vital_uci”, podemos decir que es una variable que debería teneruna predicción muy precisa para este conjunto de datos. La técnica C4.5consiguió una precisión máxima del 97% (Tabla 9.4) para “estado_vital_uci”=”vivo” y un 65% (Tabla 9.4) para “estado_vital_uci”=”muerto”. Sepueden considerar estos últimos resultados como buenos para casos positi-vos y razonables para casos negativos.

Destacamos los resultados del grupo de prueba C (Sección 9.2), en elcual usamos un conjunto reducido de variables de entrada, seleccionadas

243PRONÓSTICO DE PACIENTES DE LA UCI

Page 250: Técnicas Para El Análisis Clínico de Datos

exclusivamente por el médico experto. Las pruebas del grupo C (Sec-ción 9.2) dieron con la mejor precisión (85%) para casos de larga estan-cia. Esto fue un resultado distinto a los otros modelos entrenados usandolas técnicas de C4.5, ID3 y RN, que dieron la mejor precisión para casosde corta duración. Con referencia a la Tabla 9.12, las precisiones de lasotras categorías fueron 51% para corta y 33% para mediana. Estos resul-tados podrían sugerir que existen modelos específicos para diferentes ca-tegorías de duración de estancia, cada uno con su conjunto de variables.

Uno de los objetivos principales de Capítulo 9 ha sido la exploraciónde las relaciones entre las variables, usando técnicas como las de Harti-gan, Fuzzy c-Means y Kohonen. En el caso de las técnicas Fuzzy c-Meansy Hartigan, el objetivo final no es crear un modelo predictivo, sino llevara cabo una exploración de los datos. Por consiguiente, no podemos com-parar de forma directa a estas técnicas con C4.5, ID3 o RN en términosde precisión predictiva.

Otro uso de las técnicas de modelización es la identificación de lasvariables más relevantes respecto a las variables de salida “duración_uci”y “estado_vital_uci”. Usamos C4.5 e ID3 para explorar las variables ypara descubrir reglas precisas que corresponden a subconjuntos específi-cos de datos. En el grupo de pruebas C (Sección 9.2) identificamos ycomentamos las reglas específicas. Variables que aparecen en la primeraparte de las reglas son, por ejemplo, “edad”, “mech_ven”, “PAO2” y“C_REN_F”, cuyas diferentes combinaciones aportan sentido clínico.Hemos visto en grupo de pruebas C, que existen reglas específicas conuna precisión alta (por ejemplo, mayor de 65%) y que tienen un númerosignificativo de casos correspondientes.

Las pruebas con diferentes técnicas confirmaron la complejidad derelaciones entre las variables en el conjunto de datos UCI. Contrastamosla técnica de Kohonen en la Sección 9.4, Hartigan en la Sección 9.5 yFuzzy c-Means en la Sección 9.6 con las técnicas de C4.5 e ID3. Además,identificamos algunas características difusas, indicadas por los casos queno conseguimos clasificar de forma categórica.

Los resultados confirmaron la dificultad de predecir la duración deestancia de un paciente a partir de un conjunto dado de variables a priori.

En proyectos de minería de datos puede ocurrir que ninguna técnicaconsiga un buen resultado global a la primera. Esto puede suceder a pesar

244 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 251: Técnicas Para El Análisis Clínico de Datos

de disponer de datos de buena calidad, tener acierto en la selección devariables de entrada, y disponer de una correcta definición de las va-riables. Ante esta situación, una metodología habitual (para los IBMers,ed.) es realizar una segmentación previa del conjunto de datos para con-seguir unas particiones homogéneas. Para ello, se suele usar una técnicade agrupación no-supervisada, como por ejemplo, Kohonen o Condorcet.Como segundo paso, se entrena un modelo predictivo para cada particiónhomogénea.

Otro enfoque sería usar una clasificación predefinida, proporcionadacomo entrada a una técnica supervisada de modelización. En el caso delos datos UCI, una posible clasificación predefinida podría ser: pacientestrauma, pacientes con trauma craneal, con historial clínico previo, edad(pediatría, adultos, geriatría), etcétera.

Al probar estos enfoques, no hubo una mejora inmediata en la preci-sión de modelos generados a partir de las particiones homogéneas. Tam-poco se mostró una mejora en la precisión usando una clasificación pre-definida, segmentando a los datos según el código diagnóstico.

Un aspecto en contra del uso de una segmentación previa de los datos,es que se dificulta la comparación de los resultados usando técnicascomo Fuzzy c-Means o Hartigan. Esto es debido al hecho de que estastécnicas deben actuar sobre todo el conjunto de datos, sin segmentaciónprevia. Esto es para evitar que los resultados estén precondicionados porla segmentación en sí. Hay que añadir que una segmentación previa tam-poco garantiza unos buenos resultados.

En la Sección 9.5 hemos analizado cómo el joining algorithm de Har-tigan agrupa las variables, de una parte con covarianzas difusas comoentradas, y de otra usando covarianzas no-difusas. Hemos comparado laagrupación de las variables por la técnica de Hartigan con otros métodos,como el Análisis factorial de SPSS. Las técnicas de Análisis factorial deSPSS y el joining algorithm de Hartigan coincidieron en encontrar tresfactores a partir de las 17 variables de entrada. En el caso de la técnica deFuzzy c-Means, el proceso de agrupación encontró una entropía mínimacon dos agrupaciones, aunque también con tres agrupaciones la entropíaestuvo cerca de la mínima. Recordamos que, en el caso de Fuzzy c-Means, la entropía mide la calidad de las agrupaciones generadas, unvalor bajo de entropía, indicando una mejor calidad. Es necesario indicar

245PRONÓSTICO DE PACIENTES DE LA UCI

Page 252: Técnicas Para El Análisis Clínico de Datos

que Fuzzy c-Means define clusters según un criterio de agrupación deobjetos, en vez de una agrupación de variables. Sin embargo, un posterioranálisis de las agrupaciones que resultan puede indicar perfiles de casosen términos de grupos de variables claves.

Por último, podemos comparar las agrupaciones de variables genera-das por la técnica de Hartigan (con covarianzas difusas) con las de la téc-nica de C4.5 en la Sección 9.2. Observamos que en las agrupacionesdadas por Hartigan (con covarianzas difusas), su interpretación en térmi-nos clínicos es más evidente. Por otra parte, C4.5 tiende a agrupar varia-bles en reglas para producir un resultado estadísticamente óptimo, perocon el riesgo de perder la justificación clínica para dichas agrupaciones.

246 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 253: Técnicas Para El Análisis Clínico de Datos

En este capítulo aplicamos el operador de agregación WOWA aldiagnóstico de casos de apnea usando datos recogidos de pacientes delHospital Clínico de Barcelona. En este estudio, los datos fueron captura-dos en la forma no-difusa (categórica), usando un cuestionario estándarpara el filtro de casos de apnea. Para una explicación del operadorWOWA y su aplicación al proceso de los casos de apnea, el lector puedeacudir a las Secciones 7.4 y 8.2 del libro.

En la Sección 10.1 de este capítulo, es el experto médico quién selec-ciona las variables y asigna los valores (o cocientes) de ponderación de WOWA. Además, en contraste con el método que veremos en la Sec-ción 10.2, los valores “w” de fiabilidad se asignan en vectores de 5 ele-mentos. Estos vectores se interpolan posteriormente para generar las 5curvas características usadas para interpretar los valores de los datos. Ellector puede acudir a las Secciones 6.3 y 8.2 del libro para una descrip-ción de las definiciones y características de las curvas. Al inicio del pro-ceso detallado en la Sección 10.1, se selecciona un número reducido decasos de apnea como entrada. Los casos han sido seleccionados de unaforma representativa, para incluir pacientes con un diagnóstico clara-mente negativo, otros con diagnóstico claramente positivo, y otros con undiagnóstico ambiguo (borderline).

10Datos del cuestionario de apnea.Laboratorios del sueño. Neumología(ICPCT), Hospital Clínico de Barcelona

Page 254: Técnicas Para El Análisis Clínico de Datos

En la Sección 10.2 comprobamos y contrastamos tres diferentes enfo-ques para asignar los cocientes de relevancia y fiabilidad de las variablesen el conjunto de datos de pacientes apnea. En el primer enfoque, emplea-mos una diversidad de métodos provenientes de la estadística y delaprendizaje automatizado, para establecer los valores de relevancia y fia-bilidad. Estos métodos incluyen técnicas de agrupación (clustering) y declasificación (predicción). En el segundo enfoque es el médico expertoquien asigna, de forma exclusiva, a los valores de relevancia y fiabilidad.Por último, el tercer enfoque consiste en una asignación consensuadaentre el médico experto y los resultados del análisis por métodos estadís-ticos.

Los cocientes de relevancia y fiabilidad definidos por cada uno de lostres enfoques quedan asignados al operador de agregación WOWA. Eloperador WOWA procesa el conjunto de datos de apnea y produce undiagnóstico para cada paciente. El conjunto de datos que se procesa eneste capítulo incluye todos los 154 casos de apnea disponibles.

Este conjunto de datos fue proporcionado por el Hospital Clínico deBarcelona y los datos fueron capturados de forma no-difusa, es decir, sonde tipo categórico o numérico. En el Capítulo 11, contrastamos los resul-tados de proceso de datos capturados de forma no-difusa, con datos cap-turados mediante una representación difusa.

Los datos de pacientes de apnea que usamos en los estudios del Capí-tulo 10 son datos recogidos usando un cuestionario estándar del sueño.Disponemos de los datos de 154 pacientes, de los cuales un 68,2% soncasos positivos y un 31,8% son negativos. El cuestionario se compone dedos principales secciones: la primera sección registra los datos clínicos(edad, peso, presión sanguínea, etc.); la segunda sección se compone de41 preguntas a las cuales el paciente debe responder. Las preguntas estándivididas en 3 subgrupos: 15 preguntas generales del sueño {g1 al g15},16 preguntas relacionadas con aspectos respiratorios {r1 al r16} y 9 pre-guntas relacionadas a somnolencia {s1 al s9}. De acuerdo a esta in-formación, el médico realiza una evaluación clínica del paciente, que seasigna a una de cinco posibles categorías: sano, ronqueador simple, du-doso, apnea típica, u otra enfermedad. En los estudios del presente librosimplificamos esta clasificación del diagnóstico a dos posibles catego-rías: apnea típica o sin apnea.

248 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 255: Técnicas Para El Análisis Clínico de Datos

En la Figura 10.1 se expone un esquema del proceso de los datos paraestablecer los cocientes de relevancia y fiabilidad. El operador de agre-gación WOWA se aplica a los datos, junto con los cocientes, para produ-cir un diagnóstico para cada caso como resultado final.

10.1.NEL DIAGNÓSTICO DE APNEA USANDO WOWACON COCIENTES ASIGNADOS POR EL MÉDICOEXPERTO

En esta sección aplicamos las técnicas de agregación de OWA yWOWA a casos seleccionados de apnea del Hospital Clínico de Barcelo-na. Los datos han sido capturados de forma no-difusa, y la salida es unvalor de tipo binario que indica el resultado del diagnóstico. Tanto el ope-rador OWA como el WOWA usan vectores de fiabilidad y relevanciapara ponderar los valores de las variables de entrada. Los cocientes de losvectores han sido asignados por un médico experto.

Objetivos y definición del estudio. A continuación vamos a pre-sentar los resultados de la predicción de casos de apnea usando los ope-radores de agregación OWA y WOWA, y el método de componentes

249DATOS DEL CUESTIONARIO DE APNEA...

Figura 10.1.NFlujo del proceso de datos para producir un diagnóstico a partir de lasvariables de entrada de los casos de apnea.

Page 256: Técnicas Para El Análisis Clínico de Datos

principales. La funcionalidad de WOWA fue modificada fijando losvalores “w” (vector de fiabilidad) para representar a cinco posibles cur-vas determinadas. La forma de las curvas define la función de sesgo(del grado de fiabilidad) en cada caso que actúa sobre los valores de losdatos. Acúdase al Capítulo 8 del libro, y Figuras 8.3 hasta 8.7 para unadescripción de la técnica y una definición de las cinco posibles curvas.Para poder interpretar los resultados del diagnóstico es necesario defi-nir un umbral cuantitativo que indique dónde acaba la etiqueta lingüís-tica “no admitir” y dónde empieza la de “admitir”. Es decir, a partir deun determinado valor del índice de apnea (AHI), se recomienda que elpaciente ingrese en la clínica para un estudio completo. El umbral sedefine de la siguiente forma: procesamos casos cuyo diagnóstico seconoce y anotamos los valores generados como resultado (salida). Paraeso se requiere una diversidad de tipos de casos, desde un caso fuerte-mente positivo hasta un caso fuertemente negativo, y unos casos inter-medios ordenados por el grado de evidencia del síndrome de apnea. Elumbral se define clínicamente por 10 apneas/hora. Es decir, si elpaciente registra < 10 apneas/hora se recomienda que no ingrese y siregistra � 10 apneas/hora la recomendación es ingresar. De esta formaes posible asignar un cociente numérico al grado de incidencia de laapnea.

En la Tabla 10.1 se expone la lista de variables seleccionadas por elmédico experto, con sus correspondientes cocientes de fiabilidad y rele-vancia. Los cocientes también fueron asignados con asesoramiento pordicho médico.

En la Tabla 10.2 se ven los valores de los cocientes de relevancia defi-nidos para cada variable. Se proporcionan estos valores como un vectorde entrada al operador de agregación WOWA para sesgar los valores delos datos en términos de su relevancia al diagnóstico de apnea. Comorequisito del operador WOWA, los valores de relevancia han sido nor-malizados para sumar a uno.

En la Tabla 10.3 se ven los cinco valores definidos para cada variable,que componen el vector de cocientes de fiabilidad. A partir de estos valo-res (o puntos), WOWA usa un método de interpolación (el de Chen y Otto[Chen95]), para crear una función. Esta función, gráficamente, se visua-liza como una curva continua, que se usa para sesgar todos los valores decada variable.

250 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 257: Técnicas Para El Análisis Clínico de Datos

251DATOS DEL CUESTIONARIO DE APNEA...

Tabla 10.1.NVariables discriminantes: ejemplo de un conjunto mínimo de entradascon sus respectivos cocientes de fiabilidad y relevancia.

Variable

EdadSexoPesoIMCCircunferen-cia del cuelloAlcoholHTAR1

R2

R11

R13

S3

S4

S5

S6

Descripción

Edad en añosSexo 1 o 2Peso en kgÍndice de masa corporal en kg/m2

Circunferencia del cuello en cm.

Consumo de alcoholHipertensión arterial mmHg¿Ronca Ud. mientras duerme o le han

dicho que lo hace?¿Su ronquido despierta a su pareja o se

puede oír desde otra habitación?¿Tiene Ud. dolor de la cabeza al levan-

tarse por la mañana?Cuándo levanta por la mañana, ¿siente

Ud. como si fuera que no ha descan-sado?

¿Se duerme Ud.en el cine, teatro, u otroespectáculo?

¿Se duerme Ud.en reuniones o en luga-res públicos?

¿Se duerme Ud. al conducir por la auto-pista?

¿Se duerme Ud. contra su voluntad du-rante el día?

Fiabilidad*

EEMME

MEH

E

E

H

M

M

L

M

Relevancia*

0,550,750,750,75155,

0,550,750,95

0,95

0,85

0,75

0,75

0,85

0,85

0,85

*nLos valores de las columnas se convierten después de forma equitativa en valores normalizadostal que � = 1 y � = 1, según se ve en las Tablas 10.2 y 10.3

Tabla 10.2.NVector �: cada variable tiene asociada un valor � que indicasu relevancia. � = 1.

R6

0,13

R5

0,13

R4

0,12

R3

0,11

R13

0,11

R11

0,12

R2

0,14

R1

0,14Vector �

Variable de respuesta a la pregunta

Page 258: Técnicas Para El Análisis Clínico de Datos

252 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 10.3.NVector �: cada variable tiene asociada un vector que sesgalos valores ordenados de las respuestas para dicha variable, en términos

de su fiabilidad. � = 1.

Sesgo actúa sobre:

Valores altos (H)

Todos los valores (E)

Todos los valores (E)

Valores altos (H)

Valores medianos (M)

Valores medianos (M)

Valores bajos (L)

Valores medianos (M)

�5

0,30

0,20

0,20

0,30

0,10

0,10

0,10

0,10

�4

0,30

0,20

0,20

0,30

0,25

0,25

0,10

0,25

�3

0,20

0,20

0,20

0,20

0,30

0,30

0,20

0,30

�2

0,10

0,20

0,20

0,10

0,25

0,25

0,30

0,25

�1

0,10

0,20

0,20

0,10

0,10

0,10

0,30

0,10

Variable

R1

R2

R11

R13

S3

S4

S5

S6

� vector

Tabla 10.4.NRespuestas (entradas) para 8 preguntas con los resultados (salidas)correspondientes para los diferentes métodos de agregación.

S6

0,40

0,20

0,60

0,20

Wowa

0,53

admitir

0,48

no admitir

0,56

admitir

0,45

no admitir

Owa

0,84

admitir

0,84

admitir

0,89

admitir

0,84

admitir

Compo-n e n t e sp r i n c i -pales

1,15284

admitir

1,15317

admitir

1,15412

admitir

1,15391

admitir

S5

0,40

0,20

0,60

0,20

S4

0,60

0,40

0,60

0,40

S3

0,60

0,40

0,60

0,40

R13

0,60

0,60

0,80

0,60

R11

0,60

0,60

0,60

0,60

R2

0,60

0,60

0,60

0,40

R1

0,60*

0,60

0,80

0,40

Vector dedatos de

paciente P1

Vector dedatos de

paciente P2

Vector dedatos de

paciente P3

Vector dedatos de

paciente P4

Entradas Resultados

Proyección de las respuestas categóricas (0=nunca a 4=siempre) sobre una escala normalizada

*nNB: estos valores no son grados de pertenencia, sino equivalentes numéricos de las etiquetas linguisticas categóricas, esdecir, 1/5=0,2=nunca, 2/5=0,4=pocas veces, 3/5=0,6=a veces, 4/5=0,8=a menudo, 5/5=1,0=siempre, con algún reajustenecesario según la proyección y la distribución resultante.

Page 259: Técnicas Para El Análisis Clínico de Datos

Resumen de los resultados - Sección 10.1

En la Tabla 10.4 se ven los datos de las respuestas a las ocho pregun-tas del cuestionario junto con la variable de salida (diagnóstico). En lasúltimas tres columnas se ven los resultados para cada uno de los tresmétodos usados. Según lo comentado anteriormente, hemos usado cuatrocasos de ejemplo: las filas 1 y 3 son casos positivos (admitir), estando elcaso 2 en el umbral. Es a partir de estos casos que derivamos el porcen-taje de acierto en el diagnóstico correcto de pacientes que tienen el sín-drome de apnea. La fila 4 es un caso fuertemente negativo (no admitir).Es a partir de este caso que derivamos el porcentaje de acierto en eldiagnóstico de pacientes que no tienen el síndrome de apnea.

Los datos de los casos no sólo están ponderados por los vectores �y �, sino también por los grados de pertenencia asociados con la etique-ta lingüística de cada pregunta-respuesta. Con referencia a los resultadosque se muestran en la Tabla 10.4, observamos que WOWA concuerda conOWA y componentes principales en los casos 1 y 3, y no concuerda parael caso “ambiguo” (2) y el caso fuertemente negativo (4). Componentesprincipales y OWA dan resultados positivos para los cuatro casos, tenien-do así una buena precisión para el diagnóstico positivo y baja precisiónpara el diagnóstico negativo. El resultado de baja especificidad es típicopara las técnicas estadísticas estándar que se suelen usar en la literatura[Hoffstein93]. Esto ha sido comentado previamente en el Capítulo 5. Porsu parte, WOWA acertó tanto en el diagnóstico del caso ambiguo (fila 2)como en el caso negativo (fila 4).

10.2.NCOMPARACIÓN DE DIFERENTES MÉTODOSPARA ASIGNAR LOS COCIENTESDE RELEVANCIA Y FIABILIDAD. AGREGACIÓNDE DATOS USANDO EL OPERADOR WOWAPARA CASOS DE APNEA DEL SUEÑO

En esta sección vamos a usar diversas técnicas de clustering y clasifi-cación para establecer la relevancia y fiabilidad de cada variable. A con-tinuación se proporcionan los valores de relevancia y fiabilidad al opera-dor de agregación WOWA, que genera un valor agregado para cada

253DATOS DEL CUESTIONARIO DE APNEA...

Page 260: Técnicas Para El Análisis Clínico de Datos

paciente. Dicho valor tendrá una alta correlación con el diagnóstico deapnea. Después, se compara la asignación de relevancia y fiabilidadusando estas técnicas, con la asignación exclusivamente por el expertomédico, y por una asignación mixta, es decir, la asignación por un con-senso entre el experto y el análisis estadístico. El estudio de la Sección10.2 termina con un resumen y comparación de los resultados de los dife-rentes métodos de asignación de los cocientes de relevancia y fiabilidad.

Establecer la relevancia de unas variables es un objetivo estándar parael análisis de datos, y para este fin podemos emplear una diversidad detécnicas, y posteriormente evaluar los resultados. La relevancia en sí esun valor más fácil de calcular que la fiabilidad, mediante el análisisestadístico. La fiabilidad, por su parte, está influida por diferentes aspec-tos. Hay aspectos relativos a los datos en sí, por ejemplo, el porcentaje dedatos ausentes y/o erróneos. Después hay aspectos que dependen de laaplicación. En el caso de las respuestas de los cuestionarios de apnea, unaspecto clave es la veracidad con que el paciente responde a las pregun-tas. Es posible, en el caso de un paciente que se duerme al volante de sucoche o en su lugar de trabajo, que dicho paciente pudiera negar estoshechos. Por esta razón, suele haber una incidencia de respuesta negativaa estas preguntas {s5 y s10 en el cuestionario} mayor de la que realmen-te debería ser.

(1) Clustering no-supervisado y técnicas estadísticas

En la Figura 10.2 vemos las cuatro técnicas de agrupación (cluste-ring) usadas en esta sección: Red Kohonen, k-Means, Condorcet y CrossProduct Covariances (Pearson). Las técnicas han sido elegidas debido alos distintos enfoques que representa cada una de ellas.

A cada técnica le proporcionamos los mismos datos como entradas.Una técnica produce una agrupación (clustering) que una vez analizada,nos indica las variables que mejor explican las características de cada unode los grupos. Por ejemplo, suponemos que método uno produce dosagrupaciones, y en la primera agrupación todos los casos corresponden apacientes con “edad” menor de 45 años. De otra parte, en la segundaagrupación todos los casos corresponden a pacientes con “edad” mayor oigual a 45 años. Por consiguiente, podríamos concluir que para el método

254 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 261: Técnicas Para El Análisis Clínico de Datos

uno, “edad” ha sido una variable determinante en la partición del con-junto de datos. De esta forma, para cada método podemos detectar cuá-les de las variables han sido usadas para agrupar los datos. Después dela fase de selección de las variables claves por cada método, se realizauna “votación” a partir de los resultados de todos los métodos. Esto sir-ve para ordenar las variables por la frecuencia con que han sido elegidascomo variables claves por los distintos métodos. Por ejemplo, estudiare-mos el caso cuando procesamos los datos con los cuatro métodos. Tresde los métodos indican que “edad” es la variable más importante,y uno de los métodos indica que la variable más importante es “peso”.Como consecuencia, la variable “edad” será votada más importante que“peso” por mayoría simple (3 a 1). En el caso de un empate, asignaría-mos ambas variables la misma importancia, aunque, como se puede verde los resultados en la Tabla 10.5, con las variables dadas no había casosde empate.

En referencia a la Tabla 10.5, en los resultados de aplicar los métodos1, 2 y 3, la variable “pareja” destaca en el ranking de influencia en lasparticiones. Las técnicas de Kohonen y k-Means parecen haber destaca-do las variables respuesta de tipo “g” mientras que la técnica de Condor-cet ha usado en mayor grado a las variables respuesta de tipo “s” paracrear las particiones. No existe un consenso claro entre las diferentes téc-nicas estadísticas y de agrupación. Los métodos 1, 2 y 4 requieren una re-presentación numérica para todos los datos. En contraste, el método 3

255DATOS DEL CUESTIONARIO DE APNEA...

Figura 10.2.NTécnicas de agrupación para determinar la relación de variables clavesrespecto a los clusters.

Page 262: Técnicas Para El Análisis Clínico de Datos

emplea una representación categórica para los datos de entrada y usa el criterio de �2 para calcular la relevancia relativa de las variables.

En el caso de la técnica de Red Kohonen, tres diferentes arquitectu-ras de red neuronal fueron comprobadas: 41 neuronas de entrada (sólolas respuestas al cuestionario), 27 neuronas de entrada (sólo datos clíni-cos), y 68 neuronas de entrada (respuestas al cuestionario y datos clí-nicos). En el caso de la técnica k-Means, la versión estándar de SPSS fueusada y generó dos clusters. El número máximo de iteraciones fue asig-nado a 100, y el valor de convergencia fue asignado a 0,02. Por su par-te, la técnica Condorcet permite la agrupación de tipos mixtos de datos.Para ello, usamos un algoritmo, que se basa en la distancia de Condor-cet [IBM96]. La técnica generó 9 particiones en los datos. Todos losdatos fueron preparados para ser de tipo categórico y una medida de �2fue usada para ordenar las variables en cada partición y entre particio-nes. Por último, procesamos los mismos datos con la técnica de Crossproduct covariances (Pearson). La función estándar de covarianzanumérica de SPSS fue usada con la opción de Pearson Product Moment.Esta función calculó las covarianzas entre todas las variables definidascomo tipo numérico.

(2) Clasificación supervisada y modelos estadísticos

En la Figura 10.3 se presentan las cuatro técnicas de clasificación usa-das en esta parte del estudio: Inducción de reglas C4.5, red neuronal“retropropagation”, regresión logística y regresión lineal. Las técnicas

256 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 10.5.NTécnicas estadísticas y técnicas de agrupación aplicadas a los casosde apnea con el objetivo de identificar las variables clave que distinguen

las particiones resultantes.

Variables mássignificativas

Kohonen (1)

pareja, peso,gl, rl, g4, s5

(2 y 6 clusters)

k-Means (2)

pareja, sexo,g4, r6, g13,g5, s5

(2 clusters)

Condorcet (3)

hta, s5, s2, s1,s6, r13, pare-ja, g6, g7

(9 clusters)

Cross productcovariances(Pearson) (4)

cuello, peso,edad, alcohol

Page 263: Técnicas Para El Análisis Clínico de Datos

han sido elegidas porque representan métodos y enfoques distintos, locual nos permite contrastar los resultados. Los datos son procesadospor cada uno de los métodos, y se realiza un consenso de los resultadosde la misma forma que hicimos con las técnicas de agrupación de laFigura 10.2. Cada técnica de modelización produce una salida que per-mite un ranking en términos de la relevancia de las variables de entra-da, respecto al diagnóstico final. Los resultados están resumidos en laTabla 10.6.

A continuación presentamos los resultados del proceso de los datoscon cuatro técnicas diferentes, el objetivo sigue siendo el llegar a un con-senso para identificar las variables más relevantes. Además, deseamosordenar las variables por su grado de relevancia al diagnóstico (salida).Con referencia a la Tabla 10.6, se ve que los métodos 1, 2 y 3 coincidenen haber identificado “cintura” como variable relevante. Los métodos 2 y3 ponen a “cintura” como tercera variable en el ranking, mientras que mé-todo 1 la pone como la novena. También, observamos que los métodos 1,3 y 4 coinciden en haber identificado la variable “g1” como relevante, aun-que cada método la pone en una posición diferente en la ordenación. Otrasvariables identificadas como relevantes por dos o más técnicas fueron:“r2”, “pareja”, “peso” y “s10”. Ahora vamos a detallar la configuración

257DATOS DEL CUESTIONARIO DE APNEA...

Figura 10.3.NProceso de los datos apnea con diferentes métodos de modelización.Cada resultado está tomado en cuenta para determinar un ranking de la relevancia y la

fiabilidad de las variables en relación con el diagnóstico de apnea.

Page 264: Técnicas Para El Análisis Clínico de Datos

y parámetros usados para cada técnica de modelización. En el caso de latécnica de Inducción de reglas C4.5, usamos la versión estándar de Quin-lan, con un podado del 25%, sin conjunto externo de prueba y sin agru-pamiento. En el caso de la técnica de la Red neuronal de propagacióninversa, la fase de entrenamiento de la red neuronal genera un análisis desensibilidad de las variables. El análisis de sensibilidad producido por lared neuronal proporciona una ordenación de las variables en términos desu relevancia a la variable de salida, que en nuestro caso es el diagnósti-co de apnea. En el caso de la técnica de Regresión logística, se usó la fun-ción estándar de regresión logística de SPSS con tres modelos de prueba.Las precisiones globales fueron, respectivamente, 89,66%, 88% y 75%.La Regresión lineal fue la cuarta técnica de modelización. Para ello, usa-mos la función estándar de regresión lineal de SPSS. El valor de R2 fue0,31309, y el error estándar fue 0,51035.

(3) Proceso del conjunto de datos de apnea por el operador WOWAusando cocientes de relevancia y fiabilidad establecidospor las técnicas de clustering y clasificación

El objetivo de las partes (1) y (2) del presente estudio ha sido empleardiversos métodos de análisis de datos para llegar a un consenso respectoa las 9 variables más relevantes y fiables para el diagnóstico de apnea. Enlas Tablas 10.5 y 10.6 hemos visto un resumen de la selección y rankingde variables para cada método. Ahora presentamos el consenso finalentre todos los métodos de las nueve variables más relevantes. Los valo-res entre paréntesis son los cocientes y las funciones de relevancia y fia-

258 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 10.6.NOrdenación de las variables de entrada por diferentes métodosen términos de su relevancia.

Variablesde mayorrelevancia

Regresiónlogística (1)

cuello, g1, pa-reja, s9, s8,s7, s6, s10,cintura, r12, r2,r5, r6, g2, g6

Regresiónlineal (2)

g8, pareja, cin-tura, cadera,peso

C4.5 induc-ción de

reglas (3)

r3, r2, cin-tura, edad,peso, g1

Red neuronalretropropaga-

ción (4)

sexo, r15, g10,g1, r9, r1, hta,tabaco, altura,alcohol, peso,r3, r8, s7, g5,s10, r2, r5

Page 265: Técnicas Para El Análisis Clínico de Datos

bilidad, respectivamente: pareja(0,70, E), peso(0,7, M), cuello(0,92, E),g1(0,68, M), s5(0,95, M), sexo(0,7, E), r15(0,60, M), hta(0,67, E),r5(0,90, M). Pregunta g1 es: “¿cuántas horas duerme Ud. normalmen-te?”; pregunta s5 es: “¿duerme Ud. mientras conduce por la autopis-ta?”; pregunta r15 es: “¿tiene Ud. fallos de memoria o pérdida de aten-ción?” y pregunta r5 es: “¿Ud. se ha dado cuenta de un incremento ensu ronquido recientemente?”.

En la columna dos de la Tabla 10.7 se pueden ver los resultados delproceso de las 154 filas de casos de pacientes por el operador de agrega-ción WOWA con los vectores de valores de fiabilidad y relevancia y las9 variables seleccionadas como entradas. Recordamos que en esta partedel estudio, los valores de los cocientes de fiabilidad y relevancia hansido establecidos mediante una diversidad de técnicas estadísticas. En lacolumna dos de la Tabla 10.7 hemos calculado la correlación entre elvalor agregado de salida producido por WOWA y el valor binario querepresenta el diagnóstico de apnea.

En lo que se refiere a la fiabilidad, se puede interpretar en términos de un consenso entre métodos para cada variable. Por ejemplo, todos los8 métodos pueden elegir la variable “hta” (hipertensión arterial) entre las9 variables más relevantes y, por consiguiente, la asignamos un cocientede fiabilidad de 1,0. En contraste, la variable “pareja” es elegida entre las9 variables más relevantes por 4 de los 8 métodos, y por consiguiente, laasignamos un cociente de fiabilidad de 0,5. Según este método, los valo-res de fiabilidad para las variables seleccionadas fueron: pareja, 0,90;peso, 0,93; cuello, 0,95, g1, 0,65; s5, 0,45; sexo, 1,0; r15, 0,65; hta, 0,95;r5, 0,55. Como era de prever, se observa que la fiabilidad de las variablesclínicas es más alta que la fiabilidad de las respuestas al cuestionario. Elvalor de fiabilidad se pondera, además, por el porcentaje de valores des-conocidos en los datos originales de cada variable. En el caso de lasvariables que son respuestas a preguntas del cuestionario, la fiabilidadtambién queda ponderada por la posibilidad de que el paciente no res-ponda correctamente o sinceramente a una pregunta determinada.

En lo que se refiere al número de variables, este quedó fijado ennueve. Este límite fue calculado a partir de una inspección estadísticaque identificó que, en general, a partir de la décima variable no habíaun consenso entre métodos. El límite de nueve también fue asignadocomo término medio: diferentes métodos eligieron un número diferen-

259DATOS DEL CUESTIONARIO DE APNEA...

Page 266: Técnicas Para El Análisis Clínico de Datos

te de variables como las más relevantes (según el umbral de cada técni-ca). Por ejemplo, la técnica de regresión lineal sólo identificó 5 varia-bles, mientras que la red neuronal de propagación inversa identificóhasta 18 variables. Estos resultados quedan resumidos en las Tablas 10.5y 10.6.

(4) Asignación de los cocientes de relevancia y fiabilidad

por el médico experto y conjuntamente por ély las técnicas estadísticas

En la Sección 10.2 (1) hasta (3) hemos considerado la selección devariables y asignación de los cocientes de relevancia y fiabilidad, exclu-sivamente por las técnicas estadísticas. En contraste, en la Sección 10.1,había una selección de variables y asignación de cocientes de relevanciay fiabilidad, hecha exclusivamente por el médico experto. En la Sección10.1, se aplicó la selección de variables y cocientes a un conjunto dedatos reducido de prueba.

Como tercer enfoque de asignación, en [Nettleton99c] el médicoexperto define las 15 variables más relevantes para el diagnóstico de ap-nea. De otra parte, el analista de datos, usando diversas técnicas de la es-tadística y de la minería de datos, calcula los cocientes de relevancia yde fiabilidad. De esta forma podemos evaluar un método de selección devariables y asignación de cocientes por el médico experto junto con elanalista de datos. Las variables, con sus correspondientes cocientes derelevancia y fiabilidad, fueron: edad(0,5, E), sexo(0,7, E), peso(0,7, M),imc(0,7, M), circunferencia del cuello(1,0, E), alcohol(0,5, M), hta(0,7,E), r1(0,9, H), r2(0,9, H), r11(0,9, M), r13(0,9, M), s3(1,0, M), s4(1,0,M), s5(1,0, M), s6(1,0, M).

Resumen de los resultados – Sección 10.2

La Tabla 10.7, resume los resultados de la Sección 10.2, donde hemosevaluado la asignación de valores de relevancia y fiabilidad por técnicasestadísticas, por el médico experto, y por una mezcla de ambos métodos.En la Tabla 10.7 se ve que, en general, hay un resultado favorable para

260 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 267: Técnicas Para El Análisis Clínico de Datos

casos positivos y un buen resultado para casos negativos, en comparacióncon los métodos usados en la literatura [Hoffstein93][Katz90]. Se obser-va que el método que produce los mejores resultados es el método mixto,es decir, la asignación de valores por técnicas estadísticas, posteriormen-te revisados por el médico experto.

10.3.NRESUMEN

El proceso de datos en este capítulo ha sido realizado de forma con-junta entre médicos expertos y expertos en el análisis de datos. Se ha ele-gido un área, el diagnóstico de apnea, donde existe una posibilidad realde conseguir una mejora respecto a las técnicas actuales. Esto es debidoa la falta de precisión en métodos existentes de evaluación inicial, espe-cialmente para casos negativos. Otra consideración es el alto coste en tér-minos económicos y en la necesidad de recursos para el ingreso de unpaciente en un Centro de Estudios del Sueño (Sleep Center). Dos aspec-tos fundamentales fueron considerados desde el punto de vista del análi-sis de datos. Primero, el aspecto de conseguir una representación óptimade los datos, y segundo, la problemática de agregación de los datos en unsolo valor diagnóstico. En la Sección 10.1 hemos comprobado tres méto-dos distintos para agregar los datos: Componentes principales, OWA yWOWA.

Hemos evaluado diferentes métodos para establecer los valores derelevancia y fiabilidad que el operador de agregación WOWA usa comoentradas. A continuación, hemos aplicado el operador WOWA, junto con

261DATOS DEL CUESTIONARIO DE APNEA...

Tabla 10.7.NCorrelación del resultado del operador WOWA con el resultadodel diagnóstico de apnea para tres métodos distintos de asignación

de los cocientes de fiabilidad y relevancia de las variables de entrada.

Método de asigna-ción de cociente

Diagnóstico decasos positivos

Diagnóstico decasos negativos

Asignación decociente porel experto

0,75

0,65

Asignación decociente por análi-

sis de los datos

0,78

0,61

AsignaciónExperto +

análisis de datos

0,81

0,67

Page 268: Técnicas Para El Análisis Clínico de Datos

los valores de relevancia y fiabilidad, a los datos complejos de un pro-blema médico real. Usando el método de agregación WOWA para eldiagnóstico de apnea, podemos incluir información de relevancia y fiabi-lidad de una forma más precisa. Esto nos permite mejorar el acierto en eldiagnóstico de la misma. El enfoque detallado en este capítulo no ha sidousado anteriormente en la literatura del diagnóstico de Apnea. Previa-mente, las técnicas para realizar un diagnóstico se han centrado en laregresión lineal múltiple y en modelos de regresión logística (acúdase alas Tablas 5.1 y 5.2 del Capítulo 5). Las técnicas de agregación referen-ciadas en el presente Capítulo han sido probadas con un conjunto dedatos reales de casos de apnea [Nettleton99c][Nettleton99e] en colabora-ción con el Hospital Clínico de Barcelona.

El enfoque de la Sección 10.1, y detallado en [Nettleton99e], hademostrado una buena precisión para casos negativos y positivos. En laTabla 10.4, observamos y concluimos que WOWA era el único método,de los tres comprobados, que consiguió diagnosticar de forma correcta elcaso negativo (fila 4) y el caso intermedio (fila 2). Para el enfoque de laSección 10.2 (detallado en [Nettleton99c]), los datos fueron captados conuna representación no-difusa (categórica) de las preguntas, y los cocien-tes y variables asignados por diversidad de técnicas.

262 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 269: Técnicas Para El Análisis Clínico de Datos

En este capítulo aplicamos el operador de agregación WOWA aldiagnóstico de casos de apnea usando un conjunto de datos recogido depacientes del Centro de Estudios del Sueño del Hospital de la Santísima Tri-nidad, Salamanca. En este estudio, los datos fueron captados tanto en for-mato no-difuso (categórico) como difuso (escalas continuas), usando uncuestionario adaptado especialmente para este fin. Este enfoque se distinguedel estudio del Capítulo 10, en el cual los datos fueron captados únicamenteen formato no-difuso, a partir de un cuestionario de respuestas categóricas.

La captura de los datos sigue el siguiente procedimiento: el pacienterellena dos cuestionarios, uno en el formato difuso/continuo y un segun-do cuestionario con preguntas idénticas pero con una representación no-difusa/categórica. Esto nos permite comparar el resultado del diagnós-tico usando los métodos de representación no-difusa y difusa de losdatos. El estudio aporta un enfoque novedoso para la captura y procesode datos en cuestionarios donde las etiquetas lingüísticas e informaciónsubjetiva/incierta juegan un papel importante. Además, los cocientes derelevancia y fiabilidad de las variables permiten que los conocimientosexpertos y los aportados por las técnicas estadísticas se incorporen al pro-ceso de los datos.

11Datos del cuestionario de apnea.Centro de Estudios del Sueño(Neumosalud), Hospital de la SantísimaTrinidad de Salamanca

Page 270: Técnicas Para El Análisis Clínico de Datos

El conjunto completo de variables es el mismo que hemos usado en elCapítulo 10 para los datos del Hospital Clínico, pero con algunas varia-ciones de las condiciones. Hay unas diferencias en las variables seleccio-nadas y en los criterios de selección. Además, participa un médico exper-to distinto y usamos algunas técnicas estadísticas distintas.

Vamos a comprobar tres diferentes formas de asignar los valores derelevancia y fiabilidad. Las tres formas son: la asignación indicada porel análisis estadístico (un algoritmo genético), la asignación definidapor el médico experto, y la asignación mediante un consenso del análi-sis estadístico con él. Además, comparamos la precisión de WOWApara el diagnóstico para casos positivos y negativos con las técnicas deID3 (inducción de árboles) y la red neuronal (propagación haciadelante).

En el Capítulo 11 empleamos una forma distinta de proceso en com-paración con los datos no-difusos del Capítulo 10. La diferencia reside enla incorporación de los valores de los grados de pertenencia como partede los datos de entrada. Al final del capítulo veremos un resumen de losresultados del proceso de los datos usando las técnicas de WOWA, redesneuronales e inducción de reglas para predecir los casos de apnea. Usa-mos datos que provienen de las respuestas de los cuestionarios, recogidostanto en forma de escalas (difusa) como en forma categórica (no-difusa).

Con referencia a la Figura 11.1, el esquema de proceso de datos nospermite comparar el cuestionario categórico y el cuestionario de escalaspor su precisión en el diagnóstico. Además, permite también compararlos resultados con valores de relevancia asignados por dos métodos. Elprimer método es la asignación por un médico experto, basado en sus pro-

264 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Figura 11.1.NEsquema general de proceso de datos.

Page 271: Técnicas Para El Análisis Clínico de Datos

pios conocimientos y en la literatura clínica; el segundo método es laasignación de los valores de relevancia por un algoritmo genético que losaprende a partir de los datos.

En el caso de los valores de fiabilidad, estos son siempre asignadospor el médico experto, basados en su experiencia personal y en un cono-cimiento específico de los datos captados de los pacientes en su clínica.Esto es porque consideramos que sería más difícil asignar los valores defiabilidad con técnicas estadísticas. En contraste, el cálculo de los valo-res de relevancia es más afín al análisis de correlación. En cuanto al cues-tionario de escalas, hacemos uso de una función de pertenencia definidamanualmente, que interprete la respuesta del paciente a las diferentespreguntas del cuestionario. Durante el proceso de los datos por el opera-dor de agregación WOWA, los valores de fiabilidad y relevancia quedaninterpolados en curvas de forma automática.

11.1.NDATOS DE PRUEBA–VARIABLESSELECCIONADAS

El cuestionario está diseñado para detectar diversas patologías delsueño. Con este objetivo, el médico experto ha seleccionado un subcon-junto de variables con la mayor correlación con el diagnóstico de apnea.En la Tablas 11.1 hasta 11.3 se encontrarán datos estadísticos de estas va-riables. En la primera columna de la Tabla 11.1 están los nombres de lasvariables, empezando con los datos clínicos: edad, sexo, circunferencia decuello, índice de masa corporal, e indicador de somnolencia. A continua-ción se ven las respuestas seleccionadas del cuestionario: G3 es una pre-gunta general, mientras que R1 hasta R12 son preguntas relacionadas conel área respiratoria, y S4 hasta S10 son preguntas relacionadas con el áreade somnolencia. En el Anexo 2 del libro, se encuentra una lista completa delas variables y las respuestas al cuestionario. En la columna cuatro de laTabla 11.1, observamos que las variables numéricas como edad y circun-ferencia del cuello han sido categorizadas mediante la definición de rangosespecíficos. Estos rangos han sido definidos por el médico experto. Obser-vamos que en general, la variable de respuesta al cuestionario ha sido defi-nida con cinco etiquetas lingüísticas difusas. La función de pertenenciausada para interpretar el grado de pertenencia y los límites para cada eti-queta, ha sido explicada anteriormente en la Sección 6.3 del libro.

265DATOS DEL CUESTIONARIO DE APNEA...

Page 272: Técnicas Para El Análisis Clínico de Datos

266 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 11.1.NVariables seleccionadas para el diagnóstico de apnea yvalores de fiabilidad y relevancia, asignados por médico experto.

Variables

Edad

Sexo

Circun-fe renc iadel cuello(cm)

IMC(ÍndiceMasaCorporal)

Somno-lencia

G3

R1

R2

R6

R7

R8

R9

R10

R12

S4

S5

S7

S9

S10

Relevancia

0,65

0,60

0,87

0,85

0,85

0,65

0,75

0,90

0,85

0,95

0,85

0,63

0,80

0,70

0,75

0,90

0,85

0,85

0,85

Fiabilidad

(sesgo sobre

valores

esperados)

M

E

M

M

L

H

E

H

H

H

H

H

H

H

H

H

H

H

H

Categorización

1 “0-20”;2 “21-40”;3 “41-60”;4 “61-80”;5 “>80

1 “HOMBRE;2 “MUJER”

1 “<30”; 2 “30-35”; 3 “36-41”; 4“42-48”; 5 “>48”

1 “<22”; 2 “23-26”; 3 “27-30”; 4“31-34”; 5 “>35”

1 “SI”; 2”NO”

1 “nunca”; 2 “ra-ramente”; 3 “a ve-ces”; 4 “a menu-do”; 5 “siempre”

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Observaciones

La apnea del sueño es más frecuenteen personas de mayor edad. Es pocofrecuente en niños.

Las apneas son más frecuentes enhombres (3-4:1)

La circunferencia del cuello es un fac-tor predictivo importante. En cuantomás grueso el cuello, mayor probabili-dad de apneas.

El IMC tiene un significativo parecidoa la circunferencia del cuello, pero esun poco menos relevante. Un IMCmayor implica mayor probabilidad deapneas.

Somnolencia es un buen indicador deapnea del sueño. Para evaluar el gra-do, se suele usar el índice deApnea/hipopnea por hora. El AHI tie-ne correlación con los índices y esca-las de somnolencia excesiva. Porconsiguiente, la ausencia de somno-lencia descarta prácticamente a unAHI elevado, es decir, por encima de30 por hora.

Valores altos de respuestas indicanmayor probabilidad de apneas.

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Idem

Page 273: Técnicas Para El Análisis Clínico de Datos

En la columna dos de la Tabla 11.1 se ven los cocientes de relevanciaasignados a cada variable, y en la columna tres se ven los vectores de fia-bilidad asignados a cada variable. Los símbolos M, E, L, H, que repre-sentan las diferentes curvas características que sesgan los datos, han sidoexplicados anteriormente en la Sección 8.2.

En la Tabla 11.2 se ven todas las respuestas seleccionadas del cues-tionario que hemos usado como entradas al modelo predictivo para eldiagnóstico. Dichas respuestas han sido seleccionadas a partir de las40 preguntas dirigidas al paciente en el cuestionario. La selección hasido realizada por médicos expertos y mediante el análisis estadístico.Las preguntas elegidas incluyen una pregunta general (G), 8 preguntasrelacionadas con el ámbito respiratorio (R) y 5 preguntas relacionadascon el ámbito de somnolencia (S). Para las variables que representan alas preguntas/respuestas, los grados de fiabilidad tienen un papel cla-ve. De otra parte, debido a que hemos preseleccionado las variables,

267DATOS DEL CUESTIONARIO DE APNEA...

Tabla 11.2.NDescripciones de las preguntas elegidas del cuestionario.

Variable/Pregunta

G3

R1

R2

R6

R7

R8

R9

R10

R12

S4

S5

S7

S9

S10

Descripción

¿Está Ud. acostumbrado a tomar una siesta durante el día?

¿Ronca Ud. mientras duerme o alguien le ha dicho que lo hace?

¿Su ronquido despierta a su pareja o puede oírse desde otra habi-tación?

¿Despierta Ud. durante la noche con una sensación de ahogo?

¿Le ha dicho alguien que Ud. “deja de respirar” mientras duerme?

¿Su pareja le ha despertado por miedo de que Ud. ha dejado de respirar?

¿Cuántas veces se levanta Ud. durante la noche para ir al servicio?

¿Suda mucho Ud. durante la noche?

¿Despierta Ud. con la boca seca?

¿Duerme Ud. en reuniones o en lugares públicos?

¿Duerme Ud. mientras conduce por la autopista?

¿Duerme Ud. mientras come?

¿Duerme Ud. mientras conduce o parado en un semáforo?

¿Duerme Ud. en su lugar de trabajo mientras realiza sus actividadeslaborales normales?

Page 274: Técnicas Para El Análisis Clínico de Datos

todas tienen grados de relevancia relativamente altos. Desde el punto devista de la fiabilidad, es posible que algunas de las preguntas sean mássusceptibles a respuestas incorrectas, por ejemplo, las de S5, S9 o S10.Las preguntas R1, R2, R7 y R8 dependen de la presencia de un testigo,que normalmente sería la pareja del paciente. En la ausencia de una pare-ja, la fiabilidad de las respuestas a estas preguntas se reduce de una for-ma muy significativa.

En la Tabla 11.3 se presentan las estadísticas básicas de las 7 varia-bles clínicas usadas como entradas. Estas variables han sido preselec-cionadas por el médico experto a partir de un total de 15 variables. Seremite al Anexo 2 del libro para la lista completa de todas las varia-bles/preguntas. Observamos que la edad mediana es de 53 años, y quelos pacientes son mayoritariamente varones. El índice AHI es en índiceclínico que indica si un paciente tiene apnea o no. Lo categorizamoscomo una variable binaria, usando el umbral de AHI � 10 para los casospositivos, según indicado en la literatura y confirmado por nuestro médi-co experto.

268 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 11.3.NEstadísticas básicas de las variables clínicas.

Variable

Edad

Sexo

Circunferenciadel cuello (cm)

IMC (Índice deMasa Corporal)

Somnolencia

Índice AHI(salida)

Indicador 1/0(AHI � 10)(salida)

Mínimo

22

34

19

01

Máximo

86

50

43

85

Media

52,94

39,52

25,46

191,4

Frecuencias para lasvariables categóricas

50 varones, 21 mujeres

40=NO, 28=SÍ,3=DESCONOCIDO

39 Casos positivos;32 Casos negativos

Page 275: Técnicas Para El Análisis Clínico de Datos

11.2.NCOMPARACIÓN DE LAS FORMASDE REPRESENTACIÓN CATEGÓRICAY COMO ESCALA, DE LAS PREGUNTASDEL CUESTIONARIO

En esta sección evaluamos las respuestas al cuestionario usando la for-ma categórica, y las respuestas en la forma de escala. Comparamos lasfrecuencias de respuesta para identificar tendencias, diferencias, y mejo-ras, si las hay, de la forma de escala respecto a la forma categórica.

La Tabla 11.4 muestra un resumen de todas las respuestas al cuestio-nario de representación categórica, y las respuestas al cuestionario derepresentación de escalas continuas. Recordamos que el cuestionario conrespuestas categóricas representa el método no-difuso y el cuestionariocon respuestas en forma de escalas representa el método difuso. Conreferencia a la Tabla 11.4, la primera fila contiene las cinco etiquetaslingüísticas posibles como respuestas a las preguntas del cuestionario. Enla siguiente fila hay dos columnas por etiqueta, tituladas “Cat” y “Sca”.La columna “Cat” indica el número de respuestas a cada variable-pre-gunta, para el cuestionario categórico. Por ejemplo, para la pregunta G3en el cuestionario categórico, había 13 respuestas con valor “nunca”, 16respuestas con valor “raramente”, 20 respuestas con valor “a veces”,etcétera. La columna “Sca” indica el número de respuestas a cada varia-ble-pregunta, para el cuestionario en forma de escala (difusa). Por ejem-plo, para la pregunta G3 en el cuestionario difuso, había 8 respuestas convalor “nunca”, 14 respuestas con valor “raramente”, 12 respuestas con va-lor “a veces”, etcétera. Para la representación difusa, el valor asignadocorresponde a la etiqueta con el grado de pertenencia más alto. Observa-mos en la última columna de la tabla, que el total de respuestas en formade escala (54) para la pregunta G3 es menor que el total posible (71). Estoes porque hay pacientes que han respondido de forma categórica a pre-guntas representadas en forma de escala, y estas respuestas han sido res-tadas del total.

A partir de la Tabla 11.4, podemos hacer diferentes observacionesrespecto a los resultados en las columnas con cabecera “Sca” (forma deescala). Podemos concluir que, en general, el hecho de que una personatienda a pensar de una respuesta en forma de escala en vez de en formacategórica, depende más de la pregunta en sí, que de la etiqueta lingüística

269DATOS DEL CUESTIONARIO DE APNEA...

Page 276: Técnicas Para El Análisis Clínico de Datos

(nunca, raramente, etc.). Sin embargo, si estudiamos las preguntas porsubgrupos G, R, y S, podemos observar una mayor frecuencia de las res-puestas “Sca” para las etiquetas raramente/a veces, en el caso de subgru-po R, y nunca/raramente en el caso de subgrupo S. En la Tabla 11.4 pode-mos ver también unas tendencias claras para preguntas específicas. Porejemplo, en el caso de S9 hay una mayor frecuencia para respuestas“nunca” y “raramente”, mientras que en el caso de R12 hay una prefe-rencia para valores altos, como “a veces”, “frecuentemente” y “siempre”.Existe una inversión de esta tendencia que acabamos de comentar, en elcaso de respuestas para “nunca” y “raramente” cuando comparamos lasfrecuencias de respuesta entre categóricas y escalas (se refiere a los tota-les al final de cada respectiva columna).

La Tabla 11.5 es un resumen de las respuestas al cuestionario en for-ma de escala. Se presentan las frecuencias de las respuestas por parte del

270 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 11.4.NResumen de frecuencias de respuestas al cuestionario categórico (Cat)y cuestionario en forma de escala (Sca).

G3

R1

R2

R6

R7

R8

R9

R10

R12

S4

S5

S7

S9

S10

TOTALES

Sca

112

114

110

110

119

116

114

118

114

112

114

112

113

117

115

Cat

120

119

114

118

115

118

110

116

118

111

118

110

112

119

158

Sca

114

111

117

115

113

113

125

118

110

112

113

115

113

111

180

Cat

116

112

114

114

112

117

126

121

117

113

115

116

116

117

116

Sca2

118

110

113

119

117

119

116

116

115

111

111

113

110

117

115

Cat1

113

114

112

139

137

142

120

111

114

149

141

161

154

148

445

Cat

110

127

123

116

119

115

112

116

123

118

117

113

111

113

153

Sca

113

116

117

117

116

116

116

119

119

115

114

112

110

117

117

Cat

120

119

114

118

115

118

110

116

118

111

118

110

112

119

158

Sca

17

13

11

13

13

14

11

13

10

14

12

12

10

14

67

Sin

res-

puesta

Cat

11*

10*

12*

11*

15*

14*

13*

11*

10*

10*

10*

11*

18*

13*

39*

Cat

171

171

171

171

171

171

171

171

171

171

171

171

171

171

994

Sca

154

134

148

144

138

138

162

154

158

134

134

134

126

136

594

Nunca Raramente A veces Frecuen-

temente

Siempre TOTALES

*nOmitida principalmente por personas quienes indicaron que no conducen; 1 Resumen de las frecuencias de lasrespuestas categóricas a cada pregunta (Cat); 2 Número de preguntas en forma de escala respondidas de formadifusa (Sca).

Page 277: Técnicas Para El Análisis Clínico de Datos

paciente, indicando el número de casos en los que el paciente respondióde forma categórica y el número de casos en los que el paciente tuvo encuenta la forma de representación de escala. Para cada pregunta incluidadel cuestionario (G3, R1, etc.) se muestra en la columna uno el númerode preguntas respondidas de forma categórica, a pesar de que la forma derepresentar la pregunta fue como una escala continua. La columna dosmuestra el número de respuestas que tuvieron en cuenta la escala conti-nua. La columna tres muestra el número de respuestas de escalas con unalto grado de incertidumbre, es decir, el grado de pertenencia fue mayorque 0,09 para cualquier de las demás etiquetas lingüísticas. La columnacuatro muestra el valor de la columna tres como porcentaje del valor dela columna dos. Por último, la columna cinco es el número de respuestas

271DATOS DEL CUESTIONARIO DE APNEA...

Tabla 11.5.NCuestionario en forma de escala: tabla de frecuencias de las preferen-cias de una respuesta de escala respecto a una respuesta categórica por parte del

paciente.

o

G3

R1

R2

R6

R7

R8

R9

R10

R12

S4

S5

S7

S9

S10

TOTALES

N.o de res-

puestas con

valor ausente

(escalas/cate-gorías)

10*

10*

12*

10*

12*

14*

11*

10*

10*

10*

10*

10*

10*

14*

33*

% de respues-

tas con alto

grado de in-

certidumbre

44

47

50

50

47

63

68

52

52

35

65

23

23

44

N.o de res-

puestas co-

mo escala con

alto grado de

incertidum-

bre

112

118

1112

1111

119

1112

1121

114

1115

116

1111

114

113

118

146

N.o de res-

puestas co-

mo escala

127

117

124

122

119

119

131

127

129

117

117

117

113

118

297

N.o de res-

p u e s t a s

categóricas

144

154

145

149

150

148

139

144

142

154

144

154

148

149

664

*nOmitida principalmente por personas que indicaron que no conducen.

Page 278: Técnicas Para El Análisis Clínico de Datos

con valor ausente, siendo la suma de las respuestas ausentes tanto en for-ma de escala como de categoría.

A partir de la Tabla 11.5 vemos que, aunque el paciente puede res-ponder a todas las preguntas en forma de escala si desea, sólo un 30%de las respuestas están ponderadas en esta forma. Además, sólo un 15% tienen una respuesta de alta incerteza, es decir, un grado de pertenen-cia > 0,09 para cualquiera de las otras categorías. Para entender esteresultado, consideramos el siguiente: a cada paciente se le explicócómo rellenar los dos tipos diferentes de cuestionarios, y había unasección introductoria de explicación al principio del cuestionario. Sinembargo, un 67% de los pacientes rellenaron el cuestionario de escalade forma totalmente categórica. Es decir, pusieron una cruz en la esca-la pero justo en el límite entre una categoría y otra. Podríamos especu-lar que hay personas que, si son requeridas a pensar de forma intros-pectiva o en términos intuitivos, suelen optar por la forma categórica.Podríamos llegar a la conclusión de que este es un indicio del tipo depersonalidad —una forma de pensar más determinista o más reflexiva,por parte del paciente.

11.3.NAPRENDIZAJE Y ASIGNACIÓN DE LOS VALORESDE RELEVANCIA Y FIABILIDAD

En esta sección, vamos a comparar la asignación de los valores derelevancia por dos métodos distintos: (1) aprendizaje por un algoritmogenético, y (2) asignación por el médico experto. Se pueden ver los va-lores asignados por el médico experto en las columnas 2 y 3 de la Ta-bla 11.1 y en la primera fila de la Tabla 11.6. En el caso de los valores defiabilidad, estos fueron siempre asignados por el médico experto, y repre-sentan las curvas “características” explicadas anteriormente. A continua-ción vamos a comentar la asignación de los valores de relevancia pordiferentes métodos. Consideramos el método en el cual un algoritmogenético aprende los cocientes de relevancia a partir de los datos categó-ricos y difusos, respectivamente, y hacemos algunas observaciones res-pecto a las diferencias y los valores que resultaron. Para una explicacióndel uso de la técnica de algoritmos genéticos para aprender los cocientes,el lector puede acudir a las Secciones 6.3 y 7.8 del libro.

272 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 279: Técnicas Para El Análisis Clínico de Datos

Ahora explicaremos las condiciones y parámetros usados para el pro-ceso de los datos por parte del algoritmo genético (GA). El GA procesócada conjunto de datos para una duración de 200 “generaciones”. Eltamaño de la población fue de 25 (el número de cromosomas) y el nú-mero de genes por cromosoma fue 19, siendo esto igual al número decocientes y el número de variables correspondientes. La tasa de inter-cambio (crossover) fue asignada a 0,85 y la tasa de mutación fue asigna-da a 0,01.

Se realizaron diversas pruebas con diferentes valores de los paráme-tros del algoritmo genético: tamaño de población, número de generacio-nes, tasa de intercambio (crossover) y de mutación. Los valores de losparámetros que dieron los resultados óptimos fueron los que acabamosde detallar. En la asignación de los parámetros es necesario tener encuenta las restricciones de capacidad de memoria y potencia de procesodel ordenador PC en el cual se realizaron las pruebas. En una de laspruebas, se dividió un cromosoma en cuatro secciones diferentes, enfunción del tipo de variable. La primera sección correspondió a las“variables de datos clínicos”, mientras que las otras tres seccionescorrespondieron a las tres categorias de respuesta en el cuestionario (G,R o S). Sólo se permitió el intercambio (crossover) en una de las cuatrosecciones, siendo el objetivo mantener juntos los valores de relevanciade variables homogéneas. En la práctica, no había evidencia de unamejora significativa en el diagnóstico final, debido a la subdivisión delcromosoma de esta forma. Los resultados publicados y presentados eneste capítulo, fueron los que usaron una estructura de cromosoma sindivisiones.

La Tabla 11.6 presenta los cocientes de relevancia de las variables,asignados por tres métodos diferentes: por el médico experto, por el algo-ritmo genético a partir de los datos en la representación categórica, y porel algoritmo genético a partir de los datos de la representación difusa.

A partir de Tablas 11.6 y 11.7 podemos ver que existe una diferenciasignificativa en la asignación de los valores de relevancia para diferentesmétodos y tipos de datos. La diferencia es menor si comparamos losvalores de relevancia aprendidos por el algoritmo genético a partir dedatos de tipo difuso o de tipo categórico. Hay una mayor diferencia sicomparamos los valores asignados por el algoritmo genético con losvalores asignados por el médico experto. Específicamente, algunas de las

273DATOS DEL CUESTIONARIO DE APNEA...

Page 280: Técnicas Para El Análisis Clínico de Datos

variables consideradas como relevantes por el médico experto, comopor ejemplo, “cuello” e “IMC”, no fueron relevantes para el algoritmogenético. El médico experto asignó un cociente de relevancia de 0,87 a“cuello” y 0,80 a “IMC”. El algoritmo genético, usando datos categó-ricos, asignó un valor de 0,05 a ambas variables, y el algoritmo genéti-co con datos difusos también las asignó un valor de 0,05. Tengamos encuenta que el médico experto definió los valores de relevancia dentrode un rango restringido, siendo este de 0,60 hasta 0,95. Los valores derelevancia asignados por el proceso de aprendizaje también cayerondentro de un rango determinado, siendo este de 0,05 hasta 0,47. Porconsiguiente, consideramos que el valor mínimo asignado por el pro-ceso de aprendizaje de 0,05 se corresponde con el valor mínimo de0,60 asignado por el experto. Asimismo, el valor máximo aprendido de 0,47 sería correspondiente al valor máximo de 0,95 asignado por elexperto.

La Tabla 11.7 indica los métodos que coincidieron en asignar co-cientes de relevancia con un valor parecido. Decidimos que dos cocien-tes fueran “parecidos” si sus valores coincidieran dentro de un margendel 20%. Los tres métodos de asignación que comparamos fueron: porel médico experto (A), por el algoritmo genético a partir de los datos en

274 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 11.6.NValores de relevancia asignados por el médico experto y por el procesode aprendizaje del algoritmo genético.

Método deasignación

Expertomédico(A)

Algoritmogenéticoaprende apartir de da-tos difusos(B)

Algoritmogenéticoaprende apartir dedatoscategóricos(C)

G3

0,60

0,42

0,21

SOmn

0,80

0,42

0,47

IMC

0,80

0,05

0,05

Cuello

0,87

0,05

0,05

Sexo

0,60

0,47

0,47

Edad

0,65

0,05

0,11

R1

0,75

0,16

0,16

R2

0,90

0,47

0,21

R6

0,85

0,05

0,16

R7

0,95

0,37

0,37

R8

0,85

0,21

0,11

R9

0,63

0,21

0,21

R10

0,80

0,16

0,26

R12

0,70

0,37

0,16

S4

0,75

0,32

0,37

S5

0,90

0,47

0,21

S7

0,85

0,16

0,42

S9

0,85

0,11

0,32

S10

0,85

0,16

0,47

Asignaciones de valores de relevancia de las variables

Page 281: Técnicas Para El Análisis Clínico de Datos

representación categórica (C), y por el algoritmo genético a partir delos datos en representación difusa (B). Por ejemplo, con referencia a la Tabla 11.7, se ve que todos los métodos (A, B y C) coincidieron en asignar el cociente de relevancia para la variable “edad”. En con-traste, sólo los métodos B y C coincidieron en la asignación del co-ciente de relevancia de la variable “S4”. En el caso de la variable “S7”,cada método dio un valor distinto, es decir, con un margen de más del 20%.

Como se ve de la Tabla 11.7, había un consenso de todos los méto-dos (A con C, A con B y B con C) para las siguientes variables: “edad”,“somnolencia”, “R1” y “R7”. En resumen, los métodos A y B asignaroncocientes de relevancia que coincidieron para 8 variables, A y C coinci-dieron para 7 variables, mientras que B y C coincidieron para 10 varia-bles. Hacemos la observación de que, para dar los valores de relevanciacomo entradas a WOWA, tuvieron que ser normalizados para que lasuma fuera 1. Podemos concluir que el proceso de aprendizaje por elGA no es muy preciso para variables clínicas individuales, pero sí quees capaz de hallar un resultado global razonable. Este hecho concuerdacon la característica general de los GA, que puede encontrar rápida-mente un resultado razonable que sirva para un diagnóstico general. Porotra parte, es más difícil que un GA consiga una precisión alta parasoluciones parciales como las que representan los valores individualesde relevancia.

275DATOS DEL CUESTIONARIO DE APNEA...

Tabla 11.7.NMétodos que coincidieron en asignar los cocientes de relevanciade las variables.

Pares demétodosque coin-cidieronen asignarlos cocien-tes de rele-vancia

G3SOmn

ACABBC

IMC

BC

Cuello

BC

Sexo

BC

Edad

ACABBC

R1

ACABBC

R2

AB

R6

BC

R7

ACABBC

R8

AB

R9

BC

R10

AC

R12

AC

S4

BC

S5

AB

S7 S9

AC

S10

AB

Variables

Page 282: Técnicas Para El Análisis Clínico de Datos

11.4.NRESULTADOS: DIAGNÓSTICO DE APNEAUSANDO EL OPERADOR DE AGREGACIÓNWOWA

Presentamos los resultados de procesar los datos de los casos deapnea por el operador WOWA, dando los valores de fiabilidad y relevan-cia como entradas adicionales. Recordamos que el operador WOWA“fusiona” todas las entradas en un solo valor de salida, siendo este eldiagnóstico del paciente. Hemos comprobado cuatro variaciones de tipode datos y forma de asignar los valores de relevancia, que son las siguien-tes: (1) representación de preguntas como escalas; (2) representacióncategórica de preguntas; (3) asignación de los valores de “relevancia” porel médico experto; (4) aprendizaje de los valores de “relevancia” por unalgoritmo genético. A partir del conjunto total de 71 casos de apnea,extraemos una muestra aleatoria de 41 casos para el conjunto de entrena-miento, y extraemos una muestra aleatoria de 30 casos para el conjuntode la prueba.

En la Tabla 11.8 se resume la precisión del diagnóstico conseguidopara cada técnica y tipo de datos. Los resultados se desglosan por casospositivos, casos negativos y todos los casos. Con referencia a la Ta-bla 11.8, observamos una mayor precisión para casos positivos y menorprecisión para casos negativos. Según la literatura clínica, esto es unresultado típico para el diagnóstico de apnea. Los valores de relevanciaasignados por el experto dieron un resultado sensiblemente mejor quelos valores asignados mediante el aprendizaje del algoritmo genético.Los resultados comparan favorablemente con la literatura [Hoffs-tein93][Young94][Ward97] en lo que se refiere al diagnóstico basadopor completo en cuestionarios para el síndrome de apnea del sueño, quesuele estar en el orden del 55% hasta el 65% de precisión, y el diagnós-tico basado completamente en datos clínicos, que es del orden del 70%hasta el 90%. Opinamos que si diéramos más tiempo evolutivo al algo-ritmo genético (usamos sólo 15 generaciones) y una población mayor(usamos 80 individuos) daría un mejor resultado para el método deaprendizaje.

276 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 283: Técnicas Para El Análisis Clínico de Datos

11.5.NCOMPARACIÓN DE LA PRECISIÓN PREDICTIVAEN EL DIAGNÓSTICO USANDO AGREGACIÓNWOWA RESPECTO A OTROS MÉTODOSDE MODELIZACIÓN PREDICTIVA

En esta sección comparamos el método WOWA con otras técnicaspredictivas basadas en la inteligencia artificial. Para ello, procesamos losmismos datos con una red neuronal y un algoritmo de inducción dereglas (ID3), para predecir el grado de apnea-hypopnea (AHI). Usamosuna red neuronal estándar del tipo “propagación hacia delante” definidaen 3 capas. La inducción de reglas, por su parte, se ejecutó con la siguien-te configuración: sin límite de profundidad del árbol y requiriendo unmínimo del 5% del total de casos para poder formar una rama. De la mis-ma forma que hicimos con WOWA, dividimos los datos en una muestraaleatoria del 58% para el conjunto de entrenamiento (41 casos) y 42%para el conjunto de prueba (31 casos). En la Tabla 11.9, se resumen losresultados del proceso del conjunto de datos de prueba con las técnicas.

277DATOS DEL CUESTIONARIO DE APNEA...

Tabla 11.8.NPrecisión diagnóstica con conjunto de datos de prueba para casospositivos, casos negativos y todos los casos.

Representación categóricade las preguntas/valores**asignados por el médicoexperto.

Representación categóricade las preguntas/valores**aprendidos por algoritmogenético.

Representación como es-calas de las preguntas/valo-res** asignados por el exper-to médico.

Representación como es-calas de las preguntas/valo-res** aprendidos por algorit-mo genético.

Casos positivos

0,735*

0,645*

0,625*

0,601*

Casos negativos

0,462

0,374

0,433

0,459

Todos casos

0,498

0,530

0,598

0,550

*nCocientes de correlación valores predichos de AHI con valor real de AHI.**nValores de relevancia.

Page 284: Técnicas Para El Análisis Clínico de Datos

Se ve que la técnica de WOWA ha dado mejores resultados que la redneuronal y la inducción de reglas para los casos positivos. Para los casosnegativos, la inducción de reglas ha dado un mejor resultado que WOWA,mientras que WOWA ha dado resultados ligeramente mejores que la redneuronal. En general, las técnicas de redes neuronales e inducción dereglas suelen necesitar mayores volúmenes de datos para construir unmodelo. De otra parte, el enfoque de agregación ponderada (WOWA) escapaz de producir unos resultados razonables con un número significati-vamente menor de casos.

11.6.NRESUMEN

A partir de las respuestas a los cuestionarios, podemos identificaralgunas tendencias interesantes que reflejan la forma en la cual lospacientes responden a las preguntas. Una de las conclusiones que pode-mos tener es que el tipo de pregunta y el grado de la respuesta requerida(nunca, a veces, siempre, …) influyen en la respuesta del paciente. Enalgunos casos una pregunta tiende a provocar una respuesta en escalacontinua (“tonos de gris”) mientras que en otros casos la pregunta provo-ca una respuesta más “blanco o negro” del paciente. En cuanto a la pre-cisión del diagnóstico, observamos un resultado prometedor, conseguidocon pocos casos y una ancha dimensionalidad de problema (19 varia-bles). Hemos conseguido incluir tres tipos de información complementa-ria como parte del proceso de datos: los valores de relevancia, los valo-res de fiabilidad y el grado de pertenencia difusa. De esta forma hemospodido incorporar conocimientos expertos adicionales que pueden mejo-rar el resultado final. Desde el punto de vista del campo de la “informáti-

278 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla 11.9.NComparativo de la precisión predictiva de las técnicas de red neuronal,ID3 inducción de árbol y WOWA con el conjunto de datos de prueba de apnea.

Todos casos (prueba)

Casos positivos

Casos negativos

Red neuronal

0,540*

0,600*

0,450*

Inducción de árbol

0,548

0,523

0,625

WOWA

0,598

0,735

0,462

*nCocientes de correlación de valores predichos de AHI con valor real de AHI.

Page 285: Técnicas Para El Análisis Clínico de Datos

ca médica”, hemos aprendido que una selección cuidadosa de una apli-cación médica adecuada es fundamental. Un criterio clave para seleccio-nar una aplicación adecuada es que debe ser posible conseguir una me-jora respecto a los métodos existentes. Otro prerrequisito es la necesidadde una colaboración estrecha entre los “informáticos”, los “estadísticos”y los médicos expertos, con una disponibilidad suficiente de tiempo delos participantes. Los médicos expertos participan tanto en la definicióninicial de los metadatos (los valores de relevancia y fiabilidad en estecaso), la selección de variables, y el análisis posterior y conclusiones en cuanto a los resultados. Otros aspectos claves son la calidad de los datos y el grado en que estos son representativos del problema, juntocon el reto de obtener y capturar datos reales in situ en el entorno hospi-talario.

279DATOS DEL CUESTIONARIO DE APNEA...

Page 286: Técnicas Para El Análisis Clínico de Datos

En el presente libro hemos revisado algunos de los problemas queexisten para la representación de datos reales. Hemos considerado laselección de variables claves descriptivas, y se han aplicado diferentestécnicas para la agregación de variables y la modelización de los datos. Alo largo del libro, se han contrastado diferentes aspectos y enfoques,comparando técnicas consolidadas con técnicas menos conocidas. Asi-mismo, hemos revisado algo del entorno e historia asociada a estas técni-cas, tanto desde el punto de vista clínico como desde el punto de vistainformático/estadístico. También hemos presentado algunos enfoquesnovedosos, desarrollados por el autor en colaboración con diferentesexpertos y centros de investigación. Estos enfoques se aplicaron a datosreales y los resultados fueron documentados.

Se han presentado y aplicado diversos métodos y herramientas en lasdistintas fases de minería de datos. Por un lado, hemos usado técnicaspara la exploración y el análisis de los datos, y por otra, hemos proce-sado los datos con técnicas para la modelización, clasificación y pre-dicción.

En los Capítulos 1 al 7 introducimos algunos de los enfoques y mé-todos actuales y sus limitaciones. Uno de los primeros problemas queconsideramos fue la representación de los datos. En la literatura actualexiste una diversidad de representaciones conceptuales distintas, ade-más de algoritmos de proceso de datos que se basan en diferentes técni-cas como las redes neuronales, la inducción de reglas y los algoritmosgenéticos.

En el Capítulo 6 se presentaron diferentes consideraciones a la repre-sentación, comparación y proceso de datos y consideraciones a concep-tos básicos de la naturaleza de los mismos, enfoques de representación y

12Resumen y conclusiones

Page 287: Técnicas Para El Análisis Clínico de Datos

proceso de uso general. Asimismo, hemos empleado los conceptos deforma específica al tratamiento de varios conjuntos de datos clínicos. Lasaplicaciones específicas fueron dos: el pronóstico de pacientes de la UCIy el diagnóstico de casos de apnea.

Las consideraciones que han sido presentadas respecto a la compara-ción de variables de diferentes tipos, nos han hecho llegar hasta el enfo-que de las covarianzas difusas. El enfoque difuso, por su parte, fue unprecursor para la consideración de los operadores de agregación, comopor ejemplo, WOWA. Este operador hizo posible incluir tres tipos de“metadatos” en el proceso: la relevancia de las variables, la fiabilidad delas mismas, y los grados de pertenencia de los casos. En lo que se refie-re a la representación de los datos, hemos considerado los conceptos ele-mentales y la naturaleza de los mismos: los diferentes tipos que puedeasumir una variable y las posibles maneras de comparar y procesar varia-bles de diferentes tipos. Hemos presentado algunos métodos originalespara la definición de funciones de pertenencia para interpretar los datosde entrada, y se ha diseñado específicamente un cuestionario para apro-vechar estos métodos.

En el Capítulo 9 procesamos los datos UCI primero por técnicasestadísticas y de aprendizaje automatizado. Después, procesamos losmismos datos con la técnica Fuzzy c-Means y por último, con el joiningalgorithm de Hartigan, usando una nueva forma de calcular las “cova-rianzas difusas”. Los resultados nos han permitido ver y comparar unaamplia variedad de técnicas difusas y no-difusas para procesar los datos.

La técnica de Hartigan identificó cuatro factores en los datos UCI,usando las covarianzas difusas como entradas. Cuando usamos la mis-ma técnica con las covarianzas no-difusas como entradas, se identifica-ron sólo tres factores. Concluimos que fue más fácil encontrar sentidoclínico en los factores generados por la técnica de Hartigan, que en lasreglas generadas por un proceso exhaustivo de los mismos datos con latécnica de inducción de reglas C4.5. Además, usando Fuzzy c-Means yComponentes Principales, conseguimos identificar a tres grupos decasos que fueron interpretables en términos clínicos. Para ello, habíauna primera fase de proceso de los datos por Fuzzy c-Means, seguidopor una segunda fase usando componentes principales para procesar losgrados de pertenencia y visualizar los clusters en un espacio de dos di-mensiones.

282 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 288: Técnicas Para El Análisis Clínico de Datos

Las técnicas empleadas para el diagnóstico de apnea proporcionan unenfoque alternativo al proceso de datos para un número reducido de ca-sos, y permiten incluir metadatos, es decir, la relevancia, fiabilidad, etc.La técnica de captura de datos difusos proporciona una herramienta po-tente cuando se combina con el método de filtro de pacientes mediante uncuestionario.

En el Capítulo 10 presentamos el diagnóstico de apnea usando la téc-nica de agregación WOWA con diferentes métodos de asignación de loscocientes de relevancia y fiabilidad. Comprobamos tres métodos de asig-nación: por el médico experto, por métodos estadísticos, y por un con-senso entre el médico experto y el análisis de datos. La técnica de WOWAconsiguió los mejores resultados usando los cocientes asignados por elmétodo de consenso: una correlación de 0,81 para casos positivos y unacorrelación de 0,67 para los casos negativos. Estos resultados son favora-bles si los comparamos con otros métodos de la literatura de la informá-tica clínica.

En la Sección 10.1, realizamos pruebas para incorporar las curvascaracterísticas de “sesgado” a WOWA para indicar la fiabilidad de losvalores de cada variable. Los resultados de diagnóstico usando WOWAcon enfoque indicaron una mejora respecto a las técnicas de OWA y com-ponentes principales. Para dos casos positivos, un caso negativo y uncaso “límite”, WOWA fue el único método que acertó en el diagnósticode todos los casos.

Por último, el estudio presentado en Capítulo 11 comparó el procesode datos provenientes de un cuestionario con preguntas representadas enforma difusa (escalas), con datos provenientes de un cuestionario en for-ma no-difusa (categórica). Además, en el mismo estudio comprobamosdiferentes formas de asignar los cocientes de relevancia y fiabilidad. Elmejor resultado lo consiguió el método que usó un cuestionario de esca-las con asignación de cocientes por el experto. El resultado global decorrelación en el diagnóstico dio un valor de 0,598, que es favorable si locomparamos con los resultados publicados en la literatura de informáticaclínica. Si comparamos WOWA con las técnicas de redes neuronales einducción de reglas, con los mismos datos, WOWA dio el mejor resulta-do para casos positivos y el segundo mejor resultado para negativos. Laprecisión en el diagnóstico fue de 0,598 para WOWA, 0,54 para las redesneuronales y 0,548 para la inducción de reglas.

283RESUMEN Y CONCLUSIONES

Page 289: Técnicas Para El Análisis Clínico de Datos

Podemos decir, en resumen, que una de las ventajas de nuestros méto-dos respecto a las técnicas más convencionales de minería de datos, es eluso de una forma natural de representar los datos. Asimismo, se ofrece unmecanismo que permite incorporar información adicional en el procesode los datos, como por ejemplo, los valores de relevancia y fiabilidad.Además, las técnicas ofrecen una medida de similitud para agrupar casosque es no-determinista, y que sirve tanto para clasificar como para agru-par (cluster). Los métodos han demostrado ser suficientemente generalespara servir en dos aplicaciones distintas, en el diagnóstico de casos apneay el pronóstico de paciente de la UCI.

En el contexto de la minería de datos, hemos definido un conjunto detécnicas originales y útiles para la representación y el análisis de datos.Si quisiéramos integrar los diferentes métodos y técnicas en una aplica-ción informática, se podría definir un interface único para el usuario,que accedería a tres principales módulos: (1) un módulo de definición dela representación de los datos; (2) un módulo de exploración y análisisde los datos; y (3) un módulo de modelización y evaluación de los resul-tados.

La selección de las variables es un componente clave en las prime-ras fases de un proyecto de minería de datos. Hemos empleado un méto-do original para calcular las covarianzas difusas de las variables, que seproporcionan como entradas al joining algorithm de Hartigan. La salidadel joining algorithm nos permite establecer un ranking de las variablesen términos de su relevancia, e identificar interrelaciones entre ellas.Hemos podido comparar los resultados del análisis de un conjunto completo de datos de casos UCI, con diversos métodos estándares deminería de datos y otras técnicas como Fuzzy c-Means y el joiningalgorithm.

En el área de la agregación de datos, hemos usado el operadorWOWA en combinación con un método que usó un algoritmo genéticopara aprender los cocientes de relevancia y fiabilidad. Además, el opera-dor WOWA fue adaptado para permitirle procesar de forma efectiva adatos con valores desconocidos.

Hemos empleado la técnica de agregación de datos con WOWA parauna aplicación nueva, el diagnóstico de apnea. Los resultados han indi-cado que WOWA es una técnica especialmente apta para el proceso de

284 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 290: Técnicas Para El Análisis Clínico de Datos

datos con un número reducido de casos. Por último, hemos comparadoWOWA con otros métodos de agregación, siendo estos CP (componentesprincipales) y OWA. El uso de un algoritmo genético para establecer loscocientes de entrada presenta una ventaja adicional para los operadoresde agregación OWA o WOWA. Esto es particularmente significativocuando los ficheros de datos incluyen valores desconocidos o el númerode variables es distinto en cada caso.

Como posibles futuras líneas de trabajo, se propone la unificación delos diferentes algoritmos y métodos en una sola aplicación de software.Además, con referencia al proyecto de diagnóstico de apnea en colabora-ción con el Hospital de la Santísima Trinidad de Salamanca, se proponeuna nueva recogida de datos para ampliar el número de casos disponiblespara análisis. Esto permitiría evaluar las razones para los resultadosmenos precisos para casos de diagnóstico negativo de apnea.

Esperamos que la información que se resume en el presente libro seauna nueva referencia para los profesionales e investigadores cuyo trabajoes el análisis de datos clínicos. Los métodos de diagnóstico, el diseño delcuestionario y la forma de capturar los datos proponen nuevas alternati-vas para el filtro de casos de apnea en particular, y casos clínicos en gene-ral. El filtro de pacientes usando cuestionarios es una solución de bajocoste cuya efectividad es mejorable mediante la cuantificación de la fia-bilidad y relevancia de la información, y usando una forma de captar lanaturaleza difusa de las respuestas.

285RESUMEN Y CONCLUSIONES

Page 291: Técnicas Para El Análisis Clínico de Datos

Notas: en lo que se refiere a las abreviaturas, MPM, SAPS y APA-CHE, estas representan un conjunto de índices obtenidos mediante cálculo a partir de los valores de las variables que los componen, y quesuelen usar de forma habitual los médicos especialistas en “MedicinaIntensiva” para evaluar la gravedad del estado del paciente. En el caso deMAP, esta es una medida de la presión arterial media, y se define en uni-dades de mm Hg.

Anexo ADescripción de todas las variablesdel conjunto de datos de “AdmisionesHospitalarias UCI”, procesadoen el Capítulo 9 del libro

Tabla A2.1.NAtributos y sus valores en el conjunto de datos“Admisiones Hospitalarias UCI”

VARIABLE

EDAD

SEXO

COMA_ADM

INTOXICACIÓN

TIPO_ADM

CPR

MALIG

METASTAT

PREV_ICU

TASA_H

VALOR DEEJEMPLO

74

1

0

0

3

0

0

0

0

80

TIPO DEVARIABLE

NuméricoNN

Binario

Binario

Binario

Categór icoNo-Ordinal

Binario

Binario

Binario

Binario

NuméricoNNN

UNIDADES

Latidos

Latidos/minuto

VALORESPERMITIDOS

{0,1}

{0,1}

{0,1}

{1,2,3}

{0,1}

{0,1}

{0,1}

{0,1}

DESCRIPCIÓN

Edad en años.

{1:hombre, 0:mujer}.

Presencia de coma o estupor profun-do a la hora de admisión en la UCI.

Si COMA_ADM=1, ¿es debido auna sobredosis?

Tipo de paciente {1=Cirugía deemergencia, 2=Cirugía planificada,3=Sin cirugía).

CRP previa a admisión a la UCI(dentro de 24 horas).

¿Una neoplasia maligno forma par-te del problema actual?

Si MALIG=1, ¿es una metástasis?

Admisión previa a la UCI (en los últi-mos 6 meses).

Pulso a la hora de admisión a la UCI.

INFORMACIÓN DEMOGRÁFICA DEL PACIENTE

MPM A LA HORA DE ADMISIÓN

Page 292: Técnicas Para El Análisis Clínico de Datos

288 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

SBP_ADM

C_REN_F

ICU_SER

PROB_INF

COMA_24H

PRO_TIME

SHOCK

ORINA

CONF_INF

PO2

FIO2

CREATIN

MECH_VEN

SER_24H

LINES

INT_CRAN

ON_MECH

SEP_SHOK

GI_SANGRE

DIS_CARD

ENF_CARD

FALLO_CARD

CERE_DIS

A_R_FAIL

LIMIT

CIRRHOS

115

0

1

0

0

0

0

0

0

0

0

0

0

1

1

0

0

0

0

1

1

0

0

0

0

0

NuméricoNNN

Binario

Binario

Binario

Binario

Binario

Binario

Binario

Binario

Binario

Binario

Binario

NuméricoNN

Binario

NuméricoNN

Binario

Binario

Binario

Binario

Binario

Binario

Binario

Binario

Binario

Binario

Binario

mm Hg

Horas

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

Presión sanguínea sistólica a lahora de admisión.

¿Historial de fallo renal?

Servicio a la hora de admisión a la UCI{0=Médico, 1=Cirugía}.

Infección probable a la hora de ad-misión a la UCI.

En coma o estupor profundo a 24horas después de admisión.

Tiempo de ‘Protrombina’ >3 segun-dos por encima del estándar o <25%.

‘Shock’ probable durante las prime-ras 24 horas.

Producción de orina < 150 ml encualquier periodo de 8 horas.

Infección confirmada a 24 horasdespués de admisión.

PO2 < 60 mmHg (o < 7,98 kPa)durante primeras 24 horas.

FIO2 > 0,50 durante primeras 24horas.

Creatinina > 2,0 mg/dl (176,8 �Mol/l)durante primeras 24 horas.

Horas de ventilación mecánica du-rante primeras 24 horas.

Servicio a 24 horas {0=Médico,1=Cirugía}.

Número de líneas a 24 horas des-pués de admisión.

Efecto sobre la masa intercraneal.

Recibe ventilación mecánica.

Shock séptico.

Pérdida de sangre aguda GI.

Arritmia cardiaca.

Isquemia miocárdica.

Fallo cardiaco.

Patología cerebral vascular.

Fallo renal agudo.

Restricción sobre cuidados al pa-ciente por orden del paciente o fa-miliar.

Cirrosis.

MPM 24 horas después de admisión

MPM 91:VARIABLES ADICIONALES DE ADMISIÓN

Page 293: Técnicas Para El Análisis Clínico de Datos

289ANEXO A

EMERSURG

LIMIT24H

PH_7P2

PEEP

PLATELET

C O N T _ VA S

TASA_S_H

PSS

TEMP_CORP.

TASA_RES

VEN_CPAP

SALIDA_UR

B_UREA

HEMATOCR

WBC

S_GLUCOS

S_POT

S_SODIUM

S_HCO3

SEDANTE

GDS_SAPS

0

0

0

0

0

0

180

120

35,8

24

0

1,8

3,7

41

8,4

7,8

4,4

135

23

0

15

Binario

Binario

Binario

Binario

Binario

Binario

NuméricoNNN

NuméricoNNN

NuméricoFFF.F o FF.F

NuméricoNN

Binario

NuméricoFF.F

NuméricoNNN oFFF.F

NuméricoNN

NuméricoFFF.F

NuméricoFFF.F o FF.F

NuméricoFF.F

NuméricoNNN

NuméricoNN

Binario

NuméricoNN

Latidos/minuto

mmHg

ºF o ºC

Litros en 24horas

mMol/lo mg/dl

%

FFF.F

mMol/lo g/l

mMol/l

mMol/l

mMol/l

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

Cirugía de urgencia durante las pri-meras 24 horas.

Restricción sobre cuidados al pa-ciente durante las primeras 24horas.

pH * 7,2 durante las primeras 24horas.

PEEP > 10 cm durante las primeras24 horas.

Plaquetas < 50,000 o “bajo” durantelas primeras 24 horas.

Terapia con medicamentos.Vasoac-tivo continuo IV durante las primeras24 horas.

Pulso (tasa de pulsaciones del co-razón).

Presión sanguínea sistólica.

Temperatura corporal.

Si VEN_CPAP=0, medir tasa de res-piración espontánea.

Ventilación mecánica o CPAP {1=si,0=no}.

Producción de orina.

Concentración de sangre en la orina.

Hematócrito.

WBC (103/mm3).

Glucosa en suero.

Potasio en suero.

Sodio en suero.

Suero estándar de HCO3.

Escala de Coma de Glasgow.¿Es elpaciente bajo sedante? {1=sí, 0=no}.

Sí SEDANTE=1, GCS estimado. SíSEDANTE=0, GCS actual.

MPM 91:VARIABLES ADICIONALES A LAS 24 HORAS

SAPS

Page 294: Técnicas Para El Análisis Clínico de Datos

290 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

P_H_STAT

M AC _ C A B E

COPD

INSULINA

F_CARD

H E M A _ M A L

SIDA

TERA_CH

NSAID

ESTEROIDES

DIAG

MAP

A_RES_R

A_FIO2

PAO2

PACO2

A_ADO2

PH_ARTER

INT_VENT

S_CREA

S_BILI

S_ALBU

S_BUN

CREA_INC

1

1

0

0

0

0

0

0

0

0

1

10

90

24

0,2

79

38

0

1

0

0,2

0

4

1

Categór ico

Categór ico

Binario

Binario

Binario

Binario

Binario

Binario

Binario

Binario

Categór ico

NuméricoNNN

NuméricoNNN

NuméricoF.FF

NuméricoNNN

NuméricoNNN

Numérico

NuméricoF.FF

Binario

NuméricoFF.F o FFF.F

N u m é r i c oFF.FF oFFFF.F

N u m é r i c oFF.F o FFFF.F

?

Binario

mmHg

mmHg

mmHg

mg/dl omMol/l

mg/dl omMol/l

g/l omMol/l

{1,2,3,4}

{1,2,3}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{ 0 , 1 , 2 , 3 . . . ,51}

{0,1}

{0,1}

Estado previo de salud.

MacCabe {1 = sin enfermedad o no-mortal, 2 = finalmente mortal(<5años), 3 = rapidamente mortal (<1 año).

Patologías crónicas {1=sí, 0=no}.

Diabetes dependiente sobre Insu-lina.

Fallo cardiaco.

Sistema inmunológico comprometi-do: patología hematológica. {1=sí,0=no}.

SIDA.

Quimioterapia.

NSAID.

Esteroides (largo plazo o alto con-sumo).

Categoría principal diagnóstica con-secuencia de admisión a la UCI(véase Tabla A2.2 para las posiblescategorías).

MAP.

Tasa de respiración (con o sin venti-lación).

Oxigenación: FiO2.

Oxigenación: PaO2.

Oxigenación: PaCO2.

A-aDo2 calculado por ordenador.

pH arterial.

Intubación/ventilador.

Suero creatinina, nivel sérico.

Suero bilirrubina, nivel sérico (total).

Suero albúmina, nivel sérico.

Suero BUN calculado por ordenador.

Incremento en creatinina > 124Mol/l en las últimas 24 horas asocia-do con Oliguria {1=sí, 0=no}.

ESTADO CRÓNICO DE SALUD

APACHE II

Page 295: Técnicas Para El Análisis Clínico de Datos

291ANEXO A

RES_F

CARD_F

RENAL_F

HEMA_F

NEURO_F

HEPA_F

OSF

D_ADM

DIA_UCI

ESTADO_VITAL_UCI

DURACION_UCI

DURACION_HOS

MUERTE_HOS

SAL_HOS

INCLUDE

IN24HRS

1TYPE_ADM

2TYPE_ADM

3TYPE_ADM

0

0

1

0

0

0

0

3/5/02

3/5/02

0

6

33

0

3/2/02

1

1

1

0

0

Binario

Binario

Binario

Binario

Binario

Binario

Numérico

FechaMM/DD/YY

FechaMM/DD/YY

Binario

NuméricoNNN

NuméricoNNN

Binario

FechaMM/DD/YY

Binario

Binario

?

?

?

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

{0,1}

Fallo respiratorio {1=si, 0=no}.

Fallo cardiovascular.

Fallo renal.

Fallo hematológico.

Fallo neurológico (excluyendo se-dación).

Fallo hepático.

Número de sistema de órganos quefallan, calculado por programa in-formático.

Fecha de admisión a la UCI.

Fecha de salida de la UCI.

Estado vital UCI {0=vivo, 1=muerto}.

Cálculo de la duración de la estan-cia en la UCI.

Cálculo de la duración de la estan-cia en el hospital desde el momentode admisión a la UCI.

Estado vital hospital {0 = vivo, 1 =muerto}.

Fecha de salida del hospital.

pp

Cumple criterios para incluir en elanálisis (no es de cuidados corona-rios, quemaduras o cirugía corona-ria, con edad mínimo de 18 años{0=no, 1=sí}.

Duración de estancia en la UCI esde 24 horas o más {0=no, 1=sí}.

O.S.F. PRIMER DÍA

VARIABLES DE SALIDA

VARIABLES ADICIONALESNO DISPONIBLES EN FORMULARIOS ORIGINALES DE RECOGIDA DE DATOS

Page 296: Técnicas Para El Análisis Clínico de Datos

292 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Tabla A2.2.NCategorías principales de diagnóstico - Categorías de motivode admisión a la UCI (este es el valor asignado a la variable

categórica, DIAG).

CÓDIGO

1112131415161718

191011121314151617

1819

2021

222324

2526272829

CATEGORÍA

PACIENTE SIN CIRURGÍA:Fallo respiratorio o insu-ficiencia de:

Fallo cardiovascular o in-suficiencia de:

Trauma:

Neurológico:

Otros:

Si no es uno de los gru-pos especificados arri-ba, ¿cuál de los sistemasde órganos vitales fue lacausa principal de ad-misión?

DESCRIPCIÓN

Asma/Alergia.COPD.Edema pulmonar (no cardiogénica).Paro Posrespiratorio.Inhalación/Envenenamiento/Tóxico.Embolia pulmonar.Infección.Neoplasia.

Hipertensión.Arrítmia cardiaca.Paro coronario congestivo.Shock/hipovolemia hemorragia.Patología de la arteria coronaria.Sepsis.Paro poscardiaco.Shock cardiogénico.Aneurisma torácica desecante/ abdominal.

Trauma múltiple.Trauma de la cabeza.

Crisis repentina debido a un ataque.ICH/SDH/SAH.

Sobredosis.Diabético ketoacidosis.Sangrando GI.

Metabólico/Renal.Respiratorio.Neurológico.Cardiovascular.Gastrointestinal.

Page 297: Técnicas Para El Análisis Clínico de Datos

293ANEXO A

3031

323334353637383940

41424344

45

464748495051

PACIENTESPOSOPERATIVOS

Si no es uno de los dearriba, ¿cuál de los siste-mas principales de órga-nos vitales fue la causade admisión a la UCI?

Trauma múltiple.Admisión debido a una patología cardio-vascular crónica.Cirugía periférica vascular.Cirugía de la válvula coronaria.Craneotomía debido a neoplasia.Cirugía renal debido a neoplasia.Transplante renal.Trauma de la cabeza.Cirugía torácica debida a neoplasia.Craneotomía debido a ICH/SDH/SAH.Laminectomía/otra cirugía de la espinadorsal.Shock debido a hemorragia.Pérdida de sangre GI.Cirugía GI debida a neoplasia.Insuficiencia respiratoria después de ci-rugía.Perforación GI/obstrucción.

Neurológico.Cardiovascular.Respiratorio.Gastrointestinal.Metabólico/Renal.Otros (especificar).

Page 298: Técnicas Para El Análisis Clínico de Datos

Anexo BCuestionario de apnea screening usadoen Capítulos 10 y 11

CUESTIONARIO CLÍNICO ALTERACIONES RESPIRATORIAS DURANTE EL SUEÑO

N.o HISTORIA: FECHA: / /

APELLIDOS: NOMBRE:

EDAD: TELÉFONO:

INTERROGATORIO HECHO EN PRESENCIA DEL COMPAÑERO/A DE HABITACIÓN

1–Sí 2–No

PROFESIÓN:

HORARIO LABORAL: 1–Mañana 2–Tarde 3–Noche 4–Rotatorio 5–Jubilado/No trabajaNIVEL DE ESTUDIOS: 1–Elemental 2–Medios 3–Superiores

—PESO (kg): TALLA (m): DIÁMETRO CUELLO (cm):—IMC (Kg/m2): TENSIÓN ARTERIAL (mmHg):

INGESTA DE ALCOHOL (gr/día): TABACO (Paquetes/año):

CUÁL ES SU MOLESTIA O SÍNTOMA MÁS IMPORTANTE

1–Ronquidos 2–Somnolencia durante el día 3–Ahogos por la noche4–Otras molestias (especifique):

ENFERMEDADES O ANTECEDENTES DE INTERÉS

1. Hipertensión arterial: 1–Sí; 2–No 2. Cardiopatía isquémica: 1–Sí; 2–NoOtros:

Page 299: Técnicas Para El Análisis Clínico de Datos

INSTRUCCIONES PARA RELLENAR EL CUESTIONARIO

USTED ENCONTRARÁ TRES TIPOS DE PREGUNTAS EN LAS SIGUIENTES SECCIO-NES DEL CUESTIONARIO:

En el primer ejemplo usted simplemente pone un número después de la pregunta, porejemplo, el número de horas que se duerme normalmente (8).

G1 ¿CUÁNTAS HORAS DUERME USTED NORMALMENTE? 8

En el segundo ejemplo hay cuatro categorías posibles y usted hay que indicar sola UNAde estas categorías. En este caso se indica 3-a veces.

G2 ¿ TOMA USTED PASTILLAS TRANQUILIZANTES PARA DORMIR?

1–nunca 2–raramente 3–a veces 4–frecuentemente

En el tercer ejemplo hay cinco categorías posibles puestos encima de una línea continua.Usted puede marcar en cualquier posición de la línea en el sitio que más corresponde asu opinión. En este ejemplo se ha marcado un punto entre ‘raramente’ y ‘a veces’, peromás cerca de ‘a veces’.

G10 ¿ HA NOTADO USTED COMO UNA SENSACIÓN DE PARÁLISIS AL INICIO DELSUEÑO O AL EMPEZAR A DESPERTARSE?

nunca raramente a veces frecuentemente siempre

PARA QUE EL CUESTIONARIO SEA DE UTILIDAD EN DIAGNOSTICAR SU CASO,ROGAMOS QUE SEA HONESTO Y FRANCO EN RESPONDER A LAS PREGUNTAS.EL CUESTIONARIO SE MANTIENE EN ESTRICTA CONFIDENCIALIDAD.

296 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 300: Técnicas Para El Análisis Clínico de Datos

INTERROGATORIO SUEÑO GENERAL

G1 ¿CUÁNTAS HORAS DUERME USTED NORMALMENTE?

G2 ¿TOMA USTED PASTILLAS TRANQUILIZANTES PARA DORMIR?

nunca raramente a veces frecuentemente siempre

G3 ¿ ACOSTUMBRA USTED A HACER LA SIESTA?

nunca raramente a veces frecuentemente siempre

G4 DURACIÓN APROXIMADA DE LA SIESTA (en minutos):

G5 ¿HA GANADO PESO ÚLTIMAMENTE?

No < 5 Kg 5-10 Kg > 10 Kg

G6 ¿DESDE CUÁNDO HA GANADO PESO? (SÓLO CONTESTE SI HA GANADOPESO)

< 6 meses 6 meses-1 año 1-2 años > 2 años

G7 ¿CUANDO USTED SE DUERME,TIENE PESADILLAS COMO SI LAS ESTUVIERAREALMENTE VIVIENDO?

nunca raramente a veces frecuentemente siempre

G8 ¿HA TENIDO USTED ESTE TIPO DE PESADILLAS ALGUNA VEZ MIENTRASESTÁ DESPIERTO?

nunca raramente a veces frecuentemente siempre

G9 ¿HA NOTADO USTED, ALGUNA VEZ, QUE DURANTE UNA EMOCIÓN INTENSA(ENFADO, RISA) SE LE HAN IDO LAS FUERZAS, AUNQUE SÓLO SEA DE UNAPARTE DE SU CUERPO O INCLUSO SE HA CAÍDO AL SUELO POR ELLO?

nunca raramente a veces frecuentemente siempre

G10 ¿HA NOTADO USTED COMO UNA SENSACIÓN DE PARÁLISIS AL INICIO DELSUEÑO O AL EMPEZAR A DESPERTARSE?

nunca raramente a veces frecuentemente siempre

297ANEXO B

Page 301: Técnicas Para El Análisis Clínico de Datos

G11 ¿SABE USTED O LE HAN DICHO QUE MUEVE MUCHO LAS PIERNAS MIEN-TRAS DUERME?

nunca raramente a veces frecuentemente siempre

G12 ¿DURANTE EL DÍA AL SENTARSE, NOTA UN DOLOR EN LAS PANTORRILLASQUE MEJORA AL ANDAR?

nunca raramente a veces frecuentemente siempre

G13 ¿ESTÁ USTED FRANCAMENTE DEPRIMIDO?

nunca raramente a veces frecuentemente siempre

G14 ¿TIENE USTED PROBLEMAS DE INSOMNIO?

nunca raramente a veces frecuentemente siempre

G15 ¿QUÉ TIPO DE PROBLEMAS DE INSOMNIO TIENE USTED? (SÓLO CONTESTESI TIENE INSOMNIO)

1-le cuesta dormir 2-se despierta a medianoche 3-se levanta pronto 4-otros

INTERROGATORIO PATOLOGÍA RESPIRATORIA DEL SUEÑO

R1 ¿RONCA USTED MIENTRAS DUERME O LE HAN DICHO QUE LO HACE?

nunca raramente a veces frecuentemente siempre

R2 ¿SUS RONQUIDOS DESPIERTAN A SU COMPAÑERO/A DE HABITACIÓN O SEOYEN DESDE OTRA HABITACIÓN?

nunca raramente a veces frecuentemente siempre

R3 ¿EL RONCAR LE HA CREADO EN OCASIONES PROBLEMAS CON LOS VECI-NOS O CUANDO HA DORMIDO FUERA DE SU DOMICILIO?

nunca raramente a veces frecuentemente siempre

R4 ¿CUÁNDO EMPEZÓ A RONCAR?

< 1 año 1-3 años 4-9 años > 10 años

298 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 302: Técnicas Para El Análisis Clínico de Datos

R5 ¿HA NOTADO SI HA AUMENTADO LA INTENSIDAD DE SU RONQUIDO ÚLTIMA-MENTE?

no < 6 meses 6-12 meses > 1 año

R6 ¿SE DESPIERTA USTED CON SENSACIÓN DE AHOGO POR LA NOCHE?

nunca raramente a veces frecuentemente siempre

R7 ¿LE HAN DICHO QUE “PARA”USTED DE RESPIRAR MIENTRAS DUERME?

nunca raramente a veces frecuentemente siempre

R8 SU COMPAÑERO DE HABITACIÓN ¿LE HA DESPERTADO POR MIEDO A QUEDEJE DE RESPIRAR?

nunca raramente a veces frecuentemente siempre

R9 ¿CUÁNTAS VECES SE LEVANTA A ORINAR POR LA NOCHE?

nunca una vez dos veces > 2 veces

R10 ¿SUDA USTED MUCHO POR LA NOCHE?

nunca raramente a veces frecuentemente siempre

R11 ¿TIENE USTED DOLOR DE CABEZA CUANDO SE LEVANTA POR LA MAÑANA?

nunca raramente a veces frecuentemente siempre

R12 ¿SE DESPIERTA USTED CON LA BOCA SECA?

nunca raramente a veces frecuentemente siempre

R13 ¿POR LAS MAÑANAS AL LEVANTARSE, TIENE USTED LA SENSACIÓN DEQUE NO HA DESCANSADO?

nunca raramente a veces frecuentemente siempre

299ANEXO B

Page 303: Técnicas Para El Análisis Clínico de Datos

R14 ¿LE CUESTA A USTED MUCHO DESPERTARSE POR LA MAÑANA Y TIENE LASENSACIÓN POR UN RATO DE ESTAR EMBOTADO?

nunca raramente a veces frecuentemente siempre

R15 ¿HA PERDIDO USTED MEMORIA O CAPACIDAD DE CONCENTRACIÓN?

nunca raramente a veces frecuentemente siempre

R16 ¿TIENE USTED PROBLEMAS DE IMPOTENCIA SEXUAL?

nunca raramente a veces frecuentemente siempre

INTERROGATORIO DE SOMNOLENCIA DIURNA

S1 ¿SE DUERME USTED VIENDO LA TELEVISIÓN?

nunca raramente a veces frecuentemente siempre

S2 ¿SE DUERME USTED CUANDO ESTÁ LEYENDO?

nunca raramente a veces frecuentemente siempre

S3 ¿SE DUERME USTED CUANDO ESTÁ EN EL CINE O TEATRO U OTROS ESPEC-TÁCULOS?

nunca raramente a veces frecuentemente siempre

S4 ¿SE DUERME USTED EN REUNIONES O EN LUGARES PÚBLICOS?

nunca raramente a veces frecuentemente siempre

S5 ¿SE DUERME USTED CUANDO CONDUCE POR LA AUTOPISTA?

nunca raramente a veces frecuentemente siempre

S6 ¿SE QUEDA USTED DORMIDO DURANTE EL DÍA EN CONTRA DE SU VOLUNTAD?

nunca raramente a veces frecuentemente siempre

300 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 304: Técnicas Para El Análisis Clínico de Datos

S7 ¿SE DUERME USTED MIENTRAS COME?

nunca raramente a veces frecuentemente siempre

S8 ¿SE QUEDA USTED DORMIDO HABLANDO CON OTRA PERSONA? (Personal-mente o por teléfono)

nunca raramente a veces frecuentemente siempre

S9 ¿SE DUERME USTED CUANDO CONDUCIENDO SE QUEDA PARADO EN UNSEMÁFORO?

nunca raramente a veces frecuentemente siempre

S10 ¿SE DUERME USTED EN SU LUGAR DE TRABAJO MIENTRAS DESARROLLASU ACTIVIDAD LABORAL HABITUAL?

nunca raramente a veces frecuentemente siempre

301ANEXO B

Page 305: Técnicas Para El Análisis Clínico de Datos

Agregación: (Véanse también OWA y WOWA). Un operador de agre-gación tiene dos o más variables de entrada y las agregan en un solo valorde salida. El proceso de agregación no sólo agrega los valores de las dife-rentes variables de entrada, sino que además agrega los datos correspon-dientes a cada variable. La incorporación de un “cuantificador” en el pro-ceso de agregación fue detallada por Yager en [Yager88]. Durante elproceso de agregación, los datos de cada variable quedan “interpolados”por una función definida (el cuantificador) para este fin.

Agrupación: (Véase clustering)

AHI: Las siglas en inglés significan “Apnea Hipopnea Index”, y encastellano, “Índice de Apnea Hipopnea”. AHI también se conoce comoRDI, que significa “Índice de Desorden Respiratorio”. Es el índice AHIque define la severidad de la apnea: un AHI �10-15 se considera patoló-gico.

Algoritmo genético: Un algoritmo basado en un proceso de tipo“evolutivo” que busca una solución final semióptima a partir de unapoblación inicial de soluciones candidatas. La población de solucionescandidatas “evoluciona” de una “generación” a otra, usando un criteriode selección de los nuevos individuos. Los individuos en la poblaciónpueden cambiar mediante dos técnicas, que son el intercambio (o crosso-ver) y la mutación. Los parámetros modificables de un algoritmo genéti-co son: el tamaño de la población, el número de generaciones de proce-so, la tasa de intercambio y la tasa de mutación.

Amalgamación: El algoritmo de “amalgamación” o joining algo-rithm [Hartigan75] realiza sucesivas fusiones de variables para formar unnúmero reducido de factores. El joining algorithm usa como datos de

1Glosario

Page 306: Técnicas Para El Análisis Clínico de Datos

entrada una matriz de covarianzas precalculadas de las variables. Unaconsecuencia de la amalgamación es la reducción del conjunto inicial devariables en dos o tres factores, lo cual simplifica, por ejemplo, la visua-lización de los datos. El algoritmo de amalgamación sirve para dos obje-tivos: el primero, la reducción del número de variables de entradamediante su progresiva unificación; el segundo, la identificación de losfactores de mayor relevancia y los factores entre los cuales existe mayorrelación.

Análisis de datos: El uso de diversas técnicas para la exploración dedatos por objetivos concretos. Algunos métodos de análisis son: visuali-zación, correlación, análisis de asociaciones, análisis factorial, segmen-tación, análisis de secuencias y el análisis de series temporales.

Apache: Uno de los sistemas principales de puntuación de pronósti-co de pacientes de cuidados intensivos (UCI) es el “Acute Physiologyand Chronic Health System” (APACHE).

Apnea: El Síndrome Obstructivo de Apnea de Sueño (OSAS) es unconjunto de manifestaciones clínicas secundarias relacionadas con lacesación (apnea) o reducción (hypopnea) del flujo de aire durante elsueño, causado por un colapso parcial o total de las vías respiratoriassuperiores al nivel de la faringe. La severidad del OSAS se define por elÍndice Apnea Hipopnea, o AHI, (también conocido como RDI, Índice deDesorden Respiratorio) que es el número de apneas más el número dehipopneas por hora durante el sueño. En general, un AHI �10-15 se con-sidera patológico.

Aprendizaje Automatizado: Métodos de análisis y modelización dedatos que se fundamentan en la “Inteligencia artificial”. El planteamien-to de estos métodos es imitar hasta un cierto punto a la “Inteligencia natu-ral”, donde el aprendizaje suele ser a base de la presentación de ejemplos,contraejemplos y excepciones. Dos técnicas de “aprendizaje automatiza-do” son las “redes neuronales” y la “inducción de reglas”.

Calidad de Datos: Véase fiabilidad.

Categórica: Un valor es de tipo categórico cuando sólo puede perte-necer a una categoría a la vez. Por ejemplo, si un paciente pertenece a lacategoría de “pacientes de corta estancia en la UCI”, ya le descartamosde las restantes categorías, siendo estas las de mediana y larga estancia.La definición de “Categórica” contrasta con la definición de “Difusa” (o

304 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 307: Técnicas Para El Análisis Clínico de Datos

Fuzzy), en la cual un valor puede pertenecer a más de una categoría a la vez.

Clasificación: El objetivo de la clasificación es definir una serie declases, que pueden ser jerárquicas, dentro de las cuales se pueden colo-car, por ejemplo, los diferentes tipos de pacientes que tiene un hospital.Un ejemplo de una técnica de clasificación es la “inducción de reglas”;otro ejemplo es la “red neuronal”.

Clustering: En castellano, “agrupación”. En este libro consideramosclustering como sinónimo de “segmentación”, aunque estrictamente elconcepto más amplio es el de clustering. Uno de los principales métodosde poner datos en grupos es particionarlos, es decir, segmentar; otrométodo principal es el clustering jerárquico. El objetivo del clustering esdefinir grupos (o clusters) dentro de los cuales los casos (o los pacientes)sean lo más parecidos posibles. Por otra parte, los diferentes clustersdeben ser, entre sí, lo más distintos posibles. Por ejemplo, podemos defi-nir dos clusters, los pacientes de larga estancia y los que no son de largaestancia. Dentro del cluster de los pacientes de larga estancia, todos lospacientes deben tener una duración de estancia en días por encima de un determinado umbral. Un ejemplo de una técnica de clustering es el “k-Means”, otro ejemplo es la red neuronal tipo “Kohonen”.

CP – Componentes principales: CP es una técnica estadística están-dar usada para generar una correlación de las variables de entrada, con elobjetivo de reducir la dimensionalidad hasta llegar a uno o más factores.Para poder combinar dos variables en un solo factor podemos representarla correlación entre las dos variables de forma gráfica en un scatterplot(gráfico de dispersión). Entonces, podemos dibujar una línea de regre-sión que mejor represente la relación lineal (si la hay) entre las dos varia-bles. Si podemos definir una variable que aproxime la línea de regresiónen el gráfico, entonces dicha variable captaría una “síntesis” de la rela-ción. Los valores individuales de los casos respecto al nuevo factor,representado por la línea de regresión, podrían ser usados en el futuropara representar la “síntesis” de las dos variables originales. En este sen-tido, hemos reducido las dos variables en un factor.

Correlación: Valor entre 1 y -1 que indica el grado de relaciónentre dos variables. Una correlación positiva indica que si la variable Asube, pues B también. Si el valor de la correlación es negativo, indica

305GLOSARIO

Page 308: Técnicas Para El Análisis Clínico de Datos

que si A sube, B hace lo inverso, es decir, baja. Por ejemplo, una rela-ción significativa entre dos variables A y B, estaría indicada por unvalor de correlación positivo alrededor de 0,7. Un valor correlativo decero indica que no existe ninguna relación entre las variables corres-pondientes.

Crisp: Véase Categórica.

Data Mining: (Véase Minería de Datos).

Diagnóstico: El diagnóstico se entiende como el problema para esta-blecer qué categoría de enfermedad o enfermedades tiene el paciente.Dependiendo del diagnóstico, se receta un tratamiento determinado, y seplanifica la asignación de los recursos humanos y clínicos necesarios. Eldiagnóstico se distingue del pronóstico, en que trata de los indicios derecuperación para un paciente cuyo diagnóstico ha sido anteriormenteestablecido.

Difusa/o: (En inglés, Fuzzy) Un valor es difuso cuando puede per-tenecer a más de una categoría a la vez con diferentes grados de perte-nencia. Por ejemplo, un paciente puede pertenecer a la categoría de“pacientes de corta estancia en la UCI” con grado 0,7, y a la categoríade “pacientes de mediana estancia en la UCI” con grado 0,3. La de-finición de “difusa” contrasta con la definición de “categórica” (ocrisp), en la cual un paciente sólo puede pertenecer a una categoría a la vez.

Estadística tradicional: La “estadística tradicional” o “clásica” in-cluye la diversidad de técnicas que se entiende como la “estadística”. Enlo que se refiere al análisis de datos, se incluye el análisis factorial, lacorrelación, valores descriptivos de los datos como el máximo, mínimo,media, modo, desviación estándar, etc., y distribuciones. En lo que serefiere a modelización, comprende en primer lugar la regresión (lineal,no-lineal, logística) y el clustering (k-Means, etc.). La “estadística tradi-cional” se distingue de las técnicas basadas en el “aprendizaje automa-tizado”.

Fiabilidad: Se refiere a la calidad de los datos, en términos del por-centaje de valores ausentes y erróneos, y de las distribuciones de los mis-mos. Por ejemplo, una variable no muy fiable sería “edad del paciente”para la cual un 20% de los casos tiene el sexo del paciente en vez de suedad, y en un 35%, el campo está completamente vacío. Otro aspecto de

306 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 309: Técnicas Para El Análisis Clínico de Datos

fiabilidad sería en el caso de una variable respuesta en un cuestionario. Esposible que la variable tenga los valores rellenos en un 100% de los ca-sos, aunque las respuestas no son fiables en el sentido de que el pacienteno suele decir la verdad al responder.

Función de pertenencia: Una función que permite asignar un gradode pertenencia de un caso a una categoría. Por ejemplo, un caso podríaser paciente X y la categoría podría ser “pacientes de larga estancia en laUCI”. Gráficamente, la función puede estar formada de curvas o de líneasrectas. Para determinar el grado de pertenencia a partir de un punto en eleje-x, se lee el coordinado correspondiente en el eje-y. El valor en el eje-y,que suele ser en un rango de 0 a 1, será el “grado de pertenencia”.

Fuzzy: Véase Difusa.

Fuzzy c-Means: Es un algoritmo de clustering difuso que actúa sobrecasos definidos por atributos numéricos [Bezdek81]. Cada caso puedepertenecer a más de una de las agrupaciones, con un grado de pertenen-cia a cada grupo. Como primer paso, Fuzzy c-Means calcula los centrosde las agrupaciones difusas para el número de agrupaciones definidas alprincipio del proceso. A continuación, calcula el grado de pertenencia decada caso a cada cluster, y para cada variable. A partir de esta informa-ción, y mediante una inspección de los valores calculados, podemos esta-blecer cuáles de las variables son de mayor relevancia para cada cluster,y cuáles tienen ambigüedades.

Hartigan “Joining Algorithm”: (Véase Amalgamación)

Inducción de reglas: Una técnica de análisis de datos que generamodelos de clasificación mediante la extracción de perfiles definidos entérminos de las variables descriptivas. Dichos perfiles pueden estar enforma de “árbol de decisión” o pueden estar definidos como reglas deltipo “IF-AND-OR-THEN”. Un ejemplo de una regla extraída (inducida)de los datos sería: “IF edad del paciente es mayor de 60 años AND infec-ción previa al entrar en la UCI = SI ENTONCES estancia_larga=“SI” ”.

Kohonen SOM: Es una técnica de agrupación no-supervisada basadaen las redes neuronales tipo SOM. En inglés, SOM significa Self Organi-zing Map y en castellano la traducción sería “Mapa Autoorganizativo”.El algoritmo fue definido por Teuvo Kohonen en [Kohonen84] y cae den-tro de la familia de técnicas conocidas como “mapas autoorganizativos”.Kohonen hizo la observación que algunas redes de topología plana, y que

307GLOSARIO

Page 310: Técnicas Para El Análisis Clínico de Datos

consisten de unidades interconectadas y adaptativas, son capaces demodificar su estado interno para reflejar las características de un conjun-to de valores de entrada. Se puede considerar el Kohonen SOM como unconjunto de procesadores que se organizan a ellos mismos de forma autó-noma y sólo requieren para ello los datos de entrada en su formato origi-nal, y un algoritmo para propagar los cambios en la red.

Minería de datos: El proceso de análisis de datos usando diversastécnicas tanto de la “estadística tradicional” como del “aprendizaje auto-matizado”, para extraer el conocimiento. Es un término que se puso demoda a mediados de los años 90 y ha llegado a cubrir una diversidad de conceptos y técnicas.

Modelización: (Véase Modelo de datos)

Modelo de datos: Usamos diversos métodos para crear un modelo delos datos. Un modelo típico tendría diversas variables de entrada (edad,estado previo de salud, presión sanguínea, etc.) y una variable de salidaque represente el objetivo de la predicción (por ejemplo: larga estancia SÍo NO). Para crear un modelo de datos podemos usar métodos de laestadística tradicional, como regresión lineal para tendencias lineales;no-lineal para tendencias no lineales; logística para resultados de tipobinario. Asimismo, podemos modelizar con métodos de “aprendizajeautomatizado”, como la “inducción de reglas” o “redes neuronales”.

Muestreo: La selección de casos (pacientes, resultados del diagnósti-co, etc.) a partir del total de casos disponibles. Si tenemos cien mil casosde pacientes, podemos extraer una muestra representativa de dos mil, quees una cantidad más manejable para el análisis. Hay diferentes manerasde seleccionar los registros para extraer una muestra, por ejemplo, (1) laforma aleatoria; o (2) cada enésimo registro.

Objetivo de la modelización: Antes de embarcar en un proyecto deanálisis de datos, hay que tener claro cuáles son los objetivos finales de dicho análisis, la viabilidad del proyecto, una estimación del coste ybeneficio del mismo, y cómo se mide la calidad de los resultados. Unejemplo de un objetivo de modelización sería “reducir la mortalidad delos pacientes en la UCI en un 10% durante el próximo año”, y otro sería“aumentar el acierto en la clasificación a priori de pacientes según suduración de estancia en el hospital en un 25%”

OSAS: El Síndrome Obstructivo de Apnea de Sueño (OSAS), véase Apnea.

308 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 311: Técnicas Para El Análisis Clínico de Datos

OWA: Ordered Weighted Average (promedio ponderado y ordenado).OWA es un método de agregación de datos que fue definido por primeravez por Yager en [Yager88]. Ordered Weighted Average tiene dos vectoresde entrada: un vector de datos y un vector de cocientes. El vector decocientes contiene dos o más valores entre 0 y 1, que se usan para inter-pretar los valores de los datos. OWA permite conseguir un efecto tipoAND/OR sobre los datos de entrada, controlado por el vector de cocientes.

Predicción: A partir de un conjunto de datos históricos con resultadoconocido, se pretende modelizar estos datos para poder saber resultadosfuturos. Es necesario que el entorno de los datos históricos no sea signi-ficativamente diferente del entorno del futuro periodo en que se pretendepredecir. Un modelo predictivo tiene diversas variables de entrada quehan sido seleccionadas por su alta correlación con el resultado histórico.Algunos ejemplos de técnicas que sirven para crear modelos predictivosson: inducción de reglas, redes neuronales y regresión.

Pronóstico: El pronóstico en general se trata de los indicios de recu-peración para un paciente cuyo diagnóstico ha sido anteriormente esta-blecido. Dependiendo del pronóstico, se puede asignar, modificar o adap-tar un tratamiento, y planificar una serie de fases de recuperación, con laasignación de los recursos humanos y clínicos necesarios para cada fase.El pronóstico se distingue del diagnóstico, que se entiende como el pro-blema de establecer la categoría de enfermedad o enfermedades quepadece el paciente.

Pronóstico UCI: Los sistemas principales de puntuación de pronósti-co en los Estados Unidos son el Acute Physiology and Chronic HealthSystem (APACHE), el Mortality Prediction Model (MPM), y el Simpli-fied Acute Physiology Score (SAPS).

RDI: Las siglas en inglés significan Respiratory Disorder Index, tam-bién conocido como AHI (véase AHI en Glosario). En castellano, la tra-ducción sería el “Índice de Desorden Respiratorio”.

Red neuronal: Una técnica de análisis de datos que crea modelos pre-dictivos basado en elementos (neuronas) interconectados en “capas” yparecidos a la versión biológica. Es muy adaptable a los datos y resisten-te a “ruido” (errores, baja relevancia de algunas de las variables) perocrea modelos “opacos” cuya estructura interna no es inteligible, lo cualcontrasta con la inducción de reglas.

309GLOSARIO

Page 312: Técnicas Para El Análisis Clínico de Datos

Red neuronal de retropropagación: (En inglés, backpropagation).La gran mayoría de aplicaciones de redes neuronales predictivas son deeste tipo. También se conoce como “red neuronal de propagación haciadelante” (en inglés, feedforward). A veces hay una cierta confusión entreestos dos términos, en la cual se piensa que son dos tipos de redes distin-tos. Estrictamente, el tipo de la red neuronal es “propagación hacia delan-te”, y “retropropagación” es una de las técnicas (entre otras) que se pue-de usar para “entrenar” la red. La red neuronal de RP aprende a partir deun conjunto de ejemplos de entradas y salidas usando un proceso quecompone de dos fases. La primera fase es la propagación de los datos delas entradas por las capas intermedias hacia la capa de salida; la segundafase es la adaptación, que en función del acierto de las salidas, se retro-propaga al error resultante desde la capa de salida hacia las capas inter-medias, cuyos valores quedan corregidos.

Red neuronal Kohonen: (Véase Kohonen SOM)

Red neuronal feedforward: (Véase Red neuronal de retropropa-gación)

Red neuronal backpropagation: (Véase Red neuronal de retropropa-gación)

Relevancia: Se refiere al grado de relación que tiene una variable des-criptiva de entrada, con una variable de salida (el objetivo de la modeli-zación). Por ejemplo, podríamos establecer la relevancia de la variable deentrada “edad del paciente”, respecto a la variable de salida “diagnósticodel paciente”.

Representación de los datos: Se pueden representar los datos en dife-rentes formas, según el tipo. Los tipos de datos más importantes son:numérico, categórico y binario. Un valor de tipo numérico puede ser ente-ro (por ejemplo 100) o con punto decimal (por ejemplo 23,4). Un valor detipo categórico puede ser ordinal, que se puede ordenar (p.e. alto, medio,bajo) o nominal, que no se puede ordenar (por ejemplo azul, naranja, ver-de). Un valor de tipo binario puede tener dos posibles valores (por ejemploSÍ, NO). Además, existe el tipo difuso, con el cual una categoría tiene aso-ciada un grado de pertenencia para un dato concreto. Por ejemplo, pode-mos definir que un paciente pertenece a la categoría “bajo” con grado 0,7.

Segmentación: La división (o partición) de la totalidad de los datosen segmentos, según determinados criterios. Por ejemplo, podemos seg-

310 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 313: Técnicas Para El Análisis Clínico de Datos

mentar los pacientes en función de su edad, su diagnóstico inicial, la pre-sencia de diferentes síntomas o lesiones, etcétera. Los segmentos corres-ponden a determinados perfiles “tipo” que después se puede usar paraasignar diferentes recursos hospitalarios. Una “segmentación” es a me-nudo un paso previo a la modelización, dado que es más fácil crear unmodelo para un “segmento homogéneo” de casos, que para todo el con-junto de casos. En este libro consideramos la segmentación como sinóni-mo de clustering, aunque estrictamente la segmentación es sólo uno delos métodos que sirven para poner datos en grupos; otro método princi-pal sería el clustering jerárquico.

Selección de variables: Un proceso clave en el análisis de datos y lacreación de modelos. Empezando por un grupo más numeroso de varia-bles “candidatas” se selecciona un grupo más reducido cuyas variablestengan la mayor correlación con el objetivo de modelización (la salidadel modelo).

Sistemas expertos: Sistemas que tenían gran popularidad en la déca-da de los años 80. Pretendieron modelar el conocimiento de los expertoshumanos mediante reglas tipo ”IF-THEN-ELSE”. La “minería de datos”,la “gestión del conocimiento”, y los sistemas clínicos como APACHE,etc., fueron derivados, por lo menos en parte, de los “sistemas expertos”.

SOM (Self Organizing Map): (Véase Kohonen SOM)

Tipo de datos: (Véase Representación de los datos).

UCI: Unidad de Cuidados Intensivos. Unidad del hospital donde se atienden casos de urgencia, sean traumatológicos (accidentes de tráfi-co, etc.) o no-traumatológicos (infartos, crisis de sistemas de órganosvitales). Después de un periodo de atención intensiva, el paciente que harespondido al tratamiento pasa a una planta del hospital general.

WOWA: Weighted Ordered Weighted Average (ponderación del pro-medio ponderado y ordenado). Es un operador que se basa en el OWA(véase OWA en el glosario) y que agrega una serie de datos de entrada enuna sola variable de salida. Sirve, por ejemplo, para la predicción de unvalor a partir de un conjunto de variables de entrada. Da buenos resulta-dos con conjuntos de datos con pocos casos. Además del vector de datosde entrada en sí, tiene dos vectores de entrada más, que se usan para pon-derar las variables y los datos, respectivamente. De esta forma, combinalas características del operador OWA y el WM (media ponderada). En el

311GLOSARIO

Page 314: Técnicas Para El Análisis Clínico de Datos

presente libro hemos interpretado los dos vectores de la siguiente mane-ra: el primer vector de cocientes representa la relevancia de las variablesde entrada, con un cociente por variable; el segundo vector de cocien-tes de representa la fiabilidad de los datos. Se interpolan los cocientes enel vector de fiabilidad, para construir una curva característica que actúasobre las variables de entrada. Los dos vectores de cocientes dan elWOWA una gran flexibilidad, aportando al proceso una información adi-cional respecto a los datos.

312 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 315: Técnicas Para El Análisis Clínico de Datos

En esta sección, se presenta un breve resumen de la obra de los auto-res más destacados y relevantes que aparecen en los temas presentados eneste libro.

Bezdek, J.

(ref. Cáp. 3, Sec. 7.5). Bezdek es uno de los autores que más se asociancon la familia de algoritmos de Fuzzy c-Means para la agrupación difusade datos. En [Bezdek73], se extendió y consolidó el algoritmo “fuzzyisostar” o Fuzzy c-Means, definido en [Dunn74]. El algoritmo de cluste-ring “Fuzzy c-Means” es un método de partición de conjuntos basado enel proceso de Picard. Para dicho proceso, se definen las condiciones nece-sarias para optimizar una función objetivo (Jm) de la suma ponderada delerror cuadrado (en inglés, weighted sum of squared errors). El número mes un parámetro de ranking de 1 hasta ; J1 es una función objetiva quesirve para definir los algoritmos c-Means y ISODATA [Duda73], que sonde tipo no-difuso. Dunn fue el primero en extender J1 hasta J2 en[Dunn74], y Bezdek lo generalizó de J2 a Jm para 1 < m < en [Bez-dek73]. Mucho del trabajo de fondo de los aspectos teóricos y la estructu-ra matemática de Fuzzy c-Means fue definido en [Bezdek81]. Un estudioposterior [Bezdek87], introdujo el algoritmo c-varieties. Este algoritmono requiere una asignación a priori del parámetro “c”, el número de par-ticiones, y permite el uso de tipos mixtos de variables como entradas.

Gustafson y Kessel

(ref. Sec. 2.5 y 8.1). Fueron los primeros autores en usar el término“matriz de covarianzas difusas” [Gustafson79], y generalizaron el algoritmoFuzzy c-Means para incluir este concepto. Su motivación fue la de obtener

1Índice de autores

Page 316: Técnicas Para El Análisis Clínico de Datos

una agrupación (clustering) más precisa. El cálculo en sí se limitó a la cova-rianza de una agrupación difusa respecto al prototipo de la misma agrupa-ción. Trabajos más recientes, como los de [Watada94], [Wangh95], y [Naka-mori97] han definido cálculos de covarianzas para aplicaciones específicas.

Hartigan, J.

(ref. Sec. 2.3 y, 7.3). Podemos decir que Hartigan es un autor cuyaobra queda dentro de la estadística clásica. En [Hartigan75], se defineCLUSTER, que es un conjunto de programas escritos en el lenguaje For-tran y que sirven para el análisis de agrupaciones (clusters). CLUSTERincluye programas para la agrupación de variables y/o casos, usandoalgoritmos como el direct joining y splitting, la optimización exacta deFisher, single-link, k-Means, mutaciones mínimas, y programas para lavaloración de valores desconocidos. Los algoritmos de agrupaciónde Hartigan [Hartigan75] son una obra de referencia en el campo de laestadística. En el presente libro hemos empleado el joining algorithmen un contexto nuevo: la reducción de factores a partir de las covarianzasde variables de diferentes tipos (numéricos, categóricos, difusos, ...).

Kohonen, T.

(ref. Sec. 7.6). Kohonen es mejor conocido por su técnica de cluste-ring no-supervisado basado en redes neuronales: el SOM Self OrganizingMap. Este algoritmo, que fue presentado por Teuvo Kohonen en [Koho-nen84], entra dentro de la familia de técnicas conocidas como mapasautoorganizativos. Consiste de una matriz de nodos, que “competen”mutuamente para ganar “peso” y “atraer” a los datos de entrada. En con-secuencia, después de varios ciclos de proceso, algunos grupos de nodosllegan a estar altamente activados, mientras que otros grupos de no-dos quedan en un estado de relativa desactivación. Los nodos están inter-conectados en una arquitectura neuronal típica, y la información se pro-paga de la capa de entrada hacía una capa (o matriz) de nodos de clasifi-cación. En la versión básica hay dos capas de nodos, una de entrada yotra dentro de la cual se desarrolla la clasificación. La arquitectura Koho-nen ha demostrado su aplicabilidad a una diversidad de dominios dedatos, sobre todo los que poseen un gran volumen y muchas variables.Soporta bien la presencia de “ruido” y valores desconocidos. En el entor-no clínico, el grupo de investigación de Heike Mannila, previamente de

314 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 317: Técnicas Para El Análisis Clínico de Datos

la Universidad de Helsinki, usaron el Kohonen SOM y técnicas derivadaspara la clasificación de pacientes.

Quinlan, R.

(ref. Sec. 7.2). Quinlan es conocido principalmente por sus dos algo-ritmos de inducción de reglas y árboles de decisión, ID3 y C4.5. Estosalgoritmos llegaron a ser un estándar en la literatura de “minería de da-tos” y fueron incorporados tal cual en muchas herramientas comercialesde análisis. ID3 y C4.5 son dos algoritmos de clasificación que se basanen la técnicas de inducción de reglas (o árboles). ID3 [Quinlan86] cons-truye árboles de decisión de clasificación usando un método de induccióntipo top-down (desde arriba hacía abajo), y es el predecesor de C4.5. Lasalida de un modelo de datos creado por ID3, que se define como “nodosterminales” o “hojas” del árbol, es de tipo numérico. C4.5 [Quinlan93] esun algoritmo de inducción que procesa sucesivamente a subconjuntos (o“ventanas”) de casos extraídos del conjunto total de datos. C4.5 evalúa la“bondad” de las reglas generadas usando un criterio que mide la preci-sión en la clasificación de los casos. La salida de un modelo creado porC4.5 (los “nodos terminales” o “hojas”) es de tipo categórico.

Torra, V.

(ref. Sec. 2.3 y 7.4). Una de las áreas de investigación de Torra ha sidola agregación de datos, y fue en [Torra96] donde se definió el operador deagregación WOWA (Weighted Ordered Weighted Average). El operadorWOWA combina las características de los operadores OWA y WM(Weighted Mean). Emplea dos vectores de cocientes, uno que actúa sobrelas variables y otro que actúa sobre los valores de los datos. Los dos vec-tores se usan durante el proceso de agregación de los datos. El operadorWOWA combina aspectos deseables de dos operadores, OWA y WM, ycompensa algunas de sus carencias. El operador OWA fue presentado porprimera vez en [Yager88] y es una de las referencias más conocidas detécnicas de agregación de datos. OWA emplea un vector de cocientes queasigna un factor de fiabilidad para cada valor. Por otro lado, el operadorWM emplea un vector de cocientes que asigna un factor a la variable. Enel presente libro hemos interpretado este factor como la relevancia.WOWA combina los enfoques de OWA y WM para definir dos vectoresde cocientes, uno que pondera los valores y otro que pondera las variables.

315ÍNDICE DE AUTORES

Page 318: Técnicas Para El Análisis Clínico de Datos

Yager

(ref. Sec. 2.3 y 7.4). Este autor se ha especializado en operadores deagregación de datos que permiten interpretar aspectos de lenguaje natu-ral de forma cuantitativa. Su operador más conocido es el “OWA”(Ordered Weighted Average), un método de agregación de datos defi-nido por primera vez en [Yager88]. El Ordered Weighted Average tienedos vectores de entrada: un vector de datos y un vector de cocientes.OWA permite definir un efecto AND/OR sobre los datos de entrada,controlado por el vector de cocientes, que se interpretan en términos derelevancia. En [Yager93] se definieron formalmente dos conceptos cla-ve para la toma de decisiones: orness y andness. El orness es una espe-cie de sesgo que se puede interpretar como el grado de “optimismo”, yque se puede cuantificar y aplicar a un conjunto de variables y sus valo-res. El andness, por su parte, se considera el concepto opuesto al orness,y se interpreta como el grado de “pesimismo”. Estas definiciones repre-sentan el intento para captar la subjetividad que siempre existe cuandoun experto toma una decisión respecto a una variable y el valor corres-pondiente.

Zadeh

(ref. Cáp. 3). Zadeh es posiblemente el autor clave en el área de inves-tigación de los conjuntos difusos. Su trabajo magistral [Zadeh65] intro-dujo el término conjunto difuso en el lenguaje científico popular, defi-niendo sus propiedades. Zadeh usó ejemplos cotidianos de conjuntosdifusos, como “la clase de hombres altos”, o “la clase de todos los núme-ros reales mucho mayores que 1”. Se definió un conjunto difuso comouna “clase” con un continuo de grados de pertenencia. Expuso que los“conjuntos difusos” existen en un marco parecido al de los conjuntosordinarios, pero representan un concepto más amplio. Dos ejemplos de laaplicación de los conjuntos difusos serían la clasificación de patro-nes/imágenes y el proceso de información. La formación de Zadeh comoingeniero electrónico influyó en las analogías que usó de la teoría de laelectricidad para definir el nuevo enfoque de los conjuntos difusos. En[Zadeh71], Zadeh presentó tres conceptos básicos para la teoría de losconjuntos difusos: la “similitud”, la “relación de similitud” y la “ordena-ción difusa”. La similitud se define como una generalización de la nociónde equivalencia.

316 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 319: Técnicas Para El Análisis Clínico de Datos

B 1.1.NREVISIÓN BIBLIOGRÁFICA DE LAS PUBLICACIONESRELEVANTES DEL AUTOR (1996 – 2001)

A continuación se encuentran las referencias de nueve artículos rele-vantes para el presente libro, publicados por Nettleton et al. en journalsacadémicos especializados y en conferencias. Los artículos tratan deaspectos técnicos específicos del proceso y representación de datos, conun énfasis especial en el entorno clínico, para el diagnóstico y el pronósti-co. En orden cronológico, las publicaciones representan una evolución entérminos de investigación y aplicación. En el periodo 1996-1997 se publi-caron artículos que trataron del estudio de diferentes formas de comparary representar datos de diferentes tipos, aplicadas al pronóstico de pacien-tes UCI. En el periodo 1998-2001 se publicaron artículos relacionadoscon el operador de agregación WOWA aplicado al diagnóstico de apnea.

Publicaciones del autor

[Nettleton96] Nettleton, D.F., “Data Mining en el entorno hospitalario”. Nova-tica, Spain, págs. 69-73, 1996.

[Nettleton97] Nettleton, D.F., Gibert, K., “Fusión de atributos con técnicasfuzzy en Data Mining”. ESTYLF ’97. VII Congreso Español de LógicaDifusa, Tarragona, Spain, págs. 217-220, 1997.

[Nettleton98a] Nettleton, D.F., “Representación, fusión e interpretación deatributos con técnicas fuzzy. ACIA ’98. 1.o Congreso Catalán de Inteligen-cia Artificial, Tarragona, Spain, págs. 185-187, 1998.

[Nettleton98b] Nettleton, D.F., “Fuzzy covariance analysis, aggregation andinput selection for fuzzy data”. IKBS ’98. International Conference onKnowledge Based Computer Systems. Mumbai, India, págs. 261-272, 1998.

1Bibliografía

Page 320: Técnicas Para El Análisis Clínico de Datos

[Nettleton99a] Nettleton, D.F., “El uso de tecnología de Minería de Datos pa-ra la construcción y explotación del Data Warehouse”. Novatica, Spain,págs. 52-55, 1999.

[Nettleton99b] Nettleton, D.F., “Variable fusion using a heterogeneous repre-sentation of crisp and fuzzy medical data”. IFSA ’99. Eighth Internatio-nal Fuzzy Systems Association World Congress, Taipei, Taiwan, Vol II,págs. 618-623, 1999.

[Nettleton99c] Nettleton, D.F. , Hernandez, L., “Evaluating reliability and rele-vance for WOWA aggregation of Sleep Apnea case data”. EUSFLAT ‘99 -Congress of the European Society of Fuzzy Logic and Technology, Palmade Mallorca, Spain, págs. 283-286, 1999.

[Nettleton99e] Nettleton, D.F., Hernandez, L., “Questionnaire screening of sle-ep apnea cases using fuzzy knowledge representation and intelligent aggre-gation techniques”. IDAMAP ’99. Workshop “Intelligent Data Analysis inMedicine and Pharmacology”, Washington DC, United States, págs. 91-102, 1999.

[Nettleton01a] Nettleton, D.F., Muñiz, J., “Processing and representation ofmeta-data for sleep apnea diagnosis with an artificial intelligence appro-ach”. International Journal of Medical Informatics, 63 (1-2), págs.77-89,Elsevier, Sept. 2001.

[Nettleton01b] Nettleton, D.F. , Torra, V. “A comparison of active set methodand Genetic algorithm approaches for learning weighting vectors in so-me aggregation operators”. International Journal of Intelligent Systems,Vol. 16, N.o 9, Wiley Publishers, Sept. 2001.

B 1.2.NREFERENCIAS BIBLIOGRÁFICAS GENERALESDADAS EN EL TEXTO

[Aguilar91] Aguilar-Martín, J., Gibert-Oliveras, K., “Sobre Variables Linguis-ticas Difusas, Paradigmas Parmenidianos y Logicas Multivaluadas”. Pri-mer Congreso Español sobre Tecnologías y Lógica Fuzzy. Universidad deGranada (1991), págs 185-192.

[Almuallim91] Almuallim, H., Dietterich, T. “Learning with many irrelevantfeatures”. Proc. AAAI-91, Anaheim, CA., MIT Press, Cambridge, MA.,págs. 547-552, 1991.

[Amaya94] Amaya Cruz, G.P., Beliakov, G. “Approximate reasoning and inter-pretation of laboratory tests in medical diagnostics”. Intelligent Enginee-ring Systems through Artificial Neural Networks, Vol. 4, ASME, New York,NY, USA, págs. 773-778, 1994.

[Armengol00] Armengol, E., Palaudáries, A., Plaza, E. “Individual prognosis

318 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 321: Técnicas Para El Análisis Clínico de Datos

of diabetes long-term risks: A CBR Approach”. IIIA Research Report 2000-04, IIIA-CSIC, Campus UAB, Bellaterra, Catalonia, EU, 2000.

[Babuska96] Babuska, R., Setnes, M., Kaymak, U., van Nauta Lemke, H. “Rulebased simplification with similarity measures”. Proceedings FUZZ-IEEE’96, págs. 1642-1647, New Orleans, USA, Sept. 1996.

[Bezdek73] Bezdek, J.C. “Fuzzy mathematics in pattern classification”. Ph.D.dissertation, Appl. Math., Cornell Univ., Ithaca, NY, 1973.

[Bezdek77] Bezdek, J.C. and Castelaz, P.F. “Prototype Classification and Fea-ture Selection with Fuzzy Sets”. IEEE Trans. Sys. Man Cybern., Vol. SMC-7, no. 2, págs. 87-92, Feb. 1977.

[Bezdek81] Bezdek, J.C. “Pattern recognition with Fuzzy Objective FunctionAlgorithms”. S13, págs. 86, “Feature Selection for Binary Data: ImportantMedical Symptoms”. Plenum Ress, 1981.

[Bezdek87] Bezdek, J.C., Hathaway, R.J., Sabin, M.J., Tucker, W.T. “Convergen-ce theory for Fuzzy c-Means: counterexamples and repairs”. IEEE Trans.Syst. Man. Cybern., vol. SMC-17, n.o 5, págs. 873-877, Sept./Oct. 1987.

[Blum97] Blum, A., Langley, P. “Selection of relevant features and examples inmachine learning”. Artificial Intelligence , Vol. 97, #1-2, págs. 245-271,Ed. Elsevier, December 1997.

[Boixader97] Boixader, D., Jacas, J., Recasens, J. “Similarity-based approachto defuzzification”. Sixth IEEE International Conference on Fuzzy Sys-tems, Barcelona, Vol. 2, págs. 761-765, 1997.

[Borgelt97] Borgelt. “Evaluation measures for learning probabilistic and pos-sibilistic networks”. Sixth IEEE International Conference on Fuzzy Sys-tems, Barcelona, Vol. 1, págs. 669, 1997.

[Breiman84] Breiman, L. , Friedman, J.H., Olshen, R.A. and Stone, C.J. “Clas-sification and Regression Trees”. Belmont, CA: Wadsworth, 1984.

[Carey01] Carey, C.F., Lee, H.H., Woeltje, K.F., “Manual Washington deTerapéutica Médica”. Washington University School of Medicine, St.Louis, Missouri. Ed. Masson, S.A. (Barcelona, España), 10.a Edición(2001). ISBN. 84-458-0727-7.

[Chen95] Chen, J.E., Otto, K.N., “Constructing membership functions usinginterpolation and measurement theory”. Fuzzy Sets and Systems, Vol. 73:3(1995), págs. 313-327.

[Cuadras80] Cuadras, C.M. “Métodos de Análisis Multivariante”. Vols I y II,Chapman-Hall, 1980.

[Delgado95] Delgado, M., Gómez Skarmeta, A., Martín, F. “Generating fuzzyrules using clustering based approach”. Third European Congress on Fuzzyand Intelligent Technologies and Soft Computing, págs. 810-814, Aachen,Germany, August 1995.

[Demsar99] Demsar, J., Zupan, B., Aoki, N., et al. “Feature mining and predic-

319BIBLIOGRAFÍA

Page 322: Técnicas Para El Análisis Clínico de Datos

tive model construction from severe trauma patient’s data”. Workshop Inte-lligent Data Analysis in Medicine and Pharmacology, págs. 32-41. AMIA,99. Washington, DC, Nov. 1999.

[Dox83] Dox, I., Melloni, B.J., Eisner, G.M. “Diccionario Médico Ilustrado deMelloni”. Editorial Reverté, S.A., 1983 (edición en Español). ISBN 84-291-5548-1

[Dreiseitl99] Dreiseitl, S., Ohno-Machado, L., Vinterbo, S. “Evaluating varia-ble selection methods for diagnosis of myocardial infarction”. Proc. AMIASymposium 99, Symposium Supplement of the Journal of the AmericanMedical Informatics Association, págs. 246-250, Pub. Hanley&Belfus Inc.,Nov. 1999.

[Dubes88] Dubes, R., Jain, A. “Algorithms for clustering data”. Prentice Hall,1988.

[Dubois97] Dubois, D., Prade, H., Rannou, E. “User-driven summarization ofdata based on gradual rules”. Sixth IEEE International Conference onFuzzy Systems, Barcelona, Vol. II, págs. 839-844, 1997.

[Duda73] Duda, R., Hart, P. “Pattern Classification and Scene Analysis”. NewYork: Wiley, 1973.

[Dunn74] Dunn, J.C. “A fuzzy relative of the ISODATA process and its use indetecting compact well-separated clusters”. J. Cybern., vol. 3, págs. 32-57,1974.

[Duran96] Duran J, et al. “Prevalence of obstructive sleep apnea in the male po-pulation of Vittoria-Gasteiz (Spain)”. Eur Respir J 1996; 9: Suppl 23, 156s.

[Escalada99] Escalada, G., Jaureguizar, J. “Knowledge Based System for Real Ti-me Physiopathological Diagnosis in a Critical Care Setting”. IIIA ResearchReport 99-19, IIIA-CSIC, Campus UAB, Bellaterra, Catalonia, EU, 1999.

[Friedman74] Friedman, J.H., Tukey, J. “A projection persuit algorithm forexploratory data analysis”. IEEE Transactions on Computers, Vol. C-23,N.o 9, págs. 881-890, 1974.

[Friedman77] Friedman, J.H. “A Recursive Partitioning Decision Rule for non-Parametric Classification”. IEEE Transactions on Computers, págs. 404-408, 1977.

[Fogel66] Fogel, L.J., Owens, A.J., Walsh, M.J., ”Artificial IntelligenceThrough Simulated Evolution”. John Wiley, Chichester, U.K., 1966.

[Gonzalez97] Gonzalez, A., Pérez, R. “Using information measures for deter-mining the relevance of the predictive variables in learning models”. SixthIEEE International Conference on Fuzzy Systems, Barcelona, Vol. III, págs.1423-1428, 1997.

[Guilleminault92] Guilleminault C., Stoohs R., Clerk A et al. “From obstructi-ve sleep apnea syndrome to upper airway resistance syndrome: consistencyof daytime sleepiness”. Sleep. 1992; 15: 513-516.

320 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 323: Técnicas Para El Análisis Clínico de Datos

[Gustafson79] Gustafson, D.E., and Kessel, W., “Fuzzy Clustering with a FuzzyCovariance Matrix”, in Proc. IEEE-CDC, Vol. 2 (K.S. Fu, Ed.), págs. 761-766, IEEE Press, Piscataway, New Jersey, (1979).

[Hartigan75] Hartigan, J.A. “Clustering algorithms”, New York: John Wiley &Sons, Inc., 1975.

[Hartigan77] Hartigan, J.A. “Distribution problems in clustering”. Classifica-tion and Clustering, ed. J. Van Ryzin, New York: Academic Press, Inc.,1977.

[Hartigan78] Hartigan, J.A. “Asymptotic distributions for clustering criteria”.Annals of Statistics, 6, 117-131, 1978.

[Hartigan79] Hartigan, J.A., Wong, M. “A k-means clustering algorithm: algo-rithm as 136”. Applied Statistics, 28, págs. 126-130, 1979.

[Hartigan81] Hartigan, J.A. “Consistency of single linkage for high-density clus-ters”. Journal of the Americal Statistical Association, 76, 388-394, 1981.

[Hartigan85a] Hartigan, J.A. “Statistical theory in Clustering”. Journal ofClassification, 2, 63-76. 1985.

[Hartigan85b] Hartigan, J.A. and Hartigan, P.M. “The dip test of unimodality”.Annals of Statistics, 13, 70-84, 1985.

[Hathaway96] Hathaway, R.J., Bezdek, J.C., Pedrycz, W. “A Parametric Modelfor Fusing Heterogeneous Fuzzy Data”. IEEE Transactions on Fuzzy Sys-tems, Vol. 4, N.o 3, Agosto 1996.

[Hoffstein93] Hoffstein, V., Szalai J.P. “Predictive value of clinical features indiagnosing obstructive sleep apnea”. Sleep 1993; 16: 118-122.

[Hunt75] Hunt, E.B. “Artificial Intelligence”. Academic Press, New York,1975.

[IBM96] IBM Data Management Solutions White Paper. IBM Corp., 1996.[IIIA96] SMASH Project. “Systems of Multiagents for Medical Services in

Hospitals”. TIC96-1038-C04-01, IIIA-CSIC, Campus UAB, Bellaterra,Catalonia, EU, 1996. (www.iiia.csic.es/Projects/smash).

[Irani95]. Irani, E., Slagle, J., and the Posch Group. “Automating the Discoveryof Causal Relationships in a Medical Records Database”. Knowledge Dis-covery in Databases. Ed. Shapiro, G., Frawley, W., 1995.

[Kahraman97] Kahraman, C., Ulukan, Z. “Continuos Compounding in CapitalBudgeting using Fuzzy Concept”. Sixth IEEE International Conference onFuzzy Systems, Barcelona, Vol. III, págs. 1451-1455, 1997.

[Katz90] Katz I., Stradling J., Slutsky A.S., et al. “Do patients with sleep apneahave thick necks?” American Review of Respiratory Diseases, 1990; 141:1228-1231.

[Kaufman90] Kaufman, L., Rousseeuw, P.J. “Finding Groups in Data, an Intro-duction to Cluster Analysis”. Wiley, 1990.

[Keller00] Keller, A., Klawonn, F. “Fuzzy clustering with weighting of data

321BIBLIOGRAFÍA

Page 324: Técnicas Para El Análisis Clínico de Datos

variables”. International Journal of Uncertainty and Fuzzy Knowledge Sys-tems, December 2000.

[Khang99] Khang, T., Phuong, N. “Using hedge algebras for constructing infe-rence mechanism in medical expert systems”. IFSA ’99. Proc. 8th Int. FuzzySystems Association World Congress, Taipei, Taiwan, Vol I., págs. 265-268,1999.

[Kira92] Kira, K., Rendell, L. “A practical approach to feature selection”.Proc. 9th Int. Conf. on Machine Learning, págs. 249-256, Aberdeen, Mor-gan-Kaufmann Pub., 1992.

[Knaus81] Knaus, W. , Zimmerman, J., Wagner, D., Draper, E., Lawrence, D.“APACHE – Acute Physiology and Chronic Health Evaluation: a physiolo-gically based classification system”. Critical Care Medicine, 1981; 9:591-7.

[Kohavi97] Kohavi, R., John, G. “Wrappers for feature subset selection”. Artifi-cial Intelligence , Vol. 97, #1-2, págs. 273-324, Ed. Elsevier, December 1997.

[Kohonen84] Kohonen, T. “Self-organizational and associative memory”. Ber-lin, Springer-Verlag, 1984.

[Kushida97] Kushida CA, et al. “A predictive morphometric model for the obs-tructive sleep apnoea syndrome”. Ann Inter Med 1997; 127: 581-587

[Lavie84] Lavie P, et al. “Prevalence of sleep apnoea among patients withessential hypeternsion”. Am Heart J 1984; 108: 373-376

[Lebart85] Lebart L., Morineau A., Fénelon J.P., “Tratamiento Estadístico deDatos”. Marcombo, 1985.

[Lee80] Lee, E.T. “Statistical Methods for Survival Data Analysis”. LifetimeLearning Publications, Belmont, California, 1980.

[LeGall93] LeGall, J., Leveshow, S., Saulnier, F. “A new simplified acute phy-siological score (SAPS II) based on a European/North American multicen-ter study”. JAMA 270: 2957-2963, 1993.

[Lugaresi83] Lugaresi E, et al. “Staging of heavy snoring disease. A proposal”.Bull Eur Physiopathol Respir 1983; 19: 590-594

[Manton92] Manton, K.G, Woodbury, Max. A. “Statistical Applications usingFuzzy Sets”. John Wiley & Sons, Inc. 1992.

[Mardia79] Mardia,K., Kent, J., Bibby, J. “Multivariate Analysis”. AcademicPress, London, 1979.

[Martin85] Martin RJ, et al. “Indications and standards for cardiopulmonarysleep studies”. Sleep 1985; 8: 371-379

[McLeish95]. McLeish, M., Yao, P., Garg, M., Stirtzinger, T. “Discovery ofMedical Diagnostic Information: An Overview of Methods and Results”.Knowledge Discovery in Databases. Ed. Shapiro, G., Frawley, W., 1995.

[Michalewicz96] Michalewicz, Z., “Genetic Algorithms+Data Structures =Evolution Programs”. Springer, 3.a Edición, 1996.

[Murofushi91] Murofushi, T., Sugeno, M., “Fuzzy t-conorm integral with res-

322 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 325: Técnicas Para El Análisis Clínico de Datos

pect to fuzzy measures: generalization of Sugeno integral and Choquet inte-gral”, Fuzzy Sets and Systems, 42:1 57-71, 1991.

[Myoshi97] Myoshi, T., Ichihashi, H., Taraka, F. “Fuzzy projection PersuitID3”. Sixth IEEE International Conference on Fuzzy Systems, Barcelona,Vol. III, págs. 1301-1306, 1997.

[Nakamori97] Nakamori, Y., Watada, J. “Factor Analysis for Fuzzy Data”.Sixth IEEE International Conference on Fuzzy Systems, Barcelona, Vol. II,págs. 1115-1120, 1997.

[Olson95] Olson LG, King MT, Hensley MJ, Saunders NA. “A communitystudy of snoring and sleep-disordered breathing prevalence”. Am J RespirCrit Care Med 1995;152: 711-716

[Pal97] Pal, N.R., Pal, K, Bezdek, J.C. “A Mixed c-Means Clustering Model”.Proc. Sixth IEEE International Conference on Fuzzy Systems, Barcelona,Vol. 1, págs. 11-21, 1997.

[Partinen88] Partinen M, et al. “Long term outcome for obstructive sleep ap-noea syndrome patients: mortality”. Chest 1988; 94: 1200-1204

[Peña84] Peña, D. “Estadística Modelos y Métodos”. Alianza, 1984.[Pessi95] Pessi, T., Kangas, J., Simula, O. “Patient grouping using Self-Organi-

zing Map”. Proc. ICANN ’95, Conférence Internationale sur les Réseaux deNeurones Artificiels, Neuronimes ’95, Session 5, Medicine., Pub. EC2,1995.

[Quinlan86] Quinlan, J.R. “Induction of decision trees”. Machine LearningJournal 1, págs. 81-106, 1986.

[Quinlan93] Quinlan, J.R. “C4.5: Programs for Machine Learning”, MorganKaufmann, San Mateo, Calif., 1993.

[Quinlan96] Quinlan, J.R. “Improved use of continuous variables in C4.5”.Journal of Artificial Intelligence Research 4, págs. 77-90, 1996.

[Rosenblatt59] Rosenblatt, F. “The Perceptron. A probabilistic model for infor-mation storage and organization in the brain”. Psychological Review, 65,págs. 386-408, 1959.

[Roychowdhury97] Roychowdhury, S., Shenoi, S. “Fuzzy rule encoding tech-niques”. Sixth IEEE International Conference on Fuzzy Systems, Barcelo-na, Vol. II, págs. 823-828, 1997.

[StatLog94] StatLog, Esprit Project 5170. “Comparitive testing and evaluationof statistical and logical learning on large-scale applications to classifica-tion, prediction and control”. CEE Esprit Program, 1991-1994.

[Sugeno74] Sugeno, M. “Theory of fuzzy integrals and its applications”. Ph. D.Thesis, Tokyo Institute of Technology, 1974.

[Takagi85] Takagi, T., Sugeno, M. “Fuzzy identification of systems and itsapplication to modelling and control”. IEEE Trans. Syst., Man Cybern.15(1), págs. 116-132, 1985.

323BIBLIOGRAFÍA

Page 326: Técnicas Para El Análisis Clínico de Datos

[Torra96] Torra. “The Weighted OWA Operator”. Fifth IEEE International Con-ference on Fuzzy Systems, 1996.

[Torra97a] Torra, V., “The Weighted OWA Operator”. International Journal ofIntelligent Systems, Vol. 12, 153-166. John Wiley & Sons (1997)

[Torra98c] Torra, V. “On the integration of numerical information: from thearithmetic mean to fuzzy integrals”. Research Report, ETSE, UniversitatRovira i Virgili, Tarragona, Spain, 1998.

[Torra99c] Torra, V. “Interpreting membership functions: a constructive ap-proach”. Int. J. of Approx. Reasoning, 20, págs. 191-207, 1999.

[Umano94] Umano, M. et al. “Generation of fuzzy decision trees by fuzzy ID3its application to diagnosis by gas in oil”. Proc. 1994 Japan-USA Sympo-sium on Flexible Automation, págs. 1445-1448, 1994.

[Wangc96] Wang, C., Hong, T., Tseng, S. “Inductive learning from fuzzy exam-ples”. Fifth IEEE International Conference on Fuzzy Systems, FUZZ-IEEE1996.

[Wangh95] Wang, H., Lin, L. “A multicriteria analysis of factor selection in anuncertain system”. Int. Journal of Uncertainty, Fuzziness and Knowledge-based Systems, 1995.

[Ward97] Ward Flemons, W, McNichols, Walter T. “Clinical prediction of thesleep apnea syndrome”. Sleep Medicine Reviews, Vol. 1, N.o 1, págs. 19-32, 1997.

[Watada94] Watada, J., Yabuuchi, Y. “Fuzzy principal component analysis andits application to company evaluation”. Proceedings of the Japan-BrazilJoint Symposium on Fuzzy Systems, Campinas and Manaus, Brazil, July19-27, 1994.

[Yager88] Yager, R. R. “On Ordered Weighted Averaging Aggregation Operatorsin Multicriteria Decisionmaking”. IEEE Transactions on Systems, Man, andCybernetics, Vol. 18, N.o 1, págs. 183-190, January/February 1988.

[Yager93] Yager, Ronald R. “Families of OWA operators”. Fuzzy Sets and Sys-tems 59 (1993) págs. 125-148, North-Holland.

[Young94] Young T, Palta M, Dempsey J., et al. “The occurrence of sleep-disordered breathing among middle-aged adults”. N Engl J Med 1994; 328:1230-1235.

[Zadeh65] Zadeh, L.A. “Fuzzy Sets”. Information Control, vol. 8, págs. 338-353, 1965.

[Zadeh71] Zadeh, L.A. “Similarity Relations and Fuzzy Orderings”. Informa-tion Science, Vol. 3, págs. 177-200. Elsevier Science Publishing Company,Inc. (1971).

[Zadeh73] Zadeh, L.A. “Outline of a New Approach to the Analysis of ComplexSystems and Decision Processes”. IEEE Trans. Syst., Man, Cybern., Vol.SMC-3, N.o 1, págs. 28-44, Jan. 1973.

324 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 327: Técnicas Para El Análisis Clínico de Datos

A

Admisiones hospitalarias, 37, 40, 50,73, 79, 191-246, 287-293.

Agregación, 1, 4-8, 11, 19, 26, 27, 64,119, 139, 140, 141, 143, 168, 170,171, 189, 249, 252, 253, 261, 262,277, 278, 281-285, 303, 309, 315,316.

Agrupación, 5, 11, 12, 30, 31, 34, 35,36, 63, 119, 135, 136, 146, 173,174, 176, 178, 213, 227, 228, 229,239, 245, 246, 248, 254-257, 303,305, 307, 313, 314.

AHI, 67, 70, 71, 103, 114, 115, 250,266, 268, 277, 278, 303, 304,309.

Algoritmo.evolutivo, 158.genético, 21, 108, 114-117, 158-

161, 165, 168, 171, 181, 264,265, 272-274, 276, 277, 284,285, 303.

Amalgamación, 303, 307.Ambigua/o, 79, 82, 241, 247, 253.Análisis.

de datos, 1, 5, 8, 11-13, 17, 18,20, 22, 27, 30, 34, 50, 119,165, 166, 254, 258, 261, 283-285, 306, 307-309, 311.

estadístico, 7, 56, 83, 165, 191,202, 205, 223, 254, 264, 267.

de Regresión, 122.Apnea, 1-4, 8, 11, 27, 67-71, 103,

104, 107, 108, 112-114, 116, 117,165, 167, 169, 170, 189, 190,247-250, 253, 254, 256-266, 268,276-278, 282-285, 303, 304, 308,317, 318, 320, 321, 324.AHI, 67.cuestionario categórico, 247-262,

295-301.cuestionario difuso, 263-279,

295-301.descripción de variables, 248.diagnóstico, 67-72 .especificidad, 52-53, 68, 71, 253.literatura clínica, 67-72.RDI, 67.sensibilidad, 19, 52-53, 71, 206-

209, 258.variables claves, 70-71.Aprender, 14, 108, 115, 116, 142,

146, 159, 161, 168, 272, 284.Aprendizaje, 1, 5, 8, 14, 16, 21, 33,

60, 64, 106, 114, 117, 128, 147,155, 161, 168, 170, 181, 190, 227,248, 272, 274-276, 282, 304, 306,308.automatizado, 1, 5, 14, 64, 106,

1Índice analítico

Page 328: Técnicas Para El Análisis Clínico de Datos

117, 147, 190, 248, 282, 304,306, 308.

Árbol de decisión, 33, 126, 129, 132,210, 216, 217, 307.

Asignación, 4, 6, 21, 26, 31, 32, 55,63, 77, 83, 116, 117, 120, 161,168, 170, 172, 184, 185, 187, 189,190, 204, 210, 213, 215, 218, 239,241, 248, 254, 260, 261, 264, 265,272-276, 283, 306, 309, 313.de cocientes, 260, 283.de cocientes de relevancia, 260.

Asignar, 15, 25, 26, 33, 35, 59, 117,120, 137, 155, 168, 191, 248, 250,253, 264, 265, 274-276, 283, 307,309, 311.

Atributo, 31, 33, 76, 77, 86, 92, 97.

B

Bezdek, 4, 5, 28, 31, 39, 42, 44, 49,74, 167, 176, 313, 319, 321, 323.

Binario, 74, 233, 287-291.

C

C4.5, 7, 12, 16, 17, 22, 24, 117, 125,127-130, 132-135, 147, 166, 192-194, 201-204, 206, 207, 210, 211,213, 214, 216, 217, 218, 222, 223,227, 231, 234, 242, 243, 244, 246,256, 258, 282, 315, 323.

C5.0, 17, 18, 19, 125, 134, 135.Características, 152.CARD_F, 216, 217, 233, 291.Casos.

negativos, 277, 278.positivos, 277, 278.

Categoría, 55, 77, 82, 88, 90, 92, 94-97, 108, 129, 130, 156, 207, 208,211, 213, 214, 216, 217, 222, 229,

243, 272, 290, 304, 306, 307, 309,310.

Categórica/o, 4, 7, 48, 74, 75, 77, 83-87, 92, 95, 100-103, 105, 107,112, 113, 156, 166, 173, 190, 213,218, 222, 223, 233, 242, 244, 247,256, 262-264, 269, 271-274, 276,277, 283, 287, 290, 304, 306, 310.nominal, 74, 166, 173.ordinal, 75, 83, 95, 100, 101, 222.

Categorización, 62, 69, 77, 206, 207,214, 222, 266.

Chi-Cuadrado, 85, 86, 87, 93, 122,256.

Choquet integral, 27, 323.Clasificación, 7, 8, 11, 13-17, 19, 21,

22, 24, 31, 32, 34, 35-37, 41, 50,51, 62-64, 71, 74, 79, 117, 125,127, 128, 130, 135, 153, 156, 176,189, 193, 194, 204, 213, 245, 248,253, 256, 258, 281, 305, 307, 308,314, 315, 316.difusa, 74.

Cluster, 35, 36, 152, 230, 240, 241,321.

Clustering, 4, 7, 8, 11-13, 15-17, 28,30-32, 34-37, 44, 50, 117, 135,146, 147, 149, 150, 153, 154, 156,166, 167, 171, 173, 177, 189, 192,193, 227, 248, 253, 254, 258, 303,305, 306, 307, 311, 313, 314, 319,320, 321-323.

c-Means, 16, 17, 31, 48, 49, 78, 146-148, 166, 171, 174, 178, 181, 189,192, 194, 239-241, 244, 245, 282,307, 313, 323.

Cociente, 22, 25, 35, 36, 70, 85, 87, 91,133, 147, 148, 156, 157, 161, 180,182, 250, 259, 261, 274, 275, 312.de fiabilidad, 259.de relevancia, 274, 275.

326 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 329: Técnicas Para El Análisis Clínico de Datos

COMA_ADM, 195, 216, 217, 287.Componentes principales, 7, 19, 139-

141, 168, 171, 175, 241, 242, 253,261, 282, 283, 285, 305.

Conceptos, 13-37.agregación, 26-28.clasificación, 36-37.clustering, 34-36.difusa, 28-34.fiabilidad, 24-26.minería de datos, 13-19.relevancia, 20-24 .

Condorcet, 18, 117, 245, 254-256.Conjunto de datos, 6, 14, 17, 19, 22,

24, 26, 31, 33, 34, 40, 44, 47-50,62, 64, 73, 79, 85, 86, 92, 115,123, 126, 129-133, 137, 146-148,166-169, 171, 176, 184, 189, 190-195, 199, 200, 201, 203, 204, 206,207, 213, 217, 220, 229, 232, 233,238, 240, 242-245, 248, 255, 258,260, 262, 263, 273, 277, 278, 287,309.Apnea, 248, 258.UCI, 47, 79, 92, 167, 191, 195,

201, 217, 238, 243, 244.difuso, 39, 41-46, 168, 172-174,

316.Consenso, 24, 61, 62, 77, 118, 172,

175, 207, 254, 255, 257, 258, 259,264, 275, 283.

Correlación, 12, 14, 19, 22, 34, 71, 78,83, 84, 87-92, 96-100, 103, 117,119, 139, 141, 171, 176, 192, 200,201, 202, 218, 219, 220, 221, 223,234, 254, 259, 261, 265, 266, 277,278, 283, 304, 305, 306, 309, 311.

Covarianza, 8, 12, 20, 27, 31, 76, 78,79, 84, 101, 119, 121, 122, 137,166-168, 171, 173-178, 181, 232,237, 256, 314.

Covarianza difusa, 79, 167, 173, 174,177, 178, 232, 237.

CREA_INC, 216, 217, 233, 290.Creatinina, 49, 79, 80, 82, 233, 235,

236-238, 288, 290.Crisp, 28, 306, 318.Cuantificador, 26, 45, 113, 185, 303.Cuello, 70, 104, 116, 117, 251, 256,

258, 259, 260, 265, 266, 268, 274.Cuestionario, 2, 3, 49, 70, 81, 103,

104, 105, 106, 107, 108, 111, 112,117, 165, 169, 170, 185, 189, 190,247, 248, 253, 254, 256, 259, 263,264, 265, 267, 269, 270, 271, 272,273, 282, 283, 285, 295, 307.categórico, 264, 269, 270.de Apnea, 165, 169, 185, 247,

263, 295.de escalas, 264, 265, 272, 283.difuso, 269.

curva, 29, 47, 52, 56, 71, 108-113,123, 124, 169, 181, 184, 185, 187,250, 312.

D

Datosausentes, 56, 62, 254.binarios, 49.clínicos, 1, 4-8, 11, 47, 50, 51, 71,

75, 82, 85, 104, 116, 119, 165,248, 256, 265, 273, 276, 282.

de admisiones, 81.de entrada, 7, 27, 82, 83, 115,

141, 142, 150, 153, 154, 156,157, 166, 171, 189, 218, 234,256, 264, 282, 308, 309, 311,314, 316.

de prueba, 4, 24, 64, 83, 167, 168,178, 181, 204, 265.

desconocidos, 4, 6, 13, 125.

327ÍNDICE ANÁLÍTICO

Page 330: Técnicas Para El Análisis Clínico de Datos

erróneos, 156.históricos, 5, 6, 8, 114, 115, 116,

177, 309.Determinista, 28, 39, 40, 172, 272, 284.Diagnóstico, 1-3, 5, 8, 11, 24-27, 47-

50, 53, 55, 57-60, 62, 63, 67-72,86, 103-105, 107, 108, 114-117,123, 125, 140, 156, 160, 165, 169,170, 189, 190, 191, 224, 245, 247,248, 249, 250, 253, 254, 257-265,266, 267, 273, 275-278, 282-285,292, 306, 308-311, 317.apnea, 67-72.clínico, 50.

Difusa/o, 1, 2, 3, 4, 5, 6, 7, 8, 11, 12,16, 17, 19, 27-34, 39-47, 50, 51,52, 74, 75, 77-79, 81, 82, 92-96,98, 100, 101-104, 107, 108, 111,112, 119, 146, 148, 166, 167, 169,170-174, 176-178, 190, 194, 213,248, 263, 264, 269, 270, 273, 275,278, 283, 285, 304, 306, 307, 313,314, 316, 317.

Distancia, 31, 32, 34, 35, 36, 40, 48,75, 81, 85, 87, 95, 96, 98, 99, 100,102, 136, 137, 146, 148, 171, 173,174, 177, 179, 180, 231, 256.

Distribución, 1, 19, 21, 25, 28, 51, 52,62, 77, 89, 122, 127, 128, 130,145, 166, 172, 173, 181, 191,194-199, 201-204, 206,208, 213,214, 224, 226, 227, 229, 252.

Duración, 40, 43, 47, 50, 74, 75, 172,176, 192, 193, 197, 198, 200,206-211, 213-216, 218-223, 226-229, 233, 236, 238, 242-244, 273,291, 305, 308.de estancia, 40, 43, 47, 50, 74, 75,

172, 176, 193, 197, 207, 208,214, 216, 218, 226, 242, 244,291, 305, 308.

_hos, 192, 198, 218, 228, 242,243.

_UCI, 197, 218-221, 223.

E

Edad, 193, 251, 266, 268, 287.Entrada, 24, 26, 27, 32, 34, 44, 58, 77,

83, 115, 124, 130, 140, 141, 144,146, 149, 153, 154-157, 161, 165,170, 174, 176, 178, 181, 182, 184,192, 197, 198, 200, 201, 206, 208,209, 216, 221, 233, 234, 237, 243,245, 247, 250, 256, 285, 303, 304,308, 309, 310, 311, 314, 316.

Entrenamiento, 18, 24, 32, 126-128,130, 133, 134, 203, 204-206, 208-211, 218-222, 258, 276, 277.

Entrenar, 37, 205, 206, 210, 215, 227,229, 310.

Escala, 40, 50, 61, 77, 81, 82, 84, 104,105, 111-113, 170, 185, 252, 269-272, 278, 289.

Escalas, 81, 103-105, 107, 169, 190,263, 264, 266, 269, 270-272, 276,277, 283.

Estadística, 1, 8, 12, 14, 16-18, 28,37, 43, 55, 59, 73, 87, 119, 122-124, 141, 146, 166, 167, 170, 189,192, 200, 207, 248, 259, 260, 305,306, 308, 314, 323.

Estadísticas, 1, 4, 6, 17, 18, 36, 88,90, 117-119, 147, 148, 166, 194,199, 200, 201, 206, 208, 210, 211,223, 233, 239, 253-256, 259-261,263-265, 268, 282.

Estancia, 40, 233, 236, 238, 243-244.Etiqueta, 22, 29, 45, 46, 64, 108-113,

135, 170, 182, 250, 253, 265, 269.lingüística, 29, 45, 46, 109-113,

170, 182, 250, 253, 269.

328 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 331: Técnicas Para El Análisis Clínico de Datos

Euclideana, 148, 150, 180.Experto médico, 62, 79, 81, 82, 116,

117, 168, 170, 187, 189, 194, 199,202, 205-207, 215-217, 220, 223,235, 243, 244, 247, 250, 254, 260,261, 264-266, 268, 272-274, 276,277, 283.

Exploración, 6-8, 14, 17-19, 34, 70,73, 117, 189, 192-194, 199, 244,281, 284, 304.

F

Factor, 40, 90, 137, 138, 139, 140,141, 158, 172, 174, 175, 179, 181,193, 234, 235, 236, 237, 238, 266,305, 315, 323, 324.

Factores, 6, 14, 27, 34, 55, 58, 69, 83,84, 120, 136, 139, 141, 167, 175,178, 180, 192, 193, 200, 227,235-237, 238, 242, 245, 282, 303-305, 314.

Fiabilidad, 1, 7, 11, 20, 24-27, 105,116-118, 139, 140, 143, 159, 168-170, 181, 182, 184-186, 189, 194,247, 248-254, 257-268, 272, 276,278, 279, 282-285, 304, 306, 307,312, 315.

FIO2, 193, 200, 201, 216, 233, 235,236, 238, 288, 290.

Función de pertenencia, 29, 39, 40,42-45, 47, 50, 77, 81, 82, 108-111, 169, 170, 172, 184, 265.

Fusión, 27, 28, 76, 79, 83, 136, 137,138, 139, 174, 175, 176, 232, 234,235, 236, 237, 238, 317.

Fuzzy, 5, 7, 8, 12, 30, 31, 33, 40, 48,74, 75, 146-150, 173, 174, 176,238-242, 244-246, 282, 284, 305-307, 313, 317-323, 324.

Fuzzy c-Means, 5, 7, 8, 12, 30, 31, 48,

74, 146-150, 173, 174, 176, 238-242, 244-246, 282, 284, 307, 313,319.

G

Gastroenteritis, 47, 48.Grado de pertenencia, 29, 41-44, 48,

75-77, 79, 82, 92, 95-97, 99, 105,109, 111-113, 147, 150, 170, 174,179, 182, 186, 239, 265, 269, 271,272, 278, 307, 310.

Gustafson, 31, 167, 168, 177, 178,231, 313, 320.y Kessel, 31, 167, 177, 178, 313.

H

Hartigan, 4, 8, 12, 27, 28, 79, 83, 135-137, 146, 147, 165-167, 174, 178,189, 192, 194, 231, 233-235, 237,244-246, 282, 284, 307, 314, 321.

Hedge, 47, 63, 64, 108, 110, 113,322.

Hematocrito, 50, 51, 52.hospital, 1-4, 15, 28, 40, 43, 50, 58,

59, 74, 75, 78, 103, 120, 121, 123,131, 172, 176, 189-192, 198, 218,226, 227, 233, 236, 238, 247-249,262-264, 285, 291, 305, 308, 311.Clínico, Barcelona, 2-4, 247.Santísima Trinidad, Salamanca,

2-4, 103, 190, 263, 285.Parc Taulí, Sabadell, 2-4, 191.

HTA, 70, 71, 251.

I

IBM, 6, 15, 17, 18, 256, 321.ID3, 5, 7, 12, 17, 22, 24, 33, 62, 125-

129, 147, 166, 192, 194, 217-223,

329ÍNDICE ANÁLÍTICO

Page 332: Técnicas Para El Análisis Clínico de Datos

227, 231, 234, 243, 244, 264, 277,278, 315, 323, 324.

Inducción, 4, 5, 7, 8, 12, 14-17, 19, 22-24, 33, 117, 119, 125-129, 133,140, 166, 168, 171, 192, 194, 204,206, 217, 220, 229, 258, 264, 277,278, 281-283, 304, 305, 309, 315.de reglas, 4, 5, 7, 8, 12, 14, 16, 17,

19, 22, 33, 117, 119, 125, 128,140, 166, 168, 171, 192, 194,206, 217, 256, 258, 277, 278,281, 282, 283, 304, 305, 309,315.

difusa, 33.Interpolación, 109, 113, 143, 182,

183, 187, 250.Interpretación, 20, 32, 44, 51, 52, 77,

79, 105, 130, 134, 150, 169, 174,177, 185, 210, 246, 317.

J

Joining algorithm, 7, 136, 137, 147,167, 189, 192, 194, 231, 233, 234,237, 245, 282, 284, 314.

K

Kessel, 320.k-Means, 7, 8, 254, 305, 306.Kohonen, 7, 8, 12, 16-19, 117, 147,

153-156, 166, 192, 194, 227-229,244, 245, 254-256, 305, 307, 308,310, 311, 314, 315, 322.SOM, 7, 8, 12, 17, 18, 117, 147,

153, 154, 166, 192, 227, 229,307, 308, 310, 311, 315.

L

Literatura clínica, 116, 265, 276.

M

Mac_Cabe, 92-95, 97-102, 290.Mahalonobis, 32, 148, 150, 177, 179,

241.Matriz, 27, 31, 34, 78, 83-88, 93, 94,

102, 136, 137, 148, 150, 151, 153,165, 175-181, 184, 231-234, 237,304, 313, 314.de correlación, 34, 83-85, 88.de covarianzas difusas, 31, 176,

178, 231, 232, 313.MECH_VEN, 209, 211-217, 224, 288.Media ponderada, 26, 137, 139, 140,

142-144, 184, 311.Minería de datos, 4, 6-8, 13-17, 19,

34, 36, 64, 117, 166, 189, 192,194, 206, 207, 215, 223, 244, 260,281, 284, 311, 315.

Modelización, 4-8, 13, 17, 19, 31, 32, 34,36, 73, 123, 124, 140, 189, 192, 193,202, 204, 213, 244, 245, 257, 258,277, 281, 284, 304, 306, 308, 311.

Modelo, 6, 14, 17, 24, 31, 32, 39, 42,58, 59, 61, 71, 74, 76, 87, 117,121, 123, 124, 125, 127, 128, 134,140, 145, 154, 156, 193, 200, 202,205-210, 213-215, 218, 220-223,226, 227, 229, 244, 245, 267, 278,308, 309, 311, 315.de datos, 6, 39, 117, 193, 209,

308, 315.Muestra, 21, 35, 42, 48, 87, 106, 121,

146, 150, 173, 191, 199, 202, 203,221, 233, 241, 242, 269, 271, 276,277, 308.

Muestreo, 18, 22, 177, 308.

N

NEURO_F, 216, 233, 291.Neuronas, 32, 153, 156, 157, 208,

256, 309.

330 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 333: Técnicas Para El Análisis Clínico de Datos

No-difusa, 2, 3, 41, 44, 77, 79, 81, 82,101, 104, 112, 113, 146, 166, 168,177, 190, 231-234, 237, 238, 245,247-249, 262-264, 282, 283.

Nominal, 74, 166, 310.Norma, 148, 149, 150, 152, 177, 180,

241.Normalización, 173.Numérica/o, 4, 7, 36, 50, 61, 64, 74,

75, 77, 83, 92, 125, 128, 129, 143,156, 166, 182, 184, 193, 218, 223,233, 248, 250, 255, 256, 287-289,291, 310.

O

Objetivo, 4, 6, 7, 20-22, 31, 34, 35,37, 41, 50, 59, 61, 72, 78, 92, 96,103, 104, 106, 114, 115, 120, 121,123, 126, 127, 129, 130, 134, 136,139, 141, 145, 146, 155, 158, 182,193, 194, 203, 206, 210, 220, 227,243, 244, 254, 256-258, 265, 273,305, 308, 310, 311, 313.de la modelización, 308, 310.

ON_MECH, 216, 224, 288.operador, 6, 12, 26, 27, 107, 114, 115,

140-146, 159, 160, 165, 168-170,181, 184, 190, 247-250, 253, 258,259, 261, 263, 265, 276, 282, 284,303, 311, 315, 316, 317.de agregación, 12, 107, 114, 115,

140, 142, 144, 159, 165, 168-170, 181, 190, 247-250, 253,259, 261, 263, 265, 276, 303,315, 317.

WOWA, 6, 26, 27, 114, 142-144,168-170, 181, 184, 247, 248,250, 253, 258, 261, 276, 284,315.

Ordinal, 74, 75, 83, 84, 85, 87, 92, 95,100, 102, 103, 166, 182, 287, 310.

OSAS, 67-69, 71, 304, 308.OWA, 26, 27, 139-146, 168, 171,

189, 249, 253, 261, 283, 285, 303,309, 311, 315, 316, 323, 324.

P

P_H_STAT, 101-103, 195, 233, 290.Pareja, 21, 27, 68, 86, 104-106, 135,

137, 175, 251, 255-259, 267, 268.Pares parmenideanos, 28, 76, 108.Parmenidean Pairs, 28.Partición, 30, 31, 130, 133, 135, 136,

148, 149, 178-181, 229, 245, 255,256, 310, 313.

Pertenencia, 19, 27, 29, 30, 32, 33,39, 40-45, 48, 50, 53, 73, 75-79,82, 92-104, 107-109, 111-114,148, 150, 152, 165, 169, 170-174,176-182, 184, 186, 213, 231, 239,240-242, 252, 253, 264, 282, 306,307, 316.

Peso, 35, 42, 61, 71, 104, 113, 116,125, 126, 144, 152, 208, 209, 248,251, 255-260, 314.

Podado, 19, 33, 202, 204, 210, 211,218, 220, 222, 258.

Predicción, 7, 14, 15, 17-19, 58, 59,65, 68, 117, 119, 156, 166, 194,219-221, 243, 248, 249, 281, 308,309, 311.

PROB_INF, 209, 211, 216, 217, 233,288.

Probabilidad, 15, 39, 51, 52, 57-59,62, 63, 104, 120, 124, 133, 134,145, 161, 162, 266.

Probabilística/o, 28, 39, 40, 119, 133,154, 172.

Proceso de datos, 8, 11, 27, 41, 73,106, 165, 166, 169, 178, 218, 220,223, 239, 241, 248, 249, 261, 263,264, 278, 281, 283.

331ÍNDICE ANÁLÍTICO

Page 334: Técnicas Para El Análisis Clínico de Datos

Pronóstico, 1-3, 5, 8, 11, 19, 24, 26,40, 49, 55-60, 74, 75, 119, 120,140, 156, 158, 165, 169, 170, 189,191, 192, 243, 282, 284, 304, 306,309, 317.UCI, 309.

Prototipo, 31, 40, 167, 171, 173-176,314.difuso, 49, 173-176.

Q

Quinlan, 5, 15, 33, 126, 128, 134,135, 258, 315, 323.

R

Rango, 41, 46, 50-52, 59, 78, 88-92,94, 113, 129, 172, 196, 208, 224,274, 307.

RDI, 67, 113, 303, 304, 309.Red neuronal, 18, 19, 32, 61, 119,

146, 153, 154, 156, 157, 206-210,218-222, 223, 227, 231, 234, 243,256, 258, 260, 264, 277, 278, 305,309, 310.Backpropagation, 310.de retro-propagación, 310.

Regla, 21, 33, 42, 64, 127, 134, 155,211-215, 307.

Regresión, 7, 12, 14, 17-19, 32, 58,61, 70, 71, 117, 119, 122-125,140, 141, 256, 258, 260, 262, 305,306, 308, 309.lineal, 7, 14, 17, 61, 70, 122, 123,

125, 256, 258, 260, 262.logística, 17, 18, 58, 61, 71, 117,

123, 124, 125, 256, 258, 262.no-lineal, 123,124.

Relevancia, 1, 7, 11, 19, 20-23, 26-28, 33, 61, 62, 114-118, 139, 140,

141, 143, 147, 159, 161, 168, 170,176, 182, 184, 189, 193, 206, 208,209, 211, 221, 224, 236, 237, 248,249-251, 253, 254, 256-266, 267,268, 272-279, 282-285, 304, 307,309, 310, 312, 315, 316.

RENAL_F, 216, 233, 291.Representación, 1-8, 11, 13, 16, 19,

27-30, 32, 33, 42, 44, 45, 49, 51,59, 62, 73-79, 81, 82, 90, 104,105, 107, 108, 111, 125, 134, 137,159, 160, 165, 166, 169, 170, 172,173, 194, 224, 241, 248, 255, 256,261, 262, 263, 269, 271, 273-275,276, 281, 282, 284, 317.de los datos, 2, 8, 32, 76, 79, 281,

282, 284, 310, 311.RES_F, 216, 233, 291.Resultados, 3, 6, 18, 19, 20, 23-25,

52, 61, 62, 64, 68, 71, 74, 82-84,88, 106, 114, 116, 118, 127, 140,143, 147, 161, 162, 165, 166-169,171, 175, 189, 193, 205, 208-211,213, 215, 218-223, 226, 227, 231,243-245, 248-250, 252-255, 257,259, 260, 261, 264, 269, 273,276-279, 281-285, 308, 309, 311.

Ronqueador, 248.

S

Salida, 20, 22, 24-26, 32, 50, 61, 81,85, 115, 123, 124, 128, 129, 150,153-157, 174, 178, 183, 185, 189,192, 197, 199, 201, 202, 204,206-208, 218, 223, 249, 250, 257,259, 268, 276, 284, 291, 303, 310,311, 315.

Salidas, 24, 25, 31, 32, 252, 310.Segmentación, 7, 15, 17-19, 36, 153,

194, 245, 304, 305, 310, 311.

332 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS

Page 335: Técnicas Para El Análisis Clínico de Datos

Selección de variables, 37, 61, 62,124, 206, 216, 245, 260, 279, 281.

Sesgado, 283.Sesgo, 47, 84, 144, 145, 183, 184,

185, 187, 250, 252, 266, 316.Sexo, 20, 61, 70, 71, 85, 86, 87, 88,

89, 90, 91, 92, 93, 94, 95, 97, 98,99, 100, 104, 116, 123, 251, 256,258, 259, 260, 265, 306.

Sistema experto, 5, 61, 63, 311.SPSS, 17, 19, 78, 83, 84, 168, 231-

234, 237, 245, 256, 258.Sueño, 2, 3, 11, 67, 69, 70, 103, 165, 189,

247, 248, 253, 261, 263, 304, 308.

T

Técnicas, 119-163.agregación WOWA, 142-146.agrupación difusa fuzzy c-Means,

146-152.agrupación Kohonen SOM, 153-

155.algoritmo genético, 158-163.amalgamación Hartigan, 135-139.estadística, 119-125.inducción de reglas, 125-135.predicción redes neuronales, 156-

157.Tendencia, 25, 123, 154, 197, 226,

235, 236, 270.Tiempo, 2, 15, 21, 36, 55, 56, 60, 68,

83, 104, 105, 112, 117, 120, 121,123, 125, 161, 192, 197, 198, 209,236, 276, 279, 288.

Tipo.binario, 47-49, 79, 82, 123, 124,

189, 193, 202, 234, 249, 308,310.

categórico, 23, 86, 93-96, 100,101, 122, 128, 129, 173, 222,

229, 237, 248, 273, 304, 310,315.

categórico no-ordinal, 93, 96, 100.categórico ordinal, 93-96, 100,

101, 173, 222.de datos, 74, 75, 276.difuso, 44, 73, 75, 79, 82, 92, 94,

100, 167, 171, 172, 175, 177,178, 182, 237, 273, 310.

numérico, 23, 25, 48, 62, 86, 87,94, 156, 173, 218, 222, 233,243, 256, 310, 315.

ordinal, 92, 223.Torra, 4, 26, 27, 142, 143, 315, 318,

323, 324.

U

UCI, 2-4, 8, 11, 40, 47, 49, 57-60, 64,73, 74, 78-82, 125, 130, 131, 147,165-168, 170, 171, 189, 191-246,282, 284, 287, 288, 290-293, 304,306-308, 311, 317.descripción de variables, 191-

201, 287-293.pronóstico, 55-65.sistemas de puntuación de pronós-

tico, 57-59.variables claves, 206-217.

Umbral, 20, 33, 42, 50, 52, 148, 193,206-209, 236, 241, 250, 253, 260,268, 305.

Unificación, 27, 136, 285, 304.

V

Valores.atípicos, 123, 124.desconocidos, 64, 108, 130, 133,

135, 153, 165, 169, 181, 182,191, 259, 284, 285, 314.

erróneos, 203.

333ÍNDICE ANÁLÍTICO

Page 336: Técnicas Para El Análisis Clínico de Datos

Variable.binaria, 86, 199, 268.categórica, 74, 83, 85, 86, 88, 89,

90, 91, 92, 94, 95, 98, 99, 100,172, 223, 224, 292.

categórica ordinal, 74, 98, 172.clave, 135.de entrada, 25, 26, 31, 63, 80,

117, 124, 129, 139-141, 153,156, 157, 161, 192, 199-201,204, 206-210, 215-218, 221,223, 225, 235, 241, 243, 245,249, 257, 258, 261, 303-305,308, 309, 311.

de salida, 50, 62, 74, 117, 124,128-130, 140, 156, 192, 193,194, 200-202, 209, 218, 221,224-226, 244, 253, 258, 308,310, 311.

difusa, 39, 44, 45, 75, 93, 175,176, 182, 183.

numérica, 74, 88, 89, 90, 91, 206,223.

Vector, 26, 27, 116, 137, 140-143,145, 154, 160, 161, 163, 165, 168,179, 181-187, 250-252, 309, 311,315, 316.

de cocientes, 140, 141, 160, 183,250, 309, 312, 315, 316.

de sesgo, 184-186.Visualización, 13, 14, 27, 194, 241, 304.Votación, 25, 118, 255.

W

Weighted Mean, 26, 184, 315.Windowing, 202, 204, 210, 211, 218,

220, 222.WM, 26, 27, 140, 142, 143, 184, 311,

315.WOWA, 4, 6, 8, 12, 26, 27, 107, 108,

114-116, 139, 140, 142, 143, 159-161, 165, 168-171, 181, 182, 184,185, 187, 189, 190, 247-250, 253,259, 261-263, 264, 265, 275-278,282-285, 303, 311, 315, 317, 318.

Y

Yager, 5, 26, 141, 142, 144, 145, 146,303, 309, 316, 324.

Z

Zadeh, 5, 39, 41, 42, 44-46, 108, 109,111, 316, 324.

334 TÉCNICAS PARA EL ANÁLISIS DE DATOS CLÍNICOS