45
Máster Oficial de Estadística Aplicada Autor: Laura Delgado Antequera Tutores del trabajo: José Antonio Roldán Nofuentes Miguel Ángel Montero Alonso Departamento de Estadística e Investigación Operativa, Universidad de Granada. 2015

Evaluación y comparación de Test Diagnósticos Binarios

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

M á s t e r O f i c i a l d e E s t a d í s t i c a A p l i c a d a

Autor:

Laura Delgado Antequera

Tutores del trabajo:

José Antonio Roldán Nofuentes

Miguel Ángel Montero Alonso

Departamento de Estadística e Investigación Operativa, Universidad de Granada.

2015

Evaluación y comparación de Test Diagnósticos Binarios

1

Evaluación y comparación de Test Diagnósticos Binarios

2

Índice

1. Test Diagnóstico Binario ................................................................................................ 3

1.1. Introducción .............................................................................................................. 3

1.2. Parámetros de un test diagnóstico ........................................................................... 5

2. Estimación para un Test Diagnóstico Binario ................................................................ 9

2.1. Introducción .............................................................................................................. 9

2.2. Estimación bajo un muestreo transversal. ................................................................ 9

2.3. Estimación bajo un muestreo caso-control. ............................................................ 11

2.4. Programa en R. ........................................................................................................ 13

2.5. Ejemplo. ................................................................................................................... 14

3. Comparación de dos Test Diagnósticos Binarios......................................................... 17

3.1. Introducción. ........................................................................................................... 17

3.2. Comparación bajo un diseño apareado. ................................................................. 17

3.3. Comparación bajo un diseño caso-control. ............................................................. 22

3.4. Programa en R ......................................................................................................... 26

3.5. Ejemplo. ................................................................................................................... 27

4. Conclusiones................................................................................................................ 30

5. Bibliografía .................................................................................................................. 31

Anexo I ............................................................................................................................... 34

Anexo II .............................................................................................................................. 38

Evaluación y comparación de Test Diagnósticos Binarios

3

1. Test Diagnóstico Binario

1.1. Introducción

El diagnóstico de una enfermedad puede ser considerado la base de la práctica

médica, pues es la clave que conduce al médico a elegir uno u otro tratamiento para

lograr su propósito. Un test diagnóstico es aquella prueba que, aplicada sobre un

individuo, determina si éste padece o no una determinada enfermedad.

A menudo, los profesionales sanitarios se cuestionan ¿qué tratamiento será más

efectivo para una determinada enfermedad?, ¿es mejor un tratamiento que otro?, ¿en

qué medida?, ¿sobrevivirá el paciente los próximos 3 años?, etc. Las respuestas a estos

interrogantes, nos conducen a la Estadística. Por la información y experiencia que

posee, el profesional puede tomar decisiones, aunque es conveniente que éstas se

fundamenten objetivamente a través de los métodos estadísticos más apropiados a cada

situación. La estadística es el único método científico adecuado para validar los

razonamientos inductivos que se llevan a cabo en las Ciencias de la Salud.

En palabras de la Organización Mundial de la Salud “En todos los dominios de las

ciencias de la salud, en su vertiente clínica, administrativa o de la investigación, es

indispensable conocer los principios estadísticos para comprender bien los problemas y

el profesional de la salud necesita de los datos estadísticos para tomar decisiones

válidas”.

Las pruebas diagnósticas son fundamentales en la práctica de la medicina moderna.

Estas, como ya hemos mencionado, consisten en aplicar una prueba médica para

confirmar o no la presencia de una determinada enfermedad, con tres propósitos básicos

(McNeil y Adelstein, (1976); Sox et al., (1989)):

- Proveer una información fiable sobre la condición del paciente.

- Influenciar en el plan de cuidado del paciente.

- Entender los mecanismos de la enfermedad y su historia natural a través

de la investigación.

La utilidad de un test diagnóstico reside en que nos permite diferenciar dos

(binarios) o más condiciones, que podrían ser confundidas. Por ejemplo, para

Evaluación y comparación de Test Diagnósticos Binarios

4

diferenciar entre distintas enfermedades o la condición de sano y enfermo. Los test

diagnósticos se clasifican en:

- Binarios: Son aquellos que tienen 2 posibles resultados: uno positivo, que

indica la presencia provisional de la enfermedad, y otro resultado negativo, que

indicaría la ausencia provisional de la enfermedad. Por ejemplo, un test de

embarazo.

- Cuantitativos o continuos: Este tipo de test devuelve un valor numérico

que permite al profesional evaluar la condición en la que se encuentra el

paciente. Por ejemplo, un análisis de sangre.

- Ordinales: son aquellos que devuelven valores ordinales, los cuales nos

permiten, por ejemplo, clasificar la presencia de la enfermedad en

“definitivamente no”, “probablemente no”, “probablemente sí”,

“definitivamente sí”.

En la interpretación de un test diagnóstico se deben tener en cuenta tres factores

principales: su habilidad para distinguir entre enfermos y sanos, las características

específicas de cada individuo y el ambiente en el que se lleva a cabo el test diagnóstico.

En los estudios sobre test diagnósticos, el primer paso consiste en evaluar su validez,

es decir, la probabilidad de que exista sesgo por características del diseño del estudio.

Una vez hemos confirmado la validez del estudio, se analiza la correcta interpretación

de los resultados, pues si éstos no son capaces de discriminar entre las condiciones bajo

estudio, el test diagnóstico carecerá de utilidad. Es importante ser consciente de que la

certeza absoluta del diagnóstico es inalcanzable, independientemente del número de

observaciones o pruebas diagnósticas que se realicen, ya que se apoya en

probabilidades, por lo que el objetivo del médico no residirá en alcanzar la certeza, sino

en reducir el nivel de incertidumbre lo suficiente como para tomar una decisión

terapéutica fiable (Kassirer, (1989)).

Como venimos comentando, en el campo de la medicina, uno de los factores que

intervienen en el diagnóstico es medir la exactitud de dos test diagnósticos. Para ello, se

debe disponer de un estimador insesgado de la exactitud del test, por lo que es

conveniente conocer el estado de la enfermedad en cada paciente, independientemente

del resultado del test diagnóstico. Un procedimiento del tipo conocido como GOLD

ESTÁNDAR nos revela el estado real del individuo. Sin embargo, en la práctica, no es

Evaluación y comparación de Test Diagnósticos Binarios

5

común aplicar este procedimiento a todos los individuos de una muestra, pues suele

tratarse de técnicas invasivas y ocasionaría un riesgo para el paciente, por lo que

algunos de los estados de la muestra serán desconocidos. Esto se conoce como el

problema de la verificación parcial de la enfermedad. En lo que recoge el presente

documento, supondremos que todos los problemas son de verificación completa de la

enfermedad mediante un Gold Estándar.

1.2. Parámetros de un test diagnóstico

La calidad de un test diagnóstico binario se mide por su habilidad para discriminar

una de dos condiciones (sano o enfermo) en la que se encuentra el individuo. El

potencial del test se puede cuantificar con distintas medidas como: la sensibilidad y

especificidad, los valores predictivos, razones de verosimilitud (LR), el área bajo la

curva ROC (AUC), el índice de Youden y odds-ratio (OR). Diferentes medidas de la

calidad del diagnóstico se relacionan con aspectos distintos del procedimiento del

diagnóstico, es decir, algunas medidas se usan para evaluar la propiedad discriminatoria

del test -utilizada en el ámbito de la salud- y otras para evaluar su habilidad predictiva

con intención de predecir la probabilidad de que un individuo padezca una enfermedad.

Además, hay que tener en cuenta que estas medidas que hemos mencionado no son

indicadores fijos de la calidad del test, sino que hemos de recordar que son sensibles a

las características de la población, así como muchas también dependen de la

prevalencia1 de la enfermedad. Por tanto, se considera especialmente importante

conocer cómo interpretar los resultados y bajo qué condiciones se realiza el estudio.

Consideraremos los resultados organizados en una Tabla 2x2:

Resultado del test

T �̅�

Estado D 𝑠1 𝑠0 s

�̅� 𝑟1 𝑟0 r

𝑠1 + 𝑟1 𝑠0 + 𝑟0 n

En la cual los datos de la verdadera condición del individuo, conocida mediante la

aplicación de un test diagnóstico Gold Estándar, (D:= enfermo; �̅�:= no enfermo) se

1 La prevalencia es la probabilidad de que el individuo padezca la enfermedad. La denotaremos

𝑝 = 𝑃(𝐷)

Evaluación y comparación de Test Diagnósticos Binarios

6

recoge en las filas mientras las columnas indican los resultados del test diagnóstico

binario (T:= test positivo; �̅�:= test negativo).

A continuación procedemos con la definición de algunos conceptos básicos para el

desarrollo del tema.

Sensibilidad y especificidad

Las probabilidades de acierto del test diagnóstico vienen recogidas en dos medidas

como son la sensibilidad y la especificidad. Las cuales definimos a continuación:

La sensibilidad (Se) de un test es la probabilidad de que el resultado del

test sea positivo cuando el individuo está enfermo. Esto es:

𝑆𝑒 = 𝑃(𝑇|𝐷).

Al acierto al que hace referencia la sensibilidad se le denomina Verdadero Positivo

(TP).

La especificidad (Sp) es la probabilidad de que el resultado del test sea

negativo cuando el individuo no está enfermo. Esto es:

𝑆𝑝 = 𝑃(�̅�|�̅�).

Al acierto al que hace referencia la especificidad se le denomina Verdadero

Negativo (TN).

Por otro lado, la probabilidad de fallo del test se “traduce”, en términos de las

probabilidades condicionadas, en las denominadas probabilidad de Falso Positivo (FP)

y probabilidad de Falso Negativo (FN), las cuales vienen dadas por:

𝑃(𝐹𝑁) = 𝑃(�̅�|𝐷) = 1 − 𝑆𝑒,

Evaluación y comparación de Test Diagnósticos Binarios

7

𝑃(𝐹𝑃) = 𝑃(𝑇|�̅�) = 1 − 𝑆𝑝.

Según estas definiciones, resulta lógico pensar que un test resultará más útil para

descartar la enfermedad cuanto menor sea la probabilidad de un falso negativo, es decir,

cuanto mayor sea la sensibilidad. Mientras utilizaremos el test para confirmar la

enfermedad cuanto mayor sea la especificidad, lo que indicará una menor probabilidad

de falso positivo.

Valores Predictivos Positivos, Valores Predictivos Negativos. Curva ROC.

Tanto la sensibilidad como la especificidad proporcionan información sobre la

probabilidad de obtener un resultado concreto en función de la verdadera condición del

individuo, sin embargo, en la práctica, no se conoce. Por tanto, nos preguntamos ahora

“si el resultado ha dado positivo (negativo). ¿Cuál es la probabilidad de que realmente

sea la verdadera condición del individuo?”. A este tipo de preguntas nos responderán

los valores predictivos.

El Valor Predictivo Positivo (VPP) es la probabilidad de padecer la

enfermedad si el resultado del test es positivo. Por el Teorema de Bayes, esta

probabilidad se interpreta como la proporción entre los resultados verdaderos

positivos sobre los resultados positivos del test.

𝑉𝑃𝑃 = 𝑃(𝐷|𝑇) =𝑃(𝑇|𝐷) · 𝑃(𝐷)

𝑃(𝑇)=

𝑝𝑆𝑒

𝑝𝑆𝑒 + (1 − 𝑝)(1 − 𝑆𝑝).

El Valor Predictivo Negativo (VPN) es la probabilidad de que un sujeto

cuyo test ha resultado negativo, esté realmente sano. De nuevo por el teorema de

Bayes, obtenemos el valor de esta probabilidad:

𝑉𝑃𝑃 = 𝑃(𝐷|�̅�) =𝑃(�̅�|𝐷) · 𝑃(𝐷)

𝑃(�̅�)=

(1 − 𝑝)𝑆𝑝

(1 − 𝑆𝑒)𝑝 + (1 − 𝑝)𝑆𝑝.

Ambas medidas dependen de la prevalencia de la enfermedad.

Evaluación y comparación de Test Diagnósticos Binarios

8

Razones de verosimilitud

La prevalencia es un factor determinante en los valores predictivos de un test, por lo

que no es recomendable usarlos para comparar dos métodos diagnósticos. Es por esto

que se hace necesario determinar unos índices que no dependan de la prevalencia de la

enfermedad, los conocidos como Razones de verosimilitud, que miden cuánto es más

probable un resultado positivo (negativo) según la presencia o ausencia de la

enfermedad.

𝐿𝑅+ =𝑆𝑒

1−𝑆𝑝 es el cociente entre la probabilidad de que el resultado del

test sea positivo en pacientes enfermos y la probabilidad de que el resultado sea

positivo en pacientes sanos.

𝐿𝑅− =1−𝑆𝑒

𝑆𝑝 es el cociente entre la probabilidad de que el resultado del

test sea negativo en pacientes enfermos y la probabilidad de que el resultado sea

negativo en pacientes sanos.

Esta medida relaciona la sensibilidad y especificidad, y como no depende de la

prevalencia, se puede utilizar para la comparación de pruebas en un mismo diagnóstico.

Índice de Youden

El índice de Youden es la suma de la sensibilidad y especificidad menos la unidad,

esto es,

𝐽 = 𝑆𝑒 + 𝑆𝑝 − 1.

A todo test diagnóstico hay que exigirle que su índice de Youden sea mayor que 0. Si

vale 0 entonces la sensibilidad y la especificidad son complementarias, y si su valor es

menor que 0 entonces los resultados del test deben intercambiarse (el resultado positivo

es en realidad el negativo y viceversa).

En el desarrollo de este trabajo, nos centraremos en los parámetros Sensibilidad y

Especificidad, por ser los más importantes (los restantes se obtienen a partir de estos).

Evaluación y comparación de Test Diagnósticos Binarios

9

2. Estimación para un Test Diagnóstico Binario

2.1. Introducción

Un test diagnóstico binario, como ya se ha definido, es una prueba médica que da

lugar a dos posibles resultados que nos indica la presencia (si el resultado es positivo) o

ausencia (si es negativo) de una determinada enfermedad.

El problema con el que se encuentran los test diagnósticos, en general y en particular

el caso binario, es que pueden aportar resultados erróneos. Por tanto, conviene conocer

su grado de exactitud que viene expresada en términos de probabilidades o funciones de

probabilidad. Para evaluar el grado de exactitud de un test diagnóstico, es preciso

conocer la condición en la que se encuentra cada individuo respecto a la enfermedad, es

decir, si la padece o no. El procedimiento que nos determina de forma objetiva si el

individuo realmente padece la enfermedad es el gold estándar.

Por tanto, según la exactitud de los resultados, tenemos 2 formas de abordar el

diagnóstico de una determinada enfermedad: el test diagnóstico binario y el gold

estándar. Sin embargo, el gold estándar suele ser un test costoso, arriesgado, pues

muchas veces requiere de técnicas invasivas, y además hay casos, como en el campo de

la psiquiatría, que no existe tal prueba.

A continuación se presenta la estimación de la sensibilidad y la especificidad bajo un

muestreo transversal y un muestreo de caso control.

2.2. Estimación bajo un muestreo transversal.

Uno de los muestreos más usuales es el muestreo transversal, en el que aplicamos el

test diagnóstico binario y el gold estándar independientemente a cada uno de los

individuos que forman una muestra aleatoria de tamaño n. En lo que sigue, supongamos

que tenemos una población de n individuos que pueden padecer o no una determinada

enfermedad. Imaginemos que tenemos un test Gold Estándar que nos permite conocer,

mediante la variable D, el estado verdadero del individuo. De esta forma, la variable

binaria D se define:

𝐷 = {1 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 𝑝𝑎𝑑𝑒𝑐𝑒 𝑙𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑

0 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 𝑛𝑜 𝑝𝑎𝑑𝑒𝑐𝑒 𝑙𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑

Evaluación y comparación de Test Diagnósticos Binarios

10

Por otra parte, se define prevalencia, y se denota por una p, como la probabilidad de

que un individuo de la población elegido al azar, padezca la enfermedad, es decir:

𝑝 = 𝑃(𝐷 = 1).

Consideremos un test diagnóstico binario cuya exactitud se puede evaluar con

respecto al gold estándar. Se define una variable aleatoria T como:

𝑇 = {1 𝑠𝑖 𝑒𝑙 𝑡𝑒𝑠𝑡 𝑑𝑖𝑎𝑔𝑛ó𝑠𝑡𝑖𝑐𝑜 𝑏𝑖𝑛𝑎𝑟𝑖𝑜 𝑑𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜0 𝑠𝑖 𝑒𝑙 𝑡𝑒𝑠𝑡 𝑑𝑖𝑎𝑔𝑛ó𝑠𝑡𝑖𝑐𝑜 𝑏𝑖𝑛𝑎𝑟𝑖𝑜 𝑒𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜

En la siguiente tabla recogemos las frecuencias absolutas observadas en la muestra

según los resultados de haber aplicado el test diagnóstico Binario (TDB) o el gold

estándar (GS).

Tabla 1: frecuencias absolutas de un test diagnóstico binario

Resultado del TDB

T=1 T=0

Verdadero estado (G.S)

D=1 𝑠1 𝑠0 𝑠 D=0 𝑟1 𝑟0 𝑟

𝑠1 + 𝑟1 𝑠0 + 𝑟0 𝑛

Si condicionamos las frecuencias de la tabla a las frecuencias marginales del gold

estándar, se deduce que las frecuencias 𝑠1 y 𝑟0 siguen una distribución binomial:

𝑠1~𝐵(𝑠, 𝑆𝑒) y 𝑟0~𝐵𝑖(𝑟, 𝑆𝑝). Esto nos permite definir estimadores puntuales, que son

estimadores de proporciones binomiales, para los parámetros de la sensibilidad y

especificidad:

𝑆�̂� =𝑠1

𝑠; 𝑆�̂� =

𝑟0

𝑟.

Evaluación y comparación de Test Diagnósticos Binarios

11

Además, se conocen sus varianzas estimadas son:

𝑉𝑎�̂�(𝑆�̂�) =𝑆�̂�(1 − 𝑆�̂�)

𝑠;

𝑉𝑎�̂�(𝑆�̂�) =𝑆�̂�(1 − 𝑆�̂�)

𝑟 .

Estas estimaciones nos permiten definir un intervalo de confianza tanto para la

sensibilidad como para la especificidad, denominado intervalo score modificado (Yu,

W., et al., (2014)). Este intervalo es el intervalo de confianza para una proporción

binomial que presenta un mejor rendimiento:

𝑆𝑒 ∈ 0.5 +𝑠 +

𝑧1−

𝛼2

4

53𝑠 + 𝑧

1−𝛼2

2 (𝑆�̂� − 0.5) ±𝑧

1−𝛼2

𝑠 + 𝑧1−

𝛼2

2√𝑆�̂�(1 − 𝑆�̂�)𝑠 +

𝑧1−

𝛼2

2

4;

𝑆𝑝 ∈ 0.5 +𝑟 +

𝑧1−

𝛼2

4

53𝑟 + 𝑧

1−𝛼2

2 (𝑆�̂� − 0.5) ±𝑧1−𝛼/2

𝑟 + 𝑧1−

𝛼2

2√𝑆�̂�(1 − 𝑆�̂�)𝑟 +

𝑧1−

𝛼2

2

4

Donde 𝑧1−𝛼/2 es el percentil 100(1 − 𝛼)% de la distribución normal de media 0 y

desviación típica 1. Además, estos intervalos sólo son válidos si 𝑟, 𝑠 ≥ 10.

2.3. Estimación bajo un muestreo caso-control.

En un muestreo caso control, se aplica el gold estándar para conocer el verdadero

estado de los individuos. Se toman dos muestras, una de tamaño 𝑛1 sobre los individuos

que padecen la enfermedad bajo estudio y otra de tamaño 𝑛2 de individuos sanos. A

Evaluación y comparación de Test Diagnósticos Binarios

12

ambas muestras se les aplica el test diagnóstico binario, para determinar el grado de

exactitud del mismo.

De esta forma, se define D como una variable aleatoria que toma los valores:

𝐷 = {1 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 𝑝𝑎𝑑𝑒𝑐𝑒 𝑙𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑

0 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 𝑛𝑜 𝑝𝑎𝑑𝑒𝑐𝑒 𝑙𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑

Consideremos un test diagnóstico binario cuya exactitud se quiere evaluar con

respecto al gold estándar. Se define la variable aleatoria T como:

𝑇 = {1 𝑠𝑖 𝑒𝑙 𝑡𝑒𝑠𝑡 𝑑𝑖𝑎𝑔𝑛ó𝑠𝑡𝑖𝑐𝑜 𝑏𝑖𝑛𝑎𝑟𝑖𝑜 𝑑𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜0 𝑠𝑖 𝑒𝑙 𝑡𝑒𝑠𝑡 𝑑𝑖𝑎𝑔𝑛ó𝑠𝑡𝑖𝑐𝑜 𝑏𝑖𝑛𝑎𝑟𝑖𝑜 𝑒𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜

En la siguiente tabla recogemos las frecuencias absolutas observadas en la muestra

según los resultados de haber aplicado el test diagnóstico Binario (TDB) o el gold

estándar (GS).

Tabla 2: frecuencias absolutas de un test diagnóstico binario bajo un muestreo caso-control

Resultado del TDB

T=1 T=0

Verdadero estado (G.S)

D=1 𝑠1 𝑠0 𝐧𝟏

D=0 𝑟1 𝑟0 𝐧𝟐

𝑠1 + 𝑟1 𝑠0 + 𝑟0

En este caso, como ocurría en el muestreo transversal, si condicionamos las

frecuencias de la tabla a las frecuencias marginales del gold estándar, se deduce que las

frecuencias 𝑠1 y 𝑟0 siguen una distribución binomial: 𝑠1~𝐵(n1, 𝑆𝑒) y 𝑟0~𝐵𝑖(n2, 𝑆𝑝).

Esto nos permite definir estimadores puntuales como en el epígrafe anterior para los

Evaluación y comparación de Test Diagnósticos Binarios

13

parámetros de la sensibilidad y especificidad, sin más que sustituyendo r por n2 y s por

n1:

𝑆�̂� =𝑠1

n1; 𝑆�̂� =

𝑟0

n2.

Además, se conocen sus varianzas estimadas:

𝑉𝑎�̂�(𝑆�̂�) =𝑆�̂�(1 − 𝑆�̂�)

n1;

𝑉𝑎�̂�(𝑆�̂�) =𝑆�̂�(1 − 𝑆�̂�)

n2 .

Estas estimaciones nos permiten definir el intervalo score modificado (Yu,W., et al.,

(2014)) para Se y Sp:

𝑆𝑒 ∈ 0.5 +n1+

𝑧1−

𝛼2

4

53

n1+𝑧1−

𝛼2

2 (𝑆�̂� − 0.5) ±𝑧1−𝛼/2

𝑠+𝑧1−

𝛼2

2√𝑆�̂�(1 − 𝑆�̂�)n1 +

𝑧1−

𝛼2

2

4,

𝑆𝑝 ∈ 0.5 +n2+

𝑧1−

𝛼2

4

53

n2+𝑧1−

𝛼2

2 (𝑆�̂� − 0.5) ±𝑧1−𝛼/2

n2+𝑧1−

𝛼2

2√𝑆�̂�(1 − 𝑆�̂�)n2 +

𝑧1−

𝛼2

2

4.

Donde 𝑧1−𝛼/2 es el percentil 100(1 − 𝛼)% de la distribución normal de media 0 y

desviación típica 1. Además, estos intervalos sólo son válidos si n1, n2 ≥ 10.

2.4. Programa en R.

Creamos una función en R que recoge las estimaciones de los parámetros de

sensibilidad y especificidad de un test diagnóstico binario. A esta función la denotamos

Evaluación y comparación de Test Diagnósticos Binarios

14

‘eetdb’ (Estimación de la Exactitud de un Test Diagnóstico Binario). Se consideran

como inputs aquellas frecuencias que hemos recogido en la tabla: 𝑠1, 𝑠0, 𝑟1 y 𝑟0.

En primer lugar, se comprueba que los datos son correctos dado que:

- El nivel de confianza considerado debe tomar un valor entre 0 y 1.

- Los parámetros no pueden tomar valores negativos.

- Los parámetros representan frecuencias absolutas, por lo que vienen

dados por valores enteros positivos.

- Los parámetros 𝑟1 y 𝑠0 no pueden ser nulos.

A continuación se definen las variables adicionales que van a ser empleadas en el

cálculo de las estimaciones puntuales e intervalo score modificado para la Sensibilidad

y la Especificidad, como son:

𝑧1−𝛼/2, 𝑛 = 𝑠1 + 𝑠0 + 𝑟1 + 𝑟0, 𝑠𝑠 = 𝑠1 + 𝑠0, 𝑟𝑟 = 𝑟1 + 𝑟0,

𝑝 = 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑖𝑎.

Finalmente, la función aquí definida devuelve las estimaciones puntuales y el

intervalo score modificado para Se y Sp, apoyándose en las expresiones planteadas en el

epígrafe anterior.

2.5. Ejemplo.

Sobre una muestra de 300 individuos (Yee et al., 2001) se ha evaluado el

rendimiento de la colonografía tomográfica computada, dado por la variable T, en el

diagnóstico de la neoplasia colorectal (variable D). En la siguiente tabla se exponen los

resultados.

Tabla 3: frecuencias del Ejemplo 1

Resultado de colonografía tomográfica computada

T=1 T=0 TOTAL

Resultados colonoscopia

D=1 164 18 182

D=0 33 85 118

TOTAL 197 103 300

Evaluación y comparación de Test Diagnósticos Binarios

15

Para ejecutar el programa definido en el apartado anterior, en primer lugar se

identifican los inputs de la función eetdb:

s1 =164 s0 = 18

r1 = 33 r0 = 85

Definimos tales parámetros en R:

> s1<-164

> s0 <- 18

> r1 <- 33

> r0 <- 85

Y por último utilizamos la función con estos inputs:

> eetdb (s1,s0,r1,r0, alpha =0.95)

Cuyo resultado es el siguiente:

SENSIBILIDAD Y ESPECIFICIDAD

La estimación de la sensibilidad es 90.10989 % y su error estándar es 0.02212846

El intervalo de confianza score modificado al 95 % de confianza para la sensibilidad

es: (0.849695; 0.9371227 )

El intervalo de confianza de Agresti y Coull al 95 % de confianza para la

sensibilidad es: (0.8479539; 0.9369924 )

La estimación de la especificidad es 72.0339 % y su error estándar es 0.04131839

El intervalo de confianza score modificado al 95 % de confianza para la

especificidad es: (0.6338977; 0.7938935 )

El intervalo de confianza de Agresti y Coull al 95 % de confianza para la

especificidad es: (0.6328542; 0.7933753 )

Evaluación y comparación de Test Diagnósticos Binarios

16

Un test diagnóstico con sensibilidad alta pero baja especificidad conlleva la

responsabilidad de informar erróneamente a pacientes enfermos, por lo cual, este tipo de

test diagnósticos precisan de una segunda prueba que confirme el verdadero estado del

paciente o bien que corrija el error. La situación ideal sería un test diagnóstico con el

100% de acierto, pero la falta de realidad de este tipo de resultado nos lleva a aplicar un

segundo test diagnóstico cuyas características sean opuestas al primero, es decir, baja

sensibilidad y alta especificidad. De esta forma, se consigue corregir los falsos positivos

e informar de manera fiable al individuo.

A la vista de los resultados del estudio presentado, los parámetros toman valores

elevados, superando el 70% tanto la sensibilidad como la especificidad. Este hecho

informa sobre la validez de la Colonografía por Tomografía Computarizada

(Colonoscopia Virtual) como test diagnóstico para el diagnóstico de la neoplasia

colorectal.

Evaluación y comparación de Test Diagnósticos Binarios

17

3. Comparación de dos Test Diagnósticos Binarios.

3.1. Introducción.

Una vez expuesta la evaluación de los resultados para un test diagnóstico binario,

procedemos a la comparación de la exactitud de 2 o más test diagnósticos binarios

diferentes. Este es un paso muy importante en el diagnóstico de un individuo y la

evaluación de nuevas pruebas diagnósticas. Esta comparación se lleva a cabo de forma

que se aplican dos test diagnósticos binarios y un gold estándar a una muestra de

individuos de la población bajo estudio.

Para este proceso se tendrá en cuenta si el diseño del estudio es apareado o de caso-

control. Además, continuamos con el análisis mediante los parámetros de Sensibilidad y

Especificidad.

En la línea del presente trabajo, consideraremos que todos los individuos han sido

verificados por gold estándar, es decir, nos encontramos en una situación de verificación

completa, lo cual nos permite definir la sensibilidad y especificidad de cada uno de los

test aplicados como una proporción binomial. Por tanto, la comparación se reduce a

aplicar un test de hipótesis para comparar dos proporciones binomiales.

3.2. Comparación bajo un diseño apareado.

Un diseño es apareado cuando se aplican todos los test diagnósticos binarios bajo

estudio, además del gold estándar, a cada uno de los individuos de la muestra de tamaño

n.

Con esto, obtenemos una tabla 2x4, organizada como sigue:

Tabla 4: frecuencias absolutas para comparar 2 TDB bajo un diseño apareado

T1=1 T1=0

T2=1 T2=0 T2=1 T2=0 Total

Resultado Gold

Standard

D=1 𝑠11 𝑠10 𝑠01 𝑠00 s

D=0 𝑟11 𝑟10 𝑟01 𝑟00 r

TOTAL 𝑛11 𝑛10 𝑛01 𝑛00 n

Evaluación y comparación de Test Diagnósticos Binarios

18

Las frecuencias que se resumen en esta tabla, siguen una distribución multinomial.

Las probabilidades teóricas que resultan al aplicar dos test binarios a una muestra se

presentan en la siguiente tabla:

Tabla 5: probabilidades al aplicar 2 TDB a una muestra apareada

T1=1 T1=0

T2=1 T2=0 T2=1 T2=0 Total

Resultado Gold

Standard

D=1 𝑝11 𝑝10 𝑝01 𝑝00 p

D=0 𝑞11 𝑞10 𝑞01 𝑞00 q

TOTAL 𝑝11 + 𝑞11 𝑝10 + 𝑞10 𝑝01 + 𝑞01 𝑝00 + 𝑞00 1

A partir de esta tabla se puede hallar los valores de para la sensibilidad y

especificidad del test 1, denotado por su subíndice, y para el test 2 mediante las

siguientes expresiones:

𝑆𝑒1 =𝑝11 + 𝑝10

𝑝; 𝑆𝑝1 =

𝑞11 + 𝑞10

𝑞;

𝑆𝑒2 =𝑝11 + 𝑝01

𝑝; 𝑆𝑝2 =

𝑞00 + 𝑞01

𝑞.

Para contrastar la igualdad de las sensibilidades de ambos test, se considera la

equivalencia entre test de hipótesis:

{𝐻0: 𝑆𝑒1 = 𝑆𝑒2

𝐻1: 𝑆𝑒1 ≠ 𝑆𝑒2↔ {

𝐻0: 𝑝11 + 𝑝10 = 𝑝11 + 𝑝01

𝐻1: 𝑝11 + 𝑝10 ≠ 𝑝11 + 𝑝01↔ {

𝐻0: 𝑝10 = 𝑝01

𝐻1: 𝑝10 ≠ 𝑝01

Por tanto, si se condiciona en los pares discordantes, se tiene

Evaluación y comparación de Test Diagnósticos Binarios

19

𝑝10 = 𝑝01 → 𝑝10 = 𝑝01 = 0.5.

Lo cual nos lleva a una última equivalencia para realizar el contraste del test

hipótesis de igualdad de sensibilidades, que no es más que un test de hipótesis para una

proporción binomial:

{𝐻0: 𝑝10 = 0.5𝐻1: 𝑝10 ≠ 0.5

Retomando la tabla de frecuencias, se deduce que bajo la hipótesis nula se verifica

𝑠10~𝐵𝑖(𝑠10 + 𝑠01, 0.5). Es más, si 𝑠10+𝑠01

2> 5, entonces 𝑠10~𝑁(

𝑠10+𝑠01

2, √

𝑠10+𝑠01

4).

Así, si 𝑠10 + 𝑠01 > 10, el estadístico para el contraste es:

𝑧𝑒𝑥𝑝 =|𝑠10 − 𝑠01| − 1

√𝑠10 + 𝑠01

~𝑁(0,1).

Este test de hipótesis se denomina Test de McNemar.

Análogamente, para contrastar la igualdad de las especificidades de los 2 test bajo

estudio, se realiza el test:

{𝐻0: 𝑆𝑝1 = 𝑆𝑝2

𝐻1: 𝑆𝑝1 ≠ 𝑆𝑝2↔ {

𝐻0: 𝑞10 = 0.5𝐻1: 𝑞10 ≠ 0.5

Aplicando el test de McNemar, si 𝑟10 + 𝑟01 > 10, el estadístico de contraste viene

dado por la expresión:

Evaluación y comparación de Test Diagnósticos Binarios

20

𝑧𝑒𝑥𝑝 =|𝑟10 − 𝑟01| − 1

√𝑟10 + 𝑟01

~𝑁(0,1).

En este tipo de muestreo, el intervalo de confianza Wald+2 se distingue por tener un

mejor comportamiento asintótico que el resto. Este intervalo de confianza para la

diferencia viene dado por la expresión:

𝑆𝑒1 − 𝑆𝑒2 ∈𝑠10 + 𝑠01

𝑠 + 2± 𝑧

1−𝛼2

√(𝑠10 + 𝑠01 + 1) −(𝑠10 − 𝑠01)2

𝑠 + 2

𝑠 + 2;

𝑆𝑝1 − 𝑆𝑝2 ∈𝑟10 + 𝑟01

𝑟 + 2± 𝑧

1−𝛼2

√(𝑟10 + 𝑟01 + 1) −(𝑟10 − 𝑟01)2

𝑟 + 2

𝑟 + 2.

- Test exacto de Fisher

En el test exacto de Fisher se define la hipótesis nula como independencia en valor

de la proporción que toman 2 variables. Este test se basa en la distribución

hipergeométrica. Dado una muestra de tamaño n, la tabla se organiza de forma que:

𝑎1 = min {𝑠10, 𝑠01}, 𝑎2 = max {𝑠10, 𝑠01} , 𝑏1 = min {𝑟10, 𝑟01} y 𝑏2 = max{𝑟10, 𝑟01}.

Consideremos, a partir de la Tabla 4, las siguientes expresiones para la sensibilidad

y especificidad de los dos test diagnósticos en términos de proporciones:

Evaluación y comparación de Test Diagnósticos Binarios

21

𝑆𝑒1 =𝑠11 + 𝑠10

𝑠; 𝑆𝑝1 =

𝑟11 + 𝑟10

𝑟;

𝑆𝑒2 =𝑠11 + 𝑠01

𝑠; 𝑆𝑝2 =

𝑟00 + 𝑟01

𝑟.

Para contrastar la igualdad de las sensibilidades de ambos test, hemos visto que,

apoyándonos en los resultados discordantes, existe equivalencia entre los test de

hipótesis:

{𝐻0: 𝑆𝑒1 = 𝑆𝑒2

𝐻1: 𝑆𝑒1 ≠ 𝑆𝑒2↔ {

𝐻0: 𝑝10 = 𝑝01

𝐻1: 𝑝10 ≠ 𝑝01→ {

𝐻0: 𝑝10 − 𝑝01 = 0𝐻1: 𝑝10 − 𝑝01 ≠ 0

Análogamente para la especificidad se tiene la equivalencia:

{𝐻0: 𝑆𝑝1 = 𝑆𝑝2

𝐻1: 𝑆𝑝1 ≠ 𝑆𝑝2↔ {

𝐻0: 𝑞10 − 𝑞01 = 0𝐻1: 𝑞10 − 𝑞01 ≠ 0

Recordemos que el test de Fisher nos informa del p-valor, el cual es obtenido

sumando todas las probabilidades obtenidas de cada una de las tablas construidas

manteniendo fijos los parámetros 𝑎1, 𝑎2, 𝑏1y 𝑏2 y combinando los otros elementos de la

tabla. La probabilidad asociada a cada una de esas tablas obtenidas, se calcula mediante

la siguiente fórmula:

𝑝 =𝑎1! 𝑎2! 𝑏1! 𝑏2!

𝑠10! 𝑠01! 𝑠10! 𝑠01! 𝑛!.

De esta forma, el p-valor para el test exacto se obtiene como la suma de todas las

probabilidades menores o iguales que la probabilidad asociada a la tabla del problema.

Evaluación y comparación de Test Diagnósticos Binarios

22

3.3. Comparación bajo un diseño caso-control.

Bajo un muestreo caso-control, se toman dos muestras, una de tamaño 𝑛1 sobre los

individuos que padecen la enfermedad bajo estudio y otra de tamaño 𝑛2 de individuos

sanos. Nótese que el estado de los individuos se conoce gracias a la aplicación de un

gold estándar. A ambas muestras se les aplica ambos test diagnósticos binarios, para

determinar su grado de exactitud.

De esta forma, se define D como una variable aleatoria de estado que toma los

valores:

𝐷 = {1 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 𝑝𝑎𝑑𝑒𝑐𝑒 𝑙𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑

0 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 𝑛𝑜 𝑝𝑎𝑑𝑒𝑐𝑒 𝑙𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑

Para cada uno de los test cuya exactitud se quiere conocer, se define una variable

binaria que determina el resultado binario del test en cuestión. Se define la variable

aleatoria T1 como aquella que recoge los resultados del primer test diagnóstico:

𝑇1 = {1 𝑠𝑖 𝑒𝑙 𝑡𝑒𝑠𝑡 𝑑𝑖𝑎𝑔𝑛ó𝑠𝑡𝑖𝑐𝑜 𝑏𝑖𝑛𝑎𝑟𝑖𝑜 𝑑𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜0 𝑠𝑖 𝑒𝑙 𝑡𝑒𝑠𝑡 𝑑𝑖𝑎𝑔𝑛ó𝑠𝑡𝑖𝑐𝑜 𝑏𝑖𝑛𝑎𝑟𝑖𝑜 𝑒𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜

Y, análogamente, T2 como aquella que recoge los resultados del otro test diagnóstico

bajo estudio:

𝑇2 = {1 𝑠𝑖 𝑒𝑙 𝑡𝑒𝑠𝑡 𝑑𝑖𝑎𝑔𝑛ó𝑠𝑡𝑖𝑐𝑜 𝑏𝑖𝑛𝑎𝑟𝑖𝑜 𝑑𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜0 𝑠𝑖 𝑒𝑙 𝑡𝑒𝑠𝑡 𝑑𝑖𝑎𝑔𝑛ó𝑠𝑡𝑖𝑐𝑜 𝑏𝑖𝑛𝑎𝑟𝑖𝑜 𝑒𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜

T1=1 T1=0

T2=1 T2=0 T2=1 T2=0 Total

Resultado

Gold

Standard

D=1 𝑠11 𝑠10 𝑠01 𝑠00 𝒏𝟏

D=0 𝑟11 𝑟10 𝑟01 𝑟00 𝒏𝟐

TOTAL 𝑠11 + 𝑟11 𝑠10 + 𝑟10 𝑠01 + 𝑟01 𝑠00 + 𝑟00

Evaluación y comparación de Test Diagnósticos Binarios

23

En este caso, como ocurría en el muestreo apareado, si condicionamos las

frecuencias de la tabla a los estados verdaderos de los individuos, se deduce que las

frecuencias 𝑠11 + 𝑠01 y 𝑟10 + 𝑟00 siguen una distribución binomial:

𝑠11 + 𝑠01~𝐵(n1, 𝑆𝑒) y 𝑟10 + 𝑟00~𝐵𝑖(n2, 𝑆𝑝).

Esto nos permite definir estimadores puntuales como en el epígrafe anterior para los

parámetros de la sensibilidad y especificidad, sin más que sustituir r por n2 y s por n1.

Las frecuencias que se resumen en esta tabla, siguen una distribución multinomial.

Las probabilidades teóricas que resultan al aplicar dos test binarios a una muestra se

pueden resumir como sigue:

𝑝𝑖𝑗 =𝑠𝑖𝑗

𝑛1 + 𝑛2,

𝑞𝑖𝑗 =𝑟𝑖𝑗

𝑛1 + 𝑛2.

A partir de estas proporciones se puede hallar los valores de para la sensibilidad y

especificidad del test 1, denotado por su subíndice, y para el test 2 mediante las

siguientes expresiones:

𝑆𝑒1 =𝑝11 + 𝑝10

𝑛1

𝑛1 + 𝑛2

; 𝑆𝑝1 =𝑞11 + 𝑞10

𝑛2

𝑛1 + 𝑛2

;

𝑆𝑒2 =𝑝11 + 𝑝01

𝑛1

𝑛1 + 𝑛2

; 𝑆𝑝2 =𝑞00 + 𝑞01

𝑛2

𝑛1 + 𝑛2

.

Evaluación y comparación de Test Diagnósticos Binarios

24

O bien,

𝑆𝑒1 =𝑠11 + 𝑠10

𝑛1; 𝑆𝑝1 =

𝑟11 + 𝑟10

𝑛2;

𝑆𝑒2 =𝑠11 + 𝑠01

𝑛1; 𝑆𝑝2 =

𝑟00 + 𝑟01

𝑛2.

Para contrastar la igualdad de las sensibilidades de ambos test, se consideran las

equivalencias:

{𝐻0: 𝑆𝑒1 = 𝑆𝑒2

𝐻1: 𝑆𝑒1 ≠ 𝑆𝑒2↔ {

𝐻0: 𝑝11 + 𝑝10 = 𝑝11 + 𝑝01

𝐻1: 𝑝11 + 𝑝10 ≠ 𝑝11 + 𝑝01↔ {

𝐻0: 𝑝10 = 𝑝01

𝐻1: 𝑝10 ≠ 𝑝01

De esta forma, condicionando en los pares discordantes, se tiene

𝑝10 = 𝑝01 → 𝑝10 = 𝑝01 = 0.5.

Lo cual nos lleva a una última equivalencia para realizar el contraste del test

hipótesis de igualdad de sensibilidades, que no es más que un test de hipótesis para una

proporción binomial:

{𝐻0: 𝑝10 = 0.5𝐻1: 𝑝10 ≠ 0.5

Volviendo a la tabla de frecuencias, bajo la hipótesis nula se verifica

𝑠10~𝐵𝑖(𝑠10 + 𝑠01, 0.5).

Evaluación y comparación de Test Diagnósticos Binarios

25

Es más, si 𝑠10+𝑠01

2> 5, entonces 𝑠10~𝑁(

𝑠10+𝑠01

2, √

𝑠10+𝑠01

4).

Por tanto, si 𝑠10 + 𝑠01 > 10, se tiene que el estadístico para el contraste viene dado

por:

𝑧𝑒𝑥𝑝 =|𝑠10 − 𝑠01| − 1

√𝑠10 + 𝑠01

~𝑁(0,1).

Análogamente, para contrastar la igualdad de las especificidades de los 2 test bajo

estudio, se realiza el test:

{𝐻0: 𝑆𝑝1 = 𝑆𝑝2

𝐻1: 𝑆𝑝1 ≠ 𝑆𝑝2↔ {

𝐻0: 𝑞10 = 0.5𝐻1: 𝑞10 ≠ 0.5

Siguiendo la línea utilizada para deducir el estadístico de contraste para la

sensibilidad se tiene que si 𝑟10 + 𝑟01 > 10, entonces el estadístico de contraste viene

dado por:

𝑧𝑒𝑥𝑝 =|𝑟10 − 𝑟01| − 1

√𝑟10 + 𝑟01

~𝑁(0,1).

El intervalo de confianza Wald+2 para la diferencia viene dado por la expresión:

𝑆𝑒1 − 𝑆𝑒2 ∈𝑠10 + 𝑠01

𝑛1 + 2± 𝑧

1−𝛼2

√(𝑠10 + 𝑠01 + 1) −(𝑠10 − 𝑠01)2

𝑛1 + 2

𝑛1 + 2.

Evaluación y comparación de Test Diagnósticos Binarios

26

𝑆𝑝1 − 𝑆𝑝2 ∈𝑟10 + 𝑟01

𝑛2 + 2± 𝑧

1−𝛼2

√(𝑟10 + 𝑟01 + 1) −(𝑟10 − 𝑟01)2

𝑛2 + 2

𝑛2 + 2.

3.4. Programa en R

Creamos una función en R que recoge las estimaciones de los parámetros de

sensibilidad y especificidad de un test diagnóstico binario. A esta función la denotamos

‘ctdb’ (Comparación de la exactitud de dos Test Diagnósticos Binarios). Se consideran

como inputs aquellas frecuencias que hemos recogido en la tabla: 𝑠11, 𝑠10, 𝑠01,

𝑠00, 𝑟11, 𝑟10, 𝑟01, 𝑟00, 𝑎𝑙𝑝ℎ𝑎.

En primer lugar, se comprueba que los datos son correctos dado que:

- El nivel de confianza considerado debe tomar un valor entre 0 y 1.

- Los parámetros no pueden tomar valores negativos.

- Los parámetros representan frecuencias absolutas, por lo que vienen

dados por valores enteros positivos.

- Las sumas s11 + s10 + s01 + s00 o r11 + r10 + r01 + r00 no pueden ser

nulas.

A continuación se definen las variables adicionales que van a ser empleadas en el

cálculo de las estimaciones puntuales e intervalo score modificado para la Sensibilidad

y la Especificidad, como son:

El nivel de confianza, 1-alpha, para conocer el valor de z1−α/2 y ss = s11 +

s10 + s01 + s00, rr = r11 + r10 + r01 + r00 . Además se reorganiza la taba

de forma que a1=min(s10, s01), a2 = max(s10, s01), b1 = min(r10, r01) y b2 =

max(r10, r01)

Finalmente, la función aquí definida devuelve las estimaciones puntuales para Se y

Sp de los dos test diagnósticos binarios bajo estudio, apoyándose en las expresiones

planteadas en el epígrafe anterior. Además, para llevar a cabo la comparación entre las

sensibilidades y especificidades de los test diagnósticos, se define el test exacto de

Evaluación y comparación de Test Diagnósticos Binarios

27

Fisher y el test de McNemar como se han expuesto anteriormente, al igual que se

calcula el intervalo de confianza Wald+2 para cada uno de los parámetros en cuestión.

3.5. Ejemplo.

Se ha estudiado el diagnóstico de la enfermedad coronario en 1465 individuos

(Weiner et al., (1979)) aplicando dos tests y un gold estándar. Para ello, se consideran

como tests diagnósticos el test de ejercicio, cuyos resultados se muestran bajo la

variable binaria T1, y la historia clínica, denotada por la variable binaria T2. Además, se

considera como gold estándar la angiografía coronaria, cuyos resultados los recoge la

variable D. En la siguiente tabla se exponen los resultados.

T1=1 T1=0

T2=1 T2=0 T2=1 T2=0 Total

Resultado Gold

Standard

D=1 786 29 183 25 1023

D=0 69 46 176 151 442

TOTAL 855 75 359 176 1465

Para ejecutar el programa definido en el apartado anterior, en primer lugar se

identifican los inputs de la función ctdb:

s11=786 s10=29 s01=183 s00=25

r11=69 r10=46 r01=176 r00=151

Definimos tales parámetros en R:

> s11<-786;

> s10<-29;

> s01<-183;

> s00<-25;

> r11<-69;

> r10<-46;

Evaluación y comparación de Test Diagnósticos Binarios

28

> r01<-176;

> r00<-151;

Y por último utilizamos la función con estos inputs:

> ctdb(s11, s10, s01, s00, r11, r10, r01, r00, alpha = 0.05)

Cuyo resultado es el siguiente:

COMPARACIÓN DE LAS SENSIBILIDADES

La sensibilidad estimada del Test 1 es 79.66764 % y su error estándar es 0.01258337

La sensibilidad estimada del Test 2 es 94.7214 % y su error estándar es 0.006991097

Test Exacto de Fisher: El p-valor del test exacto de Fisher a dos colas es 0

Test de McNemar: El valor del estadístico de contraste es 10.50808 y el p-valor a

dos colas es 0

El intervalo de confianza Wald + 2 para la diferencia Se2 - Se1 al 95 % de

confianza es: (0.1238961 ; 0.1765917)

COMPARACIÓN DE LAS ESPECIFICIDADES

La especificidad estimada del Test 1 es 73.9819 % y su error estándar es 0.02086841

La especificidad estimada del Test 2 es 44.57014 % y su error estándar es

0.02364192

Test Exacto de Fisher: El P-valor a dos colas del test exacto de Fisher es 0

Test de McNemar: El valor del estadístico de contraste del test de McNemar es

8.657913 y el P-valor a dos colas es 0

El intervalo de confianza Wald + 2 para la diferencia Sp1 - Sp2 al 95 % de

confianza es: (0.2327616 ; 0.352824 )

Ya hemos visto en el ejemplo anterior que la situación ideal es encontrar un test

diagnóstico con valores altos de especificidad y sensibilidad. En este caso, al comparar

dos test diagnósticos, será preferible aquel que tenga una mayor sensibilidad y

Evaluación y comparación de Test Diagnósticos Binarios

29

especificidad. En este caso, nos enfrentamos a 2 test contrapuestos. El primero presenta

sensibilidad y especificidad superiores al 70% mientras el segundo test diagnóstico se

caracteriza por una alta sensibilidad (94, 72%) que se contrapone a una baja

especificidad (44.57%). Al comparar los valores de ambos parámetros entre sí, resulta

que en el caso de la sensibilidad, el test 2 supera al test 1, sin embargo ocurre lo

contrario con los valores alcanzados en cuanto a la especificidad. Por otra parte,

observando los valores que toman ambos parámetros en cada uno de los test

diagnósticos estudiados, nos lleva a tomar el test de ejercicio (T1) como prueba

diagnóstica más fiable que la historia clínica (T2), pues mantiene elevados sus valores

de especificad y sensibilidad.

El p-valor obtenido mediante el test exacto de Fisher en la comparación de la

sensibilidad, (p-valor = 0<0.05) indica que la especificidad del diagnóstico difiere de

forma significativa entre los test diagnósticos: el test de ejercicio y la historia clínica. Lo

mismo ocurre al comparar la especificidad, por lo que se podría concluir que los test

aportan resultados significativamente distintos.

Evaluación y comparación de Test Diagnósticos Binarios

30

4. Conclusiones

A lo largo del presente trabajo, se ha presentado una revisión de las técnicas

empleadas para el análisis de test diagnósticos binarios.

En primer lugar se han presentado los distintos parámetros que se utilizan

habitualmente para evaluar la calidad de un test diagnóstico binario. El potencial de un

test se puede cuantificar con distintas medidas como: la sensibilidad y especificidad, los

valores predictivos (VP), razones de verosimilitud (LR), el área bajo la curva ROC

(AUC), el Índice de Youden y odds-ratio (OR). En particular, para el desarrollo del

trabajo, nos hemos basado en la sensibilidad (Se) y la especificidad (Sp).

Para estos dos parámetros, se han expuesto contrastes que permiten evaluar la calidad

de un test diagnóstico binario en base a los valores de la sensibilidad y la especificidad,

en un muestreo transversal y en el caso de un muestreo del tipo caso-control mediante

un intervalo de confianza denominado intervalo score modificado.

Por otra parte, para comparar 2 test diagnósticos binarios, se tendrá en cuenta si el

diseño del estudio es apareado o de caso-control. Para ello, se expone el test de

McNemar, Wald+2 y el test exacto de Fisher para estudios apareados; mientras que para

el diseño de caso-control sólo se presenta el intervalo Wald+2.

En todo caso, se supone que todos los individuos han sido verificados por un test

gold estándar. Además, se han programado en R los distintos intervalos presentados en

cada caso. Estos programas han sido ejecutados para evaluar unos ejemplos a modo de

prueba.

Evaluación y comparación de Test Diagnósticos Binarios

31

5. Bibliografía

Agresti, A. (2002). Categorical Data Analysis. Nueva York: John Wiley and Sons.

Kassirer JP. (1989). Our stubborn quest for diagnostic certainty. A cause of excessive

testing. N Engl J Med, 320:1489-91.

Kraemer, HC. (1992). Evaluating Medical Tests. Newburry Park :SAGE Publications.

Martín Andrés, A. y Luna del Castillo, J. de D. (2004). Bioestadística para las Ciencias

de la Salud. Madrid: Capitel.

McNeil, B.J., Hessel, S.J., Branch, W.T., Bjork, L, Adelstein, S.J. (1976). Measures of

clinical efficacy. III. The value of the lung scan in the evaluation of young

patients with pleuritic chest pain. Journal of Nuclear Medicine: Official

Publication, Society of Nuclear Medicine, 17(3): 163-169.

Mehta CR; NR Patel (1980). A network algorithm for the exact treatment of the 2x K

contingency table. Commun Statist, 9: 649-664.

Mehta CR; NR Patel (1986a). FEXACT: a Fortran subroutine for Fisher’s exact test on

unordered rxc contingency tables. ACM Trans Math Software, 12: 154-161.

Mehta CR; NR Patel (1986b). A hybrid algorithm for Fisher’s exact test in unordered

rxc contingency tables. Commun Statist, 15: 387-403.

Pepe, M.S. (2003). The Statistical Evaluation of Medical Tests of Classification and

Prediction. Oxford: Oxford University Press.

Sox, H.C. Jr., Koran, L.M, Sox, C.H., et al. (1989). A medical algorithm for detecting

physical disease in psychiatric patients. Journal of Hospital and Community

Psychiatry, 40:1270-1276.

Weiner DA, Ryan TJ, McCabe, CH, Kennedy JW, Schloss, M, Tristani F, Chaitman

BR, Fisher LD (1979).Exercise stress testing. Correlations among history of

angina, ST-segmant response and prevalence of coronary-artery disease in the

Evaluación y comparación de Test Diagnósticos Binarios

32

coronary artery surgery study (CASS). The New England Journal of Medicine

301:230-235.

Yee J, Akerkar GA, Hung RK, Steinauer-Gebauer AM, Wall SD, McQuaid KR (2001).

Colerectal neoplasia: performance characteristics of CT colonography for

detection in 300 patients. Radiology 219: 685-692.

Yu,W., Gou, X., Xu, W.,(2014). An improved score interval with a modified midpoint

for a binomial proportion. Journal of Statistical Computation and Simulation,

84: 1022-1038.

Zhou XH., Obuchowski, N.A., McClish, D.K., (2002). Statistical Methods in

Diagnostic Medicine. New York: John Wiley and Sons.

Evaluación y comparación de Test Diagnósticos Binarios

33

Evaluación y comparación de Test Diagnósticos Binarios

34

Anexo I

Definición de la función para la evaluación de un test diagnóstico binario:

eetdb <- function (s1, s0, r1, r0, conf = 0.95)

{

if (conf >= 1 | conf <= 0)

{

stop("El nivel de confianza debe estar entre 0 y 1. Introduce un nuevo

valor \n")

}

if (s1 < 0 | s0 < 0 | r1 < 0 | r0 < 0)

{

stop("Las frecuencias observadas no pueden ser valores negativos.

Introduce nuevos valores \n")

}

if (abs(s1 - trunc (s1)) > 0 | abs(s0 - trunc (s0)) > 0 | abs(r1 - trunc (r1)) > 0

| abs(r0 - trunc (r0)) > 0)

{

stop("Las frecuencias observadas tienen que ser valores enteros

positivos. Introduce nuevos valores \n")

}

if (s0 == 0 && r1 == 0)

{

stop("Las frecuencias s0 y r1 no pueden ser 0. Introduce nuevos valores

\n")

}

Evaluación y comparación de Test Diagnósticos Binarios

35

z = qnorm (1 - (1-conf) / 2, 0, 1)

n <- s1 + s0 + r1 + r0

ss <- s1 + s0

rr <- r1 + r0

#Estimación de los parámetros

Se <- s1 / ss

Sp <- r0 / rr

Y <- Se + Sp - 1

if (Y <= 0)

{

stop("La estimación del índice de Youden tiene que ser mayor que 0.

Introduce nuevos valores \n")

}

p <- ss / n

#Intervalo score modificado para la sensibilidad

LSe <- 0.5 + ((ss + z^4 / 53) * (Se - 0.5)) / (ss + z^2) - (z / (ss + z^2)) * sqrt(ss

* Se * (1 - Se) + z^2 / 4)

USe <- 0.5 + ((ss + z^4 / 53) * (Se - 0.5)) / (ss + z^2) + (z / (ss + z^2)) *

sqrt(ss * Se * (1 - Se) + z^2 / 4)

#Intervalo Agresti-Coull

Evaluación y comparación de Test Diagnósticos Binarios

36

LSeAC <- ((s1 + 2) / (ss + 4)) - (z / (ss + 4)) * sqrt((s1 + 2) * (s0 + 2) / (ss +

4))

USeAC <- ((s1 + 2) / (ss + 4)) + (z / (ss + 4)) * sqrt((s1 + 2) * (s0 + 2) / (ss +

4))

#Intervalo score modificado para la especificidad

LSp <- 0.5 + ((rr + z^4 / 53) * (Sp - 0.5)) / (rr + z^2) - (z / (rr + z^2)) *

sqrt(rr * Sp * (1 - Sp) + z^2 / 4)

USp <- 0.5 + ((rr + z^4 / 53) * (Sp - 0.5)) / (rr + z^2) + (z / (rr + z^2)) *

sqrt(rr * Sp * (1 - Sp) + z^2 / 4)

#Intervalo Agresti-Coull

LSpAC <- ((r0 + 2) / (rr + 4)) - (z / (rr + 4)) * sqrt((r0 + 2) * (r1 + 2) / (rr +

4))

USpAC <- ((r0 + 2) / (rr + 4)) + (z / (rr + 4)) * sqrt((r0 + 2) * (r1 + 2) / (rr +

4))

#Resultados

cat("\n")

cat(" SENSIBILIDAD Y ESPECIFICIDAD \n")

cat("\n")

cat("La estimación de la sensibilidad es ",100 * Se,"% y su error estándar

es ", sqrt(VarSe), "\n")

cat("\n")

cat("El intervalo de confianza score modificado al ",100 * conf,"% de

confianza para la sensibilidad es: (", LSe," ; ", USe,") \n")

cat("\n")

cat("El intervalo de confianza de Agresti y Coull al ",100 * conf,"% de

confianza para la sensibilidad es: (", LSeAC," ; ", USeAC,") \n")

cat("\n")

Evaluación y comparación de Test Diagnósticos Binarios

37

cat("La estimación de la especificidad es ",100 * Sp,"% y su error estándar

es ", sqrt(VarSp), "\n")

cat("\n")

cat("El intervalo de confianza score modificado al ",100 * conf,"% de

confianza para la especificidad es: (", LSp," ; ", USp,") \n")

cat("\n")

cat("El intervalo de confianza de Agresti y Coull al ",100 * conf,"% de

confianza para la especificidad es: (", LSpAC," ; ", USpAC,") \n")

cat("\n")

}

Evaluación y comparación de Test Diagnósticos Binarios

38

Anexo II

Definimos la función para la comparación de 2 test diagnósticos Binarios:

cetdbda <- function(s11, s10, s01, s00, r11, r10, r01, r00, alpha = 0.05)

{

if (s11 < 0 | s10 < 0 | s01 < 0 | s00 < 0 | r11 < 0 | r10 < 0 | r01 < 0 | r00 < 0)

{

cat("\n")

stop("Ninguna frecuencia puede ser negativa. Introduce nuevos valores

\n")

cat("\n")

}

if (abs(s00 - trunc (s00)) > 0 | abs(s01 - trunc (s01)) > 0 | abs(s10 - trunc

(s10)) > 0 | abs(s11 - trunc (s11)) > 0 | abs(r00 - trunc (r00)) > 0 | abs(r01 -

trunc (r01)) > 0 | abs(r10 - trunc (r10)) > 0 | abs(r11 - trunc (r11)) > 0)

{

cat("\n")

stop("Las frecuencias observadas no pueden tener decimales. Introduce

nuevos valores \n")

cat("\n")

}

if (alpha >= 1 | alpha <= 0)

{

cat("\n")

stop("El error alpha debe ser mayor que 0 y menor que 1. Introduce un

nuevo valor \n")

Evaluación y comparación de Test Diagnósticos Binarios

39

cat("\n")

}

if ((s11 + s10 + s01 + s00) == 0 | (r11 + r10 + r01 + r00) == 0)

{

cat("\n")

stop("La exactitud del test diagnóstico no se puede estimar. Hay

demasiadas frecuencias iguales a 0. Introduce nuevos valores \n")

cat("\n")

}

z <- qnorm(1 - alpha / 2, 0, 1)

conf <- 1 - alpha

ss <- s11 + s10 + s01 + s00

rr <- r11 + r10 + r01 + r00

Se1 <- (s11 + s10) / ss

VarSe1 <- Se1 * (1 - Se1) / ss

Se2 <- (s11 + s01) / ss

VarSe2 <- Se2 * (1 - Se2) / ss

Sp1 <- (r01 + r00) / rr

VarSp1 <- Sp1 * (1 - Sp1) / rr

Sp2 <- (r10 + r00) / rr

Evaluación y comparación de Test Diagnósticos Binarios

40

VarSp2 <- Sp2 * (1 - Sp2) / rr

Y1 <- Se1 + Sp1 - 1

Y2 <- Se2 + Sp2 - 1

if (Y1 <= 0)

{

cat("\n")

cat("El índice de Youden estimado del Test 1 es ",Y1, "\n")

cat("\n")

}

if (Y2 <= 0)

{

cat("\n")

cat("El índice de Youden estimado del Test 2 es ",Y2, "\n")

cat("\n")

}

if (Y1 <= 0 | Y2 <= 0)

{

cat("\n")

stop("El índice de Youden estimado de un Test Diagnóstico Binario debe

ser mayor que 0. Introduce nuevos valores \n")

cat("\n")

}

a1 <- min(s10, s01)

Evaluación y comparación de Test Diagnósticos Binarios

41

a2 <- max(s10, s01)

b1 <- min(r10, r01)

b2 <- max(r10, r01)

#Comparación de las dos sensibilidades

#Test exacto de Fisher

if (s10 - s01 == 0)

{

pvalor1 <- 1

}

else

{

pvalor1 <- sum (dbinom(0:a1, s10 + s01, 0.5)) + 1 – sum (dbinom(0:a2-1,

s10 + s01, 0.5))

}

#Test de McNemar

z1 <- (abs(s10 - s01) - 1) / sqrt(s10 + s01)

pvalor2 <- 2 * (1 - pnorm(z1, 0, 1))

#Intervalo de confianza Wald + 2

LSe <- (s10 - s01) / (ss + 2) - z * sqrt((s10 + s01 +1) - ((s10 - s01)^2 / (ss +

2))) / (ss + 2)

if (LSe < -1) {LSe <- -1}

USe <- (s10 - s01) / (ss + 2) + z * sqrt((s10 + s01 +1) - ((s10 - s01)^2 / (ss +

2))) / (ss + 2)

Evaluación y comparación de Test Diagnósticos Binarios

42

if (USe > 1) {USe <- 1}

#Comparación de las dos especificidades

#Test exacto de Fisher

if (r10 - r01 == 0)

{

pvalor3 <- 1

}

else

{

pvalor3 <- sum(dbinom(0:b1, r10 + r01, 0.5)) + 1 - sum(dbinom(0:b2-1,

r10 + r01, 0.5))

}

#Test de McNemar

z2 <- (abs(r01 - r10) - 1) / sqrt(r01 + r10)

pvalor4 <- 2 * (1 - pnorm(z2, 0, 1))

#Intervalo de confianza Wald + 2

LSp <- (r01 - r10) / (rr + 2) - z * sqrt((r01 + r10 +1) - ((r01 - r10)^2 / (rr +

2))) / (rr + 2)

if (LSp < -1) {LSp <- -1}

USp <- (r01 - r10) / (rr + 2) + z * sqrt((r01 + r10 +1) - ((r01 - r10)^2 / (rr +

2))) / (rr + 2)

if (USp > 1) {USp <- 1}

#Resultados

Evaluación y comparación de Test Diagnósticos Binarios

43

cat("\n")

cat(" COMPARACIÓN DE LAS SENSIBILIDADES \n")

cat("\n")

cat("La sensibilidad estimada del Test 1 es ",100 * Se1,"% y su error

estándar es", sqrt(VarSe1), "\n")

cat("\n")

cat("La sensibilidad estimada del Test 2 es ",100 * Se2,"% y su error

estándar es", sqrt(VarSe2), "\n")

cat("\n")

cat("Test Exacto de Fisher. El P-valor a dos colas del test exacto de Fisher

es ", pvalor1,"\n")

cat("\n")

if (s10 + s01 > 10)

{

cat("Test de McNemar. El valor del estadístico de contraste del test de

McNemar es ",z1," y el P-valor a dos colas es ", pvalor2,"\n")

}

cat("\n")

if (Se1 >= Se2)

{

cat("El IC Wald + 2 para Se1 - Se2 al ",100 * conf,"% de confianza es:

(", LSe," ; ", USe,") \n")

}

else

{

cat("El IC Wald + 2 para Se2 - Se1 al ",100 * conf,"% de confianza es:

(", -USe," ; ", -LSe,") \n")

}

cat("\n")

cat(" COMPARACIÓN DE LAS ESPECIFICIDADES \n")

cat("\n")

cat("La especificidad estimada del Test 1 es ",100 * Sp1,"% y su error

estándar es", sqrt(VarSp1), "\n")

cat("\n")

Evaluación y comparación de Test Diagnósticos Binarios

44

cat("La especificidad estimada del Test 2 es ",100 * Sp2,"% y su error

estándar es", sqrt(VarSp2), "\n")

cat("\n")

cat("Test Exacto de Fisher. El P-valor a dos colas del test exacto de Fisher

es ", pvalor3,"\n")

cat("\n")

if (r10 + r01 > 10)

{

cat("Test de McNemar. El valor del estadístico de contraste del test de

McNemar es ",z2," y el P-valor a dos colas es ", pvalor4,"\n")

}

cat("\n")

if (Sp1 >= Sp2)

{

cat("El IC Wald + 2 para Sp1 - Sp2 al ",100 * conf,"% de confianza es:

(", LSp," ; ", USp,") \n")

}

else

{

cat("El IC Wald + 2 para Sp2 - Sp1 al ",100 * conf,"% de confianza es:

(", -USp," ; ", -LSp,") \n")

}

cat("\n")

}