41
1 DEFINICIÓN Y GENERALIDADES DE UN TEST DIAGNOSTICO. Un test diagnóstico es un procedimiento por el cual afirmamos si un individuo tiene o no una cierta enfermedad; sin embargo este procedimiento no es seguro, de manera que es posible que se equivoque en los individuos realmente enfermos o en los individuos realmente sanos. Es decir está sujeto a error. Los tests diagnósticos son muy usados en la práctica médica, se suelen usar en la investigación de una población específica para manifestar la enfermedad y confirmar o desmentir el resultado de un diagnóstico provisional de un paciente. La interpretación de un test diagnóstico depende tanto de la habilidad intrínseca del propio test para discriminar a los individuos enfermos de los sanos como de las características particulares de cada individuo y del ambiente en el que se aplica el test. Los tests diagnósticos se pueden clasificar como binarios, cuantitativos (o continuos) y ordinales, según el resultado del test sea dicotómico, continuo (por ejemplo la medición del colesterol en sangre) y ordinal (por ejemplo una clasificación de la frecuencia de un comportamiento muy utilizada en psicología como: nunca, pocas veces, alguna vez y muchas veces). En la práctica los tests más comunes son los binarios. Debido a la importancia de los tests diagnósticos en la práctica médica aparece la necesidad de medir la precisión con la que el test discrimina a los individuos enfermos de los sanos. Para evaluar la exactitud de un test diagnóstico se necesita disponer de un estimador insesgado de la exactitud del test, para conseguir este estimador insesgado es necesario poder determinar el estado de salud verdadero (enfermo o sano) de cada paciente, independientemente del resultado del test. El procedimiento por el que se conoce el estado de salud verdadero de cada paciente es el “gold estándar”, que se supone es una prueba diagnóstica perfecta, por ejemplo una biopsia o una evaluación clínica. En esta introducción se estudiarán los parámetros y las estimaciones de estos parámetros de un test diagnóstico binario cuando todos los sujetos tienen verificado su verdadero estado de enfermedad. Tests diagnósticos binarios. Se consideran así a los tests diagnósticos cuyo resultado es o la indicación de la presencia de la enfermedad o la indicación de la ausencia de la enfermedad. Con frecuencia estos tests binarios presentan un resultado de incertidumbre en el que no se puede decir si el test es positivo o negativo, lo que hace de hecho que no sean realmente tests binarios; sin embargo en la práctica se re fuerza a que el resultado sea binario repitiendo el test hasta que se alcanza un resultado positivo o negativo. A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más simples y son la base ideal para el estudio de tests diagnósticos cuantitativos, lo que abordaremos más tarde. 3.1. Parámetros de un test diagnóstico binario. Se considera una enfermedad tal que la presentan o no los individuos de una población. Sea D el suceso que denota que un sujeto de la población tiene la enfermedad y D el suceso que denota que un sujeto no tiene la enfermedad. A la probabilidad de que un sujeto de la población tenga la enfermedad se le llama prevalencia de la enfermedad en la población y se denota por ( PD o p . Considérese un test diagnóstico binario, con los resultados: positivo T y negativo T . Si la prueba tiene resultado positivo se puede considerar que el individuo tiene la enfermedad y si la prueba tiene resultado negativo se considera que el individuo no tiene la enfermedad. Está

DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

  • Upload
    lydiep

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

1

DEFINICIÓN Y GENERALIDADES DE UN TEST DIAGNOSTICO.

Un test diagnóstico es un procedimiento por el cual afirmamos si un individuo tiene o no una cierta enfermedad; sin embargo este procedimiento no es seguro, de manera que es posible que se equivoque en los individuos realmente enfermos o en los individuos realmente sanos. Es decir está sujeto a error.

Los tests diagnósticos son muy usados en la práctica médica, se suelen usar en la investigación de una población específica para manifestar la enfermedad y confirmar o desmentir el resultado de un diagnóstico provisional de un paciente. La interpretación de un test diagnóstico depende tanto de la habilidad intrínseca del propio test para discriminar a los individuos enfermos de los sanos como de las características particulares de cada individuo y del ambiente en el que se aplica el test.

Los tests diagnósticos se pueden clasificar como binarios, cuantitativos (o continuos) y ordinales, según el resultado del test sea dicotómico, continuo (por ejemplo la medición del colesterol en sangre) y ordinal (por ejemplo una clasificación de la frecuencia de un comportamiento muy utilizada en psicología como: nunca, pocas veces, alguna vez y muchas veces). En la práctica los tests más comunes son los binarios.

Debido a la importancia de los tests diagnósticos en la práctica médica aparece la necesidad de medir la precisión con la que el test discrimina a los individuos enfermos de los sanos. Para evaluar la exactitud de un test diagnóstico se necesita disponer de un estimador insesgado de la exactitud del test, para conseguir este estimador insesgado es necesario poder determinar el estado de salud verdadero (enfermo o sano) de cada paciente, independientemente del resultado del test. El procedimiento por el que se conoce el estado de salud verdadero de cada paciente es el “gold estándar”, que se supone es una prueba diagnóstica perfecta, por ejemplo una biopsia o una evaluación clínica.

En esta introducción se estudiarán los parámetros y las estimaciones de estos parámetros de un test diagnóstico binario cuando todos los sujetos tienen verificado su verdadero estado de enfermedad.

Tests diagnósticos binarios. Se consideran así a los tests diagnósticos cuyo resultado es o la indicación de la presencia de la enfermedad o la indicación de la ausencia de la enfermedad. Con frecuencia estos tests binarios presentan un resultado de incertidumbre en el que no se puede decir si el test es positivo o negativo, lo que hace de hecho que no sean realmente tests binarios; sin embargo en la práctica se re fuerza a que el resultado sea binario repitiendo el test hasta que se alcanza un resultado positivo o negativo. A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más simples y son la base ideal para el estudio de tests diagnósticos cuantitativos, lo que abordaremos más tarde.

3.1. Parámetros de un test diagnóstico binario. Se considera una enfermedad tal que la presentan o no los individuos de una población.

Sea D el suceso que denota que un sujeto de la población tiene la enfermedad y D el suceso que denota que un sujeto no tiene la enfermedad. A la probabilidad de que un sujeto de la población tenga la enfermedad se le llama prevalencia de la enfermedad en la población y se

denota por ( )P D o p .

Considérese un test diagnóstico binario, con los resultados: positivo T y negativo T . Si la prueba tiene resultado positivo se puede considerar que el individuo tiene la enfermedad y si la prueba tiene resultado negativo se considera que el individuo no tiene la enfermedad. Está

Page 2: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

2

claro que un test diagnóstico puede equivocarse por lo que se tienen probabilidades de acertar y de fallar en el diagnóstico de la enfermedad usando el test.

Los resultados del test diagnóstico se pueden clasificar como verdaderos positivos (TP), verdaderos negativos (TN), falsos positivos(FP) o falsos negativos(FN). Un verdadero positivo ocurre cuando un sujeto enfermo es correctamente clasificado como positivo en el resultado del test, un verdadero negativo ocurre cuando un sujeto no afectado por la enfermedad tiene un resultado negativo en el test diagnóstico, un falso positivo ocurre cuando un sujeto no afectado por la enfermedad tiene un resultado positivo en el test diagnóstico y un falso negativo ocurre cuando un sujeto afectado por la enfermedad obtiene un resultado negativo en el test diagnóstico. Por lo tanto una prueba diagnóstica puede tener dos tipos de errores, los errores falsos positivos y los errores falsos negativos. La Tabla 3.1 muestra la clasificación de los resultados de la prueba diagnóstica para los distintos estados de enfermedad, en el formato clásico de una tabla 2x2.

Tabla 3.1 Clasificación de los resultados de la prueba diagnóstica para los estados de

enfermedad.

Resultado del test diagnóstico binario

T T

D Positivo Verdadero (TP) Negativo falso(FN) Estado de la Enfermedad

D Positivo falso(FP) Negativo verdadero(TN)

A partir de esta tabla definiremos todos los parámetros de tests diagnósticos binarios, tanto en el caso en el que dependan de la prevalencia de la enfermedad como en el caso en el que no dependan de la prevalencia de la enfermedad.

3.1.1. Parámetros que no dependen de la prevalencia de la enfermedad. Estudiaremos primero aquellos parámetros que, condicionando convenientemente, no dependen de la población en la que se apliquen, siendo características que sólo dependen del test diagnóstico, definiendo de manera intrínseca o la calidad del mismo, es decir su precisión o lo informativo que resulta ese test.

3.1.1.1 Sensibilidad y especificidad. La Sensibilidad de una prueba (Se) es su habilidad para detectar la enfermedad cuando

está realmente presente. Se puede escribir como ( )/Se P T D= ; se conoce también como

Fracción de Verdaderos Positivos (TPF). La Especificidad de una prueba (Sp) es su habilidad para excluir la enfermedad cuando

no está presente. Se puede escribir como ( )/Sp P T D= . La especificidad se conoce también

como Fracción de Verdaderos Negativos (TNF) o más comúnmente como 1 – FPF, siendo FPF

la Fracción de Falsos Positivos, ( )/FPF P T D= .

Una prueba ideal tendrá FPF = 0 y TPF = 1, o lo que es lo mismo Se y Sp serán ambas la unidad. En una prueba inútil el resultado de la prueba no tiene ninguna relación con la

Page 3: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

3

enfermedad y ( ) ( )/ /P T D P T D= , que es lo mismo que ( ) ( )/ 1 /P T D P T D= − , de

donde se deduce que ( ) ( )/ / 1P T D P T D+ = o Se+Sp = 1.

Queda claro, por la definición, que tanto la sensibilidad como la especificidad de un test diagnóstico son probabilidades de aciertos. Al acierto que hace referencia a la sensibilidad se le llama verdadero positivo (TP) y al acierto que hace referencia a la especificidad se le llama verdadero negativo (TN). La suma de las probabilidades de un verdadero positivo y de un falso negativo es la unidad.

( ) ( )/ / 1P T D P T D+ =

Análogamente,

( ) ( )/ / 1P T D P T D+ =

Hagamos, por último una serie de consideraciones sobre la sensibilidad y la especificidad de un test diagnóstico que ya se han apuntado de alguna manera. Un test diagnóstico es esencialmente un test que se puede equivocar por tanto la probabilidad de un acierto con él es siempre menor que 1 (si fuera 1 sería el procedimiento señalado como “gold estándar”). Además tampoco es ningún disparate pensar que todo tests diagnóstico tiene una sensibilidad y una especificidad superior a 0 ya que si no fuera así estaríamos en la situación de un tests diagnóstico absolutamente inútil lo que, aunque sólo fuera por razones éticas, no se daría en la práctica. Por tanto es claro que 0< Sp, Se<1 y eso nos acompañará a partir de ahora. De hecho podríamos ser algo más exigentes pues siempre está en nuestra mano el disponer de una prueba diagnóstica binaria que sería emplear una moneda correcta y decir que un individuo tiene la enfermedad cuando sale, por ejemplo, cara, de manera que ese test tendría, de manera teórica, una sensibilidad y una especificidad de ½. Es decir deberíamos exigir que por lo menos la sensibilidad o la especificidad fueran superiores a ½.

Es claro que tanto la sensibilidad como la especificidad no dependen de la prevalencia de la enfermedad que se esté estudiando y desde ese punto de vista se dice, abusando del lenguaje, que no dependen de la población en la que se aplican sino sólo de la prueba. Sin embargo, las características propias de la prueba pueden hacer que la sensibilidad y la especificidad dependan de la población en la que se apliquen pero no a través de la prevalencia sino a través de características de la misma. Un ejemplo que se presenta con mucha frecuencia, es el de los ultrasonidos como tests diagnóstico de la apendicitis aguda que tiene una menor sensibilidad si se aplica en niños que si se aplica en adultos, siendo la prevalencia de la apendicitis aguda muy parecida en poblaciones de adultos y en poblaciones de niños. Resumiendo la sensibilidad y la especificidad miden la exactitud, la precisión de la prueba (son medidas de accuracy) y sólo dependen de características intrínsecas de la misma.

3.1.1.2 Razones de verosimilitudes. Frente a medidas de la exactitud del test diagnóstico como las que acabamos de ver, existen unas medidas que caracterizan lo informativo que es el tests diagnóstico y que son cada vez más usadas; éstas medidas son la razón de verosimilitudes del positivo y la razón de verosimilitudes del negativo.

La razón de verosimilitudes es el cociente de dos probabilidades: la probabilidad de un resultado de la prueba particular en pacientes con la enfermedad entre la probabilidad de ese resultado de la prueba en pacientes sin la enfermedad. Se denota la razón de verosimilitudes como LR. Como la precisión de un test tiene dos dimensiones se tiene la razón de verosimilitud para un test positivo, LR+ y la razón de verosimilitudes para una test negativo, LR-.

Page 4: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

4

( )( )( )( )

-

| =

| 1

| 1 =

|

P T D SeLR

P T D Sp

P T D SeLR

P T D Sp

+ =−

−= (3.1)

Las razones de verisimilitudes van desde 0 hasta ∞. Una prueba inútil, que no tiene ninguna relación con el estado de enfermedad tiene LRs iguales a la unidad. Por el contrario una prueba perfecta, en la que para cada 1 1T D= ⇒ = y 0 0T D= ⇒ = con probabilidad uno, tiene parámetros de LR de LR+= ∞ y LR- = 0. Una LR > 1 indica que el resultado de prueba es más probable en pacientes con la enfermedad que en pacientes sin la enfermedad; y una LR < 1 indica que el resultado de prueba es más probable en pacientes sin la condición.

Una característica importante de las LRs es que cuantifican el aumento en el conocimiento sobre la presencia de la enfermedad que es adquirido a través de la prueba diagnóstica.

El número de veces que es mayor la probabilidad de que un individuo tenga la enfermedad que no la tenga antes de que la prueba sea llevada a cabo, es decir, en ausencia del resultado del test es:

( )( ) -

P DOdds pre test

P D=

Después de llevar a cabo la prueba esta razón se transforman con el conocimiento de los resultados de ésta, entonces es:

( )( )

| ( ) -

| ( )

P D T óTOdds post test

P D T óT=

Las razones de verosimilitud relacionan estas dos razones.

Odds post-test ( )T = LR+ x (Odds pre-test )

Odds post-test ( )T = LR- x (Odds pre-test)

Para el caso de test positivo:

( ) ( )( )

( )( )

( )( )

( ) ( )( ) ( )

( )( )

|

|

||

|

|

P D T

P D T P TOdds post test T

P D TP D T

P T

P T D P D P DLR LR Odds pre test

P T D P D P D+ +

− = = =

= × = × −

(3.2)

Por lo tanto, los parámetros (LR+, LR-) cuantifican el cambio en las probabilidades de

enfermedad obtenido por el conocimiento de los resultados de la prueba diagnóstica. Es claro, mirando las expresiones anteriores, que la exigencia que hacíamos antes de tests no degenerados, sensibilidad y especificidad estrictamente entre 0 y 1, sigue siendo válida

ahora. Lo lógico es que en un test diagnóstico ocurra que P(T|D) > P(T|D)y por tanto LR+ > 1, indicando un aporte mayor de información del test para un resultado positivo conforme más separado esté de 1. De la misma manera en un test diagnóstico lo lógico es que

P(T|D) < P(T|D) y de ahí ocurrirá que LR¯ < 1 siendo más informativo el test con respecto al negativo conforme este más alejado de 1 siendo inferior a él. Tanto una medida como la otra reflejan muy bien los aportes del tests cuando da positivo y cuando da negativo a la afirmación o al descarte de la enfermedad.

Page 5: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

5

3.1.1.3. La razón del producto cruzado diagnóstica. Ya se vio en el Tema 1.3 a qué se denomina razón del producto cruzado (odds ratio) y se vio que es una medida de asociación entre dos caracteres de tipo binario que era estimable en cualquier diseño. Aunque no es una medida demasiado frecuente en los tests diagnósticos a veces se usa la razón del producto cruzado diagnóstica (DOR) que se define como:

LR

DORLR

+

−= (3.3)

Como se ve, la razón del producto cruzado mezcla las dos formas de exactitud de un tests diagnóstico, la de la exactitud del positivo y la del negativo, aunque no es muy usada ya que puede tomar valores grandes cuando o LR+ es grande o cuando LR¯ es pequeña, siendo características muy diferentes la una de la otra lo que nos obligaría a estudiar, por separado, las razones de verosimilitudes.

3.1.1.4. Índice de Youden. Se define el índice, J de la siguiente manera,

[ ]1 ( | ) ( | ) 1 (1 ) (1 ) 1J P T D P T D Sp Se Se Sp= − + = − − + − = + − (3.4)

Cuando el test diagnóstico no está asociado con la enfermedad ocurre, como se ha dicho

anteriormente, que la suma de la sensibilidad y la especificidad vale 1 lo que nos indica que J será igual a cero. Es claro que cuando la suma de la sensibilidad y de la especificidad sea inferior a 1 estaríamos en una situación en la que el tests diagnóstico está relacionado de manera negativa con la enfermedad lo qué no es común de encontrar en la práctica. Por el contrario la situación común es que la suma de la sensibilidad de un test sea mayor que 1 por lo que J tomará un valor mayor que cero siendo como máximo 1, caso en el que la sensibilidad y la especificidad es mayor que 1.

Hay diferentes interpretaciones del índice de Youden que lo hacen muy atractivo pero nosotros sólo usaremos la siguiente. Considérense las personas con la enfermedad, la ganancia

neta en certidumbre que provoca el test, en esas personas será ( | ) ( | )P T D P T D− , mientras

que la misma ganancia en las personas sin la enfermedad, será ( | ) ( | )P T D P T D− ; si consideramos igual de graves los resultados falsos positivos que los resultados falsos negativos, se puede definir la ganancia media en certidumbre que provoca el test como la suma de las dos diferencias anteriores dividida por 2, que se puede demostrar fácilmente que es el índice de Youden. Es decir, el índice de Youden es la ganancia media en certidumbre que provoca el test diagnóstico.

3.1.1.5. Combinaciones de tests diagnósticos. Los parámetros anteriormente expuestos miden características de los tests diagnósticos que son intrínsecas de los mismos, inamovibles, en el sentido de que el investigador no puede hacer nada por mejorarlas de cara a una disminución de la incertidumbre para el paciente. Por eso se optó, para incrementar la certidumbre, por la combinación de variaos métodos. La presentación que se hará involucrará, por comodidad, a dos tests diagnósticos T1 y T2, pero lo dicho en ese caso es válido para más de dos tests diagnósticos. Las dos maneras clásicas de combinar dos tests diagnósticos binarios son combinarlos en serie o combinarlos en paralelo. En la combinación en serie se dirá que el individuo tiene la enfermedad cuando ambos tests dan positivo y en la combinación en paralelo se dirá que el individuo tiene la enfermedad cuando al menos uno de los dos dé positivo.

Page 6: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

6

Veamos el efecto de las combinaciones, supongamos que la sensibilidad y la especificidad del primer test son Se1 y Sp1 , mientras que las del segundo test son: Se2 y Sp2. Calculemos ahora la sensibilidad del test cuando las combinamos en serie: 1 2 1 2 1 2( | ) ( )= ( | ) ( | )serieSe P Serie positivo D P T T P T D P T D Se Se= = ∩ = (3.5)

como se ve, la sensibilidad de la combinación en serie es inferior a la de cada uno de los tests porque es el producto de cada una de las dos sensibilidades, cantidades entre 0 y 1, que será siempre inferior a cada uno de los factores. Hemos de resaltar, antes de seguir, que la segunda igualdad de la expresión (3.5) es cierta sólo si hacemos una suposición que se denomina de independencia condicional; en efecto el suponer que, condicionando en el estado de enfermedad del paciente, los resultados de ambos tests son independientes, o lo que es lo mismo que el resultado del uno no está condicionado por el resultado del otro, cuando se aplican en el mismo individuo, es lo que nos permite escribir esa igualdad y es una suposición razonable. Eso no quiere decir que los dos tests diagnósticos no estén relacionados, sino que aplicados al mismo individuo son tales que el resultado de uno no se ve influenciado por el resultado del otro. Veamos ahora la especificidad de ambos tests aplicados en serie; para ello parece claro que se considerará que el resultado es negativo cuando al menos uno de los tests dé un resultado negativo.

1 2

1 2 1 2 1 2 1 2

( negativo | ) ( | )

( | ) ( | ) ( | ) ( | )

serieSp P Serie D P T T D

P T D P T D P T D P T D Sp Sp Sp Sp

= = ∪ =

= + − = + − (3.6)

De la expresión anterior podemos decir que la especificidad en serie siempre será mayor

que la especificidad de cada una de sus componentes porque, como se ve en (3.6), es la suma de las especificidades de sus componentes menos una cantidad que siempre es menor que la menor de esas especificidades.

Podemos decir, por tanto que si ambos tests se conjugan en serie se aumenta la especificidad y se disminuye la sensibilidad, mientras que si conjugan en paralelo se aumenta la sensibilidad y disminuye la especificidad (esto último se puede demostrar muy fácilmente).

Por tanto la conjugación booleana de tests diagnósticos binarios nos permite incrementar la sensibilidad o la especificidad, dependiendo de la manera en que estos sean combinados. Es claro que la combinación de varios tests no tiene porque ser booleana y que en esos casos se encontrarán soluciones diferentes, pero este problema excede el presente curso.

El efecto de las combinaciones sobre los otros parámetros se verá aplicado en ejercicios posteriores.

3.1.2. Parámetros que dependen de la prevalencia de la enfermedad. Los parámetros que hemos repasado de los tests diagnósticos son aquellos que hacen referencia a la calidad diagnóstica intrínseca del test, sin embargo, esos parámetros no ayudan para diagnosticar a una persona concreta, no aportan información acerca de la probabilidad de que una persona tenga o no la enfermedad, una vez que le hayamos pasado el tests diagnóstico y sepamos si ha salido positivo o negativo. Son los parámetros, que definen el funcionamiento del test a posteriori una vez que conozcamos el resultado del mismo. Este problema es realmente el problema diagnóstico que le importa resolver al médico: a la vista del resultado del test que podemos decir de si el paciente tiene o no tiene la enfermedad. Los parámetros de este tipo son los que se denominan valores predictivos y son los que estudiaremos en primer lugar.

3.1.2.1. Valor predictivo positivo. Supongamos que se ha pasado un test diagnóstico a un individuo y que éste ha dado positivo, T, lo que importa es conocer cuánto vale P(D|T), que es el denominado valor

Page 7: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

7

predictivo positivo VPP. Aplicando el teorema de Bayes se puede demostrar muy fácilmente que

P(DIT) P(D)P(T/D) pSe

VPP=P(D|T)= =P(T) P(D)P(T/D)+P(D)P(T/D) pSe+(1-p)(1-Sp)

= (3.7)

Lo primero que hemos de tener presente de la expresión (3.7) es que el valor predictivo positivo no sólo depende de la calidad del test diagnóstico sino que además depende de la prevalencia de la enfermedad, de la probabilidad de que un individuo elegido al azar de la población esté enfermo, p. Además esa dependencia es muy directa en el sentido de que conforme sea mayor la prevalencia mayor será VPP y es fuerte como puede verse en la Ilustración 1 que aparece a continuación.

Ilustración 1. Valores Predictivos de un test para diferentes prevalencias, con Se=0,85 y Sp=0.95

Pero visto que el VPP depende de la prevalencia, es claro que a prevalencia fija depende de la sensibilidad y de la especificidad, pero más de la especificidad que de la sensibilidad. En efecto supongamos que la prevalencia es fija, en ese caso la Se juega un papel relevante, pero sea cuál sea ese papel, éste queda condicionado por la prevalencia. Sin embargo el efecto de la Sp es muy fuerte, pues si esta es muy grande la cantidad 1-Sp será muy pequeña y el producto (1-p)(1-Sp) será muy pequeño cercano a cero con lo que el cociente VPP será muy cercano a 1. Por tanto en el valor predictivo positivo intervienen la sensibilidad y la especificidad del test, pero el efecto de ésta es mucho más fuerte que el de la sensibilidad. De éste hecho sacaremos inmediatamente otra conclusión interesante. Pero veamos la otra situación que puede presentarse.

3.1.2.2. Valor Predictivo Negativo. Supongamos que se ha pasado el test diagnóstico al individuo y que éste ha dado

negativo, interesa entonces conocer ( | )P D T que es el conocido como Valor Predictivo Negativo (VPN). Pues bien, aplicando, como en el caso anterior, el teorema de Bayes, tendremos:

Page 8: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

8

P(DIT) P(D)P(T/D) (1-p)Sp

VPN=P(D|T)= = =P(T) P(D)P(T/D)+P(D)P(T/D) (1-p)Sp+p(1-Se)

(3.8)

Es claro que el VPN también depende de la prevalencia de la enfermedad, en este caso

de manera inversa, cuanto mayor sea la prevalencia menor será el VPN. La dependencia es fuerte como se puede ver en la Ilustración I. De la misma manera que antes, la sensibilidad y la especificidad del test juegan un papel relevante en el caso del VPN, pero, también como ya hemos visto, el papel más relevante lo juega ahora la sensibilidad porque si ésta toma valores muy altos, entonces el valor de VPN estará muy cercano a 1 independientemente de los valores de la prevalencia y de Sp.

3.1.2.3. Reflexiones sobre las valores predictivos. Partiendo del hecho de que tanto el VPP y el VPN dependen de la prevalencia, la primera pregunta que se hace el médico es si el test sirve, en la población en la que nos encontramos, de la que generalmente se conoce la prevalencia, para confirmar o descartar la enfermedad. La respuesta parece muy clara: si dando el test positivo la probabilidad de que el individuo tenga la enfermedad es alta entonces el test sirve para confirmar la enfermedad, o al contrario, si dando el test negativo la probabilidad de que la persona no tenga la enfermedad es alta entonces el test sirve para descartar la enfermedad. Siendo esa respuesta evidente realmente soluciona pocos problemas porque la determinación de cuando una probabilidad es alta no es nada fácil. En efecto, muchas veces un valor predictivo positivo será alto cuando desborde al 0,90 pero otras veces bastará con que sea superior a 0,40 para calificar que ya es alto. La razón es que en el primer caso el valor predictivo positivo puede ser alto simplemente porque la prevalencia sea alta y aunque el test no aporte mucho el valor predictivo positivo será alto; en el segundo caso puede ocurrir que aunque el valor predictivo positivo no sea muy alto, la prevalencia sea muy baja y el test esté aportando realmente mucho, por más que el valor predictivo positivo no sea grande. De manera que parece claro que hemos de deslindar el efecto de la prevalencia del efecto del test. Veamos el efecto de la prevalencia. Con el test que ha dado lugar a la Ilustración 1, Se=0,85 y Sp=0,95, se puede razonar convenientemente. Si uno observa la Ilustración parece claro que para los valores de la prevalencia en la que la curva de VPN(p) domine a la curva de VPP(p), el test es preferido para descartar la enfermedad que para confirmarla, puesto que en esos valores VPN(p)>VPP(p); en la prevalencia en la que se cortan ambas curvas tendríamos que sería indistinto el uso del test, y a partir de esa prevalencia sería preferido el test para confirmar la enfermedad, puesto que en ese caso VPP>VPN. Por tanto, la prevalencia en la que se cortan ambas curvas juega un papel determinante para saber para qué sirve un test. Con un poco de paciencia se puede determinar que la prevalencia dónde se cortan ambas curvas, pc ,viene dada por las expresiones:

( )

( )

2

c

2

( 1 ) ( 1 ) ( 1 )

(1 ) ( 1 )(1 ) ( 1 )

r=s 1/2

( 1 ) ( 1 ) ( 1 )r>s

r<s

p

(1 ) ( 1 )(1 ) ( 1 )

=

r r s s s s

r r s sr r s s

r r s s s s

r r s sr r s s

− + − + − ++− + − +− + − +

− + − + − +−−

+ − +− + − +

(3.9)

considerando siempre que tanto la sensibilidad como la especificidad son mayores que ½. Para nuestro ejemplo concreto el pc=0.3790; de manera que en poblaciones con prevalencias inferiores a esa cantidad el test es mejor para descartar la enfermedad que para confirmarla, y en poblaciones con prevalencias superiores a 0.3790 será mejor el test para confirmar la enfermedad que para descartarla. Pero todavía se puede razonar mucha más con nuestro ejemplo; el punto de corte ha salido inferior a 0.5, zona en la que es menor el valor predictivo positivo que el valor predictivo negativo, porque la especificidad del test es mayor que la

Page 9: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

9

sensibilidad (ya hemos dicho antes que la especificidad influye más sobre el VPP y que la sensibilidad influye más sobre el VPN) lo que hace que el conjunto de valores de la prevalencia donde el VPP es mayor que el VPN sea más grande. Es obvio que al revés también ocurre. Por tanto calculando el punto de corte de VPP(p) y VPN(p) podemos establecer zonas de la prevalencia dónde el test será mejor para descartar que para afirmar y viceversa. No obstante el que el test sea mejor para una cosa que para la otra no quiere decir que tenga un valor suficientemente grande, porque fijada una prevalencia tanto VPP como VPN dependen de la sensibilidad y de la especificidad y es posible que en esa prevalencia el test no aporte lo suficiente. Para explicar mejor la idea consideremos que hemos calculado el VPP para una prevalencia fija. Una manera de determinar la rebaja de incertidumbre para el paciente en la afirmación de la enfermedad debido a que el test ha dado positivo, es calcular la diferencia P(D|T)-P(D), que se denomina Ganancia del Positivo (GP) y que mide en cuanto se ha incrementado la probabilidad de tener la enfermedad por el hecho de que el test de positivo. Es claro que si ese incremento es muy alto el test, a esa prevalencia, aporta bastante a la probabilidad de tener la enfermedad, mientras que si es bajo, el test aporta poco. Razonando igual definiremos la ganancia del negativo como GN=P(D|T)-P(D), que mide la rebaja en la incertidumbre de no tener la enfermedad por el hecho de que el test hay dado negativo. La forma de razonar es la misma para la GN que para la GP. Gráficamente se puede ver cómo se comportan ambas ganancias como aparece en la Ilustración 2.

Ilustración 2. Valores Predictivos de un test para diferentes prevalencias, con las respectivas

ganancias, con Se=0,85 y Sp=0.95.

De la gráfica se pueden sacar varias conclusiones interesantes: 1º) Las dos curvas alcanzan un máximo en un valor de p, entre 0 y 1, de manera que antes de esa prevalencia el aporte al incremento de la probabilidad lo hace el test mientras que a partir de ese punto de corte el aporte al incremento de la probabilidad lo hace la prevalencia. 2º) Como se ve, el máximo de la ganancia del positivo es mayor que el máximo de la ganancia del negativo, y ello debido a que la especificidad del test es mayor que su sensibilidad. 3º) Observando la gráfica se ve que en los valores dónde se consigue el máximo de la ganancia, se consigue también un valor alto de la prevalencia. Por tanto el valor de la prevalencia dónde se consigue el máximo de GP(p) y del GN(p) son una cantidades muy relevantes para conocer en qué zonas de la prevalencia funciona bien el test. También con un poco de paciencia, el valor de la prevalencia dónde se consigue el máximo de GP(p) y que denominaremos, pGP, y el pGN :

Page 10: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

10

GP

GN

-(1-s)+ r(1-s)p =

J

s - s(1-r)p =

J

(3.10)

siendo J el índice de Youden que ya hemos explicado anteriormente; estos valores han sido obtenidos forzando a que tanto la sensibilidad como la especificidad sean mayores que ½, que es la situación más común. Sustituyendo en nuestro ejemplo se obtiene que pGP =0.1952, y que pGN = 0.7156. Calculando para esas prevalencia el valor predictivo positivo y el valor predictivo negativo tendremos VPP(0.1952)=0.8048 y VPN(0.7156)=0,7156.

De lo que acabamos de ver y de lo visto para la el VPP se pueden sacar dos

conclusiones muy relevantes, paradójicamente, sobre las exigencias de la sensibilidad y la especificidad de un test diagnóstico. Si uno desea tener un tests diagnóstico con una gran capacidad para descartar la enfermedad, es decir con un valor predictivo negativo alto (si el test da negativo el paciente debe tener una probabilidad alta de no tener la enfermedad), lo que debe buscar es un test muy sensible. Por el contrario si uno desea un test con un valor predictivo positivo alto (si da positivo desea tener una probabilidad alta de que el paciente tenga la enfermedad) necesitara que el test tenga una especificidad alta. Quizás con un ejemplo se acabe de entender la cuestión.

Ejemplo 3.1. Considérese que una empresa con una población de más de 50000 trabajadores desea llevar a cabo un estudio para ver qué trabajadores están infectados por el virus de la inmunodeficiencia humana, con objeto de someterlos al tratamiento oportuno si es que no están siendo tratados. En la empresa se sabe que la prevalencia de infección por el VIH en la población de la que se extraen sus trabajadores es de alrededor de un 2%. Se dispone de dos tests diagnósticos diferentes, uno, que denominaremos T1, con una sensibilidad del 99% y con una especificidad del 90,5%; el otro, T2, de sensibilidad un 92% y de especificidad un 98,5%. ¿Qué estrategia debería seguir la empresa para estar muy segura de que no ha dejado ningún caso de infección sin diagnosticar y que los diagnósticados como infectados, realmente lo están? Lo primero que ha de tenerse en cuenta es que la empresa pasará, al menos, un test a todos sus trabajadores (por supuesto que den su consentimiento informado para ello) ya que desea conocer los trabajadores que tienen la infección. Por tanto la primera pregunta será que tests se pasará a todos los trabajadores. Parece claro que la condición que se le exigiría a ese test sería la de que si da negativo la probabilidad de no tener la enfermedad sea muy alta, es decir que el test tenga un valor predictivo negativo alto. Esto está asegurado para ambos tests puesto que sin hacer ningún tests ya se sabe que ( ) 0,98P D = lo que nos dice que, por lo menos el valor

predictivo negativo vale 0,98. Pero calculemos para ambos tests cuánto vale el VPN.

1

2

(1 0.02)(0.945)VPN 0.999784

(1 0.02)(0.945) (0.02)(1 0.99)

(1 0.02)(0.985)VPN 0.998965

(1 0.02)(0.985) (0.02)(1 0.95)

−= =− + −

−= =− + −

Como se ve en ambos casos el valor predictivo negativo es muy alto, como hemos dicho antes parten de un 98%, por lo que en principio cualquiera de los dos sería un test bueno para pasarlo el primero; enfocando el problema desde la ganancia del negativo tenemos que el test 1 presenta una ganancia de 0,0199784, mientras que el segundo tiene una ganancia de 0,019896. Así que debido a la prevalencia tan baja nos encontramos que los dos tests, independientemente de la sensibilidad que tengan tienen un valor predictivo negativo muy alto. Veremos el test que provoca un valor predictivo positivo mayor.

Page 11: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

11

1

2

(0.02)(0.99)VPN 0.175376

(0.02)(0.99) (1 0.02)(1 0.905)

(0.02)(0.92)VPN 0.555891

(0.02)(0.92) (1 0.02)(1 0.985)

= =+ − −

= =+ − −

Como se ve es el test 2 el que cuando afirma que el individuo tiene la enfermedad tiene

una mayor probabilidad de que así sea, luego es el test 2 el que se empleará como tests para confirmar la enfermedad, el segundo test y el test 1 será el que se emplee para descartar la enfermedad. Esta parece, pues la estrategia óptima que debería seguir la empresa a la hora de aplicar ambos tests.

3.1.3. Reflexiones generales sobre los parámetros d e los tests diagnósticos binarios. Todo lo que acabamos de ver de estimaciones de tests diagnósticos binarios nos permite hacer unas reflexiones generales sobre los mismos. Es obvio que el test diagnóstico ideal sería aquél que tuviera, simultáneamente una sensibilidad y una especificidad de 1, desgraciadamente tests diagnósticos así no existen por lo que siempre existirá el problema de cuál es la utilidad de un tests diagnóstico, de en qué situación puede emplearse. Parece claro un principio general: si el test es muy sensible debería emplearse para el descarte de la enfermedad, pero para que el valor predictivo negativo sea alto basta con que la prevalencia sea baja, lo que iguala a tests diagnósticos de, incluso, sensibilidades muy diferentes. De otro lado si el test es muy específico, parece claro que el test diagnóstico debería emplearse para confirmar la enfermedad, aunque si la prevalencia es muy baja nos encontraremos con que el valor predictivo positivo no será muy elevado, debiendo echar mano de la ganancia del positivo para que determinar si el test diagnóstico aporta lo suficiente.

3.2. Estimaciones de parámetros de tests diagnósticos binarios. El primer paso a dar en el caso de la estimación de tests diagnósticos binarios es considerar el tipo de muestreo con el que llevaremos a cabo tal estimación. En efecto, hay tres formas diferentes de llevar a cabo el muestreo para estimar la calidad de un tests diagnóstico binario que aparecen en la tabla siguiente

Tipo I Tipo II Tipo II’ D D Totales D D Totales D D Totales

T a b T a b T a b n1´

T c d T c d T c d n2´

Totales n Totales n1 n2 Totales En el caso del muestreo de Tipo I se ha tomado una muestra aleatoria de individuos a los que se les ha aplicado simultáneamente el test diagnóstico y el gold standard; en este caso la estimación de cualquier parámetro es posible de manera insesgada sin más que condicionar en los totales de fila o de columna correspondientes. En el muestreo de Tipo II se toman dos muestras aleatorias independientes de tamaños n1 y n2 respectivamente de enfermos y de sanos; este muestreo permite estimar de manera insesgada los parámetros que no dependan de la prevalencia, en este caso la prevalencia no se puede estimar de manera insesgada ya que la proporción de sanos o enfermos está fijada por la relación entre los tamaños muestrales que no

Page 12: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

12

es la relación entre el número de enfermos y de sanos que se presenta en la población. Por último, el muestreo denominado como Tipo II’ permite estimar de manera insesgada los parámetros que dependen de la prevalencia pero no los que no dependen de ésta por razones análogas a las que acabamos de esgrimir para el muestreo Tipo II. Por tanto, siempre que se piense en estimar parámetros de tests diagnósticos binarios hemos de tener en cuenta el tipo de muestreo empleado para as í saber que parámetros se pueden estimar.

El muestreo de Tipo I es un muestreo que se emplea con mucha frecuencia sobre todo en fases iniciales del desarrollo de un test diagnóstico. El muestreo Tipo II, de casos y controles se le llama a veces, es un tipo de muestreo que se emplea con frecuencia cuando se desea estimar sensibilidad y especificidad de un test diagnóstico ya asentado con frecuencia. Por último, el muestreo de tipo II’ se usa con muy poca frecuencia en la práctica, debido a sus limitaciones para estimar los parámetros del test diagnóstico. Recuérdese que el muestreo tipo I condicionando en los totales de columnas se convierte en un muestreo de tipo I.

3.2.1. Estimaciones con dos muestras, una de sanos y otra de

enfermos.

Si se consideran dos muestras, una de enfermos de tamaño 1n y otra de sanos de tamaño

2n , y a todos los individuos se les aplica el test se tiene la Tabla 3.2.

Tabla 3.2 Frecuencias observadas al aplicar un test binario a dos muestras, una de enfermos y

otra de sanos.

Estado de enfermedad

D D

T a b Resultado del test

T c d

1n 2n

Es decir, de la muestra de tamaño 1n , individuos enfermos, el test diagnóstico ha dado

positivo en a individuos y de la muestra de tamaño 2n , individuos sanos, el test ha dado

negativo en d individuos. Para llevar a cabo la estimación vamos a obtener las probabilidades de cada celda de esta tabla.

( )P T D pSe=∩ , ( ) ( )1P T D q Sp= −∩ , ( ) ( )1P T D p Se= −∩

( )P T D qSp=∩ , ( ) ( )|

1

pSeP D T

pSe Sp q=

+ −, ( ) ( )

|1

qSpP D T

qSp Se p=

+ −

Page 13: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

13

Tabla 3.3 Probabilidades obtenidas al aplicar un test binario. Estado de enfermedad

D D

T pSe ( )1q Sp− ( )1pSe Sp q+ − Resultado del test T ( )1p Se− qSp ( )1qSp Se p+ −

p q A partir de este tipo de muestreo presentaremos diferentes métodos de estimación de los parámetros, llevando a cabo demostraciones en muchos casos que el lector se puede saltar buscando sólo el resultado final.

3.2.1.1. Estimación de la Sensibilidad. La estimación de la sensibilidad es la estimación de una proporción de una distribución

Binomial que responde a la expresión que figura a continuación.

( ) ( )( )

P T D pSeP T D Se

P D p= = =

Condicionando en 1n se tiene que ( )1,a B n Se→ y por tanto el estimador de Se es

1

ˆ aSe

n= (3.11)

Siendo su esperanza y su varianza la varianza y la esperanza de una proporción

1

1 1

ˆ n SeaE Se E Se

n n

= = =

( ) ( )12

1 1 1

1 1ˆ n Se Se Se SeaVar Se Var

n n n

− − = = =

Siempre es interesante dar la estimación de los parámetros por un intervalo de confianza

( )1 2,Se Se de forma que ( )1 2 1P Se Se Se α≤ ≤ = − . A continuación se estudian varios tipos de

intervalos de confianza.

a.1. Intervalo de confianza exacto (Clopper-Pearson).

El intervalo exacto o de Clopper-Pearson se consigue basándose en la distribución binomial de a:

( )

( )1

20

1

será la Se tal que Se2

será la Se tal que Se2

a

h

n

h a

Se P B h

Se P B h

α

α=

=

= ≤

= ≤

Partiendo de una valor de la Se se obtiene la solución a este problema de forma iterativa. Considerando la siguiente expresión (Johnson, N., Kotz, S. and Kemp, A., 1993) se puede aproximar el intervalo

( ) ( ) ( )( )1 2 1 ; 2 ,1 1

n x pP B x P F x n x

x p

−≤ = − + − < + −

por lo que para 2Se

Page 14: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

14

( ) ( ) ( )( ) 1 21

2

1 2 1 ; 22 1 1

n a SeP B a P F a n a

a Se

α −= ≤ = − + − < + −

Por tanto

( ) ( )( )

( ) ( )( )

( ) ( ) ( )

( ) ( ) ( )

1 21

2

1 21 2

122

2 2 1 2

2 1 2 2 2

2 1 ; 2 11 1 2

2 1 ; 21 1

1 1

1 1 .

n a SeP F a n a

a Se

n a SeF a n a F

a Se

F a Se n a Se

F a n a Se F a Se

α

α

−+ − < = − ⇒ + −

−+ − = = ⇒+ −

+ − = − ⇒

+ = − + +

Despejando 2Se se obtiene el valor del límite superior

( )( ) ( )

22

1 2

1ˆ1

F aSe

n a F a

+=

− + + (3.12)

Para el límite inferior 1Se

( ) ( ) ( )

( )( ) 1 11

1

1 1 12

1 2 ; 2 1

1

P B a P B a P B a

n a SeP F a n a

a Se

α = ≥ = − < = − ≤ − =

− +− + < −

Entonces

( )( ) 1 11

12

12 ; 2 1

1

n a SeF a n a

a Seα− +− + =

y como

( )( ) ( ) ( )1

2

1 1 1 11 1 1 1 1 1

1

12 1 ; 2 1 1

1

n a SeF n a a F F n a Se a Se

a Seα−

− − − +− + = = ⇒ − + = −−

con solo despejar 1Se se tiene su estimador

( )11 1

ˆ1

aSe

a F n a=

+ − + (3.13)

Por tanto el intervalo de confianza para la sensibilidad vendrá dado por:

( )( )

( ) ( )2

1 21 1 1 2

1ˆ ˆ,1 1

F aaSe Se

a F n a n a F a

+= = + − + − + +

(3.14)

Esta expresión exacta presenta el problema de que no se puede aplicar estrictamente

cuando a = 0 o cuando an =1 , pues uno de los grados de libertad es cero. En este caso se

entiende que el extremo iSe con problemas no existe, acumulando todo el error en el otro.

Entonces:

[ ][ ]

112

1 1

2;20 1

2;2nF n

Si a Se Sen F n

α

α

α= ⇒ ≤ = = −+

(3.15)

Page 15: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

15

[ ]11

1 11 12;2

nnSi a n Se Se

n F nα

α= ⇒ ≥ = =+

(3.16)

En este último caso desarrollando en series de Taylor se consigue una aproximación

( )1 1

21 1

21 1 1

lnln ln1 ... 1

2n n

n n n

αα αα α= + + + ⇒ ≈ + (3.17)

Tomando 05.0=α en la ecuación (1.6) y sustituyendo en la ecuación (1.5) queda

11

1 1

3ln 0.051

nSe

n n

−≈ + ≈ (3.18)

b.1. Intervalo de confianza aproximado a través de la Normal.

Asumiendo un tamaño de muestra grande es razonable que las medidas sigan una distribución normal y se puede construir el intervalo de confianza por el método aproximado a través de la Normal.

1 1

(1 )ˆ ,a Se Se

Se N Sen n

−= →

El intervalo de confianza estimado será:

1 2 1 2ˆ ˆ ˆ ˆˆ ˆ( ), ( )Se z Var Se Se z Var Seα α− −

− +

(3.19)

Siendo 2zα el valor de una N(0,1) para una probabilidad acumulada 2α .

Esta fórmula tiene dos desventajas importantes. Primero, el porcentaje de veces que el intervalo de confianza incluye al verdadero valor del parámetro (cobertura) es mucho más pequeño de lo deseable, especialmente para tamaños de muestra pequeños y valores de las medidas de exactitud cercanos a 1. Segunda, cuando la medida de exactitud está cerca de 1, el límite superior a menudo excede de 1 (un valor que sabemos imposible).

Se puede emplear este intervalo siempre que a y n-a sean mayores que 20 pero tiene con frecuencia el problema de que tiene cobertura errática. c.1. Intervalo de confianza de Agresti.

Este intervalo de confianza soluciona los dos problemas que presenta el intervalo aproximado a través de la Normal. Para conseguir este intervalo en la fórmula del intervalo

estándar se cambia la elección de Se, 1Se a n= . En lugar de a se utiliza 1 2

2a z α−+ y 1n se

cambia por 1 1 2n z α−

+ . El intervalo resultante es:

Page 16: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

16

2

1 22

11 21 21 1

2

1 2

1

ˆ ˆ(1 )4

ˆ2

1

zSe Se

nzSe z

n n

z

n

α

α

α

α

− + + ±

+

(3.20)

Este intervalo es análogo al intervalo que se muestra más adelante como de Wilson y se puede usar aunque n1 sea menor que 40. d.1. Intervalo de confianza cuadrático de Fleiss.

Como ( )1 1ˆ , (1 )Se a n N Se Se Se n= → − directamente se consigue un intervalo de

confianza para Se, ( ) 11Se z Se Se nα± − . Los extremos de este intervalo dependen de Se por

lo que no se puede utilizar directamente. Igualando Se a cada extremo, resolviendo la ecuación de segundo grado que surge y añadiendo una corrección por continuidad se obtiene la solución conocida como intervalo de confianza cuadrático de Fleiss (Fleiss, J. , Levin, B. and Cho Paik, M. 2003).

( ) ( )2 2

1

21

0,50,5 0,5 1

2 4z z a

a z an

Sen z

α αα

α

±± + ± + ± − ∈

+ (3.21)

Se puede aplicar siempre que a y n1-a sean mayores que 5. e.1. Intervalo de confianza de Wilson.

Este es otro de los intervalos de confianza que se pueden conseguir, es debido a Wilson (1927) y a Agresti, A. and Caffo, B. (2000). Este intervalo mejora considerablemente la cobertura de los intervalos calculados por el método tradicional de aproximación a través de la normal. Este intervalo se obtiene de la misma forma que el intervalo estándar, invirtiendo el test

de Wald, la diferencia está en que en lugar de usar el error estándar estimado, ( ) 1ˆ ˆ1Se Se n− ,

usa el error estándar nulo ( ) 11Se Se n− . Para los 0Se valores para los que

( )0 0 0 12

ˆ 1Se Se Se Se n zα− − < el intervalo es

( )

2

11 22 2

1 11 12 2

2

11 22 2 2

21 1 11 1 12 2 2

1ˆ2

1 1 1ˆ ˆ12 2

znSe

n z n z

znz Se Se

n z n z n z

α

α α

α

αα α α

− −

− − −

+ ± + +

− + + + +

(3.22)

El punto central de este intervalo es la media ponderada de Se y ½ y es igual a la

proporción muestral después de sumar 22zα pseudo observaciones, la mitad de cada tipo. El

Page 17: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

17

cuadrado del coeficiente de 2zα en esta fórmula es una media ponderada de la varianza de una

proporción muestral cuando ˆSe Se= y la varianza de una proporción muestral cuando

1 2Se= , usando 21 2n zα+ en lugar del tamaño muestral usual 1n . Para una confianza del 95%

(Agresti and Coull (1998)) se tiene el siguiente intervalo:

( )0.025

1

1Se SeSe z

n

−±

ɶ ɶɶ

ɶ

con ( )1 1 4n n= +ɶ y ( ) ( )12 4Se a n= + +ɶ . En este caso se suman 2 20,025 1,96 4z = ≈ pseudo

observaciones, dos de pacientes enfermos y dos de pacientes sanos. Se puede aplicar siempre que n1 sea menor que 40.

3.2.1.2. Estimación de la Especificidad.

La estimación de la especificidad al igual que la sensibilidad es la estimación de una proporción de una distribución Binomial y todo lo dicho para la sensibilidad en el apartado anterior vale para la especificidad sin mas que cambiar a por d y n1 por n2. Por lo que no repetiremos aquí todo lo que acabamos de decir.

3.2.2. Estimaciones con una única muestra.

Si en lugar de una muestra de individuos enfermos y otra de individuos no enfermos se dispone de una única muestra aleatoria de la población como la de la Tabla 1.4, las frecuencias absolutas de las casillas de la tabla 2x2 resultante son la realización de una distribución multinomial. Si se condiciona en los totales de columna, el valor a (o el valor d) es la

realización de una binomial ( ),B a c Se+ (o ( ),B b d Sp+ ) y todo lo que se ha comentado

para el caso con dos muestras es válido aquí.

Tabla 3.4 Frecuencias observadas al aplicar un test binario a una muestra. Estado de enfermedad

D D

T a b a+b Resultado del test T c d c+d a+c b+d n

3.2.3. Estimación de las Razones de verosimilitudes .

Las estimaciones por máxima verosimilitud de las razones de verosimilitudes son:

Page 18: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

18

��

��( )�( )

1

1

TPFLR

FPF

TPFLR

FPF

+

=

−=

(3.23)

Como están escritas como cocientes de proporciones estadísticamente independientes la distribución teórica asintótica se obtiene usando la transformación logarítmica y el método delta. Para LR+ la varianza para su logaritmo es:

( ) ( ) ( )

( )( )

22

1 2

1 1log

1

1

1

Var LR Var Se Var SpSe Sp

Se Sp

n Se n Sp

+ = + = −

−+

Que se puede escribir también como:

( )1 2

1 1log

TPF FPFVar LR

n TPF n FPF+ − −= +

La varianza para el logaritmo de LR− es:

( ) ( ) ( )

( )( )

22

1 2

1 1log

1

1

1

Var LR Var Se Var SpSe Sp

SpSe

n Se n Sp

− − − = + = −

−+

Que se puede escribir también como:

�( ) ( ) ( )1 2

log1 1

TPF FPFVar LR

n TPF n FPF

−= +

− −

Los intervalos de confianza para el logarítmo de LR, basándose en la normalidad asintótica, se pueden calcular desde las estimaciones y las expresiones de la varianza asintótica. Estas son transformadas para producir los intervalos para LR. Estos intervalos son: Para LR+ :

2

1exp log

1

Se Se Spz

Sp a bα

−± + − (3.24)

se puede escribir como:

2

1

1

Se Spz

a bSee

Sp

α−± +

− (3.25)

Para LR− :

2

1 1exp log

Se Se Spz

Sp c dα

− −± +

(3.26)

se puede escribir como:

2

11 Se Spz

c dSee

Sp

α−± +−

(3.27)

En muestras grandes, la covarianza de �logLR+

y �logLR−

viene dada por:

Page 19: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

19

� �{ }1 2

1 1cov log , logLR LR

n n

+ − = − +

3.2.4. Estimaciones de parámetros de tests diagnóst icos binarios que dependan de la prevalencia.

Como ya se vio, los parámetros que dependen de la prevalencia de la enfermedad, y que nosotros vamos a considerar aquí, son el valor predictivo positivo y el valor predictivo negativo. Daremos las expresiones para el valor predictivo positivo y los resultados para él, con los cambios oportunos, serán empleados para el valor predictivo negativo.

3.2.4.1. Estimación del valor predictivo positivo y del valor predictivo negativo.

Cuando se tiene una única muestra de individuos de la población clasificada en función de la presencia o ausencia de la enfermedad y del resultado del test, se tiene la realización de una multinomial y condicionando en los valores totales de las filas se tiene para cada una de las casillas de la tabla una distribución binomial, por lo que las estimaciones empíricas de los valores predictivos son estimaciones de proporciones de distribuciones binomiales. Con la misma notación de la Tabla 1.4.

� aPPV

a b=

+ (3.28)

� dPNV

c d=

+ (3.29)

La varianza de PPV y la varianza de PNV son las varianzas de una proporción. Por lo tanto la varianza del Valor Predictivo Positivo es:

�( ) ( )1PPV PPVVar PPV

a b

−=

+

y se estima por:

�( )� �( )

( )3

PPV PPV abVar PPV

a b a b

−= =

+ +

De forma semejante la varianza del Valor Predictivo Negativo es:

�( ) ( )1PNV PNVVar PNV

c d

−=

+

y se estima por:

�( )� �( )

( )3

PNV PNV dcVar PNV

c d c d

−= =

+ +

Page 20: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

20

a.2. Intervalo de Confianza exacto (Clopper-Pearson).

Las estimaciones empíricas de los valores predictivos son también proporciones con distribuciones binomiales, dada una observación a de una B (a, PPV), un intervalo de confianza exacto para PPV es PPV ∈(PPV1, PPV2), con:

( )( ) ( )( )( ) ( ) ( )( )

( )( ) ( ) ( ) ( )( )

1

2

22

2

1 2 1 ;2

1 2 1 ;2

1 2 1 ;2

aPPV

a a b a F a b a a

a F a a b aPPV

a b a a F a a b a

α

α

α

= + + − + + − +

+ + + − =

+ − + + + + −

(3.30)

Si ( )0a o a a b= = + se hace:

( )( ) ( )

( )2

2;20 1

2;2a bF a b

Si a PPV PPVa b F a b

α

α

α++ = ⇒ ≤ = = −+ + +

(3.31)

( ) ( )( ) ( )

( )1 2;2

a ba bSi a a b PPV PPV

a b F a bα

α++= + ⇒ ≥ = =

+ + + (3.32)

De forma semejante se obtiene el intervalo de confianza exacto para el NPV, NPV ∈ (NPV1, NPV2), con:

( )( ) ( )( )( ) ( ) ( )( )

( )( ) ( ) ( ) ( )( )

1

2

22

2

1 2 1 ;2

1 2 1 ;2

1 2 1 ;2

dPNV

d c d d F c d d d

d F d c d dPNV

c d d d F d c d d

α

α

α

= + + − + + − +

+ + + − =

+ − + + + + −

(3.33)

Si ( )0d o d c d= = + se hace:

( )

( ) ( )( )

2

2;20 1

2;2c dF c d

Si d PNV PNVc d F c d

α

α

α++ = ⇒ ≤ = = −+ + +

(3.34)

( ) ( )( ) ( )

( )1 2;2

c dc dSi d c d PPV PPV

c d F c dα

α++= + ⇒ ≥ = =

+ + + (3.35)

b.2. Intervalo de Confianza aproximado a través de la Normal.

Si se asume un tamaño de muestra grande las medidas seguirán una distribución normal y se pueden construir los intervalos por el método aproximado a través de la Normal (Johnson, N., Kotz, S. and Kemp, A., 1993).

( )( )

( )1

,PPV PPVa

PPV N PPVa b a b

− = → + +

Page 21: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

21

El intervalo de confianza estimado para el Valor Predictivo Positivo será:

� �( ) � �( )1 12 2

ˆ ˆ,PPV z Var PPV PPV z Var PPVα α− − − +

(3.36)

De forma semejante se obtiene el intervalo de confianza para el Valor Predictivo Negativo que será:

� �( ) � �( )1 12 2

ˆ ˆ,PNV z Var PNV PNV z Var PNVα α− − − +

(3.37)

Estas fórmulas tienen las mismas desventajas importantes que tenían las fórmulas

obtenidas para los intervalos de confianza de la especificidad y la sensibilidad y sólo son aplicables cuando a y b, para el caso del valor predictivo positivo sean mayores que 20 y que c y d sean mayores que 20 para el caso del valor predictivo negativo. c.2. Intervalo de Confianza de Agresti. El intervalo de confianza de Agresti para el PPV es:

( )

� �( ) ( )( )

( )

1 2

1 2

1 2

1 2

2

2

2

14

2

1

zPPV PPV

a bzPPV z

a b a b

z

a b

α

α

α

α

− +

+ + ±

+ +

++

(3.38)

El intervalo de confianza de Agresti para el PNV es

( )

� �( ) ( )( )

( )

1 2

1 2

1 2

1 2

2

2

2

14

2

1

zPNV PNV

c dzPNV z

c d c d

z

c d

α

α

α

α

− +

+ + ±

+ +

++

(3.39)

Se puede emplear aunque a+b , o c+d, sean menores que 40.

d.2. Intervalo de Confianza cuadrático de Fleiss. El intervalo de confianza cuadrático de Fleiss para el PPV es:

( ) ( ) ( )( )

2 2

2

0,50,5 0,5 1

2 4

z z aa z a

a bPPV

a b z

α αα

α

±± + ± + ± − + ∈+ +

(3.40)

El intervalo de confianza cuadrático de Fleiss para el PNV es:

Page 22: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

22

( ) ( ) ( )( )

2 2

2

0,50,5 0,5 1

2 4

z z dd z d

c dPNV

c d z

α αα

α

±± + ± + ± − + ∈+ +

(3.41)

Se puede emplear siempre que a y b, o c y d, sean mayores que 5. e.2. Intervalo de Confianza cuadrático de Wilson.

Para los valores predictivos también se pueden obtener los intervalos debidos a Wilson en 1927. Para los 0PPV valores para los que

� ( ) ( )0 0 02

1PPV PPV PPV PPV a b zα− − + < el intervalo es

� ( )( ) ( )

( )� �( ) ( )

( ) ( )

2

22 2

2 2

2

22 2 2

22 2 2

1

2

1 1 11

2 2

za bPPV

a b z a b z

za bz PPV PPV

a b z a b z a b z

α

α α

α

αα α α

+ + ± + + + +

+ − + + + + + + +

(3.42)

Para una confianza del 95% (Agresti and Coull, 1998) se tiene el siguiente intervalo:

�� �( )

( )�0.025

1PPV PPVPPV z

a b

−±

+

con ( )� ( )( )4a b a b+ = + + y � ( ) ( )( )2 4PPV a a b= + + + .

En este caso se suman 2 20,025 1,96 4z = ≈ pseudo observaciones, dos de pacientes con

resultado de prueba positivo y dos de pacientes con resultado de prueba negativo.

De forma similar este intervalo para los 0PNV valores para los que

� ( ) ( )0 0 02

1PNV PNV PNV PNV c d zα− − + < el intervalo es

� ( )( ) ( )

( )� �( ) ( )

( ) ( )

2

22 2

2 2

2

22 2 2

22 2 2

1

2

1 1 11

2 2

zc dPNV

c d z c d z

zc dz PNV PNV

c d z c d z c d z

α

α α

α

αα α α

+ + ± + + + +

+ − + + + + + + +

(3.43)

Para una confianza del 95% (Agresti and Coull, 1998) se tiene el siguiente intervalo:

�� �( )

( )�0.025

1PNV PNVPNV z

c d

−±

+

con ( )� ( )( )4c d c d+ = + + y � ( ) ( )( )2 4PNV d c d= + + + .

Las estimaciones empleando otro tipo de muestreo se pasan a esta que es la más frecuente cuando se emplea el valor predictivo positivo y negativo.

Page 23: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

23

3.2.5. Ejercicios.

Ejercicio 3.2. En las unidades de cuidados es muy relevante la determinación de si un paciente sufre una infección generalizada (sepsis) o no. Como la determinación precisa de tal hecho puede llevar unos cuantos días que pueden ser dramáticos para el paciente, se intenta disponer de tests diagnósticos que ayuden en ese diagnóstico. Uno de ellos es la determinación de la proteína C-reactiva que aquí usaremos como test binario, es decir sólo en los resultados positivo y negativo. La determinación de la calidad diagnóstico de la proteína c-reactiva se hizo a partir de una muestra de 171 pacientes ingresados en una UCI y de los cuales resultó que 26 tuvieron finalmente sepsis; entre estos la proteína c_reactiva dio positiva en 23 mientras que dio positivo entre los que no tenían sepsis en 20 casos. A la vista de estos resultados se trata de estimar de manera puntual y por intervalos todos los parámetros posibles del test diagnóstico.

Dispuestos los datos en forma de tabla 2x2 se obtiene la siguiente tabla Sepsis

SI NO

Positiva 23 20 43 Proteina C-reactiva

Negativa 3 125 128 26 145 171

Como nos encontramos en el caso de un muestreo de tipo I, se pueden estimar todos los

parámetros del test diagnóstico se pueden estimar o por estimaciones puntuales o por intervalos.

Las fórmulas que hemos presentado servirían para llevar a cabo las estimaciones lo que supondría un trabajo importante que se puede ver paliado, en parte, empleando los cálculos del intervalo de confianza para una proporción que se hacen en el enlace: www.measuringusability.com/wald.htm#score . Para el caso de la sensibilidad obsérvese la entrada que se la proporcionado y la salida proporcionada por la página web.

Como se ve el número total de pacientes con sepsis, 26, ha sido colocado en Total Tested, mientras que los 23 casos en los que el test ha dado positivo se ha colocado en Passed; colocados los valores así encontramos que la hoja de cálculo proporciona cuatro intervalos de los que nosotros hemos señalado. El primero que denomina Adj.Wald que es el intervalo c.1 que nosotros hemos denominado de Agresti. Este intervalo debe ser usado porque, en promedio, asegura la cobertura del 95% y es razonablemente estrecho; obsérvese que en nuestro casoes más estrecho que el exacto. El intervalo exacto que nunca desborda el erro elegido, el 5%, en este caso y que como se ve es más ancho que los otros. También ofrece el que denomina score que no es más que el que nosotros hemos denominado e.1. de Wilson aunque es debido a Agresti y Coull y por último ofrece el que denomina de Wald, que es el aproximado b.1 y que no puede usarse en este caso porque si bien a=23>20, n1-a=3<20; en cualquier caso si se observa el intervalo los resultados que proporciona son francamente deficientes porque como se puede ver su límite superior desborda el 1. Por tanto si nos quedamos con el intervalo score podemos afirmar que la sensibilidad de la proteína c-reactiva para el

Page 24: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

24

diagnóstico de la sepsis, en enfermos ingresados en la UCI, está comprendida entre un 71,02% y un 96% con una confianza del 95%. Como se ve el intervalo es muy ancho debido al escaso tamaño de muestra con el que se está haciendo la estimación, 26 pacientes que tuvieron sepsis.

Los resultados para el caso de la especificidad vienen dados a continuación:

Obsérvese que los intervalos de confianza son ahora más estrechos que para la sensibilidad ya que nos encontramos con un mayor tamaño de muestra. El intervalo de Agresti y Coull va desde 0.7965 a 0.9089 con una confianza del 95%. Con respecto a la estimación puntual el que debería usarse es la estimación obtenida por máxima verosimilitud que es la que nosotros hemos propuesto a lo largo del texto y que resulta ser 125/145=0,8621.

Los resultados para el Valor Predictivo Positivo aparecen a continuación y ya no serán comentados:

Los resultados para el valor predictivo negativo son:

Obsérvese que el valor predictivo negativo tiene una estimación puntual que vale 0.9766, valor muy alto y que se debe al hecho de que la sensibilidad del test es alta y a que

Page 25: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

25

la prevalencia de la sepsis no es demasiado alta, 0.1520, lo que nos dice que la probabilidad de que un paciente no tenga sepsis es de 0.8480; partir de aquí y basándonos en la estimación puntual podemos decir que la ganancia del negativo del test ha sido de 0.9766-0.8480=0.1286, siendo un aporte importante. Podemos afirmar por tanto que la proteína c-reactiva parece servir para el descarte de la sepsis y no para la confirmación de la misma. Nos queda por último, calcular el valor de las razones de verosimilitudes tanto del positivo como del negativo. Ya se han dado las expresiones tanto para las estimaciones puntuales como por intervalos. Sin embargo el cálculo puede ser lento y tedioso. A evitarnos tales problemas nos ayuda la página web http://statpages.org/ctab2x2.html, en la que entre otras

muchas medidas de tablas 2x2 se nos dan las razones de verosimilitud y sus intervalos.

Page 26: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

26

Tests diagnósticos cuantitativos. Hasta ahora, hemos estado trabajando con tests diagnósticos cuyo resultado era binario, indicándose con cada uno de los dos posibles resultados la presencia o la ausencia de la enfermedad. Sin embargo, es muy frecuente que el resultado del test diagnóstico sea un valor numérico de manera que conforme sea mayor (o menor) sea un mayor indicador de la enfermedad; en este caso estamos en la presencia de un test cuantitativo que presenta características algo peculiares en su tratamiento. Veamos un ejemplo de cómo se trata el problema de la precisión diagnóstica en el caso de un test diagnóstico cuantitativo. Considérese que el diámetro de hematíes es una variable que puede ser indicadora de cirrosis, de manera que cuando el diámetro de hematíes es mayor, mayor posibilidad hay de que aparezca cirrosis. Supongamos que se sabe que en personas no cirróticas el diámetro (en micras) sigue una N(7,5; 0,2), mientras que en individuos cirróticos sigue una N(8,5; 0,6) . Supóngase que se conviene en clasificar como cirróticos a un 5% de los normales, ¿cuántos cirróticos son declarados normales? Como la media de los cirróticos (8,5) es mayor que la media de los normales (7,5), un individuo será declarado cirrótico si su diámetro es grande, es decir hace falta determinar un máximo M para los normales. Como se desea un 5 % de falsos positivos (α=5%), entonces M=7,829 como ya se sabe. Los falsos negativos (los cirróticos declarados normales) son aquellos cirróticos con un diámetro inferior a 7,829; por ello β= P(cirrótico≤7,829) = P{z≤(7,829−8,5)/0,6} = P(z≤−1,12) y, por la Tabla 1, β=13,14%.

En el ejemplo anterior, la regla de declarar cirrótico a un individuo con diámetro de hematíe superior a 7,829, y normal en caso contrario, da lugar a que un α=5% de los normales sean declarados cirróticos y un β=13,14% de los cirróticos sean declarados normales. La Ilustración 4(a) ilustra tal regla y los dos errores. Si un error β=13,14% parece excesivo, la única posibilidad de disminuirlo es rebajando el punto límite M=7,829 (llamado punto de corte), pero ello conlleva un aumento de α: ver la Ilustración 4(b). En general toda disminución de un error conlleva un aumento del otro, siendo el grado de solapamiento de las dos curvas el que determina la interrelación entre ambos. A veces el solapamiento es de tal magnitud que impide la utilización de la variable como criterio diagnóstico (por ocasionar un error α o β excesivamente grande); en otras ocasiones, el solapamiento es tan escaso que los dos errores α y β pueden ser a la vez casi despreciables.

Dado que la disminución de un tipo de error conlleva el aumento del otro, el investigador debe decidirse por asignar un valor a priori a uno de los dos, decisión que dependerá de las consecuencias prácticas de cada uno de ellos. Antes se ha optado por fijar el error α (falsos positivos), obtener M (punto de corte) y determinar β (falsos negativos). No hay inconveniente en fijar primero β, obtener M y luego determinar α (el procedimiento para ello es similar al de entonces). Una tercera opción consiste en fijar M y, a partir de él, obtener α y β. Nótese que los tres valores implicados (α, β y M) están relacionados entre sí, de modo que fijado uno de ellos quedan determinados los demás.

Page 27: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

27

(a) Representación gráfica del criterio de diagnóstico y de los errores del

mismo en el ejemplo del diámetro de los hematíes.

(b) Lo que sucede en el ejemplo de arriba si M se hace demasiado pequeño.

Ilustración 4

Dado que α y β están relacionados entre sí (a través de M), suele ser costumbre reflejar tal relación representando en el plano una curva, llamada curva ROC (o curva de las “características operativas de la regla de test”), que relaciona el porcentaje de falsos positivos α del test (en el eje horizontal) con la sensibilidad 1−β del mismo (en el eje vertical). Para obtenerla basta con dar diversos valores a M, α o β y obtener los correspondientes valores de los otros dos parámetros. Obsérvese que en ella no juega papel alguno la prevalencia de la enfermedad. Para nuestro ejemplo, la Tabla 3.5 proporciona los diversos valores de 1−β que ocasionan los valores de α que se indican; una de tales parejas es la de α=5% y 1−β=0,8686 ≈ 87% proveniente del punto de corte M=7,829 del ejemplo anterior; las demás se obtienen de un modo similar. Los datos de dicha tabla dan lugar a la curva ROC de la Ilustración 5. La curva ROC permite evaluar cómo se comporta el test diagnóstico para cada punto de corte seleccionado y, a partir de ella, es factible deducir cuál es el punto de corte M0 óptimo: aquel valor de M en el que un pequeño aumento de la sensibilidad ocasiona un incremento excesivo (en términos relativos) de la proporción de falsos positivos. Para nuestros datos el punto de corte óptimo será el que tenga un valor de α un poco por debajo del 2%, pues en tal valor un incrementos de sensibilidad de sólo un 1% (obtenido al pasar del 84% al 85%, que es pequeño frente al 84% que ya hay) ocasiona un incremento de α del 1% (obtenido al pasar del 2% al 3%, que es excesivo frente al 2% que ya hay).

Tabla 3.5 Algunos valores, en %, para la construcción de la curva ROC de la Ilustración 4(a),(b)

(entre paréntesis se indica el incremento que se obtiene al pasar al punto siguiente)

α (∆α) 0,1 (0,9) 1 (1) 2 (1) 3 (1) 4 (1) 5 (5) 10 (10) 20

(10) 30

1−β (∆(1−β)) 74 (7) 81 (3) 84 (1) 85 (1) 86 (1) 87 (2) 89 (3) 92 (4) 97

7,5

α=5%

β=13,14%

Normales Cirróticos

M=7,829

Diagnóstico normal Diagnóstico cirróticos

8,5

Normales Cirróticos

M 7,5 8,5

Page 28: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

28

Ilustración 5: Curva ROC para el ejemplo de los cirróticos

(αααα=proporción de falsos positivos; 1−−−−ββββ=sensibilidad; M =punto de corte para αααα y 1−−−−ββββ).

Aunque en la Ilustración 5 no hemos pintado la curva ROC completa, es claro que si se lleva el punto de corte a valores del diámetro de hematíes pequeños, entonces tendremos una sensibilidad y una probabilidad de valores falsos positivos de 0, mientras que si se toma el punto de corte del diámetro de hematíes pequeño, entonces tendremos una sensibilidad y una tasa de falsos positivos prácticamente de 1. Por tanto el manejo de la calidad diagnóstica de un test cuantitativo pasa por el manejo de la curva ROC que coloca la situación en su justos términos, ya que para cada uno de los , infinitos, posibles valores de un tests cuantitativo continuo tendríamos una sensibilidad y una tasa de falsos positivos asignada a él, disponemos ahora de una función de valores que expresa el funcionamiento del test diagnóstico. Veamos esto de manera algo más teórica.

3.3. La curva ROC para tests diagnósticos continuos. Considérese una variable aleatoria Y, continua, que es el resultado de un test diagnóstico continuo, y supongamos, sin pérdida de generalidad, que valores altos de esa variable aleatoria suponen más evidencia de enfermedad que valores pequeños. Supongamos un punto de corte c de manera que si Y≥c consideraremos que el tests es positivo y si Y<c el test es negativo. Ligados a ese punto de corte c tenemos dos tasas, una de acierto y otra de fallo, que ya han sido definidas previamente aunque ahora lo hagamos con una notación ligeramente distinta:

( ) ( | )

( ) ( | )

TPF c P Y c D

FPF c P Y c D

= ≥= ≥

La primera es la tasa de verdaderos positivos, ligada a c, pues es la probabilidad de que el test diagnóstico desborde a c en la población de enfermos, mientras que la segunda es la tasa de falsos postivos puesto que es la probabilidad de que el tests diagnóstico esté por encima de c en la población de personas no enfermas.

A partir de aquí, para cada valor diferente de c podemos tener una pareja de valores (TPF(c);FPF(c)), y a ese conjunto de parejas de valores es a lo que se denomina curva ROC (Receiver Operating Characteristic Curve), es decir la curva ROC es

{ }( ) ( ( ), ( )), ( ; )ROC c FPF c TPF c c= ∈ −∞ +∞ (3.44)

Es decir, la curva ROC es la línea que para cada punto de corte c, representa la tasa de falsos positivos contra la sensibilidad

Conforme c se hace mayor las dos cantidades tienden a cero y conforme c se hace menor las dos cantidades se hacen mayores, de manera que cuando c=∞ entonces TPF(∞)=0 y FPF(∞)=0 y cuando c=-∞ entonces TPF(-∞)=1 y FPF(-∞)=1. De aquí que la curva ROC sea una función monótona creciente en el cuadrado (0,1)

0.0 0.1 0.2 0.3 0.4 0.50,050.50

0.75

1.00

0,8686

α

1-β

M=7,829

Page 29: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

29

3.3.1. Propiedades matemáticas de la curva ROC. Dentro del estudio de la curva ROC enunciaremos a continuación una serie de propiedades de la misma. Omitiremos la demostración de ellas y el lector puede encontrarla en el libro de Pepe (2003) que aparece en las referencias del curso. Propiedad 1. En el caso de un tests no informativo, aquél que es independiente del estado de la enfermedad, la curva ROC es la diagonal principal del cuadrado unidad, ya que si el test diagnóstico es independiente de la enfermedad FPF(c)=TPF(c). Véase la Ilustración 6.

0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

0.0000 0.2000 0.4000 0.6000 0.8000 1.0000

FPF

TP

F

Test A

Test-Inútil

Test B

Ilustración 6: Diferentes curvas ROC correspondientes a tests diagnósticos de muy distinto comportamiento

Propiedad 2. Un test diagnóstico óptimo es aquél que tiene para todo punto de corte un TPF(c)=1 y una FPF(c)=0, es decir aquél que tiene una curva ROC sobre el eje de las y sobre el eje superior del eje de las x.

Propiedad 3. Conforme la curva ROC de un test esté más cerca del punto de sensibilidad 1 y tasa de falsos positivos de 0, mejor será el test diagnóstico. Si un test diagnóstico tiene mayor valor de la sensibilidad que otro para cualquier valor de la tasa de falsos positivos entonces ese test, es mejor, domina al otro. Ese es el caso del Test B sobre el A de la Ilustración 6.

Propiedad 4. Los tests cuya curva ROC se sitúa bajo la diagonal principal del cuadrado unidad son tests que funcionan peor que lo haría el azar y por tanto son tests despreciables para su uso diagnóstico.

Propiedad 5. La curva ROC para una variable Y se mantiene invariante para toda transformación monótona creciente de Y.

Page 30: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

30

Propiedad 6. Notando por ( ) ( | ) y ( ) ( | )D DS y P Y y D S y P Y y D= ≥ = ≥ la curva ROC

puede tener la siguiente representación: 1( ) ( ( )), (0,1)D DROC t S S t t−= ∈

Propiedad 7. De la expresión anterior, se puede deducir que la pendiente de la curva ROC en

el punto t es 1 1( ( )) / ( ( ))D D D Df S t f S t− − , dónde y D Df f son las funciones de densidad de Y en

la población de enfermos y de sanos respectivamente. Llamándole 1( ) la pendiente es ( ) / ( )DD Dc S t f c f c−= . La pendiente puede ser leída como la razón de

verosimilitudes en el punto de corte c, es decir ( | ) / ( | )P Y c D P Y c D= = que será tanto mayor conforme sea mayor c.

La curva ROC también sirve para determinar el punto de corte idóneo en la clasificación de

sanos y enfermos en términos de coste promedio inferior. El punto de corte óptimo M0 se puede obtener de un modo objetivo; para ello es preciso introducir en el problema el coste de cada una de las acciones que intervienen en el mismo. Una vez definido un punto de corte M, cada individuo de la población es de uno de estos cuatro tipos: T D∩ , T D∩ , T D∩ y T D∩ . Cada tipo de individuo conlleva un coste Cα, C1−β, Cβ y C1−α respectivamente; es decir, Cα (C1−β) es el coste asociado a tratar a alguien que no (sí) está enfermo, en tanto que Cβ (C1−α) es el coste asociado a no tratar a alguien que sí (no) está enfermo (usualmente Cβ es alto y C1−α=0). Si se conocen los costes, el coste medio asociado al punto M es:

C = P(T D∩ )×Cα + P(T D∩ )×C1−β + P(T D∩ )×Cβ + P(T D∩ )×C1−α = = P(D )P(T D| )×Cα + P(D)P(T D| )×C1−β + P(D)P(T D| )×Cβ + P(D )P(T D| )×C1−α =

= (1−p)αCα + p(1−β)C1−β + pβCβ + (1−p)(1−α)C1−α

siendo p=P(D) , la prevalencia de la enfermedad). El valor óptimo M0 será aquel que haga mínimo el coste C, pudiendo demostrarse que la pendiente del mismo en la curva ROC es:

α 1 β

β 1 α

C C1 p 1 p = R

p C C pη −

−− −× = ×−

(3.44)

la cual se puede determinar si se conoce la prevalencia p y la razón de la diferencia de costes R. Pero aún siendo una función muy importante, a la hora de valorar tests diagnósticos cuantitativos la curva ROC resulta de un valor limitado para su uso por su extensión y dificultad de manejo por lo que se han buscado medidas de resumen de la misma entre las que resalta el área bajo la curva ROC. El área bajo la curva ROC, notada generalmente como AUC, se define, claro está, como:

1

0( )AUC ROC t dt= ∫ (3.45)

y tiene una interpretación que es la que la ha hecho de tanta utilidad: el área bajo la curva ROC es igual a la probabilidad de que, elegida una pareja de individuos al azar, uno enfermo y otro sano, el test diagnóstico sea capaz de ordenarlos correctamente; es decir ( )D DAUC P Y Y= > .

Es obvio, mirando la Ilustración 6, que AUC=1 cuando estamos ante un test ideal que discrimina perfectamente entre sanos y enfermos, que en el caso de un test inútil, aquél que acierta tanto como el azar, AUC=0.5, y que cualquier test aplicable tendrá un área de valor superior a 0.5, ya que los tests despreciables para su uso, aquellos que tienen su curva ROC por debajo de la diagonal principal, tendrán AUC inferiores a 0.5. Este parámetro nos acompañará a partir de ahora como una medida de resumen que permite señalar de manera muy clara el funcionamiento de un test diagnóstico cuantitativo.

Page 31: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

31

3.3.2. El modelo Binormal. Un caso particular de especial relevancia es aquel dónde la distribución de la variable continua Y es Normal tanto en la pobalción de los individuos enfermos como en la población de los individuos sanos. Es decir el modelo binormal es aquél en el que, ( ; ) y ( ; )D D D D D DY N Y Nµ σ µ σ→ → .

En este caso podemos tener una expresión explícita de la curva ROC. En efecto, para cualquier

punto de corte c, ( ) ( ) DD

D

cFPF c P Y c

µσ

−= > = Φ

y ( ) ( ) D

DD

cTPF c P Y c

µσ

−= > = Φ

,

siendo Ф la función de distribución de una N(0,1), y por tanto,

( )

( )( )

1

1

( ) ( )

D D DD

D D

tcROC t TPF c

a b t

µ µ σµσ σ

− + Φ −= = Φ = Φ =

= Φ + Φ

(3.46)

siendo

y D D D

D D

a bµ µ σ

σ σ−= = (3.47)

Como se ve, la curva ROC binormal depende de manera lineal de la diferencia estandarizada entre las dos medias y del cociente de las dos varianzas de la variable Y en la población de sanos y en la población de enfermos. A a se la denomina altura en el origen de la curva ROC y a b se la denomina pendiente de la curva ROC binormal; es evidente que b es siempre positiva, la curva ROC binormal, como todas, es por tanto monótona creciente. En el ejemplo introductorio que hemos empleado y que se corresponde con el modelo binormal tendríamos que a=(7,5-8,5)/0,6=1,67 y b=0,6/0,2=3. Con respecto al área bajo la curva ROC, AUC, también podemos tener una expresión explícita ahora que se puede demostrar que es:

21

aAUC

b

= Φ

+ (3.48)

que en nuestro ejemplo concreto sería AUC=Ф(0.5270)=0,7009, que evidentemente es mayor que 0,5 aunque no está muy cerca de 1 lo que correspondería al test ideal. Se podría pensar que el modelo binormal es un modelo que rara vez se presenta en la práctica y que por tanto su aplicación queda en entredicho; sin embargo eso no es así y se puede entender si recordamos la propiedad 5 de las curvas ROC. En efecto el modelo binormal se mantiene siendo las distribuciones de la Y en la población de enfermos y de sanos normales o consiguiendo una transformación monótona que las normalice, de ahí que el modelo binormal se emplee con muchísima frecuencia. Puede probarse también que, conocidos el valor de η y la distribución de la v.a. en los individuos normales -N(µ0; σ0)- y en los enfermos -N(µ1; σ1)-, y si se nota por a = (µ1−µ0)/σ1 y b = σ0/σ1, entonces los valores α y 1−β que determina M0, el punto óptimo de corte son:

[ ]

[ ]

2 2 2

2 2 2

α=P z ab a +2(1 b ) ln (η/b) /(1 b ) ; α=P a/2 ln (η/b)

1 β=P z a b a +2(1 b ) ln (η/b) /(1 b ) ; 1 β=P 1/2 ln (η/b)

z

z

≤ − − × − ≤ − −

− ≤ − − × − − ≤ −

(3.49)

en donde las expresiones de la izquierda (derecha) son válidas para b≠1 (b=1). Aunque las fórmulas sean largas, la dificultad para determinar M0 radica en conocer el valor de R, siendo lo usual darle diversos valores cercanos a 1 y comprobar que M0 no cambia demasiado por ello. Para ilustrar esto, y todo lo anterior, consideremos de nuevo los datos de la cirrosis. Asumiendo que la prevalencia de la enfermedad es p=0,3 (por tratarse de una población sospechosa de padecer la enfermedad) y que R=1, entonces la pendiente de la curva ROC en el

Page 32: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

32

punto de corte óptimo M0 es η = (0,7/0,3)×1 = 2,333. Por otro lado, como µ0=7,5, µ1=8,5, σ0=0,2, σ1=0,6, a = (8,5−7,5)/0,6 = 1,6667 y b = 0,2/0,6 = 0,3333, entonces por las expresiones (3.49)

2 2 2

2 2 2

2,333α=P z 1,6667 0,3333 1,6667 +2(1 0,3333 )ln /(1 0,3333 )

0,333

2,3331 β=P z 1,6667 0,3333 1,6667 +2(1 0,3333 )ln /(10,3333 )

0,333

≤ ×

≤ ×

− − −

− − − −

Tabla 3.6 Valores de Mo para diversos R

R α 1−β M0 0,5 0,0293 0,8499 7,88 1 0,0145 0,8260 7,94 2 0,0071 0,8024 7,99

y de ahí que α = P(z≤−2,18) = 0,0145 y 1−β = P(z≤+0,94) = 0,8260. Para determinar M0 puede utilizarse cualquiera de estos dos valores. Por ejemplo, utilizando α sabemos que M0 es un máximo para los individuos normales, y así M0 = µ0+z2α×σ0 = 7,5+2,18× 0,2 = 7,94 (el valor z2α no es preciso mirarlo en la Tabla 2: es el −2,18 tomado como positivo). La Tabla 3.6 muestra estos datos y los obtenidos para otros valores de R. Se observa que para valores de R desde 0,5 a 2, que es un rango amplio, ocurre que el punto de corte óptimo no varía demasiado (alrededor de una décima) lo que nos permite afirmar que M0 ≈7,94 para un intervalo amplio de los costes.

3.4. Estimación de la Curva ROC y del área bajo la curva ROC. Hasta ahora hemos presentado la curva ROC y el área bajo ella en términos puramente poblacionales, sin embargo, en la práctica rara vez se conocen los parámetros poblacionales por lo que tienen sentido plantearse problemas típicos de inferencia estadística. Para ello supongamos que tenemos nD individuos enfermos a los que se les ha aplicado

el test Y, habiéndose obtenido Di DY , i=1,...,n observaciones; además nD individuos sanos a

los que se les ha aplicado el test Y, habiéndose obtenido Dj DY , j=1,...,n observaciones.

Si se aplica la definición de curva ROC a los datos de las dos muestras podemos tener lo que se denomina curva ROC empírica, de manera que para cada punto de corte, c, podemos tener la estimación puntual de la sensibilidad y de la tasa de fasos positivos:

1

1

( ) ( ) /

( ) ( ) /

D

D

n

Di Di

n

Di Di

TPF c I Y c n

FPF c I Y c n

=

=

= ≥

= ≥

∑ (3.50)

dónde, como se sabe, el operador I indica el número de observaciones que cumplen la propiedad en el paréntesis del operador.

También se puede presentar la curva ROC empírica como � 1ˆ ˆ( ) ( ( ))e D DROC t S S t−= .

Desde luego que en cada punto de la curva ROC se puede construir un intervalo de confianza de manera que en vez de una curva ROC tendremos unas bandas de curvas ROC, bandas que tienen expresiones complejas y que por tanto no presentaremos aquí pero que usaremos a partir de los cálculos hechos por programas específicos.

Page 33: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

33

El otro parámetro de interés a estimar es el área bajo la curva ROC empírica, que se

puede demostrar que es la U de Mann-Whitney y que viene dada por la siguiente expresión:

� ( ) ( )1 1

1/

2

D Dnn

e Di Di DDj Dj Di j

AUC I Y Y I Y Y n n= =

= > + =

∑∑ (3.51)

esta expresión calcula el área bajo la curva a partir de la regla del trapecio aplicada a la curva ROC empírica. A esta regla se la denomina también regla de Wilcoxon. Con objeto de poder calcular intervalos de confianza para el área bajo la curva ROC empírica, McNeil(1982) obtuvo una aproximación de la varianza del área bajo la curva ROC empírica que viene dada por la siguiente expresión:

� { }2 21 2(1 ) ( 1)( ) ( 1)( )

var( )D D

D D

AUC AUC n Q AUC n Q AUCAUC

n n

− + − − + − −=

(3.52) dónde

( )( )

'

' '

1

2

,

,

Di Dj DjDi

Di Dj Di Dj

Q P Y Y Y Y

Q P Y Y Y Y

= ≥ ≥

= ≥ ≥

Sustituyendo los parámetros poblacionales por sus estimadores muestrales se obtiene una aproximación de la varianza del área bajo la curva ROC empírica. DeLong (1988) dio otra aproximación a la varianza de la curva ROC empírica que se puede expresar de la siguiente manera

�� � ˆˆ var( ( ))var( ( ))

var( ) D DjDiDe

D D

S YS YAUC

n n= + (3.53)

que computacionalmente es mucho cómoda que la (3.52). La estimación por intervalo del área bajo la curva ROC, en el caso de muestras grandes viene dada por la expresión:

� � �var( )e eAUC AUC z AUCα∈ ± (3.54)

siendo zα el valor de la N(0,1) de dos colas obtenido al error α de la Tabla 2. Debido aque el área bajo la curva ROC es una probabilidad y es por tanto una cantidad entre 0 y 1, se puede aplicar una transformación propia de esas cantidades para conseguir un intervalo asimétrico que incurra en menos contradicciones (desborde al 0 o al 1) que el intervalo (3.54); por eso usando el logit(p)=ln(p/(1-p)) para la AUC obtendremos el siguiente intervalo

� �

var( )log log

1 1 (1 )

ee

e e e

AUCAUC AUCz

AUC AUC AUC AUCα

∈ ± − − − (3.55)

Deshaciendo la transformación logit tendremos un intervalo de confianza para AUC que es lo que íbamos buscando. Como se ha visto hasta aquí la estimación del área bajo la curva ROC es computacionalmente intensiva por lo que, aunque la mayoría de los cálculos se pueden hacer a mano, tales cómputos se suelen usar empleando programas de ordenador especialmente dispuestos para ello. Por eso a continuación hablaremos de los programas de ordenador apropiados para esos cálculos.

Page 34: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

34

3.5. Programas de ordenador para estimar la curva ROC y el área bajo ella. Existen múltiples programas que alivian los problemas de estimación del área bajo la curva ROC y del área bajo ella y no todos con la suficiente calidad en los ajustes realizados. Pero ha habido históricamente un paquete de programas producidos por Metz y colaboradores en la Universidad de Chicago que ahora figuran en la siguiente dirección:

http://xray.bsd.uchicago.edu/krl/KRL_ROC/software_index6.htm que han sido, y siguen siéndolo, el estándar del software para estos problemas. En la dirección citada no sólo figuran los enlaces para las descargas de los programas sino que aparecen explicaciones detalladas de sus funciones. Realmente toda la página de los Laboratorios Kurt Rossman está cargada de información sobre curvas ROC y mantiene una excelente relación de citas sobre metodología de curvas ROC. Sin embargo, el uso de un paquete de programas como el citado, por su extensión, requiere una cantidad de tiempo importante, por lo que aquí emplearemos una versión reducida del software de la Universidad de Chicago dispuesto en una página web y que permite usar los programas de una manera rápida y cómoda. En efecto, John Eng de la universidad Johns Hopkins ha preparado un applet de Java que permite tanto la estimación de la curva ROC empírica como la estimación de la Curva por el modelo Binormal, así como la estimación puntual del área bajo la curva ROC tanto con el método del trapecio como suponiendo la binormalidad del test, así como de sus errores estándar oportunos. El applet de Java al que nos referimos está en la página siguiente y a su uso dedicaremos las siguientes lineas http://www.rad.jhmi.edu/jeng/javarad/roc/JROCFITi.html. Si se enlaza con la página se encontrará una pantalla con tres partes claramente diferenciadas. La primera está dedicada a la presentación de la página a los objetivos de la misma y a presentar explicaciones de su uso. La segunda parte presenta dónde se le dan los datos y se le pide específicamente un análisis, y se recogen los resultados que produce el programa, segunda parte que aparece en la Ilustración 7 y una última parte que explica como se pueden exportar los resultados y algunos problemas existentes con algunos sistemas operativos. Aquí nos centraremos en la presentación de la segunda parte que es la que a nosotros nos interesa. Observando la Ilustración 7 lo primero que se observa es que ha de indicársele al programa el tipo de datos que se van a introducir, habiendo cinco opciones a elegir dentro del apartado Data Format. En la Ilustración 7 aparece seleccionada la opción Format 5 que es la que corresponde a dos muestras de datos continuos, una de individuos con la enfermedad y otro de individuos sin la enfermedad; éste es el único formato de datos que veremos aquí porque es el más corriente, pero si el lector desea ver los distintos tipos de datos que admite el programa no tiene más que pulsar en la primera parte de la página el enlace (See explanation of data formats.) Inmediatamente debajo de los formatos aparece la entrada: Number of rating categories que no tiene que rellenarse en el caso del Formato 5. Seleccionado el formato de datos que se va a introducir los datos han de introducirse en la ventana Input Data: (paste or enter), en la que se introducirá para cada individuo una pareja de variables; la primera que será binaria indicará el estado de enfermedad del individuo, 0 si está sano y 1 si está enfermo y la segunda variable que será el resultado numérico del test diagnóstico; así en la Ilustración 7 el primer individuo introducido es un individuo sano, tiene un 0 en la primera variable, y en el resultado del test diagnóstico vale -0.037, el segundo individuo introducido también está sano y tiene un valor en el test diagnóstico de 0.288 y así sucesivamente. Los datos se pueden grabar en la ventana directamente ya que la ventana es un editor de datos ASCII o se pueden colocar en ella a partir de unos datos dispuestos en Excel y Copiados de allí y Pegados en ésta; lo mismo se puede hacer desde cualquier editor de datos ASCII e incluso en cualquier editor de texto, aunque con esta última opción hay que tener algo más de precaución porque a veces se graban algunos caracteres de control de tales procesadores; en el caso de la Ilustración 7, y con objeto de llevar a cabo esta explicación, se han colocado los

Page 35: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

35

datos pulsando el botón que como su nombre indica coloca unos datos de ejemplo en la ventana de datos.

Ilustración 7. Condiciones para el uso del Web based Calculator for ROC curves

Cuando estén todos los datos grabados bastará con pulsar el botón para que las ventanas Program Output:, ROC curve, Summary Statistics: y Points for Plotting: den los diferentes resultados que produce el programa y que explicaremos a continuación. Los resultados aparecerán como aparecen en la Ilustración 8.

Las cuatro ventanas a las que nos hemos referido son de índole muy distinta, pues si bien la ventana de ROC curve es una ventana en la que aparece la curva ROC ajustada y no es fácil cortarla y pegarla en otro sitio, las otras tres ventanas son ventanas en las que aparecen resultados trasladables a otros programas y que nos permitirían desde realizar gráficas a construir tablas o escribir informes. Ahora estudiaremos los resultados que se presentan en cada uno de esas ventanas.

Page 36: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

36

Ilustración 8. Resultados Web based Calculator for ROC curves para los datos de

ejemplo. A continuación aparecen los resultados completos de la ventana Program Output y los

comentarios, sobre ellos, que entiendo que son de interés. Los resultados producidos por el programa están encerrados en la parte izquierda de la cuadrícula y los comentarios sobre ellos aparecen en la parte derecha de la cuadrícula.

Program output: Salida del Programa Comentarios sobre la salida JLABROC4: Maximum likelihood estimation of a binormal ROC curve from continuously distributed test results. Java translation by John Eng, M.D. The Russell H. Morgan Department of Radiology and Radiological Science Johns Hopkins University, Baltimore, Maryland, USA Version 1.0.1, Aug 2006 Original Fortran program LABROC4 by Charles Metz & colleagues Department of Radiology, University of Chicago October 1997 ------------------------------------------------------------

Este es un breve texto introductorio de presentación del programa en el que se señala, en la primera línea que los datos son continuos, que son los datos del formato que hemos elegido.

Page 37: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

37

Program output: Salida del Programa Comentarios sobre la salida INPUT DATA Scores from the 68 actually negative cases: -0.0370 0.2880 -1.6490 -0.0740 0.8330 -2.0190 0.9760 0.5610 0.4940 -1.6990 0.9810 0.8080 0.0440 -1.1070 2.1620 0.0900 0.3040 0.1530 -0.2340 -0.6810 -0.3320 -1.5540 1.6440 0.4820 0.5010 0.4570 -0.1550 -1.1010 1.1160 0.0020 0.6580 -1.1670 1.2770 1.0590 -1.6580 2.6140 0.6950 -0.2720 -0.1240 -0.8860 1.7690 0.1310 -2.2010 -0.7400 1.5130 -1.2010 -1.6870 -0.4420 0.5220 0.6940 -0.6960 0.7960 -1.2670 1.9730 1.7500 2.0560 1.5370 -1.3990 1.3020 0.0550 0.6560 -0.2110 0.3350 1.0780 -0.2340 -0.4600 -0.6800 -0.0060 Scores from the 80 actually positive cases: 0.8350 -0.3340 1.1720 2.9620 1.0010 1.4020 0.8290 1.5930 2.8610 -0.6530 2.1180 0.3610 0.9710 1.8120 1.2930 1.5340 3.0000 0.3650 0.6330 2.0020 0.0540 4.3530 1.5680 1.1630 -0.7770 0.5470 -0.0950 0.8300 0.9050 1.2970 1.7800 2.6020 2.6990 1.8070 2.3670 0.0520 4.1950 -0.6590 3.0300 0.8500 2.0620 1.3660 4.8500 2.7790 2.2820 0.5860 0.9760 0.5010 0.6200 1.2870 1.4570 1.3740 1.0150 1.1160 0.3210 1.7840 4.6800 0.7470 0.9480 1.5080 0.3780 1.2500 0.2250 1.3730 -0.8690 0.8170 1.5410 1.1230 0.9070 0.2100 1.4720 -0.0990 2.9510 1.2540 0.7890 0.8820 0.5540 0.5600 1.2730 -0.2070 Larger values of the test result represent stronger evidence that the case is actually positive (e.g., that the patient is actually abnormal). Number of actually negative cases = 68 Number of actually positive cases = 80

Aparecen los datos que se han introducido y en el orden en el que se han introducido. Aparecen primeros los casos que no son enfermos, él les llama “negative cases” y se cita que son 68 casos. Tras ellos aparecen los datos de los enfermos (“positive cases”) y cita que en esta muestra son 80 casos. Tras los datos se nos comunica que, según los datos que le hemos introducido, cuanto mayores son los datos de la variable que representa el test mayor es la evidencia de enfermedad. Si fuera al revés así nos lo haría saber. Tras ello aparecen, otra vez, el número de casos tanto positivos como negativos.

Program output: Salida del Programa Comentarios sobre la salida OPERATING POINTS CORRESPONDING TO THE INPUT DATA FPF: 0.0000 0.0000 0.0147 0.0147 0.0294 TPF: 0.0000 0.1375 0.1375 0.1750 0.1750 FPF: 0.0294 0.0441 0.0441 0.0588 0.0588 TPF: 0.2000 0.2000 0.2125 0.2125 0.2625 FPF: 0.1029 0.1029 0.1176 0.1176 0.1324 TPF: 0.2625 0.3000 0.3000 0.3125 0.3125 FPF: 0.1324 0.1471 0.1471 0.1618 0.1618 TPF: 0.4000 0.4000 0.4375 0.4375 0.5125 FPF: 0.1765 0.2059 0.2059 0.2206 0.2353 TPF: 0.5250 0.5250 0.5500 0.5500 0.5625 FPF: 0.2353 0.2500 0.2500 0.2794 0.2794 TPF: 0.6500 0.6500 0.6875 0.6875 0.7125 FPF: 0.3382 0.3382 0.3529 0.3529 0.3676 TPF: 0.7125 0.7500 0.7500 0.7875 0.7875 FPF: 0.3824 0.4265 0.4265 0.4412 0.4412 TPF: 0.8000 0.8000 0.8375 0.8375 0.8500 FPF: 0.4706 0.4706 0.5294 0.5294 0.6029 TPF: 0.8500 0.8750 0.8750 0.9000 0.9000 FPF: 0.6029 0.6324 0.6324 0.7059 0.7059 TPF: 0.9250 0.9250 0.9375 0.9375 0.9500 FPF: 0.7353 0.7353 0.7941 0.7941 1.0000 TPF: 0.9500 0.9750 0.9750 1.0000 1.0000

Figuran a continuación los puntos de la curva ROC empírica obtenida con los datos introducidos; como se ve aparecen la pareja de valores de (FPF, TPF) de manera que, disponiéndolos convenientemente se puede representar la curva ROC empírica. En efecto esos datos han sido copiados en una hoja de Excel y se han dispuesto de manera vertical y se les han añadido la curva ROC representada por la diagonal principal, y con ellos se ha dibujado la Ilustración 9 que figura a continuación. Como se ve la curva ROC empírica es una curva quebrada, monótona creciente y con tramos horizontales que es dónde se dan los empates entre las observaciones.

Page 38: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

38

0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

0.0000 0.1000 0.2000 0.3000 0.4000 0.5000 0.6000 0.7000 0.8000 0.9000 1.0000

FPF

TP

F

Ilustración 9. Curva ROC empírica para los datos del ejemplo.

Program output: Salida del Programa Comentarios sobre la salida FINAL ESTIMATES OF BINORMAL ROC PARAMETERS A AND B: A = 1.1409 Std. Error (A) = 0.2104 B = 1.1512 Std. Error (B) = 0.1704 Correlation (A, B) = 0.4039 AREA UNDER ROC CURVE: Area under fitted curve (Az) = 0.7728 Estimated std. error = 0.0381 Trapezoidal (Wilcoxon) area = 0.7665 Estimated std. error = 0.0385

A continuación figuran los resultados de la estimación de la curva ROC teórica suponiendo el modelo Binormal, de ahí los valores a y b (A y B los nota el programa) que se presentan. Además se dan dos estimaciones del área bajo la curva ROC con sus respectivos errores estándar. Para el caso de que fuera cierto el modelo Binormal tendríamos que la estimación de AUC sería 0.7728±0.0381 y sin necesidad de suponer tal modelo la estimación no-paramétrica del AUC sería 0.7665±0.0385. Como se ve ambas estimaciones puntuales se parecen mucho, cosa que suele ocurrir cuando los tamaños muestrales son grandes (se dice que cuando la variable es continua y las dos muestra tienen un tamaño superior a 60). También suele ocurrir que la estimación por el método del trapezoide da valores ligeramente inferiores a la estimación suponiendo el modelo Binormal por lo que debe emplearse la estimación no-paramétrica en cuanto se tenga la menor duda de la Normalidad de la variable Y en ambas poblaciones.

Page 39: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

39

El resto de la salida en Program Output: no es de nuestro interés. Lo que se presenta en la ventana Summary Statistics: se explica por si sólo y en el fondo es una repetición, incompleta, de lo presentado en la ventana Program Output:. En la ventana Points for Plotting: aparecen los puntos de la curva ROC teórica ajustada a los datos suponiendo el modelo binormal así como, para cada valor de FPF el intervalo de confianza para la sensibilidad, de manera que aparece la curva ROC y dos bandas de confianza al 95%. Copiados los datos de la ventana y pegados en Excel y representados allí se ha obtenido la Ilustración 10

0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

0.0000 0.2000 0.4000 0.6000 0.8000 1.0000

FPF

TP

F

TPF

Lower

Upper

Ilustración 10. Curva ROC teórica supuesto el modelo Binormal ajustada a los datos del

ejemplo.

Como se ve la Web based Calculator for ROC curves proporciona todos los datos referentes a las curvas ROC correspondientes a los datos que se le introduzcan y supone una ayuda grande a la hora de resolver problemas de medidas de la precisión de tests diagnósticos cuantitativos. Veamos un ejemplo de aplicación a datos reales.

3.6. Ejercicios.

Ejercicio 3.3. Se trata de determinar la calidad diagnóstica para el diagnóstico de tumores de mama malignos de la ecografía doppler-color. Para ello, se tomó una muestra de mujeres de 57 mujeres que padecían un tumor y a las que se les aplicó la ecografía referida obteniéndose 4 medidas numéricas de esos tumores de los que finalmente se decidió si eran benignos o malignos. Las medidas realizadas fueron el diámetro máximo del tumor (TAMA) y tres medidas que reflejan el flujo sanguíneo por los vasos del tumor (VSM,VSD e IRM). Los datos figuran en la tabla adjunta y con ellos se pretende determinar la calidad diagnóstica de cada una de esas medidas para el diagnóstico de la malignidad del cáncer de mama y si se puede afirmar que una es preferida sobre las otras.

CASO GOLD TAMA VSM VDM IRM CASO GOLD TAMA VSM VDM IRM

1,00 mal 1,305 0,10 0,03 0,69 34,00ben 2,724 0,06 0,03 0,43

2,00 ben 1,271 0,04 0,02 0,61 35,00ben 1,286 0,05 0,02 0,48

3,00 mal 2,76 0,04 0,01 0,71 36,00mal 2,626 0,05 0,02 0,67

Page 40: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

40

CASO GOLD TAMA VSM VDM IRM CASO GOLD TAMA VSM VDM IRM

4,00 mal 1,587 0,09 0,02 0,71 37,00mal 1,183 0,16 0,06 0,63

5,00 mal 2,59 0,21 0,06 0,72 38,00ben 1,66 0,09 0,05 0,50

6,00 mal 0,862 0,05 0,02 0,64 40,00ben 1,49 0,06 0,03 0,58

9,00 mal 1,69 0,05 0,01 0,68 42,00ben 2,5 0,13 0,05 0,59

10,00 ben 0,832 0,05 0,02 0,64 43,00mal 3,5 0,05 0,01 0,62

11,00 mal 2,93 0,03 0,01 0,86 44,00mal 2,09 0,10 0,04 0,63

12,00 mal 2,505 0,09 0,02 0,76 45,00mal 0,93 0,08 0,03 0,59

14,00 mal 2,952 0,13 0,06 0,53 47,00mal 1,75 0,05 0,00 0,74

15,00 ben 1,375 0,03 0,01 0,47 48,00ben 1,35 0,10 0,04 0,54

16,00 ben 1,569 0,05 0,02 0,53 51,00mal 3,06 0,13 0,04 0,67

18,00 mal 4,9 0,24 0,06 0,63 52,00ben 3,16 0,04 0,02 0,55

19,00 ben 1,994 0,05 0,02 0,63 53,00mal 0,93 0,03 0,01 0,65

20,00 mal 4,04 0,14 0,04 0,56 54,00ben 2,27 0,04 0,02 0,59

21,00 mal 1,2 0,05 0,02 0,70 55,00mal 2,38 0,12 0,04 0,65

22,00 ben 3,58 0,09 0,02 0,74 56,00ben 1,19 0,13 0,02 0,59

23,00 ben 1,695 0,04 0,01 0,54 57,00mal 2,71 0,10 0,04 0,57

24,00 ben 2,028 0,06 0,02 0,64 58,00ben 1,79 0,07 0,03 0,45

25,00 ben 1,298 0,06 0,02 0,61 59,00ben 1,811 0,03 0,02 0,54

26,00 ben 0,773 0,05 0,02 0,66 60,00ben 3,005 0,02 0,01 0,50

27,00 ben 1,104 0,07 0,03 0,54 61,00mal 1,137 0,12 0,03 0,72

28,00 ben 3,86 0,07 0,03 0,56 62,00mal 2,4 0,09 0,04 0,59

29,00 mal 6,13 0,05 0,02 0,54 63,00mal 2,869 0,17 0,04 0,77

30,00 mal 3,523 0,05 0,02 0,59 64,00mal 3,42 0,05 0,02 0,61

31,00 ben 1,112 0,04 0,02 0,59 65,00mal 4,8 0,07 0,00 0,61

32,00 mal 0,858 0,04 0,01 0,56 66,00ben 4,72 0,16 0,10 0,39

33,00 mal 2,507 0,06 0,02 0,61 Solución:

El primer paso que daremos para resolver el problema será dar un formato distinto a los datos que se nos proporcionan con objeto de poder usarlos en el web base calculador. Copiaremos los datos y los pegaremos en Excel, disponiéndolos de manera que estén todos seguidos. El segundo paso será cambiar todas las comas por puntos ya que la página web que usaremos para los cálculos sólo admite datos en formato anglosajón en el que el separador de decimales es el punto. A continuación cambiaremos los textos “mal” por un 1 y “ben” por un 0. Dispuestos así los datos prepararemos los datos del diámetro máximo para ser analizados, para ello nos quedaremos con las dos columnas, una la de los resultados del gold estándar (ceros y unos después de la modificación ) y para cada una de ellos el valor correspondiente del diámetro máximo. Llevados los datos a la página web y ejecutado el programa, los resultados que se han obtenido aparecen en la tabla 3.7. En ella los intervalos de confianza han sido calculados empleando las fórmulas 3.54 y 3.55. El mismo proceso se sigue para el resto de las variables. Los intervalos están calculados al 95% de confianza. Comentamos los resultados de la Tabla 3.7; la estimación puntual de AUC para la variable VDM es muy cercana a 0.5 (el área de una curva ROC para una variable que funcionara como el azar) tanto en el caso de un modelo binormal o por la estimación no-paramétrica, conteniendo además sus intervalos a dicho valor 0.5, por lo que podemos concluir que esta variable no debe usarse como predictora de la malignidad del tumor puesto que no mejora el resultado del azar. Para las variables VSM y TAMA ocurre una cosa parecida ya que el intervalo de confianza de la AUC contiene al 0.5 por lo que podemos decir que ese es un valor posible de su AUC lo que indica que tampoco podemos descartar que no mejoren al azar. La única variable que resulta relevante de cara al diagnóstico es la variable IRM que tiene una estimación puntual del área bajo la

Page 41: DEFINICIÓN Y GENERALIDADES DE UN TEST …iroldan/Tema_3.pdf · A estos tests es a los que nos dedicaremos a partir de ahora puesto que son los más

41

curva ROC superior a 0.80 y cuyo intervalo no contiene al valor 0.5. Por tanto el IRM si puede emplearse como variable predictora de la malignidad del tumor teniendo una probabilidad de acertar, con una pareja de mujeres una con tumor maligno y otra con tumor benigno, que va de 0.676 a 0.899 con una confianza del 95%.

Tabla 3.7. Áreas bajo las curvas ROC estimadas para cada una de las variables para el diagnóstico

Intervalo AUC Intervalo AUC(logit)

Variable �AUC ee(�AUC) �infAUC �

supAUC � infAUC � infAUC TAMA 0.623 0.0724 0.481 0.765 0.475 0.751VSM 0.653 0.0714 0.513 0.793 0.504 0.777VDM 0.483 0.0773 0.332 0.635 0.338 0.632

Estimación según

Modelo Binormal IRM 0.817 0.0560 0.707 0.927 0.682 0.903TAMA 0.623 0.0740 0.478 0.768 0.471 0.754VSM 0.640 0.0731 0.497 0.783 0.489 0.768VDM 0.515 0.0773 0.363 0.666 0.367 0.661

Estimación no-paramétrica

IRM 0.812 0.0567 0.701 0.923 0.676 0.899 Queda para el lector la representación de las curvas ROC teóricas estimadas bajo el modelo binormal para cada una de las variables del estudio.