Criterios de Calidad de Los Estudios Sobre Pruebas Diagnósticas

Resumen

Aunque el diagnstico desempea un papel central en la actividad clnica,los mdicos reciben escaso entrenamiento formal en la utilizacin de prue-bas diagnsticas durante su formacin acadmica. Adems, la investigacinpublicada sobre evaluacin de pruebas diagnsticas es, en general, de bajacalidad. En esta nota se repasan los patrones aceptados de calidad metodo-lgica en el diseo y la realizacin de esos estudios, as como la cuantifica-cin emprica del impacto de los sesgos que produce su falta de cumpli-miento.Palabras clave: Sesgos. Diseo. Pruebas diagnsticas.

El diagnstico desempea un papel central en la actividad clnica: es la pri-mera intervencin clnica en el paciente y su resultado condiciona el desa-rrollo de la prctica clnica posterior, sin olvidar el impacto social que pue-de tener por el efecto de asignar a los ciudadanos etiquetas de falta de nor-malidad1. El proceso diagnstico constituye una actividad intelectual muyexigente, y requiere una compleja imbricacin de conocimiento acadmico,experiencia clnica y capacidad de obtener informacin a la cabecera delpaciente. Por ello, la habilidad para realizar un diagnstico es una de lascualidades ms valoradas por los propios clnicos, e incluso, a veces, se se-ala el diagnstico como la actividad ms caracterstica de los mdi-cos, actividad que ningn otro profesional puede hacer2. Si bien todo ellocontrasta con el escaso entrenamiento formal en la utilizacin de pruebasdiagnsticas que reciben los mdicos durante su formacin acadmica3.Adems, es difcil de estudiar. En las revistas mdicas, slo una pequea mi-nora de estudios ofrecen informacin vlida sobre la utilidad de las pruebasdiagnsticas2. Ya hace ms de 10 aos que Reid et al4 llamaron la atencinsobre la poca calidad de los estudios de evaluacin de las pruebas diagnsti-cas, y la situacin no parece haber mejorado. En una reciente revisin5 de ar-tculos de evaluacin de validez diagnstica, localizados a travs de metaa-nlisis, de 487 artculos revisados, slo uno no tena ningn defecto de dise-o. Se encontr que la calidad de la propia descripcin de este tipo deinvestigacin y de sus resultados es tambin baja. De hecho, no es infrecuen-te que una revisin sistemtica no pueda responder a una pregunta concretasobre diagnstico, no por falta de artculos que evalen la prueba, sino preci-samente por la baja calidad del diseo y de la presentacin de los resultadosde los artculos encontrados6. Y ello a pesar de las diversas iniciativas que sehan desarrollado para mejorar la calidad tanto de la investigacin sobre laevaluacin de las pruebas diagnsticas, como de su publicacin. Algunas es-tn dirigidas a los lectores de las revistas, como las guas de lectura crtica de literatura mdica7,8, que incluyen guas especficas para los artculos dediagnstico. Otras estn dirigidas a los editores de las revistas y a los autoresde artculos, como la norma STARD para la publicacin de estudios de vali-dez diagnstica, que pretende mejorar la calidad de los artculos para permi-tir a los lectores evaluar los potenciales sesgos del estudio y juzgar sobre sugenerabilidad9, y otras dirigidas, en principio, a los investigadores que reali-zan revisiones sistemticas de estudios de validez diagnstica, pero indirec-tamente tambin a quienes realizan la investigacin primaria, como la normaQUADAS, que es una herramienta para evaluar la calidad de estos estu-dios10. En la tabla 1 se presentan los tems de esta norma.

Criterios de calidad de los estudios sobre pruebas diagnsticas

Vctor Abraira y Javier ZamoraCIBER Epidemiologa y Salud Pblica (CIBERESP). Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid. Espaa.

N O TA M E T O D O L G I C A

Estas guas y normas recogen los puntos crticos del diseo ptimo, as co-mo su descripcin, de un estudio que pretenda responder a la pregunta co-rrespondiente a la fase III de la investigacin sobre diagnstico11, es decir:cuando la prueba se aplica a pacientes con una sospecha razonable de quepresentan la enfermedad, o estado de inters, sus resultados permiten dis-tinguir a los pacientes que realmente tienen la enfermedad de los que no latienen? Este diseo ptimo consiste en seleccionar a un grupo de pacientesrepresentativos de aquellos en los que es razonable sospechar que tienen laenfermedad y aplicarles a todos ellos, simultneamente e independiente-mente, la prueba en evaluacin y otra prueba de referencia, aceptada comopatrn para hacer el diagnstico correcto. Ambas pruebas deben interpretar-se de modo enmascarado, es decir, cada una se debe interpretar sin que elinvestigador que lo haga sepa el resultado de la otra. De modo similar a loque ocurre con el tratamiento, este ideal de diseo est en contradiccin conla buena prctica clnica, en la que rara vez se solicitan las pruebas simult-neamente, ms bien al contrario, las pruebas deberan solicitarse de modosecuencial y cada una de ellas solicitarse e interpretarse en funcin de todala informacin disponible en cada momento, incluidos los resultados de laspruebas previas. Seguramente de esta contradiccin surgen algunos de losdefectos observados en la literatura mdica, sobre todo en los estudios queanalizan datos provenientes de la prctica clnica. Los puntos crticos sepueden agrupar en 3 apartados:

Seleccin de los pacientes

Dado que en la prctica clnica los problemas de diagnstico se planteanentre enfermedades o estados de salud que comparten sntomas, una pruebadiagnstica es verdaderamente til si permite distinguir entre trastornos quede otra forma podran confundirse; por tanto, la validez de una prueba debeestablecerse en ese escenario, es decir, en un estudio que incluya un espec-tro de pacientes lo ms parecido posible al del medio en el que la prueba se

Tabla 1. tems de la herramienta QUADAS

1. Es representativa la muestra?2. Se describen bien los criterios de seleccin?3. Clasifica bien el patrn de referencia?4. Si el patrn y la prueba no se aplican simultneamente,

es razonable pensar que la enfermedad no haya evolucionado en ese tiempo?

5. Sesgo de verificacin parcial?6. Sesgo de verificacin diferencial?7. Es el patrn de referencia independiente de la prueba?

(p. ej., la prueba no forma parte del patrn)8. Detalle de la ejecucin de la prueba9. Detalle de la ejecucin del estndar

10. Se interpret la prueba sin conocer el resultado del patrn?11. Se interpret el patrn sin conocer el resultado de la prueba?12. La informacin clnica disponible en la interpretacin de la prueba

es la misma que habr cuando se use en la prctica?13. Se informa de los resultados no interpretables?14. Se explican las prdidas?

Modificado de Whiting et al10.

460 FMC. 2008;15(7):460-83

15b APBE (460-483).qxp 24/7/08 11:28 Pgina 460

pretenda usar en el futuro, tpicamente una muestra consecutiva de pacien-tes. Sin embargo, una tentacin muy extendida en estos estudios es el dise-o de casos y controles, en el que se seleccionan 2 muestras, una de pacien-tes que se sabe que tienen la enfermedad y otra de individuos que no la tie-nen. Se ha demostrado que este diseo introduce la mayor sobrestimacindel rendimiento de la prueba. Usando como ndice de validez la odds ratiodiagnstica12, que es un modo de sintetizar en un solo ndice la sensibilidady la especificidad, este diseo lo sobrestima13 multiplicndolo por un factorde 3. Los tems 1 y 2 de QUADAS tratan de identificar este potencial de-fecto. Otros defectos en relacin con la seleccin de pacientes, que segnRutjes et al5 tienen efecto en la estimacin de la validez, son: inclusin noconsecutiva de pacientes y extraccin retrospectiva de datos, que sobresti-man el ndice ligeramente, y seleccin de pacientes por remisin a la pruebaen evaluacin, que lo infraestima dividindolo por 2.

Patrn de referencia

El patrn de referencia debe ser el mejor mtodo accesible para determinarsi un paciente tiene la enfermedad o estado de inters. Muy frecuentemente,este patrn es invasivo; ste es justamente uno de los motivos para desarro-llar nuevas pruebas, disponer de pruebas menos agresivas, o ms baratas, oms fciles que los patrones de referencia. Por tanto, suele haber problemaspara realizar estos patrones a individuos no enfermos. Por ejemplo, paraevaluar la validez de la mamografa en el diagnstico del cncer de mama,una buena prueba de referencia es la biopsia; de hecho, es la que se sueleusar, aunque obviamente hay problemas, tanto ticos como de factibilidad,para realizar biopsias a mujeres con mamografas negativas. Como conse-cuencia de ello, en muchos de estos estudios el patrn de referencia se reali-za a la mayor parte de los pacientes con resultado positivo de la prueba, yslo a una pequea parte de los que tienen resultado negativo, lo que da lu-gar al denominado sesgo de referencia o de verificacin parcial. Otros auto-res resuelven el problema, aplicando a los pacientes con resultado negativoen la prueba en evaluacin otro patrn de referencia diferente (sesgo de ve-rificacin diferencial), por ejemplo el seguimiento en el tiempo. Ambas so-luciones, si bien con frecuencia son las nicas disponibles, incumplen laasuncin de independencia entre pruebas y daran lugar a una sobrestima-cin del rendimiento diagnstico. Lijmer et al13 sealan que cuando se usandiferentes patrones de referencia, el ndice de rendimiento global se sobres-tima multiplicndose por 2, aunque, sorprendentemente, no encuentran nin-guna sobrestimacin producida por el sesgo de verificacin parcial. Lostems 3-7 de QUADAS tratan de identificar estos potenciales defectos.

Enmascaramiento en la interpretacin de las pruebas

Siguiendo con el ejemplo de la mamografa, parece claro que una imagenradiolgica dudosa ser interpretada de modo distinto, seguramente ms pa-recido a la biopsia, si se conoce el resultado de sta. Por ello, para evaluarla validez de la mamografa, ambas pruebas deben interpretarse sin que seconozca el resultado de la otra. Esta exigencia es tanto ms importantecuanto mayor componente de interpretacin subjetiva tengan las pruebas en

cuestin. Lijmer et al13 indican que, efectivamente, la falta de enmascara-miento sobrestima el ndice de rendimiento global en un 30%. Los tems 10y 11 de QUADAS tratan de identificar si hay, o no, enmascaramiento.Los tems 8 y 9 exploran el nivel de detalle de la descripcin de las pruebas,y los tems 12-14 los problemas relacionados con la generabilidad en laaplicacin de la prueba.Por ltimo, hay que tener en cuenta que el inters clnico de una pruebadiagnstica, ms all de cmo clasifica a los pacientes, reside en que los pa-cientes en los que se usa presenten mejores resultados que aquellos en losque no se usa (pregunta que corresponde a la denominada fase IV de la in-vestigacin sobre diagnstico11), y que el diseo ptimo para contestar a es-ta pregunta es el ensayo clnico aleatorizado; sin embargo, en la literaturamdica apenas hay ensayos de este tipo y todava se debate cundo y cmodeberan hacerse14.

Bibliografa1. Prez Fernndez M, Gervas J. El efecto cascada: implicaciones clni-

cas, epidemiolgicas y ticas. Med Clin (Barc). 2002;118:65-7.2. The Editors. Diagnosis, diagnosis, diagnosis. BMJ. 2002;324:0-

doi:10.1136/bmj.324.7336.0/g3. Latour J. El diagnstico. Quaderns de salut pblica i administraci de

serveis de salut, 21. Valencia: Escola Valenciana dEstudis per a la Sa-lut; 2003.

4. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards indiagnostic test research. Getting better but still not good. JAMA. 1995;274:645-51.

5. Rutjes AW, Reitsma JB, Di Nisio M, Smidt N, Van Rijn JC, Bossuyt PM.Evidence of bias and variation in diagnostic accuracy studies. CMAJ.2006;174:469-76.

6. Mijnhout GS, Hoekstra OS, Van Tulder MW, Teule GJ, Devill WL.Systematic review of the diagnostic accuracy of (18)F-fluorodeoxyglu-cose positron emission tomography in melanoma patients. Cancer.2001;91:1530-42.

7. Jaeschke R, Guyatt G, Sackett DL. Users guides to the medical litera-ture. III. How to use an article about a diagnostic test. B. What were theresults and will they help me in caring for my patients? Evidence-Ba-sed Medicine Working Group. JAMA. 1994;271:703-7.

8. Emparanza JI. Manual de supervivencia CASPe (para talleres y des-pus). Alicante: CASPe; 2005.

9. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, IrwigLM, et al. Towards complete and accurate reporting of studies ofdiagnostic accuracy: the STARD Initiative. Ann Intern Med. 2003;138:40-4.

10. Whiting P, Rutjes AW, Reitsma JB, Bossuyt PM, Kleijnen J. The deve-lopment of QUADAS: a tool for the quality assessment of studies ofdiagnostic accuracy included in systematic reviews. BMC Med ResMethodol. 2003;3:25.

11. Sackett DL, Haynes RB. Evidence base of clinical diagnosis: the archi-tecture of diagnostic research. BMJ. 2002;324:539-41.

12. Glas AS, Lijmer JG, Prins MH, Bonsel GJ, Bossuyt PM. The diagnos-tic odds ratio: a single indicator of test performance. J Clin Epidemiol.2003;56:1129-35.

13. Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, Van derMeulen JH, Bossuyt PM. Empirical evidence of design-related bias instudies of diagnostic tests. JAMA. 1999;282:1061-6.

14. Sarah JL, Les I, Simes RJ. When Is Measuring Sensitivity and Specifi-city Sufficient To Evaluate a Diagnostic Test, and When Do We NeedRandomized Trials? Ann Intern Med. 2006;144:850-5.

FMC. 2008;15(7):460-83 461

15b APBE (460-483).qxp 24/7/08 11:28 Pgina 461

Documents

Criterios de Calidad de Los Estudios Sobre Pruebas Diagnósticas