2
Resumen Aunque el diagnóstico desempeña un papel central en la actividad clínica, los médicos reciben escaso entrenamiento formal en la utilización de prue- bas diagnósticas durante su formación académica. Además, la investigación publicada sobre evaluación de pruebas diagnósticas es, en general, de baja calidad. En esta nota se repasan los patrones aceptados de calidad metodo- lógica en el diseño y la realización de esos estudios, así como la cuantifica- ción empírica del impacto de los sesgos que produce su falta de cumpli- miento. Palabras clave: Sesgos. Diseño. Pruebas diagnósticas. El diagnóstico desempeña un papel central en la actividad clínica: es la pri- mera intervención clínica en el paciente y su resultado condiciona el desa- rrollo de la práctica clínica posterior, sin olvidar el impacto social que pue- de tener por el efecto de asignar a los ciudadanos etiquetas de falta de nor- malidad 1 . El proceso diagnóstico constituye una actividad intelectual muy exigente, y requiere una compleja imbricación de conocimiento académico, experiencia clínica y capacidad de obtener información a la cabecera del paciente. Por ello, la habilidad para realizar un diagnóstico es una de las cualidades más valoradas por los propios clínicos, e incluso, a veces, se se- ñala el diagnóstico como la actividad más característica de los médi- cos, actividad que ningún otro profesional puede hacer 2 . Si bien todo ello contrasta con el escaso entrenamiento formal en la utilización de pruebas diagnósticas que reciben los médicos durante su formación académica 3 . Además, es difícil de estudiar. En las revistas médicas, sólo una pequeña mi- noría de estudios ofrecen información válida sobre la utilidad de las pruebas diagnósticas 2 . Ya hace más de 10 años que Reid et al 4 llamaron la atención sobre la poca calidad de los estudios de evaluación de las pruebas diagnósti- cas, y la situación no parece haber mejorado. En una reciente revisión 5 de ar- tículos de evaluación de validez diagnóstica, localizados a través de metaa- nálisis, de 487 artículos revisados, sólo uno no tenía ningún defecto de dise- ño. Se encontró que la calidad de la propia descripción de este tipo de investigación y de sus resultados es también baja. De hecho, no es infrecuen- te que una revisión sistemática no pueda responder a una pregunta concreta sobre diagnóstico, no por falta de artículos que evalúen la prueba, sino preci- samente por la baja calidad del diseño y de la presentación de los resultados de los artículos encontrados 6 . Y ello a pesar de las diversas iniciativas que se han desarrollado para mejorar la calidad tanto de la investigación sobre la evaluación de las pruebas diagnósticas, como de su publicación. Algunas es- tán dirigidas a los lectores de las revistas, como las guías de lectura crítica de literatura médica 7,8 , que incluyen guías específicas para los artículos de diagnóstico. Otras están dirigidas a los editores de las revistas y a los autores de artículos, como la norma STARD para la publicación de estudios de vali- dez diagnóstica, que pretende mejorar la calidad de los artículos para permi- tir a los lectores evaluar los potenciales sesgos del estudio y juzgar sobre su generabilidad 9 , y otras dirigidas, en principio, a los investigadores que reali- zan revisiones sistemáticas de estudios de validez diagnóstica, pero indirec- tamente también a quienes realizan la investigación primaria, como la norma QUADAS, que es una herramienta para evaluar la calidad de estos estu- dios 10 . En la tabla 1 se presentan los ítems de esta norma. Criterios de calidad de los estudios sobre pruebas diagnósticas Víctor Abraira y Javier Zamora CIBER Epidemiología y Salud Pública (CIBERESP). Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid. España. N OTA METODOLÓGICA Estas guías y normas recogen los puntos críticos del diseño óptimo, así co- mo su descripción, de un estudio que pretenda responder a la pregunta co- rrespondiente a la fase III de la investigación sobre diagnóstico 11 , es decir: cuando la prueba se aplica a pacientes con una sospecha razonable de que presentan la enfermedad, o estado de interés, ¿sus resultados permiten dis- tinguir a los pacientes que realmente tienen la enfermedad de los que no la tienen? Este diseño óptimo consiste en seleccionar a un grupo de pacientes representativos de aquellos en los que es razonable sospechar que tienen la enfermedad y aplicarles a todos ellos, simultáneamente e independiente- mente, la prueba en evaluación y otra prueba de referencia, aceptada como patrón para hacer el diagnóstico correcto. Ambas pruebas deben interpretar- se de modo enmascarado, es decir, cada una se debe interpretar sin que el investigador que lo haga sepa el resultado de la otra. De modo similar a lo que ocurre con el tratamiento, este ideal de diseño está en contradicción con la buena práctica clínica, en la que rara vez se solicitan las pruebas simultá- neamente, más bien al contrario, las pruebas deberían solicitarse de modo secuencial y cada una de ellas solicitarse e interpretarse en función de toda la información disponible en cada momento, incluidos los resultados de las pruebas previas. Seguramente de esta contradicción surgen algunos de los defectos observados en la literatura médica, sobre todo en los estudios que analizan datos provenientes de la práctica clínica. Los puntos críticos se pueden agrupar en 3 apartados: Selección de los pacientes Dado que en la práctica clínica los problemas de diagnóstico se plantean entre enfermedades o estados de salud que comparten síntomas, una prueba diagnóstica es verdaderamente útil si permite distinguir entre trastornos que de otra forma podrían confundirse; por tanto, la validez de una prueba debe establecerse en ese escenario, es decir, en un estudio que incluya un espec- tro de pacientes lo más parecido posible al del medio en el que la prueba se Tabla 1. Ítems de la herramienta QUADAS 1. ¿Es representativa la muestra? 2. ¿Se describen bien los criterios de selección? 3. ¿Clasifica bien el patrón de referencia? 4. Si el patrón y la prueba no se aplican simultáneamente, ¿es razonable pensar que la enfermedad no haya evolucionado en ese tiempo? 5. ¿Sesgo de verificación parcial? 6. ¿Sesgo de verificación diferencial? 7. ¿Es el patrón de referencia independiente de la prueba? (p. ej., la prueba no forma parte del patrón) 8. Detalle de la ejecución de la prueba 9. Detalle de la ejecución del estándar 10. ¿Se interpretó la prueba sin conocer el resultado del patrón? 11. ¿Se interpretó el patrón sin conocer el resultado de la prueba? 12. ¿La información clínica disponible en la interpretación de la prueba es la misma que habrá cuando se use en la práctica? 13. ¿Se informa de los resultados no interpretables? 14. ¿Se explican las pérdidas? Modificado de Whiting et al 10 . 460 FMC. 2008;15(7):460-83

Criterios de Calidad de Los Estudios Sobre Pruebas Diagnósticas

Embed Size (px)

DESCRIPTION

Libro

Citation preview

  • Resumen

    Aunque el diagnstico desempea un papel central en la actividad clnica,los mdicos reciben escaso entrenamiento formal en la utilizacin de prue-bas diagnsticas durante su formacin acadmica. Adems, la investigacinpublicada sobre evaluacin de pruebas diagnsticas es, en general, de bajacalidad. En esta nota se repasan los patrones aceptados de calidad metodo-lgica en el diseo y la realizacin de esos estudios, as como la cuantifica-cin emprica del impacto de los sesgos que produce su falta de cumpli-miento.Palabras clave: Sesgos. Diseo. Pruebas diagnsticas.

    El diagnstico desempea un papel central en la actividad clnica: es la pri-mera intervencin clnica en el paciente y su resultado condiciona el desa-rrollo de la prctica clnica posterior, sin olvidar el impacto social que pue-de tener por el efecto de asignar a los ciudadanos etiquetas de falta de nor-malidad1. El proceso diagnstico constituye una actividad intelectual muyexigente, y requiere una compleja imbricacin de conocimiento acadmico,experiencia clnica y capacidad de obtener informacin a la cabecera delpaciente. Por ello, la habilidad para realizar un diagnstico es una de lascualidades ms valoradas por los propios clnicos, e incluso, a veces, se se-ala el diagnstico como la actividad ms caracterstica de los mdi-cos, actividad que ningn otro profesional puede hacer2. Si bien todo ellocontrasta con el escaso entrenamiento formal en la utilizacin de pruebasdiagnsticas que reciben los mdicos durante su formacin acadmica3.Adems, es difcil de estudiar. En las revistas mdicas, slo una pequea mi-nora de estudios ofrecen informacin vlida sobre la utilidad de las pruebasdiagnsticas2. Ya hace ms de 10 aos que Reid et al4 llamaron la atencinsobre la poca calidad de los estudios de evaluacin de las pruebas diagnsti-cas, y la situacin no parece haber mejorado. En una reciente revisin5 de ar-tculos de evaluacin de validez diagnstica, localizados a travs de metaa-nlisis, de 487 artculos revisados, slo uno no tena ningn defecto de dise-o. Se encontr que la calidad de la propia descripcin de este tipo deinvestigacin y de sus resultados es tambin baja. De hecho, no es infrecuen-te que una revisin sistemtica no pueda responder a una pregunta concretasobre diagnstico, no por falta de artculos que evalen la prueba, sino preci-samente por la baja calidad del diseo y de la presentacin de los resultadosde los artculos encontrados6. Y ello a pesar de las diversas iniciativas que sehan desarrollado para mejorar la calidad tanto de la investigacin sobre laevaluacin de las pruebas diagnsticas, como de su publicacin. Algunas es-tn dirigidas a los lectores de las revistas, como las guas de lectura crtica de literatura mdica7,8, que incluyen guas especficas para los artculos dediagnstico. Otras estn dirigidas a los editores de las revistas y a los autoresde artculos, como la norma STARD para la publicacin de estudios de vali-dez diagnstica, que pretende mejorar la calidad de los artculos para permi-tir a los lectores evaluar los potenciales sesgos del estudio y juzgar sobre sugenerabilidad9, y otras dirigidas, en principio, a los investigadores que reali-zan revisiones sistemticas de estudios de validez diagnstica, pero indirec-tamente tambin a quienes realizan la investigacin primaria, como la normaQUADAS, que es una herramienta para evaluar la calidad de estos estu-dios10. En la tabla 1 se presentan los tems de esta norma.

    Criterios de calidad de los estudios sobre pruebas diagnsticas

    Vctor Abraira y Javier ZamoraCIBER Epidemiologa y Salud Pblica (CIBERESP). Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid. Espaa.

    N O TA M E T O D O L G I C A

    Estas guas y normas recogen los puntos crticos del diseo ptimo, as co-mo su descripcin, de un estudio que pretenda responder a la pregunta co-rrespondiente a la fase III de la investigacin sobre diagnstico11, es decir:cuando la prueba se aplica a pacientes con una sospecha razonable de quepresentan la enfermedad, o estado de inters, sus resultados permiten dis-tinguir a los pacientes que realmente tienen la enfermedad de los que no latienen? Este diseo ptimo consiste en seleccionar a un grupo de pacientesrepresentativos de aquellos en los que es razonable sospechar que tienen laenfermedad y aplicarles a todos ellos, simultneamente e independiente-mente, la prueba en evaluacin y otra prueba de referencia, aceptada comopatrn para hacer el diagnstico correcto. Ambas pruebas deben interpretar-se de modo enmascarado, es decir, cada una se debe interpretar sin que elinvestigador que lo haga sepa el resultado de la otra. De modo similar a loque ocurre con el tratamiento, este ideal de diseo est en contradiccin conla buena prctica clnica, en la que rara vez se solicitan las pruebas simult-neamente, ms bien al contrario, las pruebas deberan solicitarse de modosecuencial y cada una de ellas solicitarse e interpretarse en funcin de todala informacin disponible en cada momento, incluidos los resultados de laspruebas previas. Seguramente de esta contradiccin surgen algunos de losdefectos observados en la literatura mdica, sobre todo en los estudios queanalizan datos provenientes de la prctica clnica. Los puntos crticos sepueden agrupar en 3 apartados:

    Seleccin de los pacientes

    Dado que en la prctica clnica los problemas de diagnstico se planteanentre enfermedades o estados de salud que comparten sntomas, una pruebadiagnstica es verdaderamente til si permite distinguir entre trastornos quede otra forma podran confundirse; por tanto, la validez de una prueba debeestablecerse en ese escenario, es decir, en un estudio que incluya un espec-tro de pacientes lo ms parecido posible al del medio en el que la prueba se

    Tabla 1. tems de la herramienta QUADAS

    1. Es representativa la muestra?2. Se describen bien los criterios de seleccin?3. Clasifica bien el patrn de referencia?4. Si el patrn y la prueba no se aplican simultneamente,

    es razonable pensar que la enfermedad no haya evolucionado en ese tiempo?

    5. Sesgo de verificacin parcial?6. Sesgo de verificacin diferencial?7. Es el patrn de referencia independiente de la prueba?

    (p. ej., la prueba no forma parte del patrn)8. Detalle de la ejecucin de la prueba9. Detalle de la ejecucin del estndar

    10. Se interpret la prueba sin conocer el resultado del patrn?11. Se interpret el patrn sin conocer el resultado de la prueba?12. La informacin clnica disponible en la interpretacin de la prueba

    es la misma que habr cuando se use en la prctica?13. Se informa de los resultados no interpretables?14. Se explican las prdidas?

    Modificado de Whiting et al10.

    460 FMC. 2008;15(7):460-83

    15b APBE (460-483).qxp 24/7/08 11:28 Pgina 460

  • pretenda usar en el futuro, tpicamente una muestra consecutiva de pacien-tes. Sin embargo, una tentacin muy extendida en estos estudios es el dise-o de casos y controles, en el que se seleccionan 2 muestras, una de pacien-tes que se sabe que tienen la enfermedad y otra de individuos que no la tie-nen. Se ha demostrado que este diseo introduce la mayor sobrestimacindel rendimiento de la prueba. Usando como ndice de validez la odds ratiodiagnstica12, que es un modo de sintetizar en un solo ndice la sensibilidady la especificidad, este diseo lo sobrestima13 multiplicndolo por un factorde 3. Los tems 1 y 2 de QUADAS tratan de identificar este potencial de-fecto. Otros defectos en relacin con la seleccin de pacientes, que segnRutjes et al5 tienen efecto en la estimacin de la validez, son: inclusin noconsecutiva de pacientes y extraccin retrospectiva de datos, que sobresti-man el ndice ligeramente, y seleccin de pacientes por remisin a la pruebaen evaluacin, que lo infraestima dividindolo por 2.

    Patrn de referencia

    El patrn de referencia debe ser el mejor mtodo accesible para determinarsi un paciente tiene la enfermedad o estado de inters. Muy frecuentemente,este patrn es invasivo; ste es justamente uno de los motivos para desarro-llar nuevas pruebas, disponer de pruebas menos agresivas, o ms baratas, oms fciles que los patrones de referencia. Por tanto, suele haber problemaspara realizar estos patrones a individuos no enfermos. Por ejemplo, paraevaluar la validez de la mamografa en el diagnstico del cncer de mama,una buena prueba de referencia es la biopsia; de hecho, es la que se sueleusar, aunque obviamente hay problemas, tanto ticos como de factibilidad,para realizar biopsias a mujeres con mamografas negativas. Como conse-cuencia de ello, en muchos de estos estudios el patrn de referencia se reali-za a la mayor parte de los pacientes con resultado positivo de la prueba, yslo a una pequea parte de los que tienen resultado negativo, lo que da lu-gar al denominado sesgo de referencia o de verificacin parcial. Otros auto-res resuelven el problema, aplicando a los pacientes con resultado negativoen la prueba en evaluacin otro patrn de referencia diferente (sesgo de ve-rificacin diferencial), por ejemplo el seguimiento en el tiempo. Ambas so-luciones, si bien con frecuencia son las nicas disponibles, incumplen laasuncin de independencia entre pruebas y daran lugar a una sobrestima-cin del rendimiento diagnstico. Lijmer et al13 sealan que cuando se usandiferentes patrones de referencia, el ndice de rendimiento global se sobres-tima multiplicndose por 2, aunque, sorprendentemente, no encuentran nin-guna sobrestimacin producida por el sesgo de verificacin parcial. Lostems 3-7 de QUADAS tratan de identificar estos potenciales defectos.

    Enmascaramiento en la interpretacin de las pruebas

    Siguiendo con el ejemplo de la mamografa, parece claro que una imagenradiolgica dudosa ser interpretada de modo distinto, seguramente ms pa-recido a la biopsia, si se conoce el resultado de sta. Por ello, para evaluarla validez de la mamografa, ambas pruebas deben interpretarse sin que seconozca el resultado de la otra. Esta exigencia es tanto ms importantecuanto mayor componente de interpretacin subjetiva tengan las pruebas en

    cuestin. Lijmer et al13 indican que, efectivamente, la falta de enmascara-miento sobrestima el ndice de rendimiento global en un 30%. Los tems 10y 11 de QUADAS tratan de identificar si hay, o no, enmascaramiento.Los tems 8 y 9 exploran el nivel de detalle de la descripcin de las pruebas,y los tems 12-14 los problemas relacionados con la generabilidad en laaplicacin de la prueba.Por ltimo, hay que tener en cuenta que el inters clnico de una pruebadiagnstica, ms all de cmo clasifica a los pacientes, reside en que los pa-cientes en los que se usa presenten mejores resultados que aquellos en losque no se usa (pregunta que corresponde a la denominada fase IV de la in-vestigacin sobre diagnstico11), y que el diseo ptimo para contestar a es-ta pregunta es el ensayo clnico aleatorizado; sin embargo, en la literaturamdica apenas hay ensayos de este tipo y todava se debate cundo y cmodeberan hacerse14.

    Bibliografa1. Prez Fernndez M, Gervas J. El efecto cascada: implicaciones clni-

    cas, epidemiolgicas y ticas. Med Clin (Barc). 2002;118:65-7.2. The Editors. Diagnosis, diagnosis, diagnosis. BMJ. 2002;324:0-

    doi:10.1136/bmj.324.7336.0/g3. Latour J. El diagnstico. Quaderns de salut pblica i administraci de

    serveis de salut, 21. Valencia: Escola Valenciana dEstudis per a la Sa-lut; 2003.

    4. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards indiagnostic test research. Getting better but still not good. JAMA. 1995;274:645-51.

    5. Rutjes AW, Reitsma JB, Di Nisio M, Smidt N, Van Rijn JC, Bossuyt PM.Evidence of bias and variation in diagnostic accuracy studies. CMAJ.2006;174:469-76.

    6. Mijnhout GS, Hoekstra OS, Van Tulder MW, Teule GJ, Devill WL.Systematic review of the diagnostic accuracy of (18)F-fluorodeoxyglu-cose positron emission tomography in melanoma patients. Cancer.2001;91:1530-42.

    7. Jaeschke R, Guyatt G, Sackett DL. Users guides to the medical litera-ture. III. How to use an article about a diagnostic test. B. What were theresults and will they help me in caring for my patients? Evidence-Ba-sed Medicine Working Group. JAMA. 1994;271:703-7.

    8. Emparanza JI. Manual de supervivencia CASPe (para talleres y des-pus). Alicante: CASPe; 2005.

    9. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, IrwigLM, et al. Towards complete and accurate reporting of studies ofdiagnostic accuracy: the STARD Initiative. Ann Intern Med. 2003;138:40-4.

    10. Whiting P, Rutjes AW, Reitsma JB, Bossuyt PM, Kleijnen J. The deve-lopment of QUADAS: a tool for the quality assessment of studies ofdiagnostic accuracy included in systematic reviews. BMC Med ResMethodol. 2003;3:25.

    11. Sackett DL, Haynes RB. Evidence base of clinical diagnosis: the archi-tecture of diagnostic research. BMJ. 2002;324:539-41.

    12. Glas AS, Lijmer JG, Prins MH, Bonsel GJ, Bossuyt PM. The diagnos-tic odds ratio: a single indicator of test performance. J Clin Epidemiol.2003;56:1129-35.

    13. Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, Van derMeulen JH, Bossuyt PM. Empirical evidence of design-related bias instudies of diagnostic tests. JAMA. 1999;282:1061-6.

    14. Sarah JL, Les I, Simes RJ. When Is Measuring Sensitivity and Specifi-city Sufficient To Evaluate a Diagnostic Test, and When Do We NeedRandomized Trials? Ann Intern Med. 2006;144:850-5.

    FMC. 2008;15(7):460-83 461

    15b APBE (460-483).qxp 24/7/08 11:28 Pgina 461