¿Pruebas diagnósticas que emergen de la penumbra?

Ensayo CARE
Niveles de evidencia
Sesgos en les estudios de pruebas diagnósticas
Comentario
 Bandolier lleva tiempo buscando la buena evidencia sobre las diferentes pruebas diagnósticas. Queremos saber ahora que tal funciona una prueba o un algoritmo diagnóstico en una situación determinada. Queremos confiar en ellas y estar seguros de que un paciente tiene o no una probabilidad alta de tener una enfermedad. Nuestras decisiones posteriores sobre tratar o no, o derivar, dependerán de la exactitud de nuestro diagnóstico. 
El problema es que existe poca evidencia en realidad, y pocas buenas noticias nos da la existente.Una sucesión de historias que comuniquen el hecho de que las pruebas diagnósticas sean inútiles no tiene impacto. Sin la evidencia empírica del sesgo en la arquitectura de un estudio, estamos condenados en medio de un oleaje gigante. Nil desperandum. Tenemos la ayuda al alcance de nuestra mano. Dos publicaciones recientes comienzan a tener más fundamento y a ofrecer mar abierto en este área tan turbulenta. 

El ensayo CARE

En Bandolier 66  describimos el proyecto CARE (Clinical Assessment of the Reliability of the Examination), un estudio de colaboradores sobre la exactitud y precisión de la exploración física. La dirección en Internet es: http://www.carestudy.com/.
Los diseñadores principales responsables de CARE, Finlay McAlister, Sharon Straus y David Sackett escribieron un tremendo ensayo sobre la necesidad de los estudios prospectivos grandes sobre la exploración física [1]. Este es un artículo muy importante. Más que ningún otro, Bandolier lee y explica el porqué de la necesidad de nuevos estudios de investigación y de nuevas mentes pensantes. Está escrito de una forma preciosa y es muy fácil de seguir, además de ser una lectura esencial. 

El ejemplo principal que utilizan es la enfermedad obstructiva crónica de las vías aéreas (EPOC). Una revisión sistemática se centró en la búsqueda de los signos físicos que sirven para diferenciar pacientes con EPOC de los que tienen función pulmonar normal. Existían muchos, pero ninguno de dichos signos físicos fue encontrado en más de un tercio de los estudios. 

Para cada uno de los cuatro signos usados más frecuentemente, el rango en la exactitud diagnóstica relatado en la literatura era enorme. Los cocientes de probabilidad positivos (likelihood ratios) extendían el rango desde aproximadamente 1 a 10: desde lo inútil a lo altamente predictivo. 

También examinaron la cantidad y calidad de la evidencia de las revisiones sistemáticas para una variedad de signos de diferentes condiciones. Existían pocos estudios de muy buena calidad, y los que había eran de pequeño tamaño. 
Lo fundamental es que la mejor evidencia que tenemos es la experiencia. Tenemos pocas o no objetivas pruebas sobre la calidad de la exactitud diagnóstica de las exploraciones físicas. 

Niveles de evidencia 

Mostramos al final una de las descripciones usada con más frecuencia. Las claves para una buena calidad en un estudio sobre pruebas diagnósticas son una comparación independiente y enmascarada con un patrón de referencia, y la utilización de pacientes consecutivos procedentes de una población apropiada. Una calidad peor procede de poblaciones inapropiadas y comparaciones no enmascaradas o con diferentes estándares de referencia. Se han utilizado otros estándares para las pruebas diagnósticas, como puede verse en Bandolier 26.

Niveles de evidencia para estudios de métodos diagnósticos

Nivel Criterios
1 Una comparación independiente y ciega con un patrón de referencia en un espectro adecuado de pacientes consecutivos.
2 Una comparación independiente y enmascarada con un patrón de referencia en una población de pacientes no consecutivos o limitadas a una población pequeña.
3 Una comparación independiente y enmascarada con un patrón de referencia con un espectro de pacientes adecuado, pero no aplicándose dicho estándar a todos los pacientes del estudio.
4 Estándar de referencia no aplicado ni de forma independiente ni enmascarado.
5 Opinión de expertos sin una valoración crítica explícita, basada en la fisiología, investigación no de buena calidad metodológica, o principios básicos.

El sesgo en los estudios de pruebas diagnósticas 

Lo que nos ha faltado hasta ahora es la prueba de que un estudio mal diseñado lleve consigo un sesgo asociado. Una contribución novedosa de Holanda [2] nos ofrece la pieza que nos faltaba.

Buscaron y encontraron 26 revisiones sistemáticas sobre pruebas diagnósticas que al menos incluían cinco estudios. Sólo 11 podían ser utilizadas para el análisis, porque 15 de ellas no habían sido sistemáticas en la búsqueda o no informaban sobre la sensibilidad o especificidad. Los datos del resto de los estudios se sometieron a análisis matemático para investigar si la presencia o ausencia de algún elemento de la calidad del estudio propuesto creaba alguna diferencia en el valor percibido de la prueba. 

Se hallaron 218 estudios, y sólo 15 de ellos cumplían los ocho criterios de calidad para el análisis. Treinta por cien cumplían al menos seis de los ocho criterios. Los odds ratio utilizados indicaban el rendimiento de una prueba diagnóstica en estudios con fallos metodológicos comparado con el rendimiento en estudios de buena calidad metodológica. La sobre-estimación de la efectividad (sesgo positivo) de una prueba diagnóstica se mostro por un intervalo de confianza más pequeño y un odds ratio relativa de la prueba diagnóstica de más de 1. 

Características del estudio Odds ratio relativa del estudio  (95% CI) Descripción
Caso-control 3.0 (2.0 to 4.5) Un grupo de pacientes con la enfermedad ya conocida comparados con un grupo separado de pacientes normales
Diferentes pruebas de referencia 2.2 (1.5 to 3.3) Diferentes pruebas de referencia usadas en pacientes con o sin la enfermedad
No ciego

Transfer interrupted!

ze=+1>1.3 (1.0 to 1.9)
Interpretación de la prueba y referencia no ciega a los resultados
No descripción de la prueba 1.7 (1.1 to 1.7) Prueba no descrita de forma apropiada
No descripción de la población 1.4 (1.1 to 1.7) Población de estudio no descrita de forma apropiada
No descripción de referencia 0.7 (0.6 to 0.9) Estándar de referencia no descrito de forma apropiada
El odds ratio relativo del diagnóstico  indica el rendimiento de una prueba diagnóstica en estudios que no cumplen con los criterios metodológicos comparado con el rendimiento que tendría en estudios que si cumplen con dichos criterios.
 Los resultados se muestran en la Tabla. El uso de diferentes pruebas de referencia, la falta del enmascaramiebto y la ausencia de una descripción de la prueba o la población del estudio daba lugar a un sesgo positivo. Pero el factor principal que producía el sesgo positivo era evaluar una prueba en un grupo de pacientes con la enfermedad ya conocida y un grupo separado de pacientes normales - llamado aquí  un estudio caso-control 

Comentario

La cantidad de sesgo positivo en estudios de mala calidad de pruebas diagnósticas es extremadamente preocupante. La mayor parte de la información sobre pruebas de laboratorio sólo está en la forma de estudios casos-control - los que dan lugar a mayor sesgo. 
Un buen ejemplo es la detección del PSA  [3]. Los cocientes de probabilidad (likelihood ratios) de los primeros estudios oscilaban entre 2 y 7. Podría considerarse útil en poblaciones de hombres derivados a urología con cancer de próstata o HPB, pero la mayoría de los estudios eran caso-control. Si los cocientes de probabilidad estaban sesgados, y en realidad eran inferiores, la prueba puede no ser útil ni siquiera en poblaciones de prevalencia alta. 
Todo esto es muy preocupante. Ya es hora de que alguien académico, del SNS o de la industria se de cuenta. Y el problema no es sólo ese, sino que también sucede con los tratamientos. El problema es llegar a saber a quien debemos tratar. El mensaje es que necesitamos regresar a los principios básicos y hacer estudios grandes de gran calidad y basados en la vida real. CARE ha comenzado eso mismo para los estudios que tratan de exploraciones físicas, pero no existe ninguna razón para que no se hagan el mismo tipo de estudios en otros emplazamientos para pruebas diagnósticas de laboratorio y exploración física de forma combinada. 
 

Bibliografía:

1. FA McAlister, SE Straus, DL Sackett. Why we need large, simple studies of the clinical examination: the problem and a proposed solution. Lancet 1999 354: 1721-24. 
2. JG Lijmer et al. Empirical evidence of design-related bias in studies of diagnostic tests. JAMA 1999 282: 1061-6. 
3. RA Moore. Free PSA as a percentage of the total: where do we go from here? Clinical Chemistry 1997 43: 1561-2. 
Traducido por Ana González González 
url original http://www.jr2.ox.ac.uk:80/Bandolier/band70/b70-5.html

anterior o siguiente artículo en este número