Sesgos

¿Qué es un sesgo?
Meta basura y sacará basura
Guía de Bandolier sobre sesgos
Aleatorización
"Ciego" (enmascaramiento)
Valorando la calidad
Duplicación
Geografía
Tamaño muestral
Estadística, manipulación de datos y resultados
Validez
Idioma
Publicación
Comentario
 Bandolier se ha visto sorprendido por la reciente y creciente actitud tolerante de muchos investigadores hacia los sesgos en los ensayos clínicos. Sabemos que tanto el diseño como la ejecución de los ensayos clínicos puede influenciar sus resultados. Sin embargo, se tiende a pasar por alto sesgos conocidos a la hora de tomar decisiones sobre tratamientos a todos los niveles.

¿Qué es un sesgo?

Según el diccionario un sesgo es "una inclinación parcial de la mente". En nuestro ámbito, la palabra sesgo sirve para definir la tendencia sistemática de ciertos diseños de ensayos clínicos para producir de forma consistente resultados mejores o peores que otros diseños.

Meta basura y sacará basura

Para despejar cualquier género de dudas: la existencia de sesgos favorece que los resultados sobreestimen el efecto de los tratamientos. Los diseños defectuosos de los ensayos hacen que los tratamientos parezcan mejores de lo que son en realidad. Incluso pueden hacer que parezca que los tratamientos funcionan cuando en realidad no funcionan. 

Por eso las buenas guías de revisiones sistemáticas incluyen estrategias para minimizar el efecto de los sesgos, excluyendo los ensayos con sesgos conocidos. Además proponen análisis de sensibilidad para verificar si algún tipo de diseño puede estar afectando los resultados de la revisión sistemática. Desafortunadamente, estas recomendaciones no suelen tenerse en cuenta. 

Se ignoran en las revisiones, y se ignoran en la toma de decisiones. Esto conlleva que  se  tomen decisiones basándose en información incorrecta, y que, por consiguiente, estas decisiones sean erróneas

Guía de Bandolier sobre sesgos

 Bandolier ha decidido volver a tratar lo escrito en sus publicaciones y fuera de ellas sobre sesgos, y elaborar una guía de referencia. Esta guía puede ser empleada tanto para valorar revisiones sistemáticas como ensayos clínicos aislados. Sin embargo, no debe ser utilizada para estudios observacionales, o para estudios sobre pruebas diagnósticas.

Aleatorización

El proceso de aleatorización es importante para eliminar el sesgo de selección en los ensayos clínicos. Si la selección se realiza mediante ordenadores, o tirando una moneda al aire, se evita cualquier preferencia consciente o subconsciente del investigador. 

Algunas de las personalidades más influyentes del "pensamiento basado en la evidencia" demostraron cómo los diseños inadecuados exageraban el efecto medido en un ensayo (Tabla). Compararon estudios en los que los autores informaban adecuadamente del proceso de asignación enmascarada  a los grupos de tratamiento con otros estudios en los que el proceso era inadecuado o estaba poco claro; además, examinaron los efectos de las exclusiones e inclusiones. 

Como se muestra en la Tabla los resultados fueron sorprendentes y aleccionadores. Las odds ratios se habían sobrestimado en el 41% en los ensayos en los que el método de enmascaramiento del proceso de asignación era inadecuado y el 30% cuando dicho método no estaba claramente descrito.

En muchas revisiones sistemáticas se excluyen los ensayos no-aleatorizados debido a los sesgos que pueden aparecer al no aleatorizar. Bandolera apoya que las revisiones sistemáticas incluyan sólo ensayos clínicos aleatorizados. La razón es que existen muchos ejemplos en los que los ensayos no-aleatorizados han llevado a las revisiones a conclusiones equívocas y equivocadas. 

Un ejemplo clásico (Bandolier 37) es la estimulación nerviosa transcutánea (ENT) para aliviar el dolor post-operatorio (Figura 1). En los estudios aleatorizados no se observan beneficios de la ENT sobre el placebo, mientras que en los no-aleatorizados la ENT es beneficiosa. El efecto de la aleatorización es incluso más intenso si en lugar de combinar los datos en forma de meta-análisis para la revisión se emplea la técnica del "recuento de votos" (cada estudio es un voto positivo o negativo). Esto es aplicable, particularmente, a los estudios sobre terapias alternativas.
 

Figura 1: Efecto de la aleatorización en el resultado de los ensayos sobre ENT en el dolor agudo

"Ciego" (enmascaramiento)

La importancia del enmascaramiento o "ciego" es que evita el sesgo del observador. Si nadie conoce cual es el tratamiento que están recibiendo los pacientes, no es posible que se produzca una sobrestimación sistemática del efecto de un tratamiento en particular. 

Los estudios sin enmascaramiento sobrestiman el efecto del tratamiento un 17% (Tabla). En una revisión sobre la acupuntura en el dolor de espalda (Figura 2) la separación de estudios ciegos y no-ciegos modificaba la conclusión global (Bandolier 60). Los estudios "ciegos"  mostraban que el 57% de los pacientes mejoraban con la acupuntura y el 50% en el grupo control, con un beneficio relativo de 1,2 (IC 95% 0,9 -1,5). Sin embargo, los cinco estudios "no-ciegos" mostraban una mejora del 67% con acupuntura y un 38% en el grupo control, lo que generaba un beneficio relativo significativo del 1,8 (1,3-2,4).

Figura 2: Efecto del enmascaramiento ("ciego") en el resultado de los ensayos de acupuntura en el tratamiento del dolor crónico de espalda

Calidad de la información

 Debido a la alta probabilidad de sesgos en los estudios no-aleatorizados o no-enmascarados, cualquier escala de puntuación  [1] de ensayos clínicos que se base en la aleatorización y el enmascaramiento estará correlacionada tambien con los sesgos. Los ensayos con poca calidad de información sobrestiman consistentemente el efecto del tratamiento (Tabla). La escala que se referencia presenta un rango de 0 a 5 dependiendo de la aleatorización, del enmascaramiento y del abandono o pérdida de pacientes. Los estudios con una puntuación menor o igual a 2 muestran repetidamente mayores efectos del tratamiento que los que tienen 3 puntos o más.

Tabla: Ejemplos de sesgos conocidos en los ensayos sobre eficacia de los tratamientos.

Fuente del sesgo Efecto en la eficacia del tratamiento Tamaño del efecto Referencias
Aleatorización Aumento Los estudios no aleatorizados sobrestiman el efecto del tratamiento el 41% cuando el método es inadecuado y el 30% cuando el método no está claro.  KF Schultz, I Chalmers, RJ Hayes, DG Altman. Empirical evidence of bias: Dimensions of methodological quality associated with estimates of treatment effects in controlled trials. Journal of the American Medical Association 1995 273: 408-12.
Aleatorización Aumento Resultados completamente diferentes entre los estudios aleatorizados y no aleatorizados.  Carroll D, Tramèr M, McQuay H, Nye B, Moore A. Randomization is important in studies with pain outcomes: systematic review of transcutaneous electrical nerve stimulation in acute postoperative pain. British Journal of Anaesthesia 1996; 77: 798-803.
Enmascaramiento (Ciego) Aumento 17% KF Schultz, I Chalmers, RJ Hayes, DG Altman. Empirical evidence of bias: Dimensions of methodological quality associated with estimates of treatment effects in controlled trials. Journal of the American Medical Association 1995 273: 408-12.
Enmascaramiento (Ciego) Aumento Resultados completamente diferentes entre los estudios ciegos  y no ciegos.  Ernst E, White AR. Acupuncture for back pain: A meta-analysis of randomised controlled trials. Arch Int Med 1998, 158: 2235-2241. 
Calidad de la información Aumento Alrededor del 25% Khan KS, Daya S, Jadad AR. The importance of quality of primary studies in producing unbiased systematic reviews. Arch Intern Med 1996,156 :661-6. 

Moher D, Pham B, Jones A, et al. Does quality of reports of randomised trials affect estimates of intervention
efficacy reported in meta-analyses? Lancet         1998, 352 :609-613.

Duplicación Aumento Alrededor del 20% Tramèr M, Reynolds DJM, Moore RA, McQuay HJ. Effect of covert duplicate publication on meta-analysis; a case study. BMJ 1997, 315: 635-40.
Geografía Aumento Puede ser amplio para algunas terapias alternativas.  Vickers A, Goyal N, Harland R, Rees R. Do certain countries produce only positive results? A systematic review of controlled trials. Control Clin Trial 1998, 19: 159-166.
Tamaño Aumento Los ensayos pequeños pueden sobrestimar el efecto alrededor del 30%.  Moore RA, Carroll D, Wiffen PJ, Tramèr M, McQuay HJ. Quantitative systematic review of topically-applied non-steroidal anti-inflammatory drugs. BMJ 1998, 316: 333-8. 

Moore RA, Gavaghan D, Tramèr MR, Collins SL, McQuay HJ. Size is everything - large amountof information are needed to overcome random effects in estimating direction and magnitude of treatment effects. Pain 1998, 78:      217-220.

Estadística Aumento Desconocido, probablemente pequeño, pero es importante conocer el   método de recuento de datos.  Smith LA, Oldman AD, McQuay HJ, Moore RA. Teasing apart quality and validity in systematic reviews: an example from acupuncture trials in chronic neck and back pain. Pain 2000, 86: 119-132.
Validez Aumento Desconocido, probablemente pequeño, pero es importante conocer el   método de recuento de datos.  Smith LA, Oldman AD, McQuay HJ, Moore RA. Teasing apart quality and validity in systematic reviews: an example from acupuncture trials in chronic neck and back pain. Pain 2000, 86: 119-132.
Idioma Aumento Desconocido, probablemente pequeño. Egger M, Zellweger-Zähner T, Schneider M, Junker C, Lengeler C, Antes G. Language bias in randomised controlled trials published in English and German, Lancet 1997 350: 326-329.
Publicación Aumento Desconocido, probablemente pequeño, pero importante si hay poca evidencia. M Egger, G Davey Smith. Under the meta-scope: potentials and limitations of meta-analysis. In M Tramèr, Ed. Evidence Based Resource in Anaesthesia and Analgesia. BMJ Publications, 2000.

Duplicación

Los resultados de algunos ensayos se publican más de una vez. Esto puede estar justificado por numerosas razones. Por ejemplo, cuando se ha realizado un seguimiento posterior de los pacientes o un re-análisis de los resultados. Sin embargo, en ocasiones los resultados se publican repetidamente sin que esto se aclare, sea transparente o se indique a través de referencias. Sólo la información más llamativa suele duplicarse, a veces en artículos con autores completamente diferentes. La consecuencia de la duplicación encubierta suele ser la sobrestimación del efecto del tratamiento (Tabla). 

Geografía

En el número 71deBandolera  informábamos cómo la distribución geográfica puede ser una fuente de sesgos en las revisiones sistemáticas. Vickers y colaboradores (Tabla) demostraron que los ensayos de acupuntura realizados en el este asiático eran siempre positivos, mientras que los realizados en Australia/Nueva Zelanda, Canadá/Estados Unidos o Europa Occidental sólo eran positivos en la mitad de los casos. Los ensayos aleatorizados sobre terapias que no fueran la acupuntura realizados en China, Taiwan, Japón, Rusia/URRS eran mayoritariamente positivos, y en una proporción  aún mayor que en otras partes del mundo. Esto puede ser debido a diferencias históricas y culturales, pero implica que uno debe ser cauteloso en la interpretación cuando existe preponderancia de estudios realizados en determinadas culturas. Este efecto es particularmente importante en el caso de las terapias alternativas

Tamaño muestral

En los ensayos clínicos debe realizarse un cálculo sobre el tamaño muestral en la etapa de diseño. Esto sirve para estimar cuántos pacientes se necesitan, digamos, para que el 90% de los estudios con X número de pacientes muestren una diferencia del Y % entre dos tratamientos. Cuando el valor de Y es muy grande, el valor de X puede ser pequeño. Pero lo más frecuente es que el valor de Y sea pequeño. En estas circunstancias, se precisa que X sea grande, y se necesitarán muchos pacientes para que el ensayo muestre diferencias entre los tratamientos.

Con frecuencia el tamaño de los ensayos clínicos es ridículamente pequeño. El récord encontrado por Bandolier lo ostenta un estudio aleatorizado con diseño en paralelo .....  y con tres pacientes. ¿Con qué tamaño muestral  los resultados de un ensayo debieran ser ignorados? Muchos adoptan una postura pragmática según la cual los resultados de los ensayos con menos de 10 pacientes en cada rama de tratamiento no deberían ser tomados en cuenta, pero no todo el mundo está de acuerdo. 

Existen estudios de sensibilidad de los meta-análisis que muestran que los ensayos pequeños tienen mayores efectos de tratamiento que los ensayos muy pequeños (Tabla). También existe mucha variabilidad entre los ensayos con un poder adecuado, dado que los cálculos se realizan para detectar diferencias entre tratamientos en lugar de para determinar la magnitud de dicha diferencia. 

Además, el azar puede siempre jugar su papel aunque el tamaño muestral sea suficiente. En la Figura 3 se presentan ensayos aleatorizados a doble ciego que comparan ibuprofeno 400 mg con placebo en el tratamiento del dolor post-operatorio agudo. Estos ensayos tienen el mismo tamaño muestral, la misma intensidad de dolor inicial y las mismas medidas de resultados evaluadas durante el mismo periodo de tiempo, empleando técnicas de medición estandarizadas. Se observan grandes diferencias en los resultados de los diversos estudios.
 
 

Figura 3: Ensayos aleatorizados a doble ciego con ibuprofeno 400 mg para el alivio del dolor agudo, con las mismas medidas de resultados, durante el mismo periodo de tiempo y con la misma intensidad inicial de dolor. 

La Figura 4 muestra los resultados de 10.000 estudios en una simulación por ordenador  basada en la información de alrededor de 5.000 pacientes individuales [2]. Los resultados en el área gris podrían ser debidos al azar.  Para quien pudiera pensar que esto se debe a que el dolor es un resultado subjetivo, hemos de decir que la misma variabilidad se observa también en ensayos de otra índole con resultados objetivos.
 

Figura 4: Simulación por ordenador de los resultados de ensayos con ibuprofeno en el dolor agudo. 

La intensidad de color en cada área representa la probabilidad de dicho resultado para cada ensayo en particular

Estadísticas, manipulación de datos y resultados. 

A pesar de los esfuerzos que realizan  los editores y los revisores, se publican artículos que están equivocados. Estas equivocaciones de deben a multitud de pecados, pero existen dos de especial interés. 

Los errores en el tratamiento estadístico son los ingredientes de muchos guisos. Esto puede ser tan sencillo como que los resultados presentados en el artículo como estadísticamente significativos en realidad no lo sean, y la causa suele ser la utilización de una prueba de significación estadística inadecuada. Puede también deberse a la "pesca de resultados", es decir, se encuentra un resultado estadísticamente significativo y el artículo gira a su alrededor. Se podría escribir mucho sobre este tema, pero basta con advertir a los lectores y revisores de artículos que sean cautelosos al interpretar los resultados de los ensayos, sobre todo si se han empleado técnicas de "recuento de votos". 

Cuidado también con el poder de las palabras. Incluso cuando no se detectan diferencias significativas es frecuente ver como los autores interpretan sus resultados como un rotundo éxito. Aunque pueda parecer increíble, hasta el lector más avezado puede llegar a conclusiones erróneas. Todos sabemos que los resúmenes de los artículos pueden ser engañosos. 

La manipulación de los datos es un poco más complicada de detectar. Un ejemplo podría ser el de una intervención en la que no se nos informa ni de la situación inicial  ni final de los pacientes, y sólo sabemos que en un punto intermedio existió un cambio estadísticamente significativo determinado a través de una prueba de significación con la que estamos poco familiarizados. Esto se emplea para hacer positivo algo que no lo es, y la dirección del sesgo es obvia (Tabla). Es crucial conocer en qué momento se ha realizado el recuento de los datos para poder determinar si la intervención funciona o no. 

Las medidas de resultados de los ensayos son un problema  incluso más delicado. No es infrecuente que se empleen resultados intermedios (surrogate outcomes) en lugar de resultados finales con verdadera importancia clínica. A menos que se conozca con certeza que los resultados intermedios están relacionados con resultados clínicos relevantes, lo más prudente es interpretarlos como de dudosa efectividad. 

Validez

Aparte de características como la aleatorización y el enmascaramiento, ¿tiene cada estudio un diseño que permita medir adecuadamente un determinado efecto? La validez depende del diseño del ensayo, pero a menudo los estudios carecen de validez. Una escala de validez aplicada a los ensayos de acupuntura para el tratamiento del dolor de espalda y cuello demuestra que los estudios con poca validez tienden a concluir que el tratamiento funciona con mayor frecuencia que los estudios válidos (Tabla). 

Idioma

Con demasiada frecuencia la estrategia de búsqueda bibliográfica para las revisiones sistemáticas y meta-análisis se restringe a las publicaciones en inglés. Los autores cuyo idioma no es el inglés suelen publicar resultados positivos en revistas en inglés, ya que éstas poseen mayor impacto internacional. Los resultados negativos tienden a publicarse en revistas en otros idiomas diferentes al inglés (Tabla). 

Publicación

Por último, está  el viejo tema del sesgo de publicación, es decir, la tendencia a publicar los ensayos con resultados positivos y de no publicar los ensayos con resultados negativos. Parece que este sesgo existe, y se dispone de una amplia bibliografía sobre el tema. 

Sin embargo, Bandolera tiene algunas reservas, dada la carencia y falta de disponibilidad de evaluaciones sobre la calidad y validez de los ensayos. La mayoría de los revisores rechazan los ensayos no-aleatorizados, o aquellos que tienen graves problemas metodológicos. Es difícil que estos ensayos sean publicados, y lo mismo puede decirse sobre las tesinas y las tesis. En una revisión sobre cierto tratamiento en la que se intentaron incluir tesis doctorales [3] se logró identificar 17 tesis. De ellas, 13 fueron excluidas por problemas metodológicos -sobre todo por falta de aleatorización-, 3 tesis habían sido publicadas y sus resultados estaban ya incluidos dentro de la revisión, y sólo una pudo ser utilizada -lo que no afectó al resultado global-. 

Bandolera se muestra también escéptica sobre la utilidad de ciertos diagramas ("funnel plots"). Por ejemplo, en un estudio  muy citado sobre la utilización del magnesio en el infarto de miocardio [4], para explicar de forma clara y sencilla  los resultados del meta-análisis, hubiera sido suficiente decir que los ensayos eran tan triviales y pequeños que jamás deberían haberse incluido. 

Pero todo esto son sólo sutilezas. Si existe suficiente evidencia, es decir, muchos ensayos bien diseñados y ejecutados y con muchos pacientes, es probable que el sesgo de publicación no sea un problema. Cuando existe poca información -pocos ensayos, pequeños y de poca calidad- entonces resultará más problemático.

Comentario

Hemos realizado una breve revisión sobre sesgos en los ensayos clínicos para medir la eficacia de los tratamientos. Quizás otros autores hubieran preferido discutir las potenciales fuentes de sesgos en general. Los sesgos existen y se presentan de formas muy diferentes, y por ello debemos ser cautelosos al leer ensayos clínicos, sobre todo al intentar trasladar a la práctica clínica los resultados de un único ensayo. 

Pero, cuidado, las revisiones sistemáticas y los meta-análisis también tienen problemas de calidad, y cuando se publican deberían incluir una discusión sobre sus potenciales fuentes de sesgos. Pocos lo hacen  y, por consiguiente, pueden causar confusión y equivocaciones. Al igual que en los ensayos clínicos, si las revisiones sistemáticas o los meta-análisis incluyen ensayos de poca calidad, o si no informan adecuadamente sobre los procedimientos, tienen mayor probabilidad de encontrar resultados positivos [4,5]. 

No cabe duda de que los meta-análisis pueden ser engañosos, pero si lo son será porque han sido incorrectamente ensamblados o incorrectamente usados. La única defensa es que los lectores tengan los suficientes conocimientos para saber cuando deben tirar a la basura lo que leen.

Bibliografía:

  1. Jadad AR, Moore RA, Carroll D, Jenkinson C, Reynolds DJM, Gavaghan DJ, McQuay HJ. Assessing the quality of reports of randomized clinical trials: is blinding necessary? Control Clin Trial 1996, 17: 1-12.
  2. Moore RA, Gavaghan D, Tramèr MR, Collins SL, McQuay HJ. Size is everything - large amounts of information are needed to overcome random effects in estimating direction and magnitude of treatment effects. Pain 1998, 78: 217-220.
  3. A Vickers, C Smith. Incorporating data from dissertations in systematic reviews. Int J Technol Assess Health Care 2000 16:2: 711-713.
  4. Jadad AR, McQuay HJ. Meta-analysis to evaluate analgesic interventions: a systematic qualitative review of the literature. J Clin Epidemiol 1996, 49:235-243.
  5. Smith L, Oldman A. Acupuncture and dental pain. Br Dent J 1999, 186: 158-159.
Traducido por José Francisco García Gutiérrez. Granada
url original: http://www.jr2.ox.ac.uk/Bandolier/band80/b80-2.html

artículo previo o siguiente en este número