Abriendo la mente 1 - Calidad y Tamaño

Calidad y tamaño muestral [1]
Resultados
Tamaño muestral [3]
Resultados
Comentario
Ya en tiempos del Emperador Augusto, Dionisio de Halicarnaso comentaba que "la historia no es más que  filosofía con ejemplos". Nosotros pensamos que la evidencia es algo parecido: busca ejemplos en la arqueología de la medicina para separar lo bueno de lo malo, y los adorna con  filosofía y ciencia. 

La teoría nos dice que la aleatorización es algo bueno, y los ejemplos de las revisiones frecuentemente así lo confirman. Sin embargo, estamos condenados a re-aprender constantemente de los ejemplos, ya que muchas revisiones sistemáticas incluyen ensayos clínicos con diseños equívocos. Y no es sólo una cuestión de arquitectura: el tamaño también cuenta. Por supuesto, ambos componentes están relacionados, y siempre resulta útil revisar ciertas cuestiones relacionadas con la calidad  [1] y el tamaño [1,4] de los ensayos clínicos, para así revitalizar nuestros conocimientos sobre estos temas.

Calidad y tamaño muestral [1]

Dos investigadores daneses han comparado ensayos clínicos con al menos 1,000 pacientes y meta-análisis de pequeños ensayos. Se planteaban la sensata pregunta sobre cómo las posibles discrepancias entre los ensayos de gran tamaño y los meta-análisis podrían estar afectados por la calidad metodológica. Seleccionaron 14 meta-análisis, buscaron todos los artículos originales, revisaron su calidad y evaluaron los resultados mediante "odds ratios". Posteriormente emplearon  las "odds ratios" de los ensayos clínicos de gran tamaño y las de los meta-análisis de pequeños ensayos para obtener la razón (cociente) de las "odds ratios" como resultado final. 

Si la "razón de las odds ratios" (ratio of odds ratios) era significativamente menor de 1, esto representaba que los pequeños ensayos con unos criterios de calidad particular exageraban el efecto de la intervención en comparación con los ensayos de gran tamaño. Los criterios de calidad empleados fueron: selección aleatoria de la muestra, asignación secreta y aleatoria a los grupos de tratamiento, doble ciego, y abandonos y pérdidas de sujetos. Los criterios más relevantes se muestran en la Tabla 1.

Tabla 1: Criterios de calidad utilizados

Criterio de calidad Adecuado Inadecuado
Sistema para generar la secuencia de asignación  tabla de números aleatorios generados por ordenador o similar no descrito
Asignación secreta y aleatoria unidad central independiente, sobre sellado o similar  no descrito, o tabla abierta de números aleatorios
Doble ciego placebo o similar identicos placebo o similar no descrito, o pastillas versus inyección (not double dummy)
Pérdidas o abandonos número y causas de los abandonos y pérdidas no descrito

Resultados

Se evaluaron 23 ensayos de gran tamaño y 167 pequeños ensayos con un total de 136.000 pacientes. En comparación con los ensayos de gran tamaño muestral, los ensayos pequeños con un sistema inadecuado para generar la secuencia y el secreto de la asignación aleatoria, y aquellos con doble ciego inadecuado sobre-estimaban el efecto del tratamiento (Tabla 2). Cuando se comparaba la calidad metodológica entre los ensayos grandes y pequeños, las secuencias inadecuadas de aleatorización y doble ciego, sobre-estimaban los efectos del tratamiento (Tabla 3), y se encontraron resultados similares al realizar el análisis sólo para los ensayos pequeños.

Tabla 2: Comparación entre ensayos con tamaño muestral grande y pequeño según diferentes criterios de calidad. 

Comparador común Comparación
Cociente de odds ratios
(IC 95%)
Ensayos grandes Ensayos pequeños con sistema inadecuado para generar la secuencia de asignación
0.46 (0.25 a 0.83) 
Ensayos grandes Ensayos pequeños con sistema adecuado para generar la secuencia de asignación
0.90 (0.47 a 1.76) 
Ensayos grandes Ensayos pequeños con asignación inadecuada (no secreta) a los grupos de tratamiento. 
0.49 (0.27 a 0.86) 
Ensayos grandes Ensayos pequeños con asignación adecuada (secreta) a los grupos de tratamiento. 
1.01 (0.48 a 2.11) 
Ensayos grandes Ensayos pequeños con inadecuado (o sin) doble ciego
0.52 (0.28 a 0.96) 
Ensayos grandes Ensayos pequeños con adecuado doble ciego
0.84 (0.43 a 1.66) 
Ensayos grandes Ensayos pequeños con seguimiento inadecuado
0.72 (0.30 a 1.71) 
Ensayos grandes Ensayos pequeños con seguimiento adecuado
0.58 (0.32 a 1.02) 
Cuando el "cociente de las odds ratios" es menor de 1, significa que la característica evaluada (por ejemplo enmascaramiento/doble ciego inadecuado) está exagerando el efecto de la intervención.

Tabla 3: Comparación de los criterios de calidad (adecuados vs inadecuados) entre los ensayos con tamaño muestral grande y pequeño.

Comparador común  Comparación
Cociente de odds ratios
(IC 95%)
Adecuado Inadecuada generación de la secuencia de asignación 
0.49 (0.30 a 0.81) 
Adecuado Inadecuada asignación (no secreta)
0.60 (0.31 a 1.15) 
Adecuado Inadecuado (o falta) de doble ciego
0.56 (0.33 a 0.98) 
Adecuado Inadecuado seguimiento
1.50 (0.80 a 2.78) 
Cuando el "cociente de las odds ratios" es menor de 1, significa que la característica evaluada (por ejemplo enmascaramiento/doble ciego inadecuado) está exagerando el efecto de la intervención.
Empleando el sistema de Oxford [2], seguramente uno de los métodos más utilizados para evaluar la calidad en las revisiones sistemáticas, se encontraron algunos resultados llamativos. Los ensayos con pequeño tamaño muestral y de baja calidad sobre-estimaban el efecto de la intervención en comparación con los ensayos grandes. Sin embargo, en los ensayos pequeños de alta calidad esto no ocurría.  Tanto en los ensayos grandes como en los pequeños, los efectos exagerados del tratamiento dependían del nivel de calidad de dichos ensayos.

Tamaño muestral [3]

Resulta obvio decir que cuando disponemos de escasa información, derivada de pocos pacientes, la influencia del azar en los resultados puede ser muy importante. Si la cantidad de información y el número de pacientes aumenta, entonces los efectos del azar disminuyen. 

En algunas circunstancias, como en los ensayos clínicos sobre dolor agudo, podemos definir cuánta información es necesaria para asegurarnos de que el tratamiento funciona y para medir la magnitud del efecto [3]. La confirmación de que cualquier estimación sobre el efecto de un tratamiento es altamente dependiente del tamaño muestral proviene de un estudio realizado en USA y Grecia [4].  

Los investigadores evaluaron 60 meta-análisis que incluían al menos cinco ensayos aleatorizados publicados en tres años de calendario diferentes. Los dos temas seleccionados fueron el embarazo y la medicina perinatal, y el infarto de miocardio.  Se ordenaron cronológicamente los ensayos de cada meta-análisis y se realizó un "meta-análisis acumulado. Así se obtuvo una "odds ratio acumulada" para cada año en el que se hubiera  publicado algún estudio. El cambio relativo en el efecto del tratamiento se calculó para cada año adicional dividiendo la "odds ratio" de cada nueva evaluación (con mayor número de pacientes) por la "odds ratio" de la evaluación previa (con menos pacientes). De esta forma se calculó una "odds ratio relativa": si el resultado era mayor de 1 indicaba mayor efecto del tratamiento, y si era  menor de 1 significaba menor efecto del tratamiento.  Las "odds ratios relativas" pueden representarse gráficamente en un diagrama de puntos (plot) frente al número de pacientes incluidos. El resultado esperable es una representación horizontal (horizontal funnel) con menores cambios en el efecto cuanto mayor sea el número de pacientes, y con las odds ratios tendiendo hacia 1.

Resultados

Las dos gráficas del estudio mencionado -tanto para el embarazo/medicina perinatal como para el infarto de miocardio- mostraban exactamente el patrón esperado, pero no es posible reproducirlas aquí. Por debajo de 100 pacientes, las "odd ratios relativas" variaban entre 0.2 y 6. Cuando se llegaba a 1000 pacientes, estaban entre 0.5 y 2. Con 5000 pacientes se aproximaban mucho a 1. El intervalo de predicción al 95%  del cambio relativo de las "odds ratios" según el número de pacientes se presenta en la Tabla 4.
 

Tabla 4: Intervalo de predicción al 95% para el cambio relativo de las "odds ratios" según el número acumulado de pacientes aleatorizados. 

Efecto fijo del intervalo de predicción para el cambio relativo de la odds ratio. 
Número de pacientes
Embarazo/perinatal
Infarto de miocardio
100
0.32 - 2.78 
0.18 - 5.51 
500
0.59 - 1.71 
0.60 - 1.67 
1000
0.67 - 1.49 
0.74 - 1.35 
2000
0.74 - 1.35 
0.83 - 1.21 
15000
0.85 - 1.14 
0.96 - 1.05 
Cuando la evidencia está basada en los resultados obtenidos en pocos pacientes, existe siempre una importante incertidumbre sobre cuánto cambiará el efecto acumulado del tratamiento en el futuro. Con sólo 100 pacientes aleatorizados, la información adicional proveniente de futuros ensayos puede multiplicar o dividir las "odds ratios" por tres.

Comentario

A primera vista todo esto parece un asuntillo de "comecocos", pero en realidad no es más que "otra cuestión de sentido común". Si los ensayos clínicos no se realizan de forma adecuada, los resultados pueden estar equivocados. Si los ensayos son pequeños, los resultados pueden estar igualmente equivocados. Para estar seguros de lo que sabemos, necesitamos ensayos de alta calidad con grandes tamaños muestrales, ya sean ensayos únicos o meta-análisis. 

El corolario es que si disponemos de poca información, o de información de poca calidad, la probabilidad de que los resultados sean incorrectos es elevada y, por tanto, debemos ser cautelosos y conservadores. Los cínicos pueden decir que "la mayoría de las decisiones que se toman en la asistencia sanitaria se basan en información escasa y de calidad limitada". Puede que tengan razón, pero reconocer que la información de la que disponemos puede ser errónea es útil. Supone reconocer también la necesidad de evaluar lo que hacemos en la práctica clínica para contrastarlo con lo que creemos saber. En este caso, las moratorias para las opiniones no sirven. 

Bibliografía:

  1. LL Kjaergard & C Gluud. Reported methodologic quality and discrepancies between large and small randomised trials in meta-analyses. Annals of Internal Medicine 2001 135: 982-989.
  2. AR Jadad et al. Assessing the quality of reports of randomized clinical trials: is blinding necessary? Controlled Clinical Trials 1996 17: 1-12.
  3. RA Moore et al. Size is everything - large amounts of information are needed a overcome random effects in estimating direction and magnitude of treatment effects. Pain 1998 78: 209-16.
  4. JP Ioannidis & J Lau. Evolution of treatment effects over time: empirical insight from recursive metaanlyses. Proceedings of the National Academy of Sciences 2001 98: 831-836.
Traducido por José Francisco García Gutiérrez. Salud Pública. Granada
url original http://www.jr2.ox.ac.uk/bandolier/band97/b97-3.html

artículo previo o siguiente  en este número