Significación estadística y significación clínica

Publicado en Neumonews (2007)

Introducción

La necesidad creciente por investigar genera preguntas a contestar cada vez más complejas. Hoy en día el uso de términos estadísticos y epidemiológicos invade la literatura médica. La importancia de la estadística es tal, que muchos de los trabajos y de las conclusiones procedentes de la investigación, se deben respaldar en ella.

En la actualidad la estadística ha experimentando un importante avance gracias a las nuevas tecnologías y los potentes medios informáticos que permiten el manejo de grandes volúmenes de datos. Desgraciadamente todos estos avances también han provocado que en los últimos años haya disminuido la accesibilidad y la capacidad de lectura crítica de los profesionales sanitarios. Muchos investigadores tienen dificultades a la hora de planificar un proyecto de investigación adecuado que responda a su pregunta de estudio por falta de formación estadística y metodológica.

Hoy en día se hace imprescindible la ayuda de profesionales cualificados en estadística y epidemiología que proporcionen apoyo y asesoramiento a los investigadores en la planificación de los estudios en todas sus fases, así como en el diseño, análisis e interpretación de la los resultados.

¿Qué quiere decir significativo?

Para algunos investigadores, la estadística es un fin más que un medio para encontrar respuesta a sus preguntas. ¿Qué trabajo estadístico de una publicación científica no viene acompañado por una P?. Es más, en muchas ocasiones su trabajo solo tiene sentido o es relevante si esta P es menor de cierto valor: 0,05. Pero, realmente ¿que es la P? ¿cómo se debe interpretar?

Lo primero que debemos hacer es diferenciar dos conceptos totalmente distintos: “significativo” e “importante”. El término “significativo” suele generar confusión y no muchos investigadores lo comprenden bien. En general, cuando hablamos que algo es “significativo”, implica que es importante o destacado. Sin embargo, en la terminología estadística, un “resultado significativo” quiere decir altamente improbable, pero no necesariamente tiene que ser “importante”.

Muchas veces, por desconocimiento o por pereza mental, solemos utilizar ambos términos cómo equivalentes. A pesar de las muchas advertencias de los estadísticos y epidemiólogos sobre la importancia de diferenciar ambos conceptos, sigue habiendo cierta confusión. Es fácil poner ejemplos en los que podemos ver como estadísticamente significativo no quiere decir necesariamente importante o relevante. La significación indica una asociación o diferencia entre variables que difícilmente se puede explicar por el azar, aunque esta asociación no indica por sí sola causalidad¹.

Antes de empezar un trabajo de investigación se debe hacer el esfuerzo por definir la magnitud de lo que vamos a considerar clínicamente importante: una diferencia de proporciones del 5%, una reducción del riesgo relativo del 40%, un coeficiente de correlación de 0,6, etc. Debe ser el propio investigador el que ha de decidir lo que entiende por importante. La relevancia vendrá determinada por la gravedad del problema, la morbimortalidad generada, el coste, etc². Después de analizar los datos, obtendremos unos resultados que podrán ser o no estadísticamente significativos. Medidas como el número necesario de pacientes a tratar (NNT) o la reducción relativa del riesgo (RRR) nos pueden servir de ayuda para valorar la relevancia clínica de nuestros hallazgos. Veamos un ejemplo y de paso recordaremos cómo funcionan los test de hipótesis.

Los dos tipos de errores estadísticos

Supongamos que disponemos de dos tratamientos (A y B) para una misma enfermedad, y deseamos conocer cual de ellos es mejor. Al mismo tiempo vamos a considerar como “mejor” si la diferencia que hay entre ambos es de al menos un 10% en el porcentaje de enfermos curados. Acabamos de definir lo que entendemos por diferencia clínicamente importante: un 10%. Realizado el experimento en 40 personas y después de aleatorizar los tratamientos A y B en dos grupos se obtienen los resultados de la Tabla I.

Tabla I. Resultados en una muestra de 40 pacientes.

Curación	Tratamiento A	Tratamiento B	p
Si	6 (30%)	12 (60%)	0,057
No	14 (70%)	8 (40%)
Total	20	20

Con el tratamiento A se curaron 6 personas (30%) mientras que con el B se curaron 12 (60%). Como podemos ver la diferencia de curaciones observada entre uno y otro del 30% es muy superior al 10% que previamente nos habíamos fijado como importante. Utilizando la prueba ji-cuadrado de Pearson adecuada para comparar proporciones, obtenemos una p=0,057. La p es una probabilidad, un valor continuo que va desde 0 hasta 1. Para nuestra desgracia es un resultado no significativo, si tomamos como umbral de significación el famoso valor de p=0,05. Nos encontramos ante un ejemplo de una diferencia clínicamente muy importante pero estadísticamente no significativa.

La formulación del problema desde el punto de vista estadístico con los test de hipótesis es la siguiente:

Hipótesis nula (H_o)= Los tratamientos A y B son iguales, o tienen la misma eficacia.
Hipótesis alternativa (H₁)= Los tratamientos son distintos.

La Hipótesis nula (H_o) es una afirmación que hacemos sobre una o más características de la población y que ponemos a prueba mediante una prueba estadística. Suele ser la que mantiene que no existe asociación o que las diferencias encontradas pueden ser explicadas por el azar. La Hipótesis alternativa es la que cogemos cuando rechazamos la H_o. Como vemos ambas son excluyentes, o cogemos una o la otra. En nuestro ejemplo no podríamos rechazar la hipótesis nula (p>0,05) y por lo tanto debemos concluir que no hay evidencia suficiente para decir que un tratamiento es mejor que otro.

Es el momento de recordar los dos tipos de error que podemos cometer al decidirnos por considerar como cierta cualquiera de las dos hipótesis:

Error Tipo I (?): Es el que estamos cometiendo al rechazar la hipótesis nula cuando en realidad es verdadera. Decir que hay diferencias o asociación cuando en realidad no es así.

Error Tipo II (?): Sucede al aceptar la hipótesis nula cuando en realidad es falsa. Decir que no hay diferencias o asociación, cuando realmente sí las hay. Aquí también hablamos de potencia de un test o de capacidad para encontrar una diferencia o asociación que realmente existe, que se calcula como 1- ??

La veracidad de la H₀ no se demuestra nunca, si al comparar los dos grupos decimos que no hemos encontrado diferencias estadísticamente significativas y nos quedamos con la H_o, no podremos afirmar que los grupos son iguales.

La probabilidad de cometer un error tipo I es el valor de la p, que en el ejemplo de la Tabla I era de 0,057. Sin embargo el valor de p no nos informa en absoluto de la probabilidad de cometer un error tipo II. El valor de p nos indica que tenemos un 5,7% de probabilidad de haber encontrado en nuestro experimento esas diferencias u otras aún mayores entre los fármacos A y B cuando en realidad los dos tienen la misma eficacia. Esto nos ha pasado en una muestra de 40 pacientes, pero si hubiéramos hecho un estudio con el doble de pacientes y hubiésemos obtenido los resultados de la Tabla II, obtendríamos una p de 0,007 que ahora sería un resultado significativo. Las diferencias siguen siendo las mismas: con el fármaco A se han curado el 30% de pacientes mientras que con el fármaco B se han curado el 60%. El valor de “p” lo podemos interpretar como la probabilidad de encontrar esa diferencia u otra aún mayor, si la hipótesis nula de igualdad fuese cierta.

Tabla II. Resultados en una muestra de 80 pacientes.

Curación	Tratamiento A	Tratamiento B	p
Si	12 (30%)	24 (60%)	0,007
No	28 (70%)	16 (40%)
Total	40	40

La p mide probabilidad, no asociación

Al aumentar el tamaño muestral conseguimos aumentar la precisión de nuestras mediciones y disminuir la variabilidad explicada por el azar. Por eso, ante la misma diferencia pero con un mayor tamaño muestral hemos conseguido reducir el valor de la p de 0,057 a 0,007. Como vemos el valor de p depende no solo de la diferencia de los grupos de estudio, sino del tamaño muestral. Siempre podemos encontrar diferencias estadísticamente significativas con un tamaño muestral lo suficientemente grande aunque las diferencias sean muy pequeñas e irrelevantes desde un punto de vista clínico o científico. Sirva como ejemplo la Tabla III. Como conclusión podemos decir que la p no es una medida de asociación, tan solo de azar y por ello se ve muy influenciada por el tamaño muestral.

Tabla III. Muestra de 10000 pacientes.

Curación	Tratamiento C	Tratamiento D	p
Si	4000 (80%)	3900 (78%)	0,014
No	1000(20%)	1100 (40%)
Total	5000	5000

Después de estos ejemplos también podemos deducir ciertas debilidades de las pruebas de hipótesis y de la debilidad de tomar una decisión dicotómica en función del valor de una p mayor o menor de 0,05. Hemos visto que con pocos casos como en el ejemplo de la Tabla I no podíamos llegar a encontrar diferencias estadísticamente significativas a pesar de tener una diferencia importante entre ambos tratamientos, mientras que cuando tenemos un tamaño muestral muy grande como en la Tabla III, obtenemos una p significativa aún siendo estas diferencias muy pequeñas. A efectos prácticos, lo que nos interesa conocer es la magnitud de la diferencia, y para esto la p carece por completo de utilidad³.

Por convenio o arbitrariedad, se han establecido como valores de significación estadística aquellos valores de p por debajo de 0,05 ó 0,01. Cuando un investigador asume como nivel de significación el valor de 0,05 quiere decir que está dispuesto a asumir un riesgo de equivocarse de hasta el 5% de las veces al coger la H₁ y decir que los dos grupos son diferentes cuando en realidad es que son iguales.

Los intervalos de confianza

Como vemos con la p no tenemos una idea de la magnitud ni de la precisión del efecto observado. Desde hace algún tiempo se recomienda insistentemente el uso de los intervalos de confianza acompañando o incluso sustituyendo a los valores de la p, ya que esta herramienta sí que nos aporta información sobre la magnitud y la precisión del efecto⁴. El intervalo de confianza construido a partir de una muestra, es un rango de valores mínimo y máximo entre los cuales esperamos que se encuentre el verdadero valor del parámetro que tratamos de estimar. En las distribuciones normales los intervalos de confianza se construyen sumando y restando a la media su error estándar multiplicado por dos para obtener intervalos de confianza del 95%. Con los resultados de nuestra muestra, podemos construir intervalos de diferente amplitud en función de la confianza deseada, pero cuanta más confianza deseemos, más anchos serán nuestros intervalos y menor información estaremos dando. Normalmente los intervalos se construyen con un 95% o 99% de confianza, la amplitud de los intervalos también dependerá de la variabilidad o desviación estándar de las observaciones de nuestra muestra. Un intervalo de confianza del 95% quiere decir que si repitiéramos nuestro experimento con 100 muestras distintas, en 95 veces nuestro intervalo de confianza incluiría el verdadero parámetro poblacional que tratamos de estimar. Veámoslo con los ejemplos de la Tabla I y la Tabla II:

Ejemplo 1, Tabla I: Diferencia entre curación tratamiento B y A= 30%, IC95%(-4%; 64%); p=0,057 con n=40 pacientes.

Ejemplo 2, Tabla II: Diferencia entre curación tratamiento B y A= 30%, IC95%(7%; 53%); p=0,007 con n=80 pacientes.

Podemos ver que ambos intervalos de confianza del 95% tienen amplitudes distintas, en el segundo caso el intervalo es más estrecho porque el tamaño muestral es mayor. También podemos hacernos una idea de la magnitud de la diferencia entre ambos tratamientos. En el primer caso, el intervalo de confianza incluye al cero, y la p es mayor de 0,05 por lo que no podemos descartar que no haya diferencias entre ambos tratamientos. En el segundo caso, el intervalo no abarca el 0 y la p es menor de 0,05. Si uno de los extremos del intervalo es exactamente 0, la p tendrá un valor de 0,05.

REFERENCIAS

1 Ramalle-Gómara, E. and R. Bermejo-Ascorbe (1996). El significado de lo significativo. Algunas consideraciones sobre los test de significación y el uso del valor «p». Atención primaria 14(5): 863-865.

2 Pita Fernández, S. and S. Pértega Díaz (2001). http://www.Fisterra.com. Significancia estadística y relevancia clínica. Cad Aten Primaria 8: 191-195.

3 Clark, M. L. (2004). Los valores de P y los intervalos de confianza. Rev Panam Salud Publica 15(5): 293-6.

4 Gardner, M. J. and D. G. Altman (1986). Confidence intervals rather than P values: estimation rather than hypothesis testing. Br Med J (Clin Res Ed) 292(6522): 746-50.

Otras referencias:

Martínez González, M.A., Jokin de Irala, and F.J. Faulín Fajardo, Bioestadística Amigable. Ed: Díaz de Santos. 2001.
Silva Ayçaguer, L.C., Cultura estadística e investigación científica en el campo de la salud: una mirada crítica. Ed: Díaz de Santos. 1997.