Icono del sitio EMEI

ANOVA: comparación de medias de tres o más grupos

Introducción

En el capítulo anterior vimos el uso de la t de Student y de la U de Mann-Whitney para comparar las medias de dos grupos. Sin embargo, si queremos realizar la comparación entre tres o más grupos no debemos utilizar estas pruebas, ya que en las comparaciones múltiples por pares incrementamos nuestro “Error tipo I”, lo que quiere decir que a mayor número de comparaciones, tenemos más posibilidades de equivocarnos al rechazar la hipótesis nula siendo cierta. En otras palabras: diremos que los grupos tienen medias distintas cuando en realidad no es así. Recordemos que la p es una medida de azar y no de asociación, y que por tanto, al incrementar el número de comparaciones también aumentamos la probabilidad de encontrar diferencias o asociaciones con una p<0,05.

Análisis de la varianza ANOVA

Del mismo modo que la t de Student, la prueba ANOVA es una prueba paramétrica y como tal requiere una serie de supuestos para poder ser aplicada correctamente. Denominada ANOVA o análisis de la varianza, en realidad nos va a servir no solo para estudiar las dispersiones o varianzas de los grupos, sino para estudiar sus medias y la posibilidad de crear subconjuntos de grupos con medias iguales. Se puede decir que la prueba ANOVA es la generalización de la t de Student, ya que si realizamos una prueba ANOVA en la comparación de solo dos grupos, obtenemos los mismos resultados.

Al igual que la t de Student, se requiere que cada uno de los grupos a comparar tenga distribuciones normales, o lo que es más exacto, que lo sean sus residuales. Los residuales son las diferencias entre cada valor y la media de su grupo. Además debemos estudiar la dispersión o varianzas de los grupos, es decir estudiar su homogeneidad. Cuando mayor sean los tamaños de los grupos, menos importante es asegurar estos dos supuestos, ya que el ANOVA suele ser una técnica bastante “robusta” comportándose bien respecto a transgresiones de la normalidad. No obstante, si tenemos grupos de tamaño inferior a 30, es importante estudiar la normalidad de los residuos para ver la conveniencia o no de utilizar el análisis de la varianza. Si no fuera posible utilizar directamente el ANOVA, podemos recurrir al uso de pruebas no paramétricas, como la de Kruskal-Wallis.

Como ya hemos dicho, el ANOVA es la generalización de la t de Student, y sus hipótesis nula y alternativa se pueden formular del siguiente modo:

· Hipótesis nula (Ho): µ1= µ2=…= µk

Las medias de los k grupos son iguales y por tanto las diferencias encontradas pueden explicarse por el azar. Dicho de otro modo, los grupos proceden de poblaciones con medias iguales.

· Hipótesis alternativa (H1): al menos uno de los grupos tiene una media distinta del resto de grupos.

En la prueba ANOVA las comparaciones son siempre bilaterales (a dos colas) ya que estudiamos globalmente si los grupos tienen medias distintas, y no si un grupo tiene una media menor o mayor que otro por separado. Si se rechaza la hipótesis nula, no sabremos entre qué grupos están las diferencias.

Veamos un ejemplo. Se desean comparar las medias del índice de masa corporal (IMC) en un grupo de pacientes con EPOC, clasificados en función de su gravedad mediante su volumen espiratorio forzado en el primer segundo (FEV1) obtenido por espirometría. Estos pacientes fueron clasificados como leves, moderados, graves y muy graves. Los resultados en un paquete estadístico como el SPSS aparecen en las tablas I, II y III. Los descriptivos de los pacientes incluidos en el estudio se muestran en la Tabla I.

Tabla I. Descriptivos del IMC por grupos de gravedad de EPOC.

  N Media DT EEM IC 95% Mínimo Máximo
Leve: FEV1 >80% 29 26,9 4,43 0,82 (25,2 -28,6) 18,1 39,3
Moderado: FEV1 50-80% 77 28,8 4,70 0,54 (27,7 – 29,9) 18,8 45,0
Grave: FEV1 30-50% 35 26,0 3,90 0,66 (24,7 – 27,4) 20,1 35,6
Muy Grave: FEV1 <30% 43 25,8 4,75 0,72 (24,3 – 27,2) 17,6 38,7
Total 184 27,3 4,69 0,35 (26,6 – 27,9 17,6 45,0

DT: Desviación típica; EEM: Error estándar de la media; IC: intervalo de confianza.

Para saber si los grupos tienen medias iguales o no en su IMC, se ha de construir la tabla ANOVA. En muchos libros de estadística podemos encontrar como crear esta tabla a partir de de los datos de la muestra por lo que no creemos necesario explicar detalladamente los pasos a seguir para su construcción. Si nos interesa conocer en qué consiste y en qué nos basamos cuando decimos que los grupos tienen o no medias iguales.

La variabilidad o varianza total que podemos tener en nuestros datos se puede descomponer a su vez en:

Varianza entre grupos. Mide la variabilidad entre las medias de cada grupo respecto a la media total de todas las observaciones. Denominada también como variabilidad o varianza inter-grupos.

Varianza dentro de los grupos. Mide la variabilidad de cada observación respecto a la media de su grupo. Podemos encontrarla bajo el nombre de residual, error o varianza intra-grupos.

Resumiendo: Varianza Total = Varianza entre grupos + varianza dentro de los grupos

Del mismo modo que se hace en la t de Student y con otras pruebas estadísticas, se divide un efecto observado respecto a un error aleatorio. En nuestro caso se divide el efecto debido a la pertenencia de los grupos (varianza entre grupos) respecto a la dispersión debida al azar o error aleatorio (varianza dentro de los grupos). A este cociente se le denomina F, o F de Fisher-Snedecor. Si sobrepasa cierto valor crítico, entonces podremos afirmar que el efecto observado es demasiado grande para poder ser explicado por el azar (error aleatorio) y que por tanto no todos los grupos estudiados tienen la misma media.

Tabla II. Tabla ANOVA.

  Suma de cuadrados gl Media cuadrática F p
Inter-grupos 339 3 113 5,501 0,001
Intra-grupos 3693 180 21    
Total 4032 183      

gl: Grados de libertad; F: Estadístico F de Fisher-Snedecor.

El la Tabla II podemos ver el resultado de la tabla ANOVA que nos muestra el programa SPSS. Como vemos se ha descompuesto la variabilidad total en dos filas: suma de cuadrados inter-grupos (entre los distintos grupos) y suma de cuadrados intra-grupos (dentro de cada grupo). Después de tener las sumas de cuadrados inter e intra grupos, debemos dividirlas por sus correspondientes grados de libertad para de este modo tener sus varianzas.

La suma de cuadrados inter-grupos mide la dispersión de la media de cada grupo respecto de la media total (27,3 en el ejemplo). Como en nuestro ejemplo tenemos cuatro grupos, los grados de libertad son 3, se calculan como el número de grupos menos uno. Por tanto la varianza inter-grupos sería 339/3 que es igual a 113.

La suma de cuadrados intra-grupos mide la dispersión de cada observación respecto a la media de su grupo. Tenemos por tanto cuatro medias una para cada grupo. En nuestro ejemplo los grados de libertad se calculan como número de casos (184) menos número de grupos (4). Por tanto la varianza intra-grupos (también llamada varianza residual) es 3693/180 que es igual a 21 (Tabla II).

Una vez que tenemos calculadas las varianzas inter e intra grupos, sólo nos queda calcular el cociente entre ambas y comprobar si el efecto observado (numerador) es tan grande como para no poder ser explicado por el error aleatorio (denominador). El cociente de ambas varianzas se denomina F.

F=113/21; F=5,501 (Tabla II). El valor de la distribución F es conocido y está tabulado, si este estadístico de contraste supera cierto valor crítico, diremos que las diferencias son estadísticamente significativas.

En concreto, el valor de F 3,180 lleva una p asociada de 0,001. Por tanto rechazamos la hipótesis nula y concluimos que existe al menos un grupo cuya media es distinta a la media del resto de los grupos. Este valor de p asociado a F corresponde a una distribución F de 3 grados de libertad en el numerador y 180 en el denominador.

Comparaciones múltiples

Llegada a esta conclusión, el problema radica ahora en saber entre qué grupos se encuentran las diferencias. Como dijimos al principio, no es correcto aplicar una prueba como la t de Student para comparar todas las posibles combinaciones por parejas entre los grupos, ya que esto incrementa significativamente el error tipo I. El número de comparaciones posibles a realizar depende de cuántos grupos tengamos y se calcula del siguiente modo:

(k*(k-1))/2; siendo k el número de grupos que tenemos. En nuestro ejemplo con cuatro grupos tendríamos 6 posibles comparaciones.

Existen dos tipos de comparaciones: las planificadas previamente antes de iniciar la recogida de los datos, denominadas a priori y las realizadas con posterioridad y sin una planificación previa, construidas con todas las posibles combinaciones 2 a 2 denominadas post hoc. Aunque lo deseable son siempre las comparaciones a priori, esto no siempre es posible y con frecuencia se recurre en la práctica a compararlo todo con todo. En este caso se hace necesario penalizar de alguna manera el valor original de p en las comparaciones 2 a 2, para de este modo protegernos del denominado error tipo I.

Hay muchas formas de penalizar o ajustar estos valores de p en las comparaciones múltiples. La idea general que subyace es todos estos procedimientos es ser más exigentes con el valor estándar de p<0,05 en función del número de comparaciones realizadas para decir que las diferencias son estadísticamente significativas. Uno de los métodos más conocidos y utilizados en el ajuste de la p, es el de Bonferroni. Una aproximación muy buena para su cálculo consiste en multiplicar el valor original de p, por el número de comparaciones posibles a realizar. De este modo, si tenemos 10 posibles comparaciones, sólo serían significativas después de ajustar, aquellas diferencias cuya p original fuese aproximadamente menor de 0,005. Al utilizar la aproximación de multiplicar la p por el número de comparaciones, el valor de p no puede nunca superar el valor de 1 (hablamos de una probabilidad). Para el caso en el que esto suceda, debemos de poner 1 como el valor de p ajustado.

En realidad la forma exacta de calcular la p ajustada por el procedimiento de Bonferroni es la siguiente:

p ajustada =1 – (1– poriginal)n ; siendo n el número de posibles comparaciones.

Existen otras muchas formas de penalizar la p, siendo unos métodos más conservadores que otros en función del número de comparaciones, homogeneidad de varianzas o desigualdad en los tamaños de los grupos. Actualmente existe mucha controversia sobre su uso y no hay un acuerdo universal sobre cuál es el que debe emplearse en cada momento, e incluso de si se debe o no realizar el ajuste del valor de p original. Tanto los procedimientos de Bonferroni como el de Scheffé, suelen ser bastante conservadores y se utilizan cuando no son muchas las comparaciones a realizar y además, los grupos son homogéneos en varianzas. En el caso de que las varianzas no sean homogéneas, se puede utilizar el método de Tamhane. Otros métodos menos conservadores son los de Tukey y Student-Newman-Keuls (S-N-K) para varianzas homogéneas.

Una prueba muy conservadora nos evitará cometer un error tipo I, es decir, al penalizar la p nos evitará equivocarnos al rechazar la hipótesis nula de igualdad de medias ya que estamos siendo más exigentes, sin embargo, esto provoca un aumento del error tipo II. Es decir, diremos que no hay diferencias entre las medias de los grupos cuando en realidad sí que las hay.

En nuestro ejemplo en el que comparamos el IMC entre los distintos grupos de gravedad de EPOC, hemos realizado el ajuste de la p por el método de Bonferroni (Tabla III) adecuado para varianzas iguales, ya que la prueba de homogeneidad de varianzas (prueba de Levene) no fue significativa. Al tener cuatro grupos, tenemos 6 posibles comparaciones, siendo significativas después de ajustar la p, las comparaciones entre las medias de los grupos Moderado con Grave y Moderado con Muy grave.

Tabla III. Comparaciones de medias entre los 4 grupos con la corrección de Bonferroni.

I J Diferencia de medias (I-J) EEDM p IC 95%
Leve Moderado -1,93 0,99 0,311 (-4,56;0,70)
  Grave 0,85 1,14 1,000 (-2,19;3,88)
  Muy grave 1,12 1,09 1,000 (-1,78; 4,02)
Moderado Grave 2,78* 0,92 0,018 (0,31; 5,24)
  Muy grave 3,05* 0,86 0,003 (0,75; 5,35)
Grave Muy grave 0,27 1,03 1,000 (-2,48; 3,02)

* La diferencia de medias es significativa al nivel 0,05. EEDM: Error estándar de la diferencia de medias. IC: intervalo de confianza.

 

Bibliografía recomendada

1. Stockburger, D.W. ANOVA. Why Multiple Comparisons Using t-tests is NOT the Analysis of Choice. http://davidmlane.com/hyperstat/intro_ANOVA.html. 1998.

2. Bland, J.M. and Altman, D.G. Multiple significance tests: the Bonferroni method. Br Med J, 1995. 310: p. 170.

3. Martínez González, M.A., Sánchez-Villegas, A., and Faulín Fajardo, F.J. Comparación de k medias (tre o más grupos). Bioestadística Amigable. 2ª Edición. Ed: Díaz de Santos. 2006: p. 419-469.

4. Altman, D.G. and Bland, J.M. Statistics Notes: Comparing several groups using analysis of variance. Br Med J, 1996. 312: p. 1472-1473.

5. Molinero, L.M. http://www.seh-lelha.org/anova.htm. Análisis de la varianza. (Alce Ingeniería), 2003.

Salir de la versión móvil