Introducción
Una de las situaciones más comunes a las que debe enfrentarse un investigador es la comparación de las medias de dos grupos. Por ejemplo en la comparación de dos tratamientos, en los que se mide su eficacia en función unos resultados obtenidos y medidos numéricamente. En este caso, se dispondrá de dos variables, una numérica y otra dicotómica que es la que define los dos tratamientos. Se considera como variable dependiente la variable numérica y como independiente la variable dicotómica.
La prueba t de Student es sin lugar a dudas uno de los test más conocidos y empleados para este fin. La prueba ji-cuadrado vista en el capítulo anterior adecuada para estudiar la asociación entre dos variables cualitativas y la prueba t de Student, pueden encontrarse en la mayoría de los artículos de investigación en los que se trabaja con bases de datos. Sin embargo, la t de Student también tiene sus limitaciones como cualquier otra prueba estadística. En este capítulo, veremos qué asunciones se deben verificar para su correcta aplicación, así como la alternativa no paramétrica en el caso de que no se cumplan.
Prueba t de Student
La distribución t de Student es similar en su forma a la distribución normal, variando en función de los grados de libertad. Se usa cuando se desconoce la varianza o la desviación típica de la población, estimándose esta a partir de los datos de la muestra.
Esta prueba puede utilizarse en tres situaciones distintas:
1. Para comparar una media respecto a un valor de referencia. En este caso nuestro objetivo sería estudiar si la media de nuestros datos difiere de un valor prefijado, y si estas diferencias pueden explicarse por el azar.
2. Para comparar dos grupos en mediciones repetidas. Denominado también como muestras pareadas. En este caso tendríamos dos mediciones para cada individuo u observación.
3. Para comparar la media de dos grupos independientes. Es este caso compararíamos las medias de cada grupo para ver si las diferencias se podrían explicar por el azar. Este supuesto es el que vamos a ver con más detenimiento.
Antes de utilizar la prueba t de Student, debemos comprobar que para cada grupo, nuestra variable estudiada sigue una distribución normal. Si esto se cumple, debemos estudiar cómo es la dispersión de cada grupo examinando sus varianzas, ya que en el caso de que los grupos no tengan varianzas homogéneas, la t de Student ha de ser calculada con ciertas modificaciones que afectan sobre todo a sus grados de libertad, y por consiguiente, al resultado final.
Cuando los tamaños muestrales de cada uno de los grupos son mayores de 30, en la mayoría de los casos se puede asumir normalidad, ya que la prueba t de Student suele funcionar sin problemas con muestras grandes. Por otro lado, no es necesario que los tamaños de los grupos sean iguales.
Si los tamaños de los grupos son menores de 30, podemos estudiar visualmente su normalidad con un simple histograma de frecuencias o con unos gráficos de cajas (“box-plot”). Un histograma muy asimétrico revelaría ausencia de normalidad. También podemos comprobar la normalidad mediante pruebas como las de Kolmogorov-Smirnov. Si se demuestra ausencia de normalidad, podemos intentar una transformación de nuestra variable numérica, empezando generalmente por su logaritmo. Si a pesar de todo no conseguimos normalidad o no queremos transformar nuestra variable, podemos aplicar pruebas no paramétricas como la U de Mann-Whitney.
Imaginemos que deseemos comparar los valores de presión arterial de oxígeno (PaO2) medido en mmHg en dos grupos de pacientes con y sin hipertensión arterial (HTA) (Tabla I). La pregunta a estudio sería si los valores de PaO2 de nuestros pacientes dependen de si tienen o no HTA. Por tanto la hipótesis nula (Ho) sería la que afirma que las medias de PaO2 son las mismas en los pacientes independientemente de que tengan o no HTA. Nuestra hipótesis alternativa (H1), por el contrario, afirmaría que estas medias son distintas. Utilizaremos un contraste bilateral ya que a priori, no podemos saber qué grupo puede presentar los valores de PaO2 más elevados.
Ho: µHTA = µNo HTA
H1: µHTA =/ µNo HTA
También podríamos transformar nuestra variable PaO2 buscando uno o más puntos de corte de forma que la convirtiésemos en una variable categórica u ordinal y de este modo podríamos cruzarla con HTA mediante la prueba ji-cuadrado de tendencia lineal. Sin embargo esta opción no es recomendable, ya que se pierde una valiosa información al transformar una variable continua en otra categórica.
El funcionamiento de la prueba t de Student consiste a grandes rasgos, en restar ambas medias (efecto observado) y dividir este resultado por su error estándar (variabilidad de la muestra). Si este cociente es superior a cierto valor crítico, diremos entonces que las diferencias encontradas son demasiado grandes para atribuirlas al azar, y que por tanto las diferencias son estadísticamente significativas. A este cociente es el que denominamos estadístico de contraste, que aquí recibe el nombre de t de Student, cuyo valor crítico podemos determinar mediante tablas o programas estadísticos.
En nuestro ejemplo, tenemos datos de PaO2 de 25 individuos con HTA y de 29 sin HTA (Tabla I).
Tabla I. Valores de PaO2 en 25 y 29 pacientes con y sin HTA respectivamente.
Con HTA | Sin HTA |
54 | 71 |
51 | 61 |
68 | 51 |
60 | 55 |
65 | 62 |
69 | 56 |
57 | 73 |
80 | 67 |
58 | 62 |
56 | 60 |
69 | 72 |
61 | 71 |
46 | 58 |
50 | 75 |
65 | 55 |
54 | 60 |
62 | 64 |
79 | 55 |
73 | 62 |
77 | 45 |
77 | 75 |
87 | 54 |
69 | 41 |
37 | 56 |
66 | 73 |
56 | |
56 | |
70 | |
60 | |
54 |
Podemos observar gráficamente y asumir mediante sus histogramas o sus gráficos de cajas, que las distribuciones son aproximadamente normales (Figura 1). Una prueba de normalidad como la de Kolmogorov-Smirov, nos da asimismo una p>0,05, por lo que no podemos rechazar la hipótesis nula de normalidad.
Figura 1. Distribución del PaO2 en función de la HTA.
Los resultados de la prueba t de Student en un paquete estadístico como el SPSS aparecen en las tablas II y III. La Tabla II muestra los descriptivos de la PaO2 para cada grupo. Podemos ver que el grupo de pacientes con HTA presenta unos valores de PaO2 mayores, exactamente 2,38 unidades más. Esta diferencia es lo que llamamos el efecto observado. Una pregunta no estadística a la que debemos tener respuesta sin la necesidad de ningún test, es si la diferencia se puede considerar relevante desde un punto de vista clínico.
Tabla II. Estadísticos descriptivos de la PaO2.
N | Media | DT | EEM | |
Sin HTA | 29 | 61,2 | 8,80 | 1,63 |
Con HTA | 25 | 63,6 | 11,77 | 2,35 |
HTA: Hipertensión arterial
DT: Desviación típica.
EEM: Error estándar de la media.
En la Tabla III se contrasta en primer lugar la hipótesis de igualdad de varianzas con la prueba de Levene. Vemos que la tabla aparece dividida en dos filas, con resultados distintos que afectan entre otros valores, a los grados de libertad en función de si asumimos o no varianzas constantes. En el caso de la prueba de Levene, la hipótesis nula afirma que las varianzas de los grupos son homogéneas, en nuestro caso el valor de la p asociado a la prueba de Levene es mayor de 0,05 (en concreto p=0,147) y por tanto no podemos rechazar la hipótesis nula.
Tabla III. Prueba de Levene de igualdad de varianza y prueba t de Student para la comparación de medias en grupos independientes. Resultados con el programa SPSS.
PaO2 | Prueba de Levene | Prueba T para la igualdad de medias | |||||||
IC95% | |||||||||
F | p | t | gl | p | Diferencia de medias | EEDM | Superior | Inferior | |
Se han asumido varianzas iguales | 2,17 | ,147 | -,85 | 52,0 | ,399 | -2,384 | 2,806 | -8,01 | 3,25 |
No se han asumido varianzas iguales | -,83 | 43,9 | ,410 | -2,384 | 2,867 | -8,16 | 3,39 |
F: Valor del estadístico F de la prueba de Levene.
t: Valor de la t de Student.
gl: grados de libertad.
EEDM: Error estándar de la diferencia de medias.
IC: intervalo de confianza.
Asumida la igualdad de varianzas, debemos fijarnos únicamente en la primera fila correspondiente a la asunción de varianzas homogéneas. Los grados de libertad (gl) se calculan como la suma de los tamaños muestrales de los dos grupos menos 2. Si hubiéramos rechazado la hipótesis nula de igualdad de varianzas, vemos que los grados de libertad hubiesen tenido decimales y serían de 43,9 en lugar de 52. La diferencia de medias es 2,38 unidades mayor en el grupo de pacientes con HTA, si dividimos este valor por el error estándar de la diferencia de medias (EEDM=2,80) obtenemos finalmente el valor de la t de Student: -0,85. Recordemos que el EEDM mide la variabilidad de nuestras observaciones (error aleatorio) y que cuanto mayor sea, menor será el valor del estadístico t. La p asociada a una distribución t de Student de 52 grados de libertad para una valor de 0,85 es de p=0,399, mayor de 0,05 y concluyendo por tanto que las diferencias observadas en la PaO2 pueden ser explicadas por el azar.
A mayores valores de t, valores más pequeños de p. En concreto, en nuestro ejemplo con 52 grados de libertad, el valor de la t, tendría que haber sido aproximadamente mayor de 2 para que la p fuese <0,05. Esto se hubiese conseguido con una diferencia de medias mucho mayor, o con una dispersión (EEDM) mucho menor.
En la Tabla III tenemos además un intervalo de confianza para la diferencia de medias, que como vemos incluye el 0. Es decir, con un 95% de confianza, pensamos que la diferencia de medias de PaO2 entre ambos grupos puede ir desde 8 unidades menos en el grupo sin HTA hasta 3,2 unidades más. Podemos ver la equivalencia que siempre existe entre los valores de p y los intervalos de confianza.
La prueba U de Mann-Whitney
Si no podemos asumir normalidad en nuestras variables ni siquiera con una transformación de ellas, podemos recurrir a la prueba U de Mann-Whitney. Esta prueba puede utilizarse incluso para comparar variables ordinales. Así mismo, es la prueba que debe utilizarse si el tamaño de uno de los grupos es muy reducido, en torno a 10 observaciones independientemente de la distribución de nuestros grupos.
En esta prueba, la hipótesis nula es que ambos grupos de tamaño n1 y n2 respectivamente, proceden de la misma población al igual que en la t de Student, sin embargo en esta ocasión no podemos suponer normalidad. La construcción del estadístico de contraste U, consiste en la ordenación conjunta de ambas muestras de menor a mayor, de modo que el valor más bajo de ambas tenga el valor o rango 1 y el más alto el rango n1+n2. Si la hipótesis nula es cierta, los rangos deben distribuirse de forma aleatoria entre las dos muestras, y por tanto el rango promedio de ambas debe ser muy parecido. No debemos confundir los rangos promedios con las medias o medianas que nos pueden aparecer en las salidas de resultados de los programas estadísticos como el SPSS. La prueba U de Mann-Whitney es una prueba no paramétrica y como su nombre indica, para la construcción de este estadístico no intervienen ni la media ni la desviación típica, parámetros que son calculados a partir de la información de la muestra.
En tamaños muestrales pequeños, la distribución del estadístico U es discreta y está tabulada. Para tamaños suficientemente grandes, la distribución U puede aproximarse a una normal. En nuestro ejemplo de la Tabla I los rangos promedios del grupo con HTA y sin HTA son de 29,3 y de 26,0 respectivamente, siendo la p=0,445 y por tanto sin evidencias para rechazar al hipótesis nula llegando a la misma conclusión que con la prueba t de Student. Desgraciadamente la prueba de Mann-Whitney da mucha menos información, no ofreciendo una estimación para la diferencia de medias ni un intervalo de confianza.
Bibliografía
1 Martínez González, M. A., Jokin de Irala y F. J. Faulín Fajardo (2001). Variables cuantitativas: comparación de la media entre dos grupos. Bioestadística Amigable. Ed: Díaz de Santos. 383-444.
2 Molinero, L. M. (2001). http://seh-lelha.org/mannw.htm. Comparación de un resultado de tipo ordinal entre dos muestras independientes. (Alce Ingeniería).
3 Molinero, L. M. (2003). http://seh-lelha.org/noparame.htm. ¿Y si los datos no siguen una distribución normal? (Alce Ingeniería).
4 Bland, J. M. y D. G. Altman (1996). Statistics Notes: Transforming data. Br Med J 312: 770.
5 Pértega Díaz, S. y S. Pita Fernández (2001). http://www.Fisterra.com. Métodos paramétricos para la comparación de dos medias. t de Student. Cad Aten Primaria 8: 37-41.
6 Pagano, M. y K. Gauvreau (2001). Comparación de dos medias. Fundamentos de bioestadística. Ed: Thonson and Learning. (2ª edición). 383-444.