Contraste de hipótesis para variables cuantitativas

Introducción

Una de las situaciones más comunes a las que debe enfrentarse un investigador es la comparación de las medias de dos grupos. Por ejemplo en la comparación de dos tratamientos, en los que se mide su eficacia en función unos resultados obtenidos y medidos numéricamente. En este caso, se dispondrá de dos variables, una numérica y otra dicotómica que es la que define los dos tratamientos. Se considera como variable dependiente la variable numérica y como independiente la variable dicotómica.

La prueba t de Student es sin lugar a dudas uno de los test más conocidos y empleados para este fin. La prueba ji-cuadrado vista en el capítulo anterior adecuada para estudiar la asociación entre dos variables cualitativas y la prueba t de Student, pueden encontrarse en la mayoría de los artículos de investigación en los que se trabaja con bases de datos. Sin embargo, la t de Student también tiene sus limitaciones como cualquier otra prueba estadística. En este capítulo, veremos qué asunciones se deben verificar para su correcta aplicación, así como la alternativa no paramétrica en el caso de que no se cumplan.

Prueba t de Student

La distribución t de Student es similar en su forma a la distribución normal, variando en función de los grados de libertad. Se usa cuando se desconoce la varianza o la desviación típica de la población, estimándose esta a partir de los datos de la muestra.

Esta prueba puede utilizarse en tres situaciones distintas:

1. Para comparar una media respecto a un valor de referencia. En este caso nuestro objetivo sería estudiar si la media de nuestros datos difiere de un valor prefijado, y si estas diferencias pueden explicarse por el azar.

2. Para comparar dos grupos en mediciones repetidas. Denominado también como muestras pareadas. En este caso tendríamos dos mediciones para cada individuo u observación.

3. Para comparar la media de dos grupos independientes. Es este caso compararíamos las medias de cada grupo para ver si las diferencias se podrían explicar por el azar. Este supuesto es el que vamos a ver con más detenimiento.

Antes de utilizar la prueba t de Student, debemos comprobar que para cada grupo, nuestra variable estudiada sigue una distribución normal. Si esto se cumple, debemos estudiar cómo es la dispersión de cada grupo examinando sus varianzas, ya que en el caso de que los grupos no tengan varianzas homogéneas, la t de Student ha de ser calculada con ciertas modificaciones que afectan sobre todo a sus grados de libertad, y por consiguiente, al resultado final.

Cuando los tamaños muestrales de cada uno de los grupos son mayores de 30, en la mayoría de los casos se puede asumir normalidad, ya que la prueba t de Student suele funcionar sin problemas con muestras grandes. Por otro lado, no es necesario que los tamaños de los grupos sean iguales.

Si los tamaños de los grupos son menores de 30, podemos estudiar visualmente su normalidad con un simple histograma de frecuencias o con unos gráficos de cajas (“box-plot”). Un histograma muy asimétrico revelaría ausencia de normalidad. También podemos comprobar la normalidad mediante pruebas como las de Kolmogorov-Smirnov. Si se demuestra ausencia de normalidad, podemos intentar una transformación de nuestra variable numérica, empezando generalmente por su logaritmo. Si a pesar de todo no conseguimos normalidad o no queremos transformar nuestra variable, podemos aplicar pruebas no paramétricas como la U de Mann-Whitney.

Imaginemos que deseemos comparar los valores de presión arterial de oxígeno (PaO₂) medido en mmHg en dos grupos de pacientes con y sin hipertensión arterial (HTA) (Tabla I). La pregunta a estudio sería si los valores de PaO₂ de nuestros pacientes dependen de si tienen o no HTA. Por tanto la hipótesis nula (H_o) sería la que afirma que las medias de PaO₂ son las mismas en los pacientes independientemente de que tengan o no HTA. Nuestra hipótesis alternativa (H₁), por el contrario, afirmaría que estas medias son distintas. Utilizaremos un contraste bilateral ya que a priori, no podemos saber qué grupo puede presentar los valores de PaO₂ más elevados.

H_o: µ_HTA = µ_{No HTA}

H₁: µ_HTA =/ µ_{No HTA}

También podríamos transformar nuestra variable PaO₂buscando uno o más puntos de corte de forma que la convirtiésemos en una variable categórica u ordinal y de este modo podríamos cruzarla con HTA mediante la prueba ji-cuadrado de tendencia lineal. Sin embargo esta opción no es recomendable, ya que se pierde una valiosa información al transformar una variable continua en otra categórica.

El funcionamiento de la prueba t de Student consiste a grandes rasgos, en restar ambas medias (efecto observado) y dividir este resultado por su error estándar (variabilidad de la muestra). Si este cociente es superior a cierto valor crítico, diremos entonces que las diferencias encontradas son demasiado grandes para atribuirlas al azar, y que por tanto las diferencias son estadísticamente significativas. A este cociente es el que denominamos estadístico de contraste, que aquí recibe el nombre de t de Student, cuyo valor crítico podemos determinar mediante tablas o programas estadísticos.

En nuestro ejemplo, tenemos datos de PaO₂ de 25 individuos con HTA y de 29 sin HTA (Tabla I).

Tabla I. Valores de PaO₂ en 25 y 29 pacientes con y sin HTA respectivamente.

Con HTA	Sin HTA
54	71
51	61
68	51
60	55
65	62
69	56
57	73
80	67
58	62
56	60
69	72
61	71
46	58
50	75
65	55
54	60
62	64
79	55
73	62
77	45
77	75
87	54
69	41
37	56
66	73
	56
	56
	70
	60
	54

Podemos observar gráficamente y asumir mediante sus histogramas o sus gráficos de cajas, que las distribuciones son aproximadamente normales (Figura 1). Una prueba de normalidad como la de Kolmogorov-Smirov, nos da asimismo una p>0,05, por lo que no podemos rechazar la hipótesis nula de normalidad.

Figura 1. Distribución del PaO2 en función de la HTA.

Los resultados de la prueba t de Student en un paquete estadístico como el SPSS aparecen en las tablas II y III. La Tabla II muestra los descriptivos de la PaO₂ para cada grupo. Podemos ver que el grupo de pacientes con HTA presenta unos valores de PaO₂ mayores, exactamente 2,38 unidades más. Esta diferencia es lo que llamamos el efecto observado. Una pregunta no estadística a la que debemos tener respuesta sin la necesidad de ningún test, es si la diferencia se puede considerar relevante desde un punto de vista clínico.

Tabla II. Estadísticos descriptivos de la PaO₂.

	N	Media	DT	EEM
Sin HTA	29	61,2	8,80	1,63
Con HTA	25	63,6	11,77	2,35

HTA: Hipertensión arterial
DT: Desviación típica.
EEM: Error estándar de la media.

En la Tabla III se contrasta en primer lugar la hipótesis de igualdad de varianzas con la prueba de Levene. Vemos que la tabla aparece dividida en dos filas, con resultados distintos que afectan entre otros valores, a los grados de libertad en función de si asumimos o no varianzas constantes. En el caso de la prueba de Levene, la hipótesis nula afirma que las varianzas de los grupos son homogéneas, en nuestro caso el valor de la p asociado a la prueba de Levene es mayor de 0,05 (en concreto p=0,147) y por tanto no podemos rechazar la hipótesis nula.

Tabla III. Prueba de Levene de igualdad de varianza y prueba t de Student para la comparación de medias en grupos independientes. Resultados con el programa SPSS.

PaO₂	Prueba de Levene	Prueba T para la igualdad de medias
					IC95%
F	p	t	gl	p	Diferencia de medias	EEDM	Superior	Inferior
Se han asumido varianzas iguales	2,17	,147	-,85	52,0	,399	-2,384	2,806	-8,01	3,25
No se han asumido varianzas iguales			-,83	43,9	,410	-2,384	2,867	-8,16	3,39

F: Valor del estadístico F de la prueba de Levene.
t: Valor de la t de Student.
gl: grados de libertad.
EEDM: Error estándar de la diferencia de medias.
IC: intervalo de confianza.

Asumida la igualdad de varianzas, debemos fijarnos únicamente en la primera fila correspondiente a la asunción de varianzas homogéneas. Los grados de libertad (gl) se calculan como la suma de los tamaños muestrales de los dos grupos menos 2. Si hubiéramos rechazado la hipótesis nula de igualdad de varianzas, vemos que los grados de libertad hubiesen tenido decimales y serían de 43,9 en lugar de 52. La diferencia de medias es 2,38 unidades mayor en el grupo de pacientes con HTA, si dividimos este valor por el error estándar de la diferencia de medias (EEDM=2,80) obtenemos finalmente el valor de la t de Student: -0,85. Recordemos que el EEDM mide la variabilidad de nuestras observaciones (error aleatorio) y que cuanto mayor sea, menor será el valor del estadístico t. La p asociada a una distribución t de Student de 52 grados de libertad para una valor de 0,85 es de p=0,399, mayor de 0,05 y concluyendo por tanto que las diferencias observadas en la PaO₂ pueden ser explicadas por el azar.

A mayores valores de t, valores más pequeños de p. En concreto, en nuestro ejemplo con 52 grados de libertad, el valor de la t, tendría que haber sido aproximadamente mayor de 2 para que la p fuese <0,05. Esto se hubiese conseguido con una diferencia de medias mucho mayor, o con una dispersión (EEDM) mucho menor.

En la Tabla III tenemos además un intervalo de confianza para la diferencia de medias, que como vemos incluye el 0. Es decir, con un 95% de confianza, pensamos que la diferencia de medias de PaO2 entre ambos grupos puede ir desde 8 unidades menos en el grupo sin HTA hasta 3,2 unidades más. Podemos ver la equivalencia que siempre existe entre los valores de p y los intervalos de confianza.

La prueba U de Mann-Whitney

Si no podemos asumir normalidad en nuestras variables ni siquiera con una transformación de ellas, podemos recurrir a la prueba U de Mann-Whitney. Esta prueba puede utilizarse incluso para comparar variables ordinales. Así mismo, es la prueba que debe utilizarse si el tamaño de uno de los grupos es muy reducido, en torno a 10 observaciones independientemente de la distribución de nuestros grupos.

En esta prueba, la hipótesis nula es que ambos grupos de tamaño n₁ y n₂ respectivamente, proceden de la misma población al igual que en la t de Student, sin embargo en esta ocasión no podemos suponer normalidad. La construcción del estadístico de contraste U, consiste en la ordenación conjunta de ambas muestras de menor a mayor, de modo que el valor más bajo de ambas tenga el valor o rango 1 y el más alto el rango n₁+n₂. Si la hipótesis nula es cierta, los rangos deben distribuirse de forma aleatoria entre las dos muestras, y por tanto el rango promedio de ambas debe ser muy parecido. No debemos confundir los rangos promedios con las medias o medianas que nos pueden aparecer en las salidas de resultados de los programas estadísticos como el SPSS. La prueba U de Mann-Whitney es una prueba no paramétrica y como su nombre indica, para la construcción de este estadístico no intervienen ni la media ni la desviación típica, parámetros que son calculados a partir de la información de la muestra.

En tamaños muestrales pequeños, la distribución del estadístico U es discreta y está tabulada. Para tamaños suficientemente grandes, la distribución U puede aproximarse a una normal. En nuestro ejemplo de la Tabla I los rangos promedios del grupo con HTA y sin HTA son de 29,3 y de 26,0 respectivamente, siendo la p=0,445 y por tanto sin evidencias para rechazar al hipótesis nula llegando a la misma conclusión que con la prueba t de Student. Desgraciadamente la prueba de Mann-Whitney da mucha menos información, no ofreciendo una estimación para la diferencia de medias ni un intervalo de confianza.

Bibliografía

1 Martínez González, M. A., Jokin de Irala y F. J. Faulín Fajardo (2001). Variables cuantitativas: comparación de la media entre dos grupos. Bioestadística Amigable. Ed: Díaz de Santos. 383-444.

2 Molinero, L. M. (2001). http://seh-lelha.org/mannw.htm. Comparación de un resultado de tipo ordinal entre dos muestras independientes. (Alce Ingeniería).

3 Molinero, L. M. (2003). http://seh-lelha.org/noparame.htm. ¿Y si los datos no siguen una distribución normal? (Alce Ingeniería).

4 Bland, J. M. y D. G. Altman (1996). Statistics Notes: Transforming data. Br Med J 312: 770.

5 Pértega Díaz, S. y S. Pita Fernández (2001). http://www.Fisterra.com. Métodos paramétricos para la comparación de dos medias. t de Student. Cad Aten Primaria 8: 37-41.

6 Pagano, M. y K. Gauvreau (2001). Comparación de dos medias. Fundamentos de bioestadística. Ed: Thonson and Learning. (2ª edición). 383-444.