Pruebas de contraste de hipótesis para variables cualitativas

Publicado en Neumonews (2008)

Introducción

En numerosas ocasiones, se necesita analizar la relación de dependencia o independencia entre dos variables de tipo cualitativo o categórico. A estas variables también se les denomina factores, mientras que a las distintas categorías de la variable se les suele denominar niveles. Existen diferentes pruebas para medir la dependencia entre dos variables cualitativas, entre ellas la prueba ji-cuadrado en sus diferentes versiones. En este capítulo repasaremos las pruebas estadísticas más utilizadas en la investigación biomédica para cruzar variables categóricas, así como ejemplos que faciliten su comprensión.

Supongamos que realizamos un estudio en 45 pacientes en el que deseamos estudiar la relación entre el hábito tabáquico y EPOC diagnosticado mediante espirometría obteniendo los resultados de la Tabla I. Podemos ver que 15 pacientes de 25 (60%) tenían EPOC dentro del grupo de fumadores, mientras que tan solo 5 de 20 (25%) presentaron EPOC en el grupo de no fumadores. Desde un punto de vista clínico las diferencias son importantes, pero ¿lo serán desde un punto de vista estadístico?

Tabla I. Relación entre EPOC y hábito tabáquico. Frecuencias observadas y porcentajes de columna.

Fumador
EPOC No Total
No 15 (75%) 10 (40%) 25 (55,6%)
5 (25%) 15 (60%) 20 (44,4%)
Total 20 (100%) 25 (100%) 45 (100%)

Prueba ji-cuadrado (X2)

La prueba ji-cuadrado de Pearson (X2) es una de las pruebas más utilizadas en el ámbito de la medicina y la biología. Esta prueba no mide el grado o la fuerza de la asociación entre dos variables categóricas, para ello ya existen medidas como la odds ratio o el riesgo relativo, adecuadas para estos fines. Se aplica principalmente para estudiar la asociación entre dos variables categóricas o cualitativas y para comparar proporciones o porcentajes. Su uso no está restringido únicamente para variables dicotómicas. Si alguna de las dos variables es de naturaleza ordinal, se debe aplicar la prueba ji-cuadrado de tendencia lineal como veremos más adelante.

También podremos encontrarla bajo el nombre de “chi-cuadrado”, siendo su origen la traducción al castellano del término inglés “chi-squared”. Ya que el nombre en castellano para la letra griega X es “ji”, utilizaremos esta denominación. La prueba X2 puede aplicarse con una sola variable para comparar valores observados respecto a esperados, aunque su uso más frecuente es para comparar dos proporciones. Una de sus limitaciones es que requiere un tamaño muestral suficientemente grande y aunque su cálculo es sencillo, no lo es tanto el entender su procedencia y su interpretación. Simplemente diremos que los valores que toma el estadístico ji-cuadrado con un grado de libertad corresponden a los obtenidos a una distribución normal tipificada elevados al cuadrado, y que por tanto la prueba ji-cuadrado solo tiene una cola tomando únicamente valores positivos.

La expresión de la prueba ji-cuadrado es la siguiente:

clip_image002 Obs: frecuencias observadas.

Esp: frecuencias esperadas.

En nuestro ejemplo de la Tabla I hemos cruzado dos variables cualitativas EPOC y fumador con dos categorías cada una. Excluyendo las celdas de los totales (denominadas marginales) obtenemos una tabla de 2 filas por 2 columnas. Una vez conocidos los totales para cada categoría, si sabemos la frecuencia de una de las celdas, es fácil deducir las frecuencias de las demás. Por ello se dice que tenemos 1 grado de libertad, ya que conocidos los marginales, sólo tenemos la “libertad” de poner valores en una de las celdas, porque las demás ya vienen impuestas por los datos. Para tablas de “n” filas y “m” columnas, los grados de libertad se calcularían como (n – 1) x (m – 1). En el ejemplo, si sabemos que hay 15 fumadores con EPOC, conocidas las frecuencias marginales es fácil completar el resto de la tabla. Tenemos por lo tanto un solo grado de libertad.

Nuestra hipótesis nula (Ho) sería la que afirma que la proporción de pacientes con EPOC es la misma en el grupo de fumadores que en el de no fumadores. Nuestra hipótesis alternativa (H1), por el contrario, afirmaría que estas proporciones son distintas. Si la proporción es distinta, tenemos en cuenta las dos posibilidades que existen: que la proporción de pacientes con EPOC sea más alta o más baja en los fumadores, por lo tanto la prueba es bilateral o también denominada de “dos colas”.

clip_image002[4]

Si al calcular los valores de la expresión X2, que es la diferencia entre lo observado y lo esperado, sobrepasamos cierto valor crítico, diremos que las diferencias encontradas son demasiado grandes como para poder ser explicadas por el azar. Si en nuestro estudio tenemos 20 pacientes con EPOC de 45 personas (44%), para que la hipótesis nula fuese cierta, tendríamos que tener la misma proporción de pacientes con EPOC en los fumadores y en los no fumadores. Es decir, de los 25 fumadores, esperamos tener (25*20)/45, que serían 11 fumadores aproximadamente. De este modo obtendríamos las frecuencias esperadas para el resto de las 3 celdas (Tabla II). Una vez conocidas las frecuencias esperadas, sólo nos queda calcular el valor de la expresión X2 que es una simple suma de unas diferencias al cuadrado:

Tabla II. Relación entre EPOC y hábito tabáquico. Frecuencias esperadas.

Fumador
EPOC No Total
No 11,1 (55,6%) 13,9 (55,6%) 25 (55,6%)
8,9 (44,4%) 11,1 (44,4%) 20 (44,4%)
Total 20 25 45

clip_image004

clip_image006

Si miramos en las tablas de la distribución ji-cuadrado para un grado de libertad, podemos ver que la significación estadística p<=0,05, se alcanza para aquellos valores de X2 iguales o superiores a 3,84. Como el valor obtenido en nuestro estudio; 5,51 es mayor al valor crítico de 3,84, podemos rechazar la hipótesis nula (H0) y afirmar que las diferencias encontradas difícilmente pueden ser explicadas por el azar, siendo mayor la proporción de pacientes con EPOC en los fumadores (p<0,05). Como puede comprobarse, el valor del estadístico ji-cuadrado no cambia al permutar las filas por las columnas. Si recordamos un poco la distribución normal tipificada (media 0 y desviación típica 1), el intervalo (-1,96; +1,96) recoge el 95% de la probabilidad, dejando solo un 5% fuera. Precisamente (1,96)2 es 3,84. Si disponemos de un ordenador o en su defecto de una tabla con los valores de p y de la X2, podremos ver que el valor de p asociado a una X2=5,51 con un grado de libertad es de p=0,019.

Para aplicar correctamente la prueba ji-cuadrado, al menos el 80% de las celdas debe tener una frecuencia esperada mayor de 5. Si esto no es así, siempre tenemos el recurso de agrupar categorías excepto cuando nuestra tabla sea de 2×2 (ambas variables dicotómicas), en cuyo caso debemos utilizar la prueba exacta de Fisher.

A veces se introduce una modificación en el cálculo de la expresión X2, denominada corrección de Yates o corrección por continuidad, siendo su efecto mínimo en muestras de gran tamaño. La consecuencia de su aplicación es una reducción del valor final de la ji-cuadrado, y por tanto la hace un poco más conservadora. Si bien no existe consenso en la literatura sobre su utilización, su uso se debe al hecho de que en ocasiones variables numéricas se transforman en dicotómicas con un punto de corte.

Otras pruebas de contraste de hipótesis entre variables categóricas

Una variante de la prueba X2 de Pearson para contrastar la hipótesis de independencia entre variables categóricas, es la razón de verosimilitud ji-cuadrado. A diferencia de la ji-cuadrado de Pearson, esta prueba se basa en el cociente de los logaritmos de las frecuencias observadas y esperadas.

Existe una serie de medidas con las que podemos medir el grado de asociación entre variables categóricas aparte de los ya conocidos riesgos relativos y odds ratios. Entre el conjunto de pruebas que miden el grado de dependencia entre variables categóricas nominales se encuentran el coeficiente de contingencia, la V de Cramer, las Lambdas simétricas y asimétricas y los coeficientes de incertidumbre simétrico y asimétrico. En general, todas estas pruebas (a excepción del coeficiente de contingencia en tablas de más de 2×2) toma valores dentro de un rango de 0 a 1, donde el 0 nos indicaría no asociación entre variables y el 1, una fuerte asociación. Todas estas pruebas pueden encontrarse en paquetes estadísticos como el SPSS.

También nos puede surgir en algún momento la necesidad de cruzar dos variables categóricas con la particularidad de que una de ellas es ordinal. Imaginemos que deseemos cruzar el consumo de tabaco medido en tres categorías: no fumador, fumador moderado, fumador alto, con EPOC (Tabla III). Podemos ver claramente, que la proporción de pacientes con EPOC aumenta con el consumo de tabaco.

Tabla III. Relación EPOC y hábito tabáquico.

Hábito tabáquico
EPOC No fumador Moderado Alto Total
No 23 (76,7) 19 (63,3) 15 (50,0) 57 (63,3%)
7 (23,3) 11 (36,7) 15 (50,0) 33 (36,7%)
Total 30 (100%) 30 (100%) 30 (100%) 90 (100%)

Si calculásemos en este ejemplo el estadístico ji-cuadrado, obtendríamos un valor de 4,60 y una p=0,111 (dos grados de libertad). Este valor es el mismo independientemente de cómo hubiéramos ordenado las categorías del consumo de tabaco. En el cálculo de la prueba X2 de Pearson no se tiene en cuenta el orden de las categorías y de este modo perdemos una valiosa información. La prueba X2 de tendencia lineal, siempre tiene un grado de libertad, e incluye una modificación para su cálculo respecto a la expresión de la prueba ji-cuadrado de Pearson, de modo se tiene en cuenta el orden de las categorías. En nuestro ejemplo de la Tabla III, el valor de p sería 0,033, indicando que a medida que aumenta el consumo de tabaco, lo hace también el porcentaje de pacientes con EPOC.

El mismo problema, se podría haber resuelto mediante la prueba no paramétrica U de Mann-Whitney, ya que también permite la comparación de dos variables ordinales.

Si queremos cruzar dos variables ordinales para estudiar su relación de dependencia, podemos utilizar el coeficiente de correlación no paramétrico de Spearman, aunque también tenemos otras medias de asociación para variables ordinales, como la Gamma, Tau-b de Kendall, Tau-C de Kendall y D de Somers. La interpretación de estos coeficientes es similar en todos ellos, tomando valores entre -1 y 1. Valores próximos a 1 nos indicarían una fuerte asociación positiva, es decir, a medida que aumentan los valores de una variable, también lo hacen los de la otra. Por el contrario, valores próximos a -1, indicarían una fuerte asociación negativa, y por tanto a medida que aumentan los valores de una variable, disminuyen los de la otra. En el ejemplo de la Tabla IV, en el que medimos el grado y el sentido de la asociación entre hábito tabáquico y gravedad de la EPOC, al calcular el valor de de la Gamma obtenemos un resultado de 0,718, indicando una fuerte asociación positiva entre ambas variables. Muchos de estos coeficientes vienen incluidos en los programas estadísticos como el SPSS o SAS.

Tabla IV. Relación entre gravedad de la EPOC y hábito tabáquico,

Hábito tabáquico
EPOC No fumador Moderado Alto Total
Leve 20 (66,7%) 8 (26,7%) 2 (6,7%) 30 (33,3%)
Moderado 8 (26,7%) 10 (33,3%) 8 (26,7%) 26 (28,9%)
Grave 2 (6,7%) 12 (40,0%) 20 (66,7%) 34 (37,8%)
Total 30 (100%) 30 (100%) 30 (100%) 90 (100%)

Para finalizar recomendamos al lector otras lecturas especializadas para profundizar en estos coeficientes, ya que según el contexto y la situación pueden ser preferibles unos a otros.

Bibliografía

1 Ferrán Aranaz, M. (1996). SPSS para Windows. Programación y análisis estadístico. Tablas de contingencia y medidas de asociación. McGraw-Hill.

2 Molinero, L. M. (2004). http://seh-lelha.org/stat1.htm. Asociación de variables cualitativas nominales y ordinales. (Alce Ingeniería).

3 Pita Fernández, S. y S. Pértega Díaz (2004). http://www.Fisterra.com. Asociación de variables cualitativas: test de chi-cuadrado. Cad Aten Primaria.

4 Martínez González, M. A., Jokin de Irala y F. J. Faulín Fajardo (2001). Bioestadística Amigable. Ed: Díaz de Santos.

Artículos relacionados: