Icono del sitio EMEI

Correlación y regresión lineal

Publicado en Neumonews (2008)

Introducción

Al trabajar con dos variables cuantitativas podemos estudiar la relación que existe entre ellas mediante la correlación y la regresión. Aunque los cálculos de ambas técnicas pueden ser similares en algunos aspectos e incluso dar resultados parecidos, no deben confundirse. En la correlación tan solo medimos la dirección y la fuerza de la asociación de una variable frente a la otra, pero nunca una relación de causalidad. Solo cuando tenemos una variable que es causa o depende de otra, podremos realizar entonces una regresión. En este capítulo estudiaremos dos de los coeficientes de correlación más utilizados, como el coeficiente de Pearson y el coeficiente no paramétrico de Spearman. También veremos un ejemplo de regresión lineal simple y cómo se deben interpretar sus resultados.

Coeficiente de correlación de Pearson (r)

Si tenemos dos variables cuantitativas y deseamos medir el grado de asociación podemos utilizar el coeficiente de correlación de Pearson. En primer lugar, es muy aconsejable realizar un gráfico de dispersión entre ambas variables y estudiar visualmente la relación entre ellas. Este coeficiente mide asociación lineal y al ser una prueba paramétrica requiere para su uso que ambas variables tengan distribuciones normales1. De no ser así, deberemos utilizar el coeficiente no paramétrico de Spearman.

El coeficiente de correlación de Pearson (r) puede tomar valores entre -1 y +1, de modo que un valor de “r” positivo nos indica que al aumentar el valor de una variable también aumenta el valor de la otra (Figura 1A), y por el contrario, “r” será negativo si al aumentar el valor de una variable disminuye la otra (Figura 1B). La correlación será perfecta si r= ±1, en este caso los puntos formarán todos una recta. Es importante a priori determinar qué valor de “r” vamos a considerar como clínicamente relevante, puesto que una correlación tan baja como r= 0,07 sería significativa (p=0,027) con un tamaño muestral de unas 1000 personas. Al igual que cualquier otro parámetro, conviene darlo con sus correspondientes intervalos de confianza. Un coeficiente de correlación significativo, lo único que nos indica es que es bastante improbable que en nuestra población “r” sea cero, y por tanto su intervalo de confianza no incluirá el cero.

Figura 1. El coeficiente de correlación de Pearson.

A
B

Coeficiente de correlación no paramétrico de Spearman (rho)

Al igual que el coeficiente de Pearson, también podemos utilizarlo para medir el grado de asociación entre dos variables cuantitativas, sin embargo no es necesario que ambas variables sean normales, e incluso lo podemos utilizar en variables ordinales. Como todas las pruebas no paramétricas, este coeficiente se construye sustituyendo los valores de las variables por sus rangos o posiciones, si los valores de las variables fuesen ordenados de menor a mayor. Al contrario de otras pruebas no paramétricas, si permite construir intervalos de confianza1.

La interpretación de este coeficiente es muy similar al de Pearson, pudiendo alcanzar valores de entre -1 y +1 indicando asociación negativa o positiva respectivamente. Tanto el coeficiente “r” de Pearson como el coeficiente rho de Spearman, son medidas adimensionales por lo que no poseen unidades.

Usos incorrectos de los coeficientes de correlación

Ambos coeficientes, tanto el de Pearson, como el de Spearman, requieren que las observaciones sean independientes, por lo que no debemos aplicar una correlación entre dos variables en los que tuviéramos medidos pacientes de forma repetida.

El encontrar una asociación significativa no indica que una variable sea la causa y que la otra el efecto. La correlación nunca mide una relación causa-efecto. Además, no distingue entre variable dependiente e independiente y por tanto la correlación de la variable “x” frente a la variable “y” es la misma que la de la variable “y” frente a “x” 1. Esto no sucede así en la regresión.

Siempre hay que tener mucho cuidado con la interpretación de un coeficiente de correlación puesto que otras variables, llamadas de confusión, pueden ser las causantes reales de la asociación. Esto sucede cuando dos variables independientes entre sí dependen ambas de una tercera. Por ejemplo está demostrado que en los niños, existe una correlación positiva entre el tamaño del pie y su capacidad para sumar. Sin embargo lo que en realidad sucede es que los niños con mayor pie, son también los de mayor edad y por tanto los que mejor suman. Este tipo de correlaciones se denominan espúreas o engañosas y nos pueden llevar a conclusiones erróneas.

También hay que advertir a aquellos investigadores que tengan la tentación de correlacionar un número grande de variables cuantitativas con el único objetivo de “a ver si encuentro algo”. Aparte de tener una difícil justificación este modo de actuar, si cruzáramos solo 20 variables todas ellas independientes, tendríamos hasta 190 pares de variables en los que estudiar la correlación, y sólo por azar, es de esperar aproximadamente unas 9 ó 10 como significativas. Es decir, el 5% de las correlaciones realizadas serian significativas con una p<0,05, cometiendo un error tipo I al afirmar que hay asociación cuando en realidad no la hay (ver capítulo I). Para evitarlo, podríamos utilizar para cada p la corrección de Bonferroni 2.

Tampoco debemos utilizar la correlación para evaluar la concordancia entre dos medidas cuantitativas, siendo aconsejables otros índices como el coeficiente de correlación intraclase y otra serie de técnicas 3.

Regresión lineal simple

Si deseamos estudiar la relación entre dos variables cuantitativas y además una de ellas puede considerarse como variable dependiente o “respuesta” podemos considerar el uso de la regresión lineal simple. Con la regresión, aparte de medir el grado de asociación entre las dos variables, podremos realizar predicciones de la variable dependiente.

Veamos un ejemplo de regresión lineal simple y cómo se interpretarían sus resultados. Dependiendo del programa estadístico utilizado, pueden variar la cantidad de información y el formato de las salidas, aunque los resultados van a ser los mismos así como su interpretación.

Supongamos que deseemos estudiar la asociación entre el volumen máximo expirado en el primer segundo de una expiración forzada (FEV1) y la talla medida en centímetros de un grupo de 170 adolescentes de edades comprendidas entre los 14 y los 18 años (Tabla I).

Tabla I. Ejemplo en 170 adolescentes.

FEV1 (litros) Altura (cm.)
1 3,46 171
2 4,55 172
3 4,53 182
4 4,59 179
5 3,67 173
6 4,71 180
168 4,38 177
169 5,06 184
170 3,06 152

FEV1: Volumen espiratorio forzado en el primer segundo.

En primer lugar debemos realizar un gráfico de dispersión como el de la Figura 2A y estudiar visualmente si la relación entre nuestra variable dependiente (FEV1) y nuestra variable independiente (talla) puede considerarse lineal 4. Por convenio, se coloca la variable dependiente en el eje Y de las ordenadas y la variable independiente en el eje X de las abscisas. Si no observamos un comportamiento lineal, debemos transformar la variable dependiente o incluso replantearnos el tipo de análisis, ya que es posible que la relación entre ambas variables en caso de existir, pueda no ser lineal.

En nuestro ejemplo, si parece cumplirse una relación lineal entre FEV1 y la talla. Si calculásemos el coeficiente de correlación de pearson nos daría un resultado de 0,86 (IC95%: 0,82; 0,90), indicando que la asociación es positiva y por tanto valores altos de FEV1 se corresponden a su vez con valores altos de talla. Sin embargo sólo con la correlación no tendríamos la suficiente información si quisiéramos hacer predicciones de los valores de FEV1 en función de la talla.

El objetivo de la regresión lineal simple es encontrar la mejor recta de ajuste de entre todas las posibles dentro de la nube de puntos de la Figura 2A. La mejor recta de ajuste será aquella que minimice las distancias verticales entre cada punto y la recta, calculándose normalmente por el método de “mínimos cuadrados” (Figura 2B) 1, 5. De este modo conseguiremos una ecuación para la recta de regresión de Y (variable dependiente) en función de X (variable independiente) de la forma Y=a+bX. En nuestro ejemplo, el problema radica en estimar a (constante de la recta) y b (pendiente de la recta) de modo que podamos construir la ecuación o recta de regresión: FEV1=a+bTalla que minimice esas distancias.

Figura 2. Gráfico de dispersión.

A
B

Cualquier programa estadístico nos debe dar al menos tres informaciones básicas:

Tabla II. Coeficientes estimados de la recta de regresión.

 

  B Error típ. Beta p IC 95%
Constante (a) -8,387 0,552 <0,001 (-9,476; -7,298)
TALLA (b) 0,073 0,003 0,864 <0,001 (0,066; 0,079)

IC95%: Intervalo de confianza del 95%

Después de realizar el análisis hay que asegurarse de que no se violan las hipótesis en las que se sustenta la regresión lineal: normalidad de la variable dependiente para cada valor de la variable explicativa, independencia de las observaciones muestrales, y la misma variabilidad de Y para cada valor de nuestra variable independiente 5.

Toda esta información se puede extraer estudiando el comportamiento de los residuos, es decir, la diferencia entre los valores observados y los pronosticados por nuestra recta de regresión. La Figura 3A es un histograma de frecuencias en el que se han normalizado o tipificado los residuos de modo que su media es 0 y su varianza 1. Como podemos observar su distribución es similar a una distribución normal. Otro gráfico muy interesante es el de la Figura 3B, en el que se han colocado en el eje X los valores pronosticados por la regresión ya tipificados y en el eje Y, los residuos también tipificados. Los puntos han de situarse de forma aleatoria sin ningún patrón de comportamiento, porque en caso contrario, es muy posible que estemos violando alguno de los supuestos de la regresión lineal simple 1, 5.

Figura 3. Gráfico de residuos.

A
B

Bibliografía

1 Martínez González, M. A., Jokin de Irala y F. J. Faulín Fajardo (2001). Correlación y regresión. Bioestadística Amigable. Ed: Díaz de Santos. 383-444.

2 Bland, J. M. y D. G. Altman (1995). Multiple significance tests: the Bonferroni method. Br Med J 310: 170.

3 Pita Fernández, S. y S. Pértega Díaz (2004). http://www.Fisterra.com. La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas. Atención Primaria en la Red.

4 Dallal, G. E. http:http://www.tufts.edu/~gdallal/LHSP.HTM Linear Regression.The Little Handbook of Statistical Practice.

5 Pértega Díaz, S. y S. Pita Fernández (2000). http://www.Fisterra.com. Técnicas de regresión: Regresión lineal simple. Cad Aten Primaria 7: 91-94.

Salir de la versión móvil