Análisis de supervivencia (I)

Introducción

El análisis de supervivencia recoge un conjunto de técnicas estadísticas apropiadas para todos aquellos estudios de seguimiento en donde el tiempo de respuesta hasta observar un fenómeno o suceso resulta fundamental. En este caso la variable de interés es el tiempo hasta la aparición del fenómeno o suceso de interés, que podrá o no aparecer en el transcurso de nuestro estudio, siendo además muy posible que perdamos algunos de los pacientes durante el seguimiento. El periodo de seguimiento de cada paciente puede ser desigual y en el final del mismo puede que ni siquiera se haya presentado el evento a estudio.

Se denomina estudio de supervivencia porque en sus primeras aplicaciones, el suceso de interés era la muerte, aunque su uso puede extenderse al estudio de cualquier otro suceso no necesariamente negativo e incluso positivo, como podría ser el tiempo transcurrido desde que una persona es operada hasta que recibe el alta médica. Existe mucha bibliografía sobre la metodología estadística a usar en los estudios de supervivencia, siendo algo complicado su entendimiento ya que tanto la nomenclatura como el vocabulario usado pueden variar de un texto a otro, resultando confuso su entendimiento. En este y en el siguiente capítulo, intentaremos definir y aclarar algunos de los conceptos utilizados en el análisis de la supervivencia.

Análisis de supervivencia

Veamos un ejemplo ficticio para ilustrar un estudio de seguimiento. Supongamos que aplicamos un programa experimental para dejar de fumar en un grupo de 8 pacientes fumadores y medimos el tiempo que transcurre hasta que fuman el primer cigarrillo (suceso o evento de interés). El diseño del estudio y su resultado podemos verlo en la figura 1.

Figura 1. Estudio de seguimiento en pacientes fumadores.

Por ejemplo, el paciente 1 entra el primer día del estudio y durante 3 semanas no fumó. En la figura las estrellas indican el evento de interés, que en este caso es volver a fumar. El paciente 3 no volvió a la consulta después de dos semanas iniciado el estudio, pero al menos sabemos que durante esas dos semanas no fumó. Lo mismo sucedió con el paciente 6, que después de 4 semanas de seguimiento rehusó participar en el estudio, pero sabemos que en esas cuatro semanas no fumó. Los pacientes 5 y 7 seguían sin fumar cuando se cerró el estudio a las 10 semanas.

Como podemos observar, no es necesario que todos los pacientes entren el mismo día en el que se inicia el estudio, pudiéndose incorporar mientras dure el mismo. El tiempo de observación puede terminar por estas razones:

· Se produce el evento de interés: muerte, recidiva, curación, alta médica, etc. En nuestro caso sería volver a fumar. Pacientes 1, 2, 4 y 7.

· Se termina el estudio de seguimiento y no se observa el evento de interés. Pacientes 5 y 8.

· Se pierde el seguimiento, bien porque no vuelven, son retirados, mueren por una causa distinta de la estudia, etc. Las causas pueden ser múltiples. Pacientes 3 y 6.

Si estamos en los dos último casos, nos referiremos a pacientes con información censurada, o pacientes censurados.

A efectos prácticos de análisis de datos, podemos colocar los datos tal y como aparecen en la figura 2.

Figura 2. Ordenacion de datos para un estudio de supervivencia.

Al ordenarlos de esta manera es como si todos nuestros pacientes hubiesen empezado el estudio en el mismo momento, lo que es equivalente a asumir que los criterios de inclusión y de exclusión fueron los mismos en todo momento. Esto puede no suceder en estudios de seguimiento muy largos en los que se incluyen pacientes recogidos a lo largo de muchos años, ya que los métodos diagnósticos e incluso la propia definición de la enfermedad, pueden haber cambiado a lo largo del tiempo.

Si hay cambios en el modo de clasificar a los pacientes durante el periodo de estudio, podría introducirse un sesgo muy importante en la valoración de la supervivencia. Imaginemos que al estudiar la supervivencia de forma retrospectiva en un grupo de pacientes oncológicos recogemos información durante 20 años. En este periodo de tiempo es bastante probable que las técnicas de diagnóstico y por tanto de clasificación de la gravedad de la enfermedad hayan sufrido cambios, siendo ahora las nuevas técnicas mucho más sensibles. Por tanto, los pacientes incorporados en los últimos años se clasificarán como pacientes en estadios más avanzados de la enfermedad, al detectar lesiones que antes hubiesen pasado desapercibidas con las antiguas técnicas. A este hecho se le denomina “migración diagnóstica”. Pacientes que antiguamente hubiesen sido clasificados en estadios iniciales de la enfermedad, ahora al tener técnicas más sensibles de diagnóstico, están clasificados en estadios más avanzados. La supervivencia en los pacientes con estadios más avanzados será mayor, ya que hemos incorporado pacientes que en años anteriores hubiesen sido considerados menos graves. Como consecuencia de ello y paradójicamente, la supervivencia aumenta tanto en los grupos leves como en los graves, fenómeno descrito por Will Rogers. Es como si la persona más alta de un grupo de gente baja, pasa a pertenecer a un grupo de personas todas ellas con mayor altura. El promedio de ambos grupos disminuye (De Irala 2004).

Método Kaplan-Meier (producto-límite)

Uno de los métodos usados con más frecuencia en la literatura médica para estimar la supervivencia es el método de Kaplan-Meier. En su cálculo, no intervienen ni la media ni la desviación típica, etc. siendo por tanto no paramétrico. Del mismo modo, no hay ninguna limitación en cuanto a la forma de la distribución de los datos.

Lo que sí es importante en este método, es asumir que la censura resulte no informativa. Esto equivale a suponer que los pacientes “censurados” se comportan de igual forma que el resto de pacientes seguidos. Si los pacientes censurados o perdidos, tienen unas características diferentes al resto de pacientes, incluso asociadas al evento que estamos midiendo, el estudio podría carecer de validez.

El método Kaplan-Meier calcula la supervivencia como un producto acumulativo de la supervivencia en cada periodo. Aunque la nomenclatura pueda cambiar de un texto a otro, se calcula de la siguiente fórmula recursiva:

Siendo S(t_i) la supervivencia estimada en el momento t_i, n_i el nº de pacientes a riesgo en el momento i al inicio del periodo, y s_i los supervivientes al final del periodo i. Por tanto la supervivencia en un periodo dado, se calcula como la tasa de supervivencia en ese periodo por la supervivencia en el periodo anterior.

Veámoslo en nuestro ejemplo en el que estudiábamos el tiempo transcurrido hasta volver a fumar en un grupo de pacientes. Para facilitar los cálculos de la función de supervivencia, podemos colocar los datos como en la Tabla 1. Sin recurrir a los programas estadísticos, podemos realizar los cálculos de la función de supervivencia con cualquier programa con hojas de cálculo.

Tabla 1. Tabla de supervivencia.

Tiempo (t_i)	Pacientes a riesgo (n_i)	Recaen	Sin recaída (s_i)	Supervivencia periodo (s_i/n_i)	Función de supervivencia acumulada S(t_i)
0	8	0	8	8/8	1
1	8	1	7	7/8	1*(7/8) = 0,875
2	7	1	6	6/7	0,875*(6/7) = 0,750
3	5	1	4	4/5	0,750*(4/5) = 0,600
4	4	1	3	3/4	0,600 *(3/4) = 0,450
5	2	0	2	2/2	0,450*(2/2) = 0,450
6	1	0	1	1/1	0,450*1 = 0,450
7	1	0	1	1/1	0,450*1 = 0,450
8	1	0	1	1/1	0,450*1 = 0,450
9	1	0	1	1/1	0,450*1 = 0,450

Se pueden seguir fácilmente los cálculos siguiendo el esquema de la figura 2.

· En el momento 0, entran 8 pacientes, por tanto comenzamos con el 100% libre de recaída y la supervivencia es 1.

· En la semana 1 de seguimiento, tenemos la 1ª recaída de los 8 que entran (n₁), por lo que nos quedan 7 supervivientes o sin recaída. La función de supervivencia al ser acumulativa sería S=S₀*S₁, es decir S=1*(7/8) = 0,870, o lo que es lo mismo, el 87,5% de nuestros pacientes no ha recaído después de la primera semana.

· En la semana 2, tenemos otra recaída y un seguimiento perdido. S=S₀*S₁*S₂, S=1*(7/8)*(6/7) = 0,750.

· En la semana 3, comenzamos con 5 pacientes (n₃), ya que hasta ese momento han recaído 2 y a otro le perdimos el seguimiento. En los 5 pacientes seguidos, tenemos 1 recaída. S=1*(7/8)*(6/7)*(4/5) = 0,600.

· En la semana 4, tenemos la última recaída. S=1*(7/8)*(6/7)*(4/5)*(3/4) = 0,450.

· La semana 5, comenzamos con 2 pacientes, hasta el momento han recaído 4 y han abandonado 2. Durante esa semana tenemos un abandono.

· No se observan más abandonos ni pérdidas hasta finalizar el estudio.

Como podemos ver, la función de supervivencia solo cambia cuando tenemos eventos, en nuestro caso recaídas, y permanece constante mientras no haya eventos aunque se produzcan pérdidas de seguimiento.

La representación gráfica de la tabla de supervivencia es lo que se denomina curva Kaplan-Meier, que en este ejemplo podemos verla en la figura 3.

Figura 3. Curva de supervivencia Kaplan-Meier.

El tiempo se sitúa en el eje X, mientras que la función de supervivencia S(t_i) en el eje Y. Los escalones de la gráfica se producen sólo si observamos eventos (tenemos recaídas), los símbolos “+” representan pacientes censurados, que no tienen efecto sobre la función de supervivencia. A medida que transcurre el seguimiento, disminuye el nº de pacientes observados, bien sea por los eventos o por los casos censurados, siendo cada vez más pronunciados los escalones al final del mismo. Por esta razón, hay que tener muy en cuenta el nº de casos que tenemos en cada momento, sobre todo al final, porque la función de supervivencia sufre grandes cambios. Si el paciente con seguimiento más largo tiene un evento, la curva terminará en un escalón, a diferencia de nuestro ejemplo, donde el paciente con seguimiento más largo no sufre una recaída.

Se pueden expresar los resultados del análisis de supervivencia de varias formas, siendo la mediana uno de los más utilizados. Calcular directamente la media o la mediana a partir de los datos observados por el tiempo de seguimiento carece de sentido, ya que no estamos teniendo en cuenta aquellos pacientes con seguimiento truncado o censurado. La supervivencia mediana, es el tiempo de seguimiento transcurrido hasta observar el evento en el 50% de pacientes, o lo que es equivalente, un 50% de pacientes está libre del evento estudiado. En nuestro ejemplo, puede verse la mediada gráficamente en la figura 3. A las 4 semanas de seguimiento quedan 4 pacientes (50%) sin recaer de los 8 que empezaron. Sin en el estudio se producen en menos del 50% de pacientes el evento, no podríamos calcular la mediana.

Una vez obtenida la función de supervivencia, podemos calcular su intervalo de confianza a partir de su error estándar (EE), resultado ofrecido de forma habitual en los programas estadísticos.

Sin embargo, a no ser que tengamos muestras de gran tamaño, no debemos calcular el intervalo de confianza al 95% como IC95%= S(t_i)±1,96*EE porque puede no ser válida la aproximación a una distribución a la normal. Para ello se utiliza una transformación del error estándar:

Con el EE transformado podemos calcular el intervalo de confianza:

Bibliografía recomendada

1 Gómez-Melis, G. (2002). http://www.icf.uab.es/icbdigital/pdf/articulo/articulo5.pdf. Técnicas estadísticas en el análisis de supervivencia. ICB digital Nº 5.

2 Martínez González, M. A., A. Sánchez-Villegas y F. J. Faulín Fajardo (2006). Introducción al análisis de supervivencia. Bioestadística Amigable. 2ª Edición. Ed: Díaz de Santos. 643-683.

3 Feinstein, A. R., D. M. Sosin y C. K. Wells (1985). Will Rogers phenomenon. Stage migration and new diagnostic techniques as a source of misleading statistics for survival in cancer. N Engl J Med 312: 1604-8.

4 Molinero, L. M. (2001). http://www.seh-lelha.org/superviv1.htm. Tiempo hasta que ocurre un suceso. Análisis de supervivencia. (Alce Ingeniería).

5 Pita Fernández, S. (1995). http://www.fisterra.com/mbe/investiga/supervivencia/ supervivencia.asp. Análisis de supervivencia. Cad Aten Primaria 2: 130-135.