Introducción
La realización de un diagnóstico consiste básicamente en la clasificación de un individuo como enfermo o sano, en función de la presencia de determinados signos o síntomas clínicos. Una prueba diagnóstica podría definirse como cualquier procedimiento encaminado a confirmar o descartar un diagnóstico, aunque más bien son utilizadas para disminuir nuestra incertidumbre sobre si nuestro paciente tiene o no un determinado problema de salud. En este capítulo, intentaremos aclarar algunos conceptos e índices utilizados de forma habitual para evaluar una prueba diagnóstica.
Validar una nueva prueba diagnóstica
En el proceso diagnóstico, muchas veces se incluyen pruebas complementarias, realizadas de forma secuencial o en paralelo, que pueden ir desde una simple exploración física a otras más complejas (hematológicas, bioquímicas, radiológicas, etc). Todo ello tiene la finalidad de aumentar la probabilidad de diagnosticar correctamente a nuestro paciente. Este proceso es fundamental, ya que un error en el diagnóstico o un retraso en el mismo, puede conllevar la aplicación de un tratamiento inadecuado con la posibilidad de provocar un daño en el paciente.
Una prueba diagnóstica perfecta es la que siempre da resultados positivos en pacientes enfermos y negativos en sanos. Sin embargo, en la práctica clínica es raro encontrar la prueba ideal, teniendo que recurrir en muchas ocasiones, a un conjunto de pruebas alternativas que serán mejores cuanto más se acerquen a la prueba perfecta. Con frecuencia, la realización de la “prueba perfecta” puede resultar imposible, ya que su aplicación, puede llevar consigo un gran número de efectos adversos o daños excesivos en el paciente que la hagan inviable o poco ética. La elección de una nueva prueba diagnóstica a otras ya existentes debe estar justificada, ya que debe ofrecer alguna ventaja sobre las anteriores que respalde su aplicación. Dicha ventaja podría ser un resultado diagnóstico en un tiempo menor, una aplicación más sencilla en el paciente y con menores molestias, un reducido coste, etc.
La nueva prueba diagnóstica a evaluar debe ser válida, reproductible y precisa. Válida en el sentido de que debe servir para medir y dar un resultado sobre la enfermedad o el problema de salud que se desea determinar. Reproductible porque debe dar los mismos resultados cuando se aplique en más de una ocasión a un mismo paciente. Y por último, precisa, debemos estudiar hasta que punto da un resultado positivo en pacientes enfermos y negativo en sanos.
Sensibilidad y Especificidad
La validez de una nueva prueba diagnóstica puede ser estudiada con la sensibilidad y la especificidad de la misma. Para ello debemos tener una prueba de referencia (patrón de oro o gold-standard) que debe ser la mejor disponible hasta el momento y que asumimos que clasifica siempre correctamente a los pacientes sanos y enfermos. Nuestro “gold-standard” puede ser una única prueba o bien incluir una combinación de pruebas y procedimientos diagnósticos pero que en ningún caso deben contener la nueva prueba a evaluar, ya que en ese caso incurrimos en el denominado “sesgo de incorporación”. Este sesgo implicaría una sobreestimación en la sensibilidad y especificidad, obteniendo valores mucho mejores de lo que realmente son.
En ocasiones, uno de los problemas que podemos encontrarnos, es precisamente la elección de una prueba de referencia adecuada. Si no podemos tener un gold-standard fiable en cuanto a la clasificación de pacientes sanos y enfermos, no podremos medir la validez de nuestra nueva prueba, debiendo entonces estudiar su concordancia en lugar de su validez mediante otras técnicas, como el índice de kappa o el coeficiente de correlación intraclase.
Una vez escogida una prueba de referencia adecuada y la prueba diagnóstica a evaluar, hay que aplicarlas de forma ciega, de modo que el resultado de una no condicione el resultado de la otra. No hacerlo de forma ciega, podría sesgar los resultados del estudio, sobre todo si las pruebas tienen una interpretación subjetiva, ya que el conocimiento de una de ellas puede tener consecuencias y condicionar la interpretación y resultado de la otra. A su vez, conviene aplicarlas de forma simultánea o lo más cercana en el tiempo posible, ya que si transcurre demasiado tiempo entre la aplicación de la prueba a estudio y la de referencia, la enfermedad podría haber evolucionado, distorsionando con ello los resultados.
Para una correcta evaluación de nuestra nueva prueba diagnóstica, es necesario que ambas pruebas se realicen sobre un espectro de pacientes adecuado y representativo de la población hacia la cual se quiere utilizar la prueba. Un problema que debemos evitar, es realizar el estudio únicamente en aquellos pacientes que tienen hecho el gold standard, ya que es muy posible que sólo se les haya aplicado a los pacientes con alta sospecha en cuanto a la presencia de su enfermedad, o en otras palabras, en aquellos en los que son más evidentes sus signos o síntomas clínicos por estar más graves. En los pacientes a estudiar, se deben incluir aquellos con diagnósticos dudosos o complicados, para no incurrir en un sesgo de selección. Hay que tener en cuenta, que los resultados de la prueba variarán en función de la gravedad de los pacientes a los que se aplica, y por tanto el escoger pacientes en estados avanzados de la enfermedad, puede provocar una sobreestimación en la capacidad diagnóstica de la nueva prueba.
Para medir la validez y la capacidad diagnóstica de una nueva prueba, los indicadores más utilizados son la sensibilidad, la especificidad y los valores predictivos (Tabla I).
Tabla I. Relación entre el resultado de la prueba con su diagnóstico por la prueba de referencia.
Resultado de la nueva prueba diagnóstica |
Diagnóstico real (prueba de referencia) |
|
Sano | Enfermo | |
Negativo | VN | FN |
Positivo | FP | VP |
VN: Verdaderos negativos; FN: Falsos Negativos; FP: Falsos Positivos; VP: Verdaderos Positivos
· Sensibilidad (S): proporción de pacientes enfermos con resultado positivo en la prueba entre el total de pacientes enfermos.
· Especificidad (E): proporción de pacientes sanos con resultado negativo en la prueba entre el total de pacientes sanos.
· Valor predictivo positivo (VPP): proporción de pacientes enfermos con resultado positivo en la prueba entre el total de pacientes que ha dado un resultado positivo.
· Valor predictivo negativo (VPN): proporción de pacientes sanos con resultado negativo en la prueba entre el total de pacientes que ha dado un resultado negativo.
La sensibilidad y la especificidad, cambian con la gravedad de la enfermedad. Mientras que la sensibilidad nos indica la capacidad de la prueba para clasificar a los pacientes enfermos, la especificidad, nos indica su capacidad para clasificar correctamente a los pacientes sanos. Los valores predictivos nos sirven para estimar la probabilidad de que un paciente esté enfermo o sano en función de que haya tenido un resultado positivo o negativo en la prueba. Los valores predictivos de la prueba se pueden ver muy alterados en función de la prevalencia de la enfermedad de la subpoblación en donde se aplique. Calcular los valores predictivos de una nueva prueba diagnóstica en un diseño de estudio de casos y controles, sería erróneo, ya que de modo arbitrario se ha fijado la prevalencia. Sin embargo, nos serviría para estimar la sensibilidad y la especificidad de la prueba, ya que ambas medidas no se ven afectadas por la prevalencia de la enfermedad.
En los ejemplos de la tabla II y III, podemos observar dos estudios en los que se ha aplicado la misma prueba diagnóstica pero que sin embargo corresponden a poblaciones con una prevalencia distinta de la enfermedad. El ejemplo de la tabla II, correspondería a un diseño casos-control (estudio A), en los que se han elegido todos los pacientes enfermos y el mismo número de pacientes sanos. Se supone que los controles sanos, se han escogido al azar como una muestra representativa de todos los posibles pacientes sanos.
Tabla II. Estudio A, casos-controles, prevalencia 50%.
Resultado de la nueva prueba diagnóstica | Diagnóstico prueba de referencia | |
Sano (controles) | Enfermo (Casos) | |
Negativo | 90 | 5 |
Positivo | 10 | 95 |
El diseño de la tabla III, correspondería a un estudio transversal (estudio B), en los que la prevalencia de la enfermedad se puede obtener directamente: 100/1100 (9%).
Tabla III. Estudio B, transversal, prevalencia 9%.
Resultado de la nueva prueba diagnóstica |
Diagnóstico real (prueba de referencia) |
|
Sano | Enfermo | |
Negativo | 900 | 5 |
Positivo | 100 | 95 |
Como podemos ver, tanto la sensibilidad como la especificidad se mantienen sin cambios, no siendo así en los valores predictivos (Tabla IV).
Tabla IV. Variación de exactitud diagnostica de los estudios A y B.
Valor | IC (95%) | ||
Resultados estudio A | |||
Prevalencia (%) | 50,0 | 42,8 | 57,2 |
Sensibilidad (%) | 95,0 | 90,2 | 99,8 |
Especificidad (%) | 90,0 | 83,6 | 96,4 |
Valor predictivo + (%) | 90,5 | 84,4 | 96,6 |
Valor predictivo – (%) | 94,7 | 89,7 | 99,8 |
Resultados estudio B | |||
Prevalencia (%) | 9,1 | 7,4 | 10,8 |
Sensibilidad (%) | 95,0 | 90,2 | 99,8 |
Especificidad (%) | 90,0 | 88,1 | 91,9 |
Valor predictivo + (%) | 48,7 | 41,5 | 56,0 |
Valor predictivo – (%) | 99,5 | 98,9 | 100,0 |
Resultados con el programa EPIDAT 3.1
Cocientes de probabilidad
Otro índice de utilidad, es el cociente de probabilidad o de verosimilitud (likelihood ratio), que nos indica cuanto es más probable obtener un determinado resultado en presencia de la enfermedad. Los tenemos de dos tipos:
· Cociente de probabilidad positivo (CP+): Se calcula como el cociente entre sensibilidad y 1 menos su especificidad. Su resultado, nos indica cuántas veces es más probable encontrar un resultado positivo en el grupo de enfermos que en el de sanos.
· Cociente de probabilidad negativo (CP-): Se obtiene de dividir 1 menos su sensibilidad entre su especificidad. Calculando su inverso [1/(CP-)], nos dice cuánto es más frecuente encontrar un resultado negativo en los sanos que en los enfermos.
La ventaja de estos dos índices, es que no se ven afectados por la prevalencia de la enfermedad, ya que en su cálculo sólo intervienen la sensibilidad y la especificidad, características ambas, que hemos visto que son intrínsecas de la prueba que estamos evaluando. Los cocientes de probabilidad pueden tomar valores entre 0 e infinito, siendo 1 el valor nulo. Normalmente valores de CP+ cercanos a 10 y CP- cercanos a 0,1, se consideran de relevancia diagnóstica. En nuestro ejemplo de la tabla II y III, ambos cocientes serían idénticos ya que como hemos dicho anteriormente, no dependen de la prevalencia de la enfermedad. Su cálculo sería el siguiente:
CP+ = 0,95/(1-0,9); CV+ = 9,5
CP- = (1-0,95)/0,9; CV- = 0,06
Curvas ROC
Cuando los valores de una prueba diagnóstica son numéricos, la sensibilidad y la especificidad varían en función del punto de corte elegido para clasificar a la población. Si un valor más alto, indica una mayor probabilidad de tener la enfermedad (Figura 1), podemos tener una prueba muy sensible con un punto de corte bajo. Si por el contrario, queremos una prueba muy específica, debemos subir el valor del punto de corte. La elección del mejor punto de corte viene determinada por los intereses del investigador, ya que puede ser preferible una prueba muy sensible o por el contrario muy específica. Una prueba muy sensible tendrá como inconveniente una alta proporción de falsos positivos, mientras que una prueba muy específica, tendrá como consecuencia un gran número de falsos negativos.
Figura 1. Elección del punto de corte de una prueba diagnóstica cuyo resultado es numérico.
No se pueden aumentar de forma simultánea ambos valores, un punto de corte con alta sensibilidad se consigue a expensas de una baja especificidad y viceversa.
En la elección del punto de corte, podemos ayudarnos de las curvas ROC (Receiver Operating Characteristics). Este gráfico consiste en la representación en ordenadas y abscisas de la sensibilidad y de 1-especificidad respectivamente de todos los valores observados en nuestra prueba diagnóstica (Figura 2). El máximo de la suma de sensibilidad y especificidad, se alcanza en el punto de corte más próximo al ángulo superior izquierdo de la gráfica. El área bajo la curva (ABC) oscila entre 0 y 1, alcanzando el 1 en aquellas situaciones en los que la prueba clasifica perfectamente a todos los pacientes obteniendo un 100% de sensibilidad y de especificidad. Si el área está muy cercana a 0, indicaría que un menor valor en la prueba se corresponde con una mayor probabilidad de estar enfermo, debiendo en ese caso “darle la vuelta” a la gráfica para tener valores cercanos a 1 y poder interpretar correctamente el área. Un área cercana a 0,5, indicaría una prueba diagnóstica con un bajo o nulo poder discriminatorio para clasificar pacientes enfermos y sanos.
Figura 2. Curvas ROC de tres pruebas diagnósticas, APRI, FIB4 y FORNS.
ABC: Área Bajo la Curva.
Esta gráfica, nos permite valorar de forma global la capacidad diagnóstica de más de una prueba cuantitativa, siendo la mejor aquella con mayor área. Un ABC de 0,8, significa que si cogemos al azar un individuo enfermo, tendrá el 80% de veces valores más altos en la prueba que un individuo sano. En la figura 2, se muestra gráficamente la capacidad diagnóstica de tres pruebas utilizadas para el diagnóstico de fibrosis hepática, siendo la biopsia el gold standard utilizado. En nuestro caso, en los pacientes en los que se aplicaron las pruebas, la de mayor área fue el índice APRI, aunque estas diferencias no fueron estadísticamente significativas.
Bibliografía
1 Arguimón, J. M. y Jiménez, J. (1998). Diseño de estudios descriptivos (II): Estudios para evaluar una prueba diagnóstica. Diseño de investigaciones en Ciencias de la Salud. www.metodo.uab.cat.
2 Ochoa Sangrador, C.,González de Dios, J. y Buñuel Álvarez, J. C. (2007). Evaluación de artículos científicos sobre pruebas diagnósticas. Evid Pediatr. 2007; 3:24.
3 Zamora, J. y Abraira, V. (2008). Análisis de la calidad de los estudios de evaluación de pruebas diagnósticas. Nefrología 28: Supl. 2.
4 Pita Fernández, S. y Pértega Díaz, S. (2003). Pruebas diagnósticas: Sensibilidad y especificidad. http://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.asp. Cad Aten Primaria 10: 110-125.
5 López de Ullibarri Galparsoro, I. y Pita Fernández, S. (1998). http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm. Curvas ROC. Cad Aten Primaria 5 (4): 229-235.