Sr. Editor: Hemos leído el artículo «Evaluación en condiciones de campo de una prueba serológica rápida para detección de an ticuerpos IgM e IgG contra SARS-CoV-2» de Vidal-Anzardo et al. 1, el cual consideramos un valioso aporte a la evaluación de pruebas diagnósticas en circunstancias difíciles para el Perú. Sin embargo, luego de una minuciosa lectura crítica consideramos que el reporte de los resultados y la discusión de sus posibles sesgos pueden inducir a algunos errores de interpretación si no se realizan las precisiones del caso.
El primer problema radica en el término ambiguo «rendimiento diagnóstico», ya que éste -según la guía EP24-A2 del CLSI (Clinical-and-Laboratory-Standards-Institute)- agrupa un conjunto de indicadores: sensibilidad (SenDx) y especificidad (EspecDx) diagnósticas, valores predictivos (+/), likelihood ratios (+/-), odds ratio diagnóstico y curva ROC 2 . En cambio el indicador «rendimiento diagnóstico adicional» que el estudio 1 reporta para las pruebas serológicas (PS) es el número de positivos adicionales que se detectarían si se usaran ambas pruebas (PS + RT-PCR [reacción en cadena de la polimerasa con transcriptasa reversa, por sus siglas en inglés]), en lugar de solo RT-PCR dividido entre los positivos para PS+RT-PCR. Consideramos que, este indicador es poco útil porque se obtiene respecto al uso de ambas pruebas (situación que no ocurre en la práctica habitual), cuando la comparación debería darse contra un escenario donde solamente se pueda usar RT-PCR (situación realista). Por tal motivo, calculamos un indicador de positivos adicionales (Tabla 1) donde el uso de PS solas no aumentaría el número de positivos durante la primera semana en 50% como el estudio de Vidal-Anzardo et al. y recién a partir de la segunda semana se produciría este rendimiento adicional.
Población de estudio | Positivos según RT-PCR I | Positivos según PS II | Positivos según RT-PCR+PS III | Positivos según PS, pero negativos a RT-PCR III-I | Reportado en artículo original | Propuesta de carta al editor† | «Rendimiento diagnóstico adicional» (Porcentaje de aumento de positi vos si solo se usa PS en referencia al total de positivos detectado por PS + RT-PCR)* (III-I)/III | Porcentaje de aumento de positivos si solo se usa PS en referencia a positivos capta dos si solo se usara RT-PCR (II-I)/I |
---|---|---|---|---|---|---|
Toda la muestra | 16 | 28 | 37 | 21 | 21/37 (56,8) | 12/16 (75,0) |
Según semana de síntomas | ||||||
Primera semana | 2 | 2 | 4 | 2 | 2/4 (50,0) | 0/2 (0,0) |
Segunda semana | 6 | 16 | 20 | 14 | 14/20 (70,0) | 10/6 (166,0) |
Después de segunda semana | 4 | 6 | 8 | 4 | 4/8 (50,0) | 2/4 (50,0) |
Según población de estudio | ||||||
Pacientes hospitalizados | 7 | 18 | 20 | 13 | 13/20 (65,0) | 11/7 (157,0) |
Trabajadores de salud | 1 | 0 | 1 | 0 | 0/1 (0,0)** | -1/1 (-100,0) |
Casos sospechosos domiciliarios | 8 | 10 | 16 | 8 | 8/16 (50,0) | 2/8 (25,0) |
RT-PCR: reacción en cadena de la polimerasa con transcriptasa reversa; PS: prueba serológica.
* Indicador reportado en el artículo original que ha sido replicado para propósitos de esta tabla.
** Este es el único resultado de «rendimiento diagnóstico adicional» que los autores no reportan ni discuten.
† Indicadores propuestos por autores de carta al editor, considerados más apropiados para valorar el «rendimiento diagnóstico adicional» (basado en detección de positivos) de la PS.
Un segundo aspecto problemático es la SenDx de las PS calculada usando el RT-PCR como estándar de oro, cuando este realmente es un estándar imperfecto en condiciones de campo; por lo que solo es posible calcular la sensibilidad relativa (porcentaje de acuerdo positivo entre la prueba índice y el estándar de referencia imperfecto), la especificidad relativa (porcentaje de acuerdo negativo entre las pruebas mencionadas) y el porcentaje de acuerdo total (PAT). Así, la SenDx de la PS que el artículo reporta es, en realidad, una sensibilidad relativa, y no absoluta, como podría interpretarse erróneamente. Una evaluación óptima hubiera requerido un estándar de oro más adecuado como cultivo celular bajo condiciones ideales de recolección y transporte; pero entendemos las limitaciones actuales para realizar dicha comparación.
Asimismo, los autores calculan la EspecDx usando un estándar diferente que no proviene de condiciones de campo, sino de una seroteca. Esta es pues una especificidad analítica (EspecAn) o evaluación de reacción cruzada; y en cambio los autores no reportan la especificidad relativa, que puede desprenderse de la Tabla 5 del estudio 3. Reportar selectivamente solo la EspecAn podría inducir al lector a pensar erróneamente que la proporción de falsos positivos de la PS es bajísima (1,1%), cuando realmente es mucho mayor si hubieran reportado al menos la especificidad relativa tal y como lo presentamos en la Tabla S1 del material suplementario. Asimismo, para toda la muestra, el PAT (79,2%) y el kappa (k = 0,21) fueron bajos, lo cual sugiere que, ambas pruebas miden aspectos distintos de la enfermedad (partícula viral y anticuerpo), por lo que una no debería reemplazar a la otra, sino complementarse. Esta complementariedad vendría de un algoritmo secuencial y no de uno simultáneo.
Finalmente, debemos resaltar la necesidad de contar con un tamaño de muestra suficiente (justificado por un cálculo apropiado) para estimar cualquier indicador de desempeño diagnóstico. Un inadecuado tamaño de muestra produce es timaciones imprecisas que resultan poco útiles 4. Asimismo, es importante discutir apropiadamente los sesgos y proble mas de aplicabilidad de este estudio. Dos revisores (PSB, JM) y un dirimente (RAC) aplicaron la herramienta QUADAS-2 Quality Assessment of Diagnostic Accuracy Studies 2 al es tudio original para valorar el riesgo de sesgo en estudios de pruebas diagnósticas 5 y encontraron riesgos de sesgo altos o inciertos, así como problemas de aplicabilidad que debie ron advertirse a los lectores en la discusión de resultados. La evaluación se muestra en detalle en la Tabla S2 del material suplementario.
En conclusión, nuestro análisis evidencia que el desempeño diagnóstico de la PS en condiciones de campo es menor a lo reportado; que ambas pruebas estarían midiendo aspectos diferentes, siendo inadecuada su comparación; y que hubo niveles preocupantes de riesgo de sesgo y problemas de aplicabilidad de los resultados como para recomendar su uso en lugar de las pruebas moleculares, incluso en un contexto de emergencia. Por lo expuesto, consideramos importante realizar estas precisiones para que los lectores tengan una idea clara del valor de las PS en el contexto de la lucha contra la COVID-19, siguiendo las recomendaciones de la Organización Mundial de la Salud 6.