Introducción
Es sesgo de confusión es un sesgo que se encuentra presente en todos los estudios científicos que plantean una hipótesis de tipo causal1. Una variable confusora, también llamado confusor o factor confusor, sesga una asociación cuando se asocia tanto a la exposición como a la variable desenlace a la vez, creando una asociación espúrea2. En este caso, la exposición o factor causal estudiado está asociado con otro factor, que a su vez está asociado causalmente con la variable desenlace de interés3. Esto puede inducir a que el investigador reporte una asociación entre la exposición y el desenlace, cuando en realidad está observando el efecto de una variable confusora sobre el desenlace4. En esta supuesta asociación es importante notar la relación temporal entre la variable confusora y la variable exposición, para determinar si se está o no ante un efecto confusor5. El control de la variable confusora puede eliminar el sesgo, pero para esto los investigadores deben conocer la naturaleza de su asociación con la exposición y el desenlace de interés6. Entonces la capacidad de controlar el sesgo de confusión depende de la capacidad de investigador para discernir una asociación espúrea de una asociación causal así como de su capacidad para implementar estrategias para controlar el sesgo de confusión en el diseño del estudio7. Para ello puede optar básicamente por dos tipos de estrategias de control del sesgo de confusión, las estrategias que se implementan en el diseño propiamente dicho (restricción, aleatorización, pareamiento, etc.) y las que se implementan en el análisis estadístico (análisis de regresión multivariable, estratificación, estandarización, puntuación de propensión, análisis de sensibilidad, ponderación de probabilidad inversa, etc.), los cuales pueden son aplicables tanto en los estudio experimentales como en los estudios observacionales8.
Idealmente todo investigador debe diseñar su estudio de tal manera que pueda concluir si una exposición causa o previene el desenlace de interés8. Para ello, según la razonamiento contrafáctico, idealmente los participantes del estudio deberían poder estar expuestos y no expuestos a la vez, toda vez que así es el único escenario en el que conseguiría un comparador perfecto y con ello se controlaría indubitablemente el sesgo de confusión9. Dado que esto no es factible en la práctica el investigador debe diseñar su estudio lo más cercano a este escenario ideal posible utilizando una o más estrategias para controlar el sesgo de confusión. Revisiones previas han sugerido que como mínimo se deben combinar las estrategias de restricción, regresión multivariable y análisis de sensibilidad, pero que una de las estrategias más potentes para controlar el sesgo de confusión es la aleatorización10. Sin embargo, es importante que si bien esto es cierto todas las estrategias tienen sus fortalezas y limitaciones.
Si bien no son pocas las revisiones en las que se ha discutido el sesgo de confusión, se ha observado que los investigadores siguen aún tienen un concepto erróneo de este importante sesgo y suelen subestimar su impacto en sus resultados11. En el presente artículo de revisión revisamos detalladamente el sesgo de confusión y cómo controlarlo. Con ello esperamos contribuir a que más investigadores tomen conciencia de su relevancia en sus diseños de estudio y mediante una serie de recomendaciones prácticas aprendan como cómo reconocerlo pero más importante cómo controlarlo.
¿QUÉ ES UN CONFUSOR?
Un confusor o variable confusora es un factor distinto al de la exposición, que se asocia de forma independiente tanto con la variable exposición como con la variable desenlace12. Este confusor, a su vez, puede alterar tanto la magnitud como la direccionalidad de esta asociación, sesgándola por completo produciendo desde asociaciones espúreas o inexistentes hasta asociaciones sobredimensionadas. Para que una variable se considere un verdadero confusor, tiene que estar ausente en la vía causal de asociación entre la variable de exposición y la variable desenlace13. En el caso de un único confusor, el solo ajuste de este proporciona una estimación no distorsionada de la relación entre las variables independientes y dependientes14. Para poder reconocer la existencia de un confusor o más confusores uno de los métodos más recomendados en la actualidad es el uso de diagramas causales15 o DAGs, acrónimo en inglés de los diagramas acíclicos dirigidos16.
Por ejemplo, planteémonos el escenario en que el que estamos interesados en investigar la asociación entre consumir café y desarrollar cáncer de pulmón (Figura 1). Lo primero que deberíamos hacer es representar nuestra asociación de interés (Figura 1a), donde consumir café podría constituir un factor de riesgo (variable exposición de interés X) de desarrollar cáncer de pulmón (variable desenlace de interés Y). Sin embargo, revisando el marco teórico conocido de cáncer de pulmón encontramos que un confusor conocido es la variable consumo de cigarrillos. Entonces, lo correcto es actualizar nuestro DAG y plantearnos la posibilidad de que el consumo de cigarrillos se constituya como un confusor (variable confusora Z) de la asociación entre consumo de café y cáncer de pulmón. Nuevamente, revisando la literatura confirmamos de que efectivamente dado que existe una asociación entre consumo de cigarrillos y consumo de café (quienes consumen cigarrillos tienen un riesgo incrementado de consumir café) y que existe un asociación entre el consumo de cigarrillos y cáncer de pulmón (el consumo de cigarrillos incrementa el riesgo de cáncer de pulmón) concluimos que efectivamente la variable consumo de cigarrillos representa un confusor de la asociación entre nuestra exposición y desenlace de interés, y por ende que de encontrarse una asociación estadística entre ambas esta es espúrea (Figura 1b). Adicionalmente a lo anterior, otro paso importante en el análisis de confusores es reconocer si nuestro confusor se encuentra o no en la ruta causal de nuestro desenlace de interés (Figura 1c).
¿QUÉ ES EL SESGO DE CONFUSIÓN?
El sesgo de confusión es uno de los tres tipos de sesgos más frecuentemente observados en los estudios epidemiológicos, siendo los otros dos el sesgo de selección y el sesgo de información7. A través del tiempo, se han propuesto diferentes definiciones del sesgo de confusión. Actualmente, podemos considerar que el sesgo de confusión se produce cuando se encuentra una asociación espúrea o se pierde una asociación verdadera entre una variable exposición y una variable de desenlace como resultado de la presencia de uno o varios factores de confusión13. La confianza en una relación causal aumenta si se puede juzgar que una asociación está razonablemente libre de confusión12.
Para un mejor entendimiento del manejo del sesgo de confusión es importante manejar los siguientes términos:
Asociación espúrea: Es la asociación matemáticamente errónea que se obtiene como resultado de la presencia de un confusor17.
Confusión observada o medida: Es dada por aquellas variables que el investigador conoce y considera como confusoras, por lo que puede tomarlas en cuenta para ser medidas y ajustadas7.
Confusión no observada o no medida: Esta es desconocida por el investigador, por lo tanto reducirla es un problema7.
Confusión Residual: Aún luego de aplicadas las estrategias para la reducción del sesgo de confusión, es matemáticamente imposible reducirla a cero, por lo que esta confusión sobrante sería la confusión residual18.
El término sesgo de confusión se ha utilizado para referirse al menos a cuatro conceptos distintos por lo que puede encontrarse en la literatura con diferentes sinónimos, tales como asociación espuria, asociación ficticia, asociación secundaria, sesgo de susceptibilidad y la paradoja de Simpson19. Algunos autores definen un confusor más ampliamente como cualquier variable para la cual el ajuste es útil para reducir el sesgo en la estimación del efecto19. Según esta definición más amplia, una variable puede ser un confusor incluso si no es una causa del resultado, siempre que la variable sea un sustituto (proxy) de dicha causa. Las variables que son factores de confusión en virtud de sus efectos sobre el parámetro de resultado (como en la definición anterior) se denominan factores de confusión causales. Por ejemplo, un confusor proxy podría verse afectado por un confusor causal y ser un determinante del tratamiento.
Las estrategias para el control del sesgo de confusión se pueden clasificar en aquellas que se aplican en el diseño propiamente dicho y las que se aplican en el análisis. Entre las estrategias que se aplican en el diseño las principales son restricción, aleatorización y pareamiento, mientras que entre aquellas que aplican en el análisis estadístico las principales son análisis de regresión multivariable, estratificación, estandarización, puntajes de propensión, análisis de sensibilidad y ponderación de probabilidad inversa. Cada de un de estas estrategias tienen sus ventajas y desventajas (Tabla 1), por lo que a continuación pasaremos a revisarlas en detalle una por una.
ESTRATEGIAS DE CONTROL DE SESGO DE CONFUSIÓN SEGÚN DISEÑO
Restricción
La restricción es una estrategia que consiste en restringir la población de estudio a una subpoblación de individuos con características específicas para lo cual se utilizan criterios de elegibilidad. Es decir, se eliminan de la población de estudio a todos los que son positivos al confusor que queremos controlar y analizamos nuestra asociación de interés en una subpoblación que se encuentra libre del efecto de dicho confusor13. Como ventajas, la restricción ofrece forma muy sencilla de entender y aplicar pero a la vez muy potente para eliminar el efecto de un confusor conocido8. Esta puede y debe utilizarse en todos los estudios controlados como son los estudios observacionales analíticos llámese estudios de cohortes, casos y controles, y estudios transversales como en todos los estudios experimentales20.
Sin embargo, este método se utiliza para abordar un número limitado de factores de confusión. Ya que esto implica seleccionar pacientes con características específicas para tener una población de estudio más homogénea13. Lo cual genera un inconveniente desde el punto de vista práctico, ya que debido al proceso de selección, el número de participantes elegibles generalmente se reduce; por lo que lograr el tamaño de muestra requerido se vuelve más difícil13. Además, al reducir el número de individuos en el estudio, puede existir una pérdida de potencia13. Otra desventaja de la restricción es que no permite estudiar el efecto de la variable restringida21. Por último, luego de restringir a la población, debe considerarse que la validez externa podría verse amenazada, ya que puede ser difícil la generalización de los resultados. Por lo tanto, solo debemos usar restricciones para las variables que estamos seguros que serán confusoras21.
Aleatorización
La aleatorización es considerada la mejor estrategia para controlar sesgos en general, particularmente el sesgo de confusión13. Este método consiste en seleccionar de manera aleatoria a los sujetos que será asignados a cada grupo de estudio, maximizando la probabilidad de alcanzar dos poblaciones comparables, siendo esta más alta si se utilizan métodos avanzados de aleatorización22. Con este método, si es rigurosamente empleado, se puede distribuir a los grupos de manera homogénea con lo que se minimiza sustancialmente el efecto de los confusores medidos si es que no lo desaparece13. Adicional a ello y como una ventaja importante vale destacar que este método, cuando es se consigue una adecuada comparabilidad, permite también minimizar el efecto de los confusores no medidos12, lo cual es particularmente importante en los ensayos clínicos16. Dicho lo anterior, es importante tomar en consideración que si bien la aleatorización garantiza que cualquier diferencia entre los grupos a comparar se deba al azar este método se basa en probabilidades por lo que a mayor tamaño de muestra mayor la probabilidad de minimizar la probabilidad de sesgos.
Pareamiento o emparejamiento
El pareamiento es un método consiste en seleccionar a los participantes buscando a propósito una distribución homogénea (1:1) de participantes según variables confusoras específicas23. Este método es particularmente útil en el caso de los estudios de casos y controles y estudios de cohortes21. Como tal este método ofrece como ventaja controlar múltiples factores de confusión eficientemente con menos errores aleatorios, siempre y cuando se identifique apropiadamente el grupo control19. Esta metodología puede ser individual, donde cada sujeto de estudio está afectado por un confusor, o grupal, donde se busca la misma frecuencia de un confusor sobre el grupo de expuestos y no expuestos 23. Con respecto a los estudios de casos y controles, un análisis coincidente (o estratificado) de los datos permite que la población fuente se mantenga inalterada21. Sin embargo, hay que tomar en cuenta ciertas consideraciones como la búsqueda adecuada de pares para los múltiples factores de confusión, si se dan las condiciones. Entre estas se incluyen disponer de un tamaño de muestra grande para encontrar pares suficientes, la calidad de los datos y los instrumentos de medición, así como la complejidad del análisis de datos que debe ajustarse según la proporción de coincidencia brindada13.
ESTRATEGIAS DE CONTROL DE SESGO DE CONFUSIÓN SEGÚN ANÁLISIS
Análisis de regresión multivariable.
El método de regresión multivariable consiste en incluir el confusor en un modelo multivariado para analizar como varía la asociación de interés en presencia de todos 21. Para ello mediante el uso de modelos anidados se analiza cómo varía la direccionalidad y magnitud de asociación entre las variables exposición y desenlace de interés antes y después de realizar el ajuste por la variable confuso13. Sin embargo, es importante tener en consideración que se pierde precisión mientras más variables se introduzcan en un modelo multivariable21. Por lo tanto, el número máximo de variables (factores de riesgo potenciales, variables de confusión o interacción) que se puede introducir al modelo depende en gran medida del tamaño de la muestra y poder del estudio. Para que este método funcione se requiere un dominio amplio del marco teórico disponible para reconocer cuales son los principales confusores a considerar para cada asociación de interés.
Estratificación
La estratificación es un método que consiste en controlar el sesgo de confusión analizar la asociación de interés por “estratos” o categorías de la variable confusora7 y comparando la magnitud de asociación en cada estrato (categoría) para verifica si varía o no21. Por lo mismo una de las desventajas de este método es que no permite el análisis de variables confusoras continuas, las mismas que para poder ser analizadas con este método primero deben ser categorizadas24. Además, esta estrategia tiene como desventaja que solo permite analizar unos pocos factores de confusión simultáneamente13.
Estandarización
Las estandarización es un método que consiste en distribuir el confusor de manera homogénea en el grupo de expuestos y en el de no expuestos, acercándose a un diseño ideal de estudio7. Para ello se tiene que calcular el número de eventos esperados comparados con el número de eventos observados25. Como tal es un método que podría considerarse como un tipo de emparejamiento pero que se diferencia de este porque se aplica después de la recolección de los datos7. Y desde el punto de vista metodológico la estandarización puede usarse de manera directa cuando se cuenta con un grupo de expuestos y no expuestos, o de manera que indirecta cuando se usa un población de referencia para estandarizar y luego comparar los grupos25. Como desventaja, la estandarización tradicional requiere la estratificación de la población según las categorías de la variable o variables confusoras lo que ocasiona una estimación inestable cuando se estratifica por factores múltiples, pudiendo generar datos dispersos. Como alternativa se han propuesto nuevos métodos como la estandarización basado en modelos y la estandarización covariada, para poder lidiar con el problema de inestabilidad26.
Puntajes de propensión
El uso de puntajes de propensión o propensity scores es un método que usa la probabilidad condicional del sujeto de recibir tratamiento para minimizar el sesgo de confusión27. Este análisis se puede aplicar a través del emparejamiento, la estratificación, la ponderación de probabilidad inversa, la regresión o como una covariable28. El objetivo de esta estrategia es formar poblaciones de estudio comparables de pacientes tratados y no tratados, estimando el efecto del tratamiento ajustado, y equilibrando las diferencias entre grupos de estudios con el objetivo de reducir el sesgo29. Una puntuación más alta indicará una mayor probabilidad de recibir la exposición30. La principal desventaja de esta es la falta de consideración de las covariables desconocidas o no medidas, por lo tanto genera posible confusión residual30. Al utilizar el puntaje de propensión estratificado, se retiene la data de todos los participantes y se logra cuantificar un estimado para cada estrato; pero no funciona muy bien cuando hay un alto número de estratos. Por otro lado los puntajes de propensión emparejados son sencillos de analizar e interpretar, además en la mayoría de los casos provee un buen balance del sesgo de confusión. Sin embargo, algunos pacientes pueden quedar desemparejados, lo que podría causar que esa información sea excluida del análisis y se pierda. A pesar de ello el ajuste del sesgo de confusión por puntajes de propensión comparado con el ajuste por modelos de regresión multivariable mostraron resultados similares28. El uso de puntajes de propensión con ponderación de probabilidad inversa será discutido más adelante en un apartado propio.
Análisis de Sensibilidad
El análisis de sensibilidad es un método que analiza como varía la magnitud de asociación entre la exposición y desenlace de interés, removiendo la variable confusora31. Para ello, primero se debe especificar ciertos parámetros y aplicar fórmulas analíticas para calcular la fuerza de evidencia de causalidad31. Generalmente, se utiliza el análisis de sensibilidad para el ajuste frente a una variable de confusión medida que el investigador considera importante; sin embargo, el ajuste por múltiples variables de confusión también es posible32. Como desventaja, este análisis es considerado subjetivo ya que se tiene la libre elección de parámetros y concluye en suposiciones simples31. Por lo que el valor del análisis es dependiente de la calidad de estas suposiciones; ya que aun cuando estas estén respaldadas por la ciencia, siguen siendo solamente suposiciones32.
Ponderación de probabilidad inversa (IPW)
La ponderación de probabilidad inversa (IPW) es una técnica utilizada para el control del sesgo de confusión, específicamente cuando se aborda un confusor que varía en el tiempo y que es afectado por exposiciones previas33. Esta consiste en crear una pseudopoblación que representa una población total donde todos tuviesen una igual distribución del confusor7. El procedimiento consiste en darle un peso a cada sujeto de estudio, tomando la inversa de la probabilidad que tiene este sujeto de recibir su exposición (puntaje de propensión). Si la probabilidad de ser elegido en el grupo de intervención es de 0,2 (puntaje de propensión), entonces la inversa de su probabilidad (su peso asignado) sería de 5. Una desventaja de este método es su alta variabilidad cuando analiza probabilidades de estar expuesto o no expuesto cercana a uno o cero. Este problema empeora con efectos grandes de confusión y cuando no se miden los principales confusores de la asociación de interés7.
ASPECTOS METODOLÓGICOS DEL SESGO DE CONFUSIÓN
Diagramas Acíclicos Dirigidos (DAGs)
Los diagramas acíclicos dirigidos o DAGs (Figura 2) son diagramas que representan la causalidad entre la exposición y el desenlace de interés, así como su asociación con otras variables que influyen tanto en la exposición como en el desenlace34. Este método permite identificar las variables confusoras e informar el diseño y las estrategias de control de sesgos34. De ahí que esta representación visual de la causalidad debe aplicarse al momento de diseñar el estudio y orientar la selección de criterios de elegibilidad y las variables a medir35.
Recomendaciones Prácticas
En primer lugar, para la identificación de variables confusoras, el investigador debe preguntarse cuáles serían los potenciales confusores de la asociación de interés. En el proceso decidir cuáles van a ser los confusores medidos y no medidos, evaluar la naturaleza de la asociación, su direccionalidad y qué variables son los principales determinantes del desenlace de interés. Para responder estas preguntas, el investigador debe basarse en literatura científica confiable y apoyarse de métodos de cuantificación de posibles factores de confusión, así como evaluar el tamaño del potencial efecto de las variables confusoras36. Por lo tanto, el valor del marco teórico de referencia es muy importante para evaluar críticamente tanto la interrelación entre las variables del estudio con respecto a la exposición y el desenlace de interés37. Se recomienda también la elaboración de un diagrama acíclico dirigido con el fin de visualizar de manera práctica las variables que podrían actuar como confusoras.
Es importante tener en cuenta la naturaleza de las variables antes de elegir una estrategia de reducción del sesgo de confusión. Ya que de acuerdo a estos ciertos métodos podrían ser más viables que otros. Además, se debe recalcar que puede utilizarse más de una estrategia para disminuir el sesgo de confusión en una investigación de causalidad. Los análisis estadísticos correspondientes a cada método de control de sesgo quedan fuera del alcance de esta revisión.
La habilidad de minimizar la confusión mediante las estrategias de control de diseño y/o análisis del estudio permite que los resultados presentados en una investigación se acerquen más a la realidad. Existen métodos con distintos grados de dificultad para el abordaje del sesgo de confusión. Sin importar el que se elija, es importante aplicarlo de manera correcta y registrar su uso al redactar el artículo.
Mensajes clave:
Motivación para realizar el estudio: En el contexto de la pandemia de COVID-19 se ha registrado un infodemia o epidemia de información con bajos controles de calidad, los mismos que para poder ser considerados válidos, requieren un conocimiento de la importancia de sesgos y como controlarlos, particularmente el sesgo de confusión.
Principales hallazgos: Se encontró que existe un cuerpo de evidencias bastante rico en estrategias y recomendaciones prácticas sobre cómo reconocer y controlar el sesgo de confusión.
Implicancias: Este estudio contribuye con estrategias y recomendaciones sobre cómo reconocer y controlar el sesgo de confusión, el mismo que con el relajamiento de los controles de calidad y el crecimiento de los artículos publicados expeditamente se hace más y más relevante que nunca.
Agradecimientos
A los participantes del Club de Redacción de Artículos Científicos (CRAC) por su valiosos comentarios y ediciones a las versiones preliminares de este manuscrito