Effet du traitement dans l’étude observationnelle
En inférence causale observationnelle à l’aide des dossiers de santé électroniques
Inférence causale pour les cliniciens
Dans les études médicales, nous voulons utiliser des preuves empiriques pour estimer l’effet du traitement: tel qu’un médicament ou une procédure. L’étalon-or pour l’évaluation de l’effet du traitement est l’essai contrôlé randomisé (ECR), car sa randomisation minimise le biais et maximise notre capacité à identifier la causalité. Cependant, il est devenu clair qu’il n’est pas possible de dépendre des ECR pour toutes les informations nécessaires sur l’efficacité des interventions médicales car elles ne représentent pas des populations ou des environnements réels et ont tendance à être trop courtes pour détecter des effets à long terme. En outre, les ECR sont conçus pour estimer l’effet moyen des interventions et pourraient, par conséquent, ne pas être en mesure d’informer les décisions sur les patients individuels rencontrés dans la pratique clinique.
Récemment, j’ai proposé une cadre en utilisant des données d’observation censurées à droite tirées du dossier de santé électronique (DSE) pour estimer l’effet de traitement hétérogène (HTE) pour les options de traitement binaire (traité vs témoin) sur les résultats de la survenue des événements (survie) à l’aide de données. Ces estimations tiennent compte de la perte de suivi et permettent de mesurer l’effet à long terme des interventions.
La conception modulaire en trois étapes
Étape 1. Estimation de l’effet du traitement individuel.
Les effets du traitement individuel sont estimés en ajustant les modèles de résultats sur les échantillons traités et témoins: et; ensuite, nous calculons les résultats potentiels en utilisant ces modèles comme et. Cette approche à deux modèles code les différentes variables explicatives pertinentes pour les résultats traités et témoins et s’est avérée améliorer la précision de l’estimation des résultats potentiels.
Nous commençons par convertir les données de survie originales en un processus de comptage: une séquence de résultats binaires dans le temps. Nous utilisons ensuite Super-apprenant pour estimer le taux de risque conditionnel pour chaque observation je à chaque fois t comme: où est le temps d’événement observé pour je. Les probabilités de survie potentielles sont ensuite dérivées via le règle de chaîne de probabilité to obtenir l’estimation initiale de l’effet du traitement pour je au moment t.
Étape 2. Identification des caractéristiques contribuant à l’hétérogénéité de l’effet du traitement.
Compte tenu de l’ITE estimé, nous cherchons à identifier les caractéristiques qui contribuent à l’hétérogénéité de l’effet du traitement. Nous modélisons l’ITE à l’aide d’algorithmes d’apprentissage automatique et définissons les caractéristiques importantes comme celles qui contribuent le plus à la réduction de l’erreur de prédiction du modèle. Les méthodes de régression utilisées ici sont: les arbres de régression additive bayésienne (BART), le lasso adaptatif (AL), le filet élastique (EN) et la forêt causale (CF). Des études antérieures ont montré que AL et EN donnent des sélections cohérentes de covariables par rapport au Lasso standard. Alternativement, nous aurions pu choisir de modéliser l’ITE au sein de strates de score de propension similaire. Cependant, cela n’a pas été choisi car des travaux récents ont démontré que l’appariement des scores de propension (PSM) peut entraîner un déséquilibre covariable accru dans les études d’observation.
La procédure d’identification des fonctionnalités est la suivante:
- Régresser les ITE estimés à la fin de la période de suivi sur les covariables en utilisant le modèle f (·):
2. Calculez le score d’importance variable (VI), S, pour chaque entité,
où ré est le nombre de fonctionnalités. Si nous choisissons d’utiliser CF, le score VI correspond à la proportion de divisions. Dans BART, elle correspond à la moyenne postérieure de la proportion de scissions. En AL et EN, c’est le poids de régularisation;
4. Classer les caractéristiques selon leur score d’importance globale dans l’ordre décroissant et attribuer le rang, R, à chaque X;
5. Construisez une courbe de score d’importance en utilisant des paires ordonnées (S, R);
6. Utilisation Algorithme de genou pour identifier le Knee Point[[1]et étiqueter les entités avec un score d’importance globale plus élevé que Knee Point comme ayant une contribution significative à l’effet hétérogène.
Étape 3. Estimation cible de CATE.
Le moyennage local basé sur le noyau est utilisé pour calculer CATE associé aux classes de référence définies par les caractéristiques précédemment sélectionnées. Soit x une caractéristique sélectionnée, nous pouvons diviser la population en Q strates basées sur la valeur de x, puis pour chaque strate q, nous calculons son effet marginal moyen de traitement conditionnel (MCATE) en utilisant l’ajustement TMLE en une étape.
Pour les détails de mise en œuvre, veuillez vous reporter au document ici.
La première figure illustre les effets réels et estimés du traitement individuel à l’aide de simulations sous différents taux d’événements:
La deuxième figure illustre le biais sur l’estimation CATE:
Un avantage de notre cadre proposé est qu’il rend compte de l’hétérogénéité de l’effet en termes de différence de probabilités de survie dans les conditions de traitement et de contrôle. Cette mesure absolue est plus informative pour les décisions cliniques que les mesures relatives telles que le rapport de risque. Deuxièmement, nous offrons la flexibilité de choisir des méthodes spécifiées par l’utilisateur pour la modélisation des résultats potentiels, l’identification des covariables importantes et l’ajustement du biais de sélection. Troisièmement, nous automatisons le processus de découverte de l’hétérogénéité pour éviter la sélection ad hoc de sous-groupes. Quatrièmement, l’ajustement pour le biais de sélection a été effectué sur les sous-groupes identifiés afin de refléter les mécanismes de traitement et de censure au sein du sous-groupe choisi.