Quelles sont les expériences naturelles? Méthodes, approches et applications

Quelles sont les expériences naturelles? Méthodes, approches et applications
Avant-propos
J'aime lire Craig et al. (2017) Article de synthèse sur les expériences naturelles (Aperçu des méthodes, approches et contributions à la recherche en interventions de santé publique). Dans ce post, je souhaite résumer ses points clés et joindre certaines de mes réflexions sur le développement de l'inférence causale.
Cet article de synthèse présente ce que sont les NE et les méthodes et approches disponibles pour les données de NE.
En règle générale, les revues annuelles, comme celle de Craig et al., Donnent un aperçu rapide des développements récents du domaine et des orientations futures.
C’est un excellent moyen d’apprendre la science des données. Hautement recommandé!
Qu'est-ce qu'un NE?
Selon le UK Medical Research Council, tout événement non contrôlé par un chercheur qui divise une population en groupes exposés et non exposés.
En raison de l’absence de contrôle direct du processus d’attribution, les chercheurs doivent s’appuyer sur des outils statistiques pour déterminer les effets de causalité de la manipulation des variations de l’exposition aux conditions de traitement.
Le principal défi des NE consiste à exclure la possibilité de faire partie du groupe de traitement, ce qui constituerait une violation du hypothèse d'ignobilité. La violation rend également les groupes de traitement et de contrôle non comparables, et nous ne pouvons pas attribuer les différences entre les variables de résultat à la présence de l’intervention.
Pour résoudre ce problème, les méthodologistes élaborent un cadre de résultats potentiels. POF signifie les résultats qui se produiraient si une personne était exposée et non exposée à une intervention.
Cependant, la partie délicate, c'est qu'un seul de ces deux résultats est observable, et nous devons nous fier à des analyses contrefactuelles pour déduire les résultats moyens entre les unités.
Si l’affectation est aléatoire, comme dans les essais contrôlés aléatoires (ECR), les groupes de traitement et de contrôle sont échangeable. On peut attribuer l’écart entre ces deux groupes à la présence de l’intervention.
Si l'attribution n'est pas aléatoire, comme dans les éléments de réseau, les chercheurs doivent alors s'appuyer sur la connaissance du domaine du mécanisme d'attribution et des méthodes statistiques pour obtenir échangeable sous condition.
C'est à ce moment-là que la recherche qualitative et la connaissance du domaine entrent en jeu et nous aident à déterminer s'il existe une histoire de causalité derrière le processus d'affectation.
Dans le monde réel, je dirais que les NE ont un champ d’application plus large que les ECR pour des raisons pratiques et éthiques. Il devient donc essentiel de choisir les méthodes / conceptions appropriées pour effectuer une inférence causale pour les données de NE, comme suggéré par Craig et al. (2017).
Il existe principalement huit techniques pour le faire. Je vais inclure chaque méthode ici avec quelques notes de recherche et des liens vers des applications réelles. Veuillez vous reporter à l'article original (ici) pour des discussions plus détaillées sur chaque technique.
Les méthodes
- Analyse avant et après. Personnellement, ce serait mon dernier recours s'il n'y avait pas de meilleure alternative disponible. Comparaison de cas unique sans plusieurs points de données. Comment pouvons-nous contrôler les facteurs de confusion? Pas un choix idéal pour l'inférence causale.
- Réglage de la régression. Il a beaucoup d'applications lorsque nous essayons de rendre des cas comparables.
- Correspondance des scores de propension. Bon pour les données d'observation aussi, mais Gary King a récemment rejeté l'idée d'utiliser le PSM (ici).
- Différence dans les différences. C’est une technique d’inférence causale forte avec une idéologie de recherche directe.
- Séries chronologiques interrompues. Méthode causale forte avec plusieurs entrées de données. On peut dire que c'est la technique quasi expérimentale la plus puissante.
- Contrôles synthétiques. C’est une méthode à la mode dans l’industrie et dans le monde universitaire, dans laquelle les politologues ont énormément apporté leur contribution. En résumé, nous pourrions créer artificiellement une moyenne pondérée de groupes de contrôle qui servirait de point de base s’il n’ya pas de cas dans le groupe de contrôle qui corresponde au groupe de traitement. Par exemple, nous créons un scénario de contrôle artificiel en utilisant une valeur pondérée des autres cas et comparons les différences entre ces deux groupes. C’est une idée tellement ingénieuse, mais avec des pièges potentiels, pour lesquels je vais développer un autre post.
- Régresser la conception de discontinuité. Technique causale forte avec une excellente illustration visuelle.
- Variable instrumentale. Techniquement parlant, IV contient un puissant pouvoir inférentiel, mais il est assez difficile de trouver des IV adéquats. Ainsi, ses applications sont limitées.
Comment rendre les NE plus forts dans l'inférence causale?
Ce document de synthèse propose trois solutions:
- Incorporer des composants qualitatifs pour comprendre le mécanisme de travail. Mes deux cents points de vue sont que nous n'oublierons pas l'importance de la recherche qualitative à l'ère du Big Data et de l'apprentissage automatique. Bien comprendre le processus ou la connaissance du domaine nous aide à élaborer des modèles statistiques plus corrects.
- Une combinaison de plusieurs méthodes quantitatives et de contrôles visuels des discontinuités dans le RDD et les ITS. Les inspections visuelles sont cruciales et simples pour identifier les irrégularités. Utilisez-les plus et judicieusement, si possible.
- Introduire des tests de falsification / placebo pour évaluer la plausibilité de l'attribution causale. Par exemple, nous pouvons utiliser des variables dépendantes non équivalentes pour tester les changements dans les résultats qui ne sont pas exposés à l'intervention avec ceux qui sont exposés à l'intervention. Ici, l'idée sous-jacente est de recouper les résultats en utilisant plusieurs DV, une idée de recherche largement utilisée en sciences sociales.