Appariement par Score de Propension

Tests Statistiques Avancés

Entrez vos données de groupe de traitement et de contrôle au format CSV pour estimer l'Effet Moyen du Traitement sur les Traités (ATT).

Exemples

Utilisez ces ensembles de données d'exemple pour voir comment fonctionne le calculateur.

Effet d'un Nouveau Médicament

Étude Médicale

Évaluation de l'effet d'un nouveau médicament sur la pression artérielle (résultat), en contrôlant l'âge et l'IMC (covariables).

Données de Traitement:

blood_pressure,age,bmi
140,55,25.1
135,62,28.3
138,58,26.5
145,65,30.1
142,59,27.8...

Données de Contrôle:

blood_pressure,age,bmi
150,56,26.2
155,60,29.1
148,61,27.3
160,68,31.0
152,57,28.1...

Impact d'un Programme de Formation Professionnelle

Politique Économique

Évaluation de l'impact d'un programme de formation professionnelle sur le revenu hebdomadaire (résultat), en contrôlant le niveau d'éducation et les années d'expérience.

Données de Traitement:

income,education,experience
850,16,5
900,18,8
880,16,7
920,19,10
860,14,6...

Données de Contrôle:

income,education,experience
750,14,4
780,16,6
800,12,5
770,14,7
790,16,9...

Effet d'une Promotion sur les Ventes

Marketing

Mesure de l'effet d'une promotion marketing sur les dépenses des clients (résultat), en contrôlant le score de fidélité des clients et la fréquence des visites.

Données de Traitement:

spending,loyalty,frequency
120,85,10
150,90,15
130,88,12
145,92,18
125,80,9...

Données de Contrôle:

spending,loyalty,frequency
90,70,8
100,75,11
95,72,9
110,80,14
105,78,13...

Impact d'un Programme de Tutorat

Éducation

Analyse de l'impact d'un programme de tutorat sur les scores aux tests (résultat), en contrôlant les notes de l'année précédente et l'assiduité.

Données de Traitement:

test_score,prior_grade,attendance
88,80,95
92,85,98
85,78,92
95,90,99
89,82,96...

Données de Contrôle:

test_score,prior_grade,attendance
75,70,90
80,75,94
78,72,88
82,80,96
79,74,91...
Autres titres
Comprendre l'Appariement par Score de Propension : Un Guide Complet
Une plongée approfondie dans la théorie, l'application et l'interprétation de l'Appariement par Score de Propension (PSM) pour l'inférence causale.

Qu'est-ce que l'Appariement par Score de Propension ?

  • Le Défi de l'Inférence Causale dans les Études Observationnelles
  • Introduction du Score de Propension
  • L'Idée Centrale de l'Appariement
Dans de nombreux domaines, comme la médecine, l'économie et les sciences sociales, nous voulons comprendre l'effet causal d'une intervention—un nouveau médicament, une politique gouvernementale, une méthode d'enseignement. L'étalon-or pour cela est l'Essai Contrôlé Randomisé (ECR), où les sujets sont assignés aléatoirement à un groupe de traitement ou de contrôle. Cette randomisation garantit que, en moyenne, les deux groupes sont similaires à tous égards, observés et non observés. Par conséquent, toute différence dans les résultats peut être attribuée avec confiance au traitement. Cependant, les ECR sont souvent contraires à l'éthique, impraticables ou trop coûteux. Nous devons alors nous fier aux données observationnelles, où les sujets s'auto-sélectionnent ou sont sélectionnés dans les groupes de traitement et de contrôle sur la base de certaines caractéristiques. Cela crée un biais de sélection, car les groupes peuvent ne pas être comparables dès le départ.
Le Score de Propension comme Score d'Équilibrage
L'Appariement par Score de Propension (PSM) est une méthode statistique conçue pour résoudre ce problème. Il vise à imiter un ECR en créant un groupe de contrôle qui est aussi similaire que possible au groupe de traitement sur la base de leurs caractéristiques observées (covariables). Le concept central est le 'score de propension,' qui est la probabilité qu'un sujet soit assigné au groupe de traitement, étant donné son ensemble de covariables observées. La théorie, développée par Rosenbaum et Rubin, montre que si nous pouvons apparier des individus des groupes de traitement et de contrôle qui ont le même score de propension, nous avons effectivement équilibré leurs covariables observées. Cela permet une comparaison plus équitable, réduisant le biais de sélection dans l'effet de traitement estimé.

Guide Étape par Étape pour Utiliser le Calculateur PSM

  • Préparation et Saisie de Vos Données
  • Exécution de l'Analyse et Choix d'une Méthode
  • Interprétation des Résultats
1. Préparation des Données
Vos données doivent être structurées d'une manière spécifique. Vous avez besoin de deux ensembles de données séparés : un pour le groupe de traitement et un pour le groupe de contrôle. Les deux ensembles de données doivent être au format CSV. La toute première ligne de vos données doit être une ligne d'en-tête contenant les noms de vos variables. La première colonne doit toujours être votre variable de résultat (celle sur laquelle vous mesurez l'effet). Toutes les colonnes suivantes sont vos covariables (les caractéristiques que vous voulez contrôler). Crucialement, les noms d'en-tête et l'ordre des colonnes doivent être identiques dans les deux fichiers de données de traitement et de contrôle.
2. Calcul
Collez vos données CSV préparées dans les boîtes de texte respectives 'Groupe de Traitement' et 'Groupe de Contrôle'. Le calculateur effectuera trois étapes principales en interne : 1) Il exécutera une régression logistique pour calculer le score de propension pour chaque individu dans votre ensemble de données. 2) Il utilisera un algorithme d'appariement (comme Plus Proche Voisin) pour apparier chaque individu du groupe de traitement avec un individu du groupe de contrôle qui a le score de propension le plus proche. 3) Il calculera l'effet de traitement et les statistiques d'équilibre basées sur cet échantillon nouvellement apparié.
3. Interprétation de la Sortie
La sortie principale est l'Effet Moyen du Traitement sur les Traités (ATT), qui vous dit l'impact moyen de l'intervention sur ceux qui l'ont reçue. Vous verrez également une Erreur Standard et une P-valeur pour évaluer la signification statistique de cet effet. Tout aussi important est le tableau 'Équilibre des Covariables'. Il montre la Différence Moyenne Standardisée (DMM) pour chaque covariable avant et après l'appariement. Une DMM importante (ex : > 0,1 ou 0,2) indique que les groupes étaient très différents sur cette covariable. Après l'appariement, vous voulez voir ces DMM tomber en dessous de 0,1, ce qui suggère que l'appariement a réussi à créer des groupes comparables.

Applications Réelles de l'Appariement par Score de Propension

  • Soins de Santé et Médecine
  • Économie et Politique Publique
  • Éducation et Programmes Sociaux
Évaluation des Traitements Médicaux
Un cas d'usage courant est l'évaluation de l'efficacité d'une nouvelle procédure chirurgicale comparée à une traditionnelle en utilisant les dossiers des patients. Puisque les chirurgiens pourraient choisir la nouvelle procédure pour des patients plus jeunes ou plus sains, une simple comparaison serait biaisée. Le PSM peut être utilisé pour apparier les patients qui ont reçu la nouvelle chirurgie avec des patients similaires (en termes d'âge, de gravité de la maladie, de comorbidités) qui ont reçu la traditionnelle, fournissant une comparaison plus équitable des résultats comme le temps de récupération ou les taux de survie.
Évaluation de l'Impact des Politiques
Les gouvernements mettent souvent en œuvre des politiques comme des programmes de formation professionnelle pour les chômeurs. Pour voir si le programme fonctionne, les analystes ne peuvent pas simplement comparer les revenus de ceux qui ont participé avec ceux qui ne l'ont pas fait, car les participants pourraient avoir été plus motivés dès le départ. Le PSM peut apparier les participants au programme avec les non-participants qui avaient des caractéristiques similaires (ex : âge, éducation, antécédents de travail) avant que le programme ne commence pour obtenir une estimation moins biaisée de l'impact du programme sur le revenu.

Idées Fausses Courantes et Méthodes Correctes

  • Le PSM N'Équilibre que les Covariables Observées
  • L'Importance de la Sélection des Covariables
  • L'Appariement N'est Pas une Solution Miracle
Le Problème de la Covariable 'Non Observée'
La limitation la plus importante du PSM est qu'il ne peut équilibrer que les covariables que vous pouvez observer et mesurer. S'il y a des caractéristiques non observées (ex : motivation du patient, talent inné) qui influencent à la fois la sélection dans le groupe de traitement et le résultat, le PSM ne peut pas en tenir compte, et l'estimation résultante peut encore être biaisée. C'est l'avantage clé d'un ECR, qui équilibre à la fois les facteurs observés et non observés. Par conséquent, les résultats du PSM doivent toujours être interprétés avec cette réserve à l'esprit.
Choisir les Bonnes Variables
La validité du PSM dépend fortement de l'hypothèse d'indépendance conditionnelle, ce qui signifie qu'après avoir contrôlé pour les covariables sélectionnées, l'assignation au traitement est essentiellement aléatoire. Cela signifie que vous devez inclure toutes les covariables qui sont censées influencer à la fois la sélection du traitement et le résultat. Omettre des covariables importantes peut mener à des résultats biaisés, tandis qu'inclure des covariables non pertinentes (celles seulement liées au résultat mais pas à la sélection du traitement) peut augmenter la variance de vos estimations.

Dérivation Mathématique et Exemples

  • Le Modèle de Régression Logistique pour les Scores de Propension
  • L'Algorithme du Plus Proche Voisin
  • Calcul de la Différence Moyenne Standardisée (DMM)
1. Estimation des Scores de Propension
Soit T l'indicateur de traitement (1 si traité, 0 si contrôle) et X le vecteur des covariables observées. Le score de propension e(X) est défini comme e(X) = P(T=1 | X). Cette probabilité est typiquement estimée en utilisant un modèle de régression logistique : log(p / (1-p)) = β₀ + β₁X₁ + ... + βₖXₖ. Le modèle est ajusté sur l'échantillon entier (groupes de traitement et de contrôle) pour trouver les coefficients (β) qui prédisent le mieux le statut de traitement à partir des covariables.
2. Appariement
Après avoir estimé le score de propension e(Xᵢ) pour chaque sujet i, un algorithme d'appariement est appliqué. Le plus simple est l'appariement Plus Proche Voisin 1-à-1. Pour chaque sujet traité i, nous trouvons un sujet de contrôle j qui minimise la distance |e(Xᵢ) - e(Xⱼ)|. Une fois qu'un sujet de contrôle est apparié, il est retiré du pool des appariements potentiels pour d'autres sujets traités.
3. Évaluation de l'Équilibre
Pour vérifier si l'appariement a fonctionné, nous calculons la Différence Moyenne Standardisée (DMM) pour chaque covariable avant et après l'appariement. La formule est : DMM = (moyenne(Xtraité) - moyenne(Xcontrôle)) / √((var(Xtraité) + var(Xcontrôle))/2). Après l'appariement, ceci est recalculé en utilisant seulement l'échantillon apparié. Un appariement réussi résultera en des DMM post-appariement proches de zéro.
4. Estimation de l'ATT
L'Effet Moyen du Traitement sur les Traités est alors calculé simplement comme la différence dans les résultats moyens entre les sujets traités et leurs contrôles appariés : ATT = (1/Nₜ) Σ(Yᵢ_traité) - (1/Nₜ) Σ(Yⱼ_contrôle), où la somme est sur les Nₜ paires appariées.