倾向得分匹配

高级统计检验

以CSV格式输入您的处理组和对照组数据,以估计受处理者的平均处理效应(ATT)。

示例

使用这些样本数据集了解计算器的工作方式。

新药的效果

医学研究

评估新药对血压(结果)的影响,控制年龄和BMI(协变量)。

处理组数据:

blood_pressure,age,bmi
140,55,25.1
135,62,28.3
138,58,26.5
145,65,30.1
142,59,27.8...

对照组数据:

blood_pressure,age,bmi
150,56,26.2
155,60,29.1
148,61,27.3
160,68,31.0
152,57,28.1...

职业培训项目的影响

经济政策

评估职业培训项目对周收入(结果)的影响,控制教育水平和工作年限。

处理组数据:

income,education,experience
850,16,5
900,18,8
880,16,7
920,19,10
860,14,6...

对照组数据:

income,education,experience
750,14,4
780,16,6
800,12,5
770,14,7
790,16,9...

促销对销售的影响

市场营销

衡量市场促销对客户消费(结果)的影响,控制客户忠诚度和访问频率。

处理组数据:

spending,loyalty,frequency
120,85,10
150,90,15
130,88,12
145,92,18
125,80,9...

对照组数据:

spending,loyalty,frequency
90,70,8
100,75,11
95,72,9
110,80,14
105,78,13...

辅导项目的影响

教育

分析辅导项目对考试成绩(结果)的影响,控制前一年成绩和出勤率。

处理组数据:

test_score,prior_grade,attendance
88,80,95
92,85,98
85,78,92
95,90,99
89,82,96...

对照组数据:

test_score,prior_grade,attendance
75,70,90
80,75,94
78,72,88
82,80,96
79,74,91...
其他标题
理解倾向得分匹配:全面指南
深入探讨倾向得分匹配(PSM)的理论、应用与解释。

什么是倾向得分匹配?

  • 观察性研究中因果推断的挑战
  • 引入倾向得分
  • 匹配的核心思想
在医学、经济学和社会科学等许多领域,我们希望了解某项干预(如新药、政府政策、教学方法)的因果效应。金标准是随机对照试验(RCT),即将受试者随机分配到处理组或对照组。这种随机性确保两组在所有方面(包括可观察和不可观察的)平均相似。因此,任何结果差异都可以自信地归因于处理。然而,RCT往往不道德、不可行或成本过高。此时我们只能依赖观察性数据,受试者根据某些特征自选或被选入处理组或对照组。这会产生选择偏倚,因为两组一开始可能就不可比。
倾向得分作为平衡分数
倾向得分匹配(PSM)是一种旨在解决该问题的统计方法。它通过根据可观察特征(协变量)为处理组创建一个尽可能相似的对照组,从而模拟RCT。核心概念是“倾向得分”,即给定一组协变量,个体被分配到处理组的概率。Rosenbaum和Rubin提出的理论表明,如果我们能将倾向得分相同的处理组和对照组个体配对,就实现了协变量的平衡。这使得比较更为公平,减少了估计处理效应时的选择偏倚。

PSM计算器使用分步指南

  • 准备并输入您的数据
  • 执行分析与方法选择
  • 解释结果
1. 数据准备
您的数据必须以特定方式结构化。您需要两个独立的数据集:一个用于处理组,一个用于对照组。两者都必须为CSV格式。数据的第一行必须是包含变量名的表头。第一列始终为结果变量(即您要衡量效应的变量)。后续各列为协变量(您要控制的特征)。关键是,表头名称和列顺序在处理组和对照组数据中必须完全一致。
2. 计算
将准备好的CSV数据粘贴到相应的“处理组”和“对照组”文本框中。计算器内部将执行三步:1)运行逻辑回归为每个个体计算倾向得分;2)使用匹配算法(如最近邻)将每个处理组个体与倾向得分最接近的对照组个体配对;3)基于新匹配样本计算处理效应和平衡统计量。
3. 结果解释
主要输出是受处理者的平均处理效应(ATT),即干预对接受者的平均影响。您还会看到标准误和P值,用于评估该效应的统计显著性。同样重要的是“协变量平衡”表。它显示每个协变量在匹配前后的标准化均值差(SMD)。较大的SMD(如>0.1或0.2)表示两组在该协变量上差异较大。匹配后,您希望这些SMD降至0.1以下,表明匹配成功地创建了可比组。

倾向得分匹配的实际应用

  • 医疗与医学
  • 经济与公共政策
  • 教育与社会项目
评估医疗干预
常见用例是利用患者记录评估新手术与传统手术的有效性。由于外科医生可能会为更年轻或更健康的患者选择新手术,简单比较会有偏倚。PSM可用于将接受新手术的患者与接受传统手术但特征(如年龄、疾病严重程度、合并症)相似的患者配对,从而更公平地比较恢复时间或生存率等结果。
评估政策影响
政府经常为失业者实施职业培训等政策。要评估项目效果,分析师不能仅比较参与者和未参与者的收入,因为参与者可能本来就更有动力。PSM可将项目参与者与项目开始前特征(如年龄、教育、工作经历)相似的未参与者配对,从而更少偏倚地估计项目对收入的影响。

常见误区与正确方法

  • PSM仅平衡可观察协变量
  • 协变量选择的重要性
  • 匹配不是万能的
“不可观察”协变量问题
PSM最重要的局限是只能平衡可观察和可测量的协变量。如果存在影响处理分配和结果的不可观察特征(如患者积极性、天赋),PSM无法控制,结果仍可能有偏倚。这也是RCT的优势——能平衡可观察和不可观察因素。因此,解释PSM结果时应牢记这一点。
选择合适的变量
PSM的有效性高度依赖于“条件独立性假设”,即在控制所选协变量后,处理分配本质上是随机的。这意味着必须包含所有被认为会影响处理分配和结果的协变量。遗漏重要协变量会导致偏倚,而包含无关变量(仅与结果相关但不影响处理分配)会增加估计方差。

数学推导与示例

  • 倾向得分的逻辑回归模型
  • 最近邻算法
  • 标准化均值差(SMD)的计算
1. 倾向得分估计
设T为处理指示变量(处理为1,对照为0),X为可观察协变量向量。倾向得分e(X)定义为e(X) = P(T=1 | X)。该概率通常用逻辑回归模型估计:log(p / (1-p)) = β₀ + β₁X₁ + ... + βₖXₖ。模型在全样本(处理组和对照组)上拟合,以找到最能用协变量预测处理状态的系数(β)。
2. 匹配
为每个个体i估计倾向得分e(Xᵢ)后,应用匹配算法。最简单的是1对1最近邻匹配。对每个处理组个体i,找到使|e(Xᵢ) - e(Xⱼ)|最小的对照组个体j。一旦对照组个体被匹配,就从其他处理组个体的候选池中移除。
3. 平衡评估
为检查匹配效果,计算每个协变量在匹配前后的标准化均值差(SMD)。公式为:SMD = (mean(Xtreat) - mean(Xcontrol)) / √((var(Xtreat) + var(Xcontrol))/2)。匹配后,仅用匹配样本重新计算。匹配成功时,匹配后SMD应接近于零。
4. ATT估计
受处理者的平均处理效应(ATT)即为处理组个体与其匹配对照组个体的平均结果差:ATT = (1/Nₜ) Σ(Yᵢ_treat) - (1/Nₜ) Σ(Yⱼ_control),其中求和范围为Nₜ个匹配对。