可观测统计数据上因果推断-----倾向得分

来源：互联网发布：浙江软件企业行业协会编辑：程序博客网时间：2024/05/21 13:58

接上文《统计数据上的因果推断--关于Yule-Simpson Paradox》中的第一个例子。在很多情况下推测一个因素是否是某种结果的原因时是无法让受测试的对象在完成TA测试之后能回到初始状态，接着进行TB测试，然后根据测试的结果判断该因素是否在混淆变量的各个方向上都是结果的原因。拿药物测试的例子来说，无法让进行过药物测试的人能够回到没吃药物之前的状态再进行安慰剂的测试。如果可以那对于规避Yule-Simpson将是一个好消息。然而事与愿违是常有的。大家对统计数据上因果推断的质疑源于Simpson悖论，这个悖论存在的原因就是因为受测试的集合往往是无法重复使用的。那么在测试集合无法重复使用的前提下还想用统计分析做因果推断应该如何做呢？

既然如果测试集合相同的前提下就可以规避Simpson悖论。那么我们从这个现象得到一些启发，能否随机的找到两个非常相似测试集合S1和S2，然后在S1和S2上分别进行TA和TB测试。这样的话，由于S1和S2是非常相似的数据集合，那么在混淆变量上的分布也应该是相同或相近的，如此得到的测试结果分析出的因果是可靠的。上述的思想其实就是匹配方法的基本思想。在已知处理组的前提下随机的找到与处理组在混淆变量上相同或相似的集合作为控制组数据来进行对比。当我们的混淆因素只有一个或者极少几个的时候，我们可以直接利用这几个混淆因素来匹配，比如药物测试案例中性别比例。但是，当混淆因素为多个时，直接匹配就会非常困难。为了解决这个问题，Rubin等（1983）年提出了可以通过一定的模型，将这多个变量综合成一个变量，这个变量的含义就是在给定可观测的混杂因素的条件下，个体接受干预的概率。Rubin将此变量命名为倾向得分。那么我们的匹配就可以仅仅依据倾向得分来进行了。

倾向得分匹配方法的一般步骤如下：

1、估计倾向得分

2、查看共同域

3、挑选匹配算法，并且进行匹配。

4、检验匹配效果

5、估计因果，即原因对结果的影响程度

6、做敏感性分析

在估计倾向得分时通常利用logit或者probit模型来估计倾向得分。在变量的选择上一般应该满足如下两个条件：

（1）尽量多的包含同时影响参与干预和结果的变量。
（2）不能包含受干预影响的变量。

匹配算法一般就是指数据集合上的相似度评价方法，有最近邻居匹配法，多个最近邻居匹配法，半径匹配法，核匹配法和局部线性匹配法等多种方法。

检验匹配效果时要做的一般是对选出的匹配组数据和原始组数据在混淆变量上进行比较，检查是否相似。、

其实匹配方法，尤其是倾向性得分匹配方法是很多研究者在观测数据上模拟对比试验的常用方法。尤其是在于社会科学相关的学科中得到了广泛的应用。在社会学与计算科学交叉的社会计算科学上，这种方法的使用更是层出不穷。只是大多数是无意识的使用而没有表述清楚而已。例如Jing Zhang等人在IJCAI 2013的文章Social Influence Locality for Modeling Retweeting Behaviors中使用匹配方法模拟随机试验使用在行为激活概率（activation probability）这个混淆变量上的相似的两组试验人群作为试验的干预组和控制组来消除有偏数据导致的“欺骗性”结果。个人认为，这个模拟随机试验的设计是全文中最出彩的部分。