在1.1节中其实已经介绍了两种最基本的因果识别的方法:利用结构因果模型下的后门准则或者潜在结果框架中的三个基本假设,通过一些推导就可以做到对ATE和CATE的因果识别。我们知道,无论是后门准则还是潜在结果框架下的强可忽略性,都依赖于不存在没有观测到的混淆变量这一点。而这一点可能在现实世界的数据集中很难被满足。因此,本节将介绍其他几种因果识别方法来克服这一局限性:工具变量(instrumental variables,IV)、断点回归设计(regression discontinuity design,RDD)和前门准则。
有时一个因果识别的方法会与一个估测的方法一同出现,但这并不意味着它们一定需要一起使用。事实上,因果识别跟估测应该是可以分开的两个步骤。在实现因果识别之后,因果效应估测就只剩下估测这一步了。估测实际上就是一个普通的监督学习(supervised learning)问题,也可以说是分类或者回归问题(取决于结果变量是离散的还是连续的)。可以说,因果效应估测=因果识别+估测。
利用工具变量的因果识别方法是一类常见的处理存在隐藏混淆变量的情况的方法。MIT(美国麻省理工学院)的Sinan Aral等人曾用工具变量来研究使用社交网络对人们锻炼习惯的影响 [15] ,他们很聪明地利用了天气这个外生变量作为工具变量。接下来将介绍工具变量在结构因果模型和潜在结果框架中识别因果效应的方法。
1.工具变量在结构因果模型中的用法
下面用如图1.6所示的因果图来展示一个常见的可以利用结构因果模型做因果识别的情况。用本章中的例子可以观测到一个混淆变量 X ,即餐厅的类别,而存在一些隐藏混淆变量 U ,阻碍了我们直接利用后门准则。令工具变量 Z 表示用户是否提交评论,即 Z = 1 (或 Z = 0 )表示用户提交了(或没提交)评论。假设用户提交评论是不受其他变量影响的,那么它就有可能是一个有效的工具变量。接下来定义结构因果模型下的工具变量 [16] 。
图1.6 一个典型的可以利用工具变量( Z )实现因果识别的因果图。我们不要求所有的混淆变量都被观测到,即只能观测到 X ,不能观测到 U
定义1.18 工具变量。
考虑随机变量 Z 、处理变量 T 、结果变量 Y 和特征 X ,我们说 Z 是一个有效的工具变量,当且仅当它满足以下条件:
· Z 是外在变量;
· 以观测到的特征为条件, Z 与 T 不相互独立,如式(1.20)所示:
· 以观测到的特征和对处理变量进行干预为条件, Z 与 Y 相互独立,如式(1.21)所示:
在结构因果模型中,式(1.20)意味着两种可能的情况:第一,在因果图中存在一条有向边 Z → T ;第二,存在一个以 X 为对撞因子的反向叉状图 Z → X ← T 。在实际问题中,第一种情况可能更常见。第二种情况〔见式(1.21)〕看上去有点难以理解,因为它同时以 X 和do( T )为条件。它常被称为排除约束(exclusion restriction)。我们也可以用语言来表达这一点,即任何一条没有被阻塞的以 Z 为第一个点而 Y 为最后一个点的通路,都用一条有向边指向处理变量 T 。实际上,用因果图来讲,它意味着以 Z 为第一个点,而 Y 为最后一个点的通路有且只有一条,就是 Z → T → Y 。用文字表达则意味着工具变量 Z 对结果变量 Y 的影响只能通过它对处理变量 T 的影响来实现。在文献[17]中,卡耐基梅隆大学的Cosma Shalizi教授认为可以把工具变量 Z 对结果变量 Y 的因果效应对应的干预分布分解成两部分,即工具变量 Z 对处理变量 T 的影响和处理变量 T 对结果变量 Y 的影响。假设处理变量 T 是离散变量,可以用式(1.22)来表示这个分解过程:
接下来展示如何在线性的结构因果模型中利用工具变量做到因果识别。首先,根据因果图1.6定义一组线性的结构方程,如式(1.23)所示:
其中,假设两个噪声项 ∈ Y 和 ∈ T 都服从平均值为 0 的高斯分布,而 τ 便是想要得到的平均因果效应。这种能够用一个常数表示所有单位的因果效应的情况,我们称为同质性因果效应(homogeneous treatment effect)。在很多情况下,每个单位的因果效应可能不同,我们称这种情况下的因果效应为异质性因果效应(heterogeneous treatment effect)。可以把式(1.23)中的第一个等式代入第二个等式的右边,然后化简得到式(1.24):
其中, γ 0 = τα 0 + β 0 ,而 η = τ∈ T + ∈ Y 。那么得出式(1.25):
在式(1.25)的第一个等式中,因为 Z 是外在变量,因此 P ( Y |do( Z ))= P ( Y | Z )。而根据式(1.25),可以算出E[ Y |do( Z =1)]-E[ Y |do( Z =0)]= τα Z 。类似地,可以根据线性结构因果模型(见式(1.23))和 Z 是外在变量,以及 P ( T |do( Z ))= P ( T | Z )这一事实得到式(1.26):
结合式(1.25)和式(1.26),就可以得到线性结构因果模型下的比例估计量(ratio estimator),如式(1.27)所示:
这里隐含的条件是分母 α Z 不为 0 ,即工具变量 Z 对处理变量 T 的因果效应不为0。之后只需要利用回归或者分类模型(取决于 Y 取值是连续的还是离散的)估测等式右边的期望E[ Y | Z ]和E[ T | Z ],即可完成因果效应估测。
2.工具变量在潜在结果框架中的用法
在潜在结果框架中,我们也可以利用工具变量做因果识别。为了方便读者理解,这里仍然以图1.6作为参考,而且不需要对模型做线性假设,但利用工具变量只能识别到一个亚群的平均因果效应。在潜在结果框架中,考虑 Z , T ∈{0,1}可以把工具变量 Z 对结果变量 Y 的ITE表示成式(1.28):
其中,1和0是工具变量
I
的取值,
Y
i
(
Z,T
i
(
Z
))和
T
i
(
Z
)分别是潜在结果和处理变量的函数形式,这种表达强调了工具变量对处理变量和结果变量的取值的影响。注意,接下来会用
Y
i
(Z)
表示受工具变量影响的潜在结果,而
表示受处理变量影响的潜在结果。然后可以由式(1.28)推导得到式(1.29):
其中第一个等式利用了之前的假设,即排除约束假设〔见式(1.21)〕——工具变量 I 只通过影响处理变量 T 来影响结果变量 Y 。第二个等式可以直接由一致性得到〔见式(1.15)〕。第三个等式则直接由数学推导获得。到了这一步,仍然没有完成因果识别。注意式(1.29)与式(1.22)的区别在于它是个人级别的,其中的变量都带有下标 i 。接下来对式(1.29)求期望,如式(1.30)所示:
其中,等式右边的部分由 Y i ( T i ( 1)) -Y i ( T i (0))分解而来。注意,当 T i (1) -T i (0)=0时, Y i ( T i (1)) -Y i ( T i (1))=0总是成立,所以这样的情况对应的因果效应总是为0。接下来将讨论如何基于以上推导得到最简单的一个利用工具变量的因果效应的估计量。这里需要加入一个新的假设,即单调性(monotonicity)。
定义1.19 单调性。
单调性指处理变量的值随工具变量的值增大而不会变小,即 T i (1)≥ T i (0)。这意味着 P ( T i (1) -T i (0)=-1)=0。
单调性假设可以使式(1.30)右边的第二项为0,因为 P ( T i (1) -T i (0)=-1)=0。这样就可以得到经典的比例估计量,如式(1.31)所示:
其中,等式左边的期望是估测的目标,即所谓的局部平均因果效应(local average treatment effect,LATE)。局部代表只考虑那些满足单调性的个体。也有人把它叫作服从者平均因果效应(compiler average treatment effect)。服从者也是代表满足单调性的个体组成的亚群。到了这一步,可以利用工具变量是外在变量这一点,把等式右边出现的受工具变量 Z 影响的潜在结果和处理变量(这里的处理变量也可以被看作受工具变量影响的潜在结果)这些因果量替换为相应的统计量。因为工具变量是外在变量,在潜在结果框架下有式(1.32):
这有时也被称为随机化假设。基于这些独立条件,可以将
和
这两个因果量写成统计量,如式(1.33)所示:
类似地,可以得到
。这样就完成了在潜在结果框架中利用工具变量对局部平均因果效应的因果识别,即利用比例估测量来估测局部平均因果效应,如式(1.34)所示:
这样就可以用观测性数据中可以估测的量E[
Y
|
Z
]来估测LATE。在2017年以后的研究中,工具变量方法不再局限于单调性假设,而是被延伸到基于深度神经网络的评价器中
[18]
。对工具变量而言,另一个比较重要的概念是两阶段最小二乘法(two stage least square,2SLS)
[19]
。图1.7展示了可以应用2SLS的一个因果图。与图1.6相比,在图1.7中的工具变量
Z
不再必须是外生变量。我们仍然可以利用
Z
来提供与未观测到的混淆变量
U
独立的随机性,这有助于我们识别因果效应E[
Y
|do(
T
)]。传统的2SLS假设工具变量
Z
与
T
之间的关系和
T
与
Y
之间的关系都是线性的。因此,在2SLS中,先利用
Z
对
T
做回归,得到预测的
,然后利用
对
Y
的线性回归来得到因果效应。与传统的2SLS不同,在实际问题中,我们经常面临的挑战是非线性关系,这意味着传统的基于线性回归的2SLS无法被直接应用。在文献[18]中,Hartford等人提出了如式(1.35)所示的目标方程:
图1.7 一个典型的可以利用两阶段最小二乘法实现因果识别的因果图。不要求 T→Y 的混淆变量 U 都被观测到
其中,
是将输入的预测的处理变量
映射到预测的结果变量
的函数。而
g
则是将观测到的工具变量
Z
映射到预测的处理变量
的函数,我们可以利用观测到的数据来学习函数
g
,然后解决优化问题〔见式(1.35)〕,以学习处理变量与结果变量之间的非线性关系。有兴趣的读者可以自行阅读文献[18]。
断点回归设计(RDD)适用于一些特殊场景。在这些场景中,处理变量 T 的取值只由配置变量(running variable,有时也被称作assignment variable或forcing variable) R 的值决定。在此考虑最简单的情况,即处理变量 T =1( R ≥ r 0 ),其中1( R ≥ r 0 )在 R ≥ r 0 时取值为1,在其他情况下取值为0。即一个单位被分配到实验组时,当且仅当配置变量大于或等于一个阈值 r 0 。在研究餐厅评分对餐厅客流量的因果效应时 [4] ,我们知道,在网站的搜索结果页面中,评分常常被四舍五入到最近的以半颗星为单位的星级。例如,一家餐厅A的评分为3.24,它会被显示成三颗星。而如果另一家餐厅B的评分为3.26,它就会被显示成三颗半星。基于这一事实,可以研究餐厅评分对客流量的影响。虽然餐厅A和餐厅B的真实评分十分接近,但在搜索结果页面的显示中二者则差半颗星。更具体地讲,当考虑所有的评分在 R ∈[3,3.5]的餐馆时,可以令 r 0 =3.25,则处理变量可以被定义为 T =1( R ≥ r 0 )。那些分数在 R ∈[3.25,3.5]的餐厅从四舍五入中得到了优势,即显示的星数比实际分数高。我们认为这些餐厅属于实验组。而那些分数在 R ∈[3.0,3.25)的餐厅则因此吃了亏,我们认为这些餐厅属于对照组。在这种情景下,可以使用一种叫作精确断点回归设计(sharp regression discontinuity design,sharp RDD)的方法 [4,20] 。精确断点回归设计的想法基于两个假设。首先,那些评分接近阈值的餐厅的混淆变量取值是十分相似的。其次,因果效应是同质的,即从四舍五入中得到对每家餐厅客流量的影响是相同的。这两个假设使我们可以实现因果识别。在精确断点回归设计中,我们认为结果变量 Y 、配置变量 R 和同质因果效应 τ 之间存在如式(1.36)所示的关系:
其中, ∈ 是噪声项,一般是平均值为 0 的独立同分布的外生变量,比如正态分布 ∈ ∈ N (0,1)。在因果效应是同质的情况下,常常可以用 τT 项来量化处理变量 T 对结果变量 Y 的因果效应。 f 是在 R = r 0 处连续的一个函数,它的参数化(parameterization)可以是很灵活的。当然在实际情况中,对 f 的模型误判(model misspecification)可能造成对平均因果效应估测的偏差。例如,哥伦比亚大学的统计学家Andrew Gelman和斯坦福大学的经济学家Guido Imbens指出,当 f 被参数化为高阶多项式(high-order polynomials)的时候,很可能得到有误导性的结果 [21] 。本质上这是因为在他们研究的数据集中, f 的基准真相不是高阶多项式。注意,在这个例子中, R ∈[3.0,3.5]这个范围由带宽(0.25)决定。带宽代表的是,我们认为函数 f 相同单位的配置变量的取值范围,这意味着断点回归设计估测的平均因果效应本质上是一种局部平均因果效应。因此,当有足够多的数据时,也可以把这个范围设置得更小,从而保证估测的精确性。比如,当把带宽设置为0.05时,配置变量的范围就变为 R ∈[3.2,3.3]。意思是我们认为只有评分在这个范围中的餐厅,才有同样的函数 f 。在有的研究中,也倾向于使用多种带宽展示所选择的配置变量的正确性和估测到的平均因果效应的鲁棒性。
图1.8展示了一个在仿真数据中利用精确断点回归设计来估测因果效应的例子,即餐厅在评分网站Yelp上的评分 T =1( R ≥3.25)对客流量 Y 的因果效应。其中,假设函数 f 是一个线性分段函数,如式(1.37)所示:
其中, w 1 、 w 2 、 b 1 、 b 2 是线性回归的参数。我们可以分别在实验组和对照组中求解线性回归,得到函数 f 的参数。然后就可以利用这两条线段与 R =3.25这条直线的两个交点的纵坐标之差,得到平均因果效应 τ 。
图1.8 一个利用仿真数据做精确断点回归设计的例子,图中每个点代表一家餐厅。 X 轴是Yelp上餐厅的平均评分(即配置变量 R ), Y 轴则是餐厅的客流量。蓝色的点代表实验组的餐厅,黑色的点代表对照组的餐厅。 f(R) 则是一个线性分段函数,黑色和蓝色的两条线段与直线 R=3.25 的交点的 Y 轴的值之差代表该精确断点回归设计估测到的平均因果效应 τ
在本例中,精确断点回归设计〔见式(1.35)〕基于以下事实:3.25分是区别实验组和对照组的一个明确定义的阈值。然而在实际情况中,有可能这样的事实并不成立。为了应对没有明确定义阈值的情况,接下来介绍模糊断点回归设计(fuzzy regression discontinuity design,fuzzy RDD) [20,22] 。在本例中,细心的用户可能会点击某家餐厅的页面,从而看到餐厅真实的评分,而不是只基于搜索结果页面中四舍五入后的评分做选择。这样顾客就会发现上文中评分为3.24的餐厅A和评分为3.26的餐厅B的实际评分的差距并没有半颗星那么多。在模糊断点回归设计中,假设存在一个随机的处理变量分配的过程,由条件概率 P ( T =1| R )来表示,我们可以把它看作是一种倾向性评分模型(propensity score model)。可以发现它与精确断点回归设计中确定性的倾向性评分模型(即 T =1( R ≥ r 0 ))不同。在模糊断点回归设计中,任何一个配置变量的取值 R = r 的单位,一般来说,既有可能被分配到实验组,也有可能被分配到对照组。这里的倾向性评分模型一般被假设为一个在阈值 r 0 处不连续的函数。这样可以写出如下断点回归设计的结构方程组,如式(1.38)所示:
其中,
∈
Y
和
∈
T
是噪声项。基于这个结构方程组,可以利用参数
π
2
和
π
1
的比例来估测平均因果效应,即
。它实际上是1(
R
≥
r
0
)→
Y
和1(
R
≥
r
0
)→
T
这两个因果关系对应的平均因果效应的比。我们可以发现这个估测量其实与工具变量中的两阶段最小二乘法中的比例估计量相似。两阶段最小二乘法基于以下假设:配置变量是否大于阈值对处理变量取值的因果效应,即
π
1
不为
0
。我们可以把1(
R
≥
r
0
)视为工具变量,它仅通过影响处理变量的取值来影响结果变量。对实践中的断点回归设计有兴趣的读者可以参考文献[23]。
前门准则是结构因果模型除后门准则外的一种重要的因果识别方法 [5] ,我们可以把它看作是一种对后门准则的拓展。它允许我们在有隐藏混淆变量的情况下实现因果识别。下面定义前门准则。
定义1.20 前门准则。
变量集合 M 满足前门准则,当且仅当它满足以下三个条件时:
· 以 M 中所有的变量为条件时,所有从处理变量 T 到结果变量 Y 的有向通路都会被阻塞;
· 在没有以任何变量为条件的情况下,不存在没有被阻塞的对因果关系 T → M 而言的后门通路;
· 以处理变量 T 为条件会阻塞所有对于 M → Y 的后门通路。
图1.9展示了两个因果图。其中,在图1.9(a)中的变量集合 M 满足前门准则,在图1.9(b)中的变量集合 M 不满足前门准则。读者可以自行分析图1.9(b)中的变量集合 M 不满足前门准则中的那部分。我们也可以说变量集合 M 是对于因果关系 T → Y 而言的中介变量的集合。为了符号的简单明了,接下来假设变量集合 M 只包含一个变量,即 M ={ M },令 M 和 T 都是离散变量。由定义1.20中的第一个条件可以得到对于干预分布 P ( Y |do( T ))的分解,如式(1.39)所示:
图1.9 两个分别展示变量集合 M 满足与不满足前门准则的示例因果图
定义1.20中的第二个条件意味着不存在对于因果效应 T → M 而言的混淆变量。也就是说,可以直接用对应的条件分布代替干预分布,如式(1.40)所示:
定义1.20中的第三个条件可以使用后门准则去完成对干预分布 P ( Y |do( M ))的因果识别,如式(1.41)所示:
这样可以利用第二个和第三个条件得到的式(1.39)和式(1.40),完成对式(1.38)等号右边的两个干预分布的因果识别,因而也就完成了对估测的目标,即干预分布 P ( Y |do( T ))的因果识别。
在1.2.1节到1.2.3节介绍的方法中,考虑的情况都为数据是静态的。而在现实世界的应用中,数据可能是动态的,这意味着我们可能会在某一个时刻进行干预,即改变处理变量的值,在这样的场景中结果变量也会随着时间变化。而要在动态数据中估测因果效应,则需要对结果变量随时间变化的关系进行建模。考虑本节的例子,在此可以用一个基于双重差分模型的准实验设计(quasi-experiment)来估测餐厅评分 T 对餐厅客流量的影响 Y 。在双重差分模型中,允许混淆变量的存在,无论它们是隐藏的、可见的还是部分可见的。图1.10展示了一个双重差分模型的因果图,在此,即使混淆变量 U 均为隐藏变量,仍然可以利用两个时间步中单位 i 仅在第二个时间步时受到干预,而单位 j 一直在对照组这一事实来实现因果识别。考虑一对单位,即 i 和 j 在两个时间步中。假设它们在第一个时间步时都属于对照组;而在第二个时间步时,仅单位 i 受到干预,变成实验组( T i =1)。比如,随机挑选一些餐厅,在第二个时间步的时候让它们在搜索结果页面中的评分由四舍五入到半颗星变为向上取整到半颗星,而保持搜索结果页面中其他餐厅的评分。这样就可以研究餐厅评分上升对客流量的影响。一个双重差分回归的经典的例子则是在文献[24]中,加州大学伯克利分校的经济学教授David Card和普林斯顿大学前教授Alan B.Krueger关于美国新泽西州改变职工最低工资对快餐业就业情况的因果效应的研究。在这项研究中,新泽西州的职工最低工资确实上涨了,并且他们用与新泽西州毗邻的最低工资没有上涨的宾夕法尼亚州作为对照组。我们把第一个时间步的结果叫作干预前结果(pre-treatment outcome),用符号 C 表示,它又被称为负结果控制(negative outcome control)。而我们感兴趣的则是干预后结果 Y i ,即第二个时间步的结果。对于单位 i ,将观测到干预前结果 C i 和干预后的实验组结果 Y i (1);而对于单位 j ,我们将观测到干预前结果 C j 和干预后的对照组结果 Y j (0)。双重差分模型的基本思路是利用单位 j 的对照组结果 Y j (0)与干预前结果 C i 和 C j 之间的关系来推断单位 i 在干预后的对照组(反事实)结果 Y i (0)。这样就可以直接估测平均因果效应。
图1.10 双重差分模型的因果图
接下来对双重差分模型进行详细推导。首先,我们通过观察图1.10中的因果图可以发现,处理变量 T 对干预前结果 C 是不会有因果效应的,考虑 T ∈{0,1},即 P ( C |do( T )=1)= P ( C |do( T )=0)。然而由于混淆变量 U 的存在,我们会发现干预前结果 C 的条件分布的期望的差E[ C | T =1]-E[ C | T =0]实际上反映了后门通路 C ← U → T 引起的 C 和 T 之间的相关性。这种相关性有时也被称为加性混淆效应(additive confounding effect) [25] 。接下来给出双重差分模型中最重要的一个假设,即加性伪混淆假设(additive quasi-confouding)。
定义1.21 加性伪混淆假设。
加性伪混淆假设是指处理变量 T 和结果变量 Y 之间的加性混淆效应与处理变量 T 和干预前结果变量 C 之间的加性混淆效应大小相同,如式(1.42)所示:
由加性混淆假设可以实现因果识别,并得到如式(1.43)所示的估计量:
式(1.43)意味着实验组平均因果效应实际上可以表示为 Y 和 T 之间的相关性减去 C 和 T 之间的相关性。我们知道, Y 和 T 之间的相关性包括因果效应E[ Y (1) -Y (0)| T =1]和后门通路 T ← U → Y 造成的混淆效应,因此,减去后门通路 T ← U → Y 造成的混淆效应,就可以得到因果效应E[ Y (1) -Y (0)| T =1]。从以上推导中可以看出,双重差分模型识别和估测的因果效应实际上是实验组平均因果效应,即E[ Y (1) -Y (0)| T =1]。在实际操作中,当存在可见的混淆变量 X 时,也可以加入一些合理的假设,使用其他方法如回归调控来识别和估测由这些混淆变量定义的亚群中的对照组因果效应(例如,以 X = x 为条件) [26] 。
到此,可以总结一下双重差分模型的局限性。它首先依赖于对数据的几个比较强的假设。假设我们能观测到两种单位在两个时间步中的数据,即 C 、 T 和 Y 三个变量——干预前结果、处理变量和干预后的结果。我们要求其中一部分单位得到了干预,在第二个时间步中处于实验组,另一部分则在两个时间步中都处于对照组。其次还需要加性伪混淆假设。
合成控制 [27] 是经济学家Alberto Abadie等人提出的一种在动态数据中因果识别和因果效应估测的方法。在合成控制中,一般考虑大型的单位,如一个国家、一个省或一个城市和针对这样的单位的处理变量,如是否修改职工最低工资、是否执行一个新的法令等。它考虑的是数据集中单位的数量比较少的情况。注意,这样的干预一般无法执行小的单位(如个人)。在当今的科技公司中,合成控制常常被用于估测针对大型单位的干预的因果效应。如滴滴出行或者美国的Uber和Lyft,要估测一种新的计算价格的算法对某个城市中该公司日营业额的影响,合成控制可能就是一种合理的方法。
与双重差分模型中仅考虑一个对照组的单位不同,在合成控制中,考虑一个将会受到干预的单位 i 和 J 个不会受到干预的单位1,…, i -1, i +1,…, J +1,这些没有受到干预的单位的集合又被称为潜在对照组(donor pool)。而合成控制的主要思想就是要用多个对照组单位的结果的加权平均合成一个受到干预的单位的反事实结果,即受到干预的该单位处于对照组时的结果。在经典的合成控制研究中,一个单位常常代表一个地区。例如,在文献[28]中,MIT经济系教授Abadie和西班牙巴斯克大学的Gardeazabal利用合成控制来研究20世纪60年代的恐怖活动对西班牙巴斯克地区的人均GDP的因果效应。在这项研究中,他们将西班牙的其他地区当作潜在对照组。在我们的例子中,如果某一个时刻在Yelp的搜索结果页面中,把美国亚利桑那州坦佩市的餐厅评分由四舍五入到半颗星变成向上取整到半颗星,就可以利用合成控制法来研究餐厅评分的提升对这些餐厅客流量的影响。其中可以使用亚利桑那州其他城市的餐厅作为潜在对照组,用 t =1,…, t max 表示时间步。特别地,用 t 0 表示干预发生的时间步,并假设 1 < t 0 < t max 。在实际情况中,如果干预的因果效应有延迟,则可以把 t 0 定义为干预对结果产生因果效应的第一个时间步 [29] 。 Y jt (1)、 Y jt (0)和 Y jt 分别表示单位 j 在时间步 t 时受到干预(实验组)的潜在结果、没有受到干预(对照组)的潜在结果和事实结果。对于单位 j ≠ i , Y jt (0)= Y jt 对所有的时间步 t 成立;而对于受到干预的单位 i ,则有 Y it (0)= Y it , t < t 0 和 Y it (1)= Y it , t ≥ t 0 成立。这里的一个潜在假设是,对单位 i 施加的干预不会影响其他单位的结果,即SUTVA中没有干扰这一条假设。与双重差分模型不同,在合成控制中,允许因果效应随时间变化,所以用 τ it 表示单位 i 在时间步 t 时的ITE。而我们感兴趣的因果效应 τ it 是干预发生之后的,它可以被表示为式(1.44)所示的形式:
注意,这里对干预后的单位 i 的ITE感兴趣。 t 的具体范围应当由具体的应用来决定,在决定 t 的范围时,需要考虑干预对结果变量的影响是否有延迟,以及这种因果效应能持续多长时间。注意,在式(1.43)中无法在时间 t > t 0 时观测到 Y it (0),因此 Y it (0)将是合成控制中我们想要估测的反事实结果。相应地,也可以定义随时间变化的处理变量 T it ,如式(1.45)所示:
这样可以将单位 i 随时间变化的事实结果表示成对照组结果和因果效应的和,如式(1.46)所示:
在合成控制中,我们的目标是找到最优的权重
,它代表潜在对照组中每个对照组单位
j
=1,…,
i
-1,
i
+1,…,
J
最终在预测
Y
it
(0)时的权重。为了避免外推(extrapolation),要求这些权重满足式(1.47)中的两个条件:
X 1 ∈ℝ d×1 是受到干预的单位 i 的协变量, d 是协变量的维度,而 X 0 ∈ℝ d×J 是潜在对照组中的所有对照组单位的协变量矢量构成的矩阵。Abadie等人 [27] 求解合成控制权重的方法是通过最小化以下目标方程得到的,如式(1.48)所示:
其中,// X 1 -X 0 w T //常常被定义为带有权重的欧几里得范数(Euclidean norm),它可以写为式(1.49)所示的形式:
其中, x k 是受到干预的那个单位的第 k 个协变量, v k 反映了第 k 个协变量的重要性。
接下来利用文献[27]中的线性结构方程模型来介绍合成控制。首先假设单位 i 的对照组结果由式(1.50)所示的结构方程生成:
其中, X i ∈ℝ d×1 是单位 i 观测到的不随时间变化的 d 维特征, μ i ∈ℝ d'×1 是未观测到的不随时间变化的 d′ 维特征。 θ t 和 λ t 是两种特征对应的权重。 ∈ it 是均值为0的噪声项。而在双重差分模型中考虑的是 λ t 为常数且不随时间变化的场景。理想状态下,我们希望得到的权重 w 同时满足式(1.51)所示的等式:
在实际情况中很难找到一组权重使式(1.51)成立。而生成结果的结构方程也可能不是线性的。在实践中,只要能找到一组权重使式(1.51)近似成立即可。所以,需要确定能否找到一组足够好的权重,使单位 i 干预后的对照组结果与它的合成控制之间的偏差足够小。
文献[27]证明了在式(1.50)的情况下,解优化问题〔见式(1.48)〕可得到权重 w ,然后可以用 w 估测受到干预的单位 i 的ITE。合成控制模型估测的ITE的偏差受到 ∈ it 的大小/方差,以及干预前的时间步数 T 0 的影响。 ∈ it 的大小/方差越大,干预前的时间步数 T 0 越少,那么合成控制模型估测的ITE的偏差就会越大。一般情况下,利用可观测到的数据来提高合成控制的可信程度的方法就是,尽量好地拟合受干预的单位 i 在受干预前 t < T 0 时的事实结果 Y it = Y it (0)。当 T 0 很小, J 很大,而且噪声 ∈ it 的方差很大时,合成控制模型可能会过拟合到训练集,即 t < T 0 的数据上。此时,一种折中的方案是限制潜在对照组的大小,仅选择那些与受干预的单位相似的对照组单位进入潜在对照组。例如,在研究东德、西德统一对德国人均GDP的影响时,一个好的合成控制模型可能只需要在潜在对照组中考虑20世纪80年代~20世纪90年代与德国经济发展走势相近的国家,如荷兰、美国、奥地利、瑞士和日本等国家 [30] 。
有人会问,为什么不直接将观测到的协变量当成混淆变量,然后利用回归调整(regression adjustment)来拟合权重,并最终完成ITE的推断?与其相比,合成控制到底有什么好处呢?
应该怎么来做回归调整呢?假设我们拥有以下数据:
·
代表在干预后的时间步中,未受干预的、潜在对照组中的单位的事实结果。
·
代表受到干预的单位的协变量加上一行各元素均是
1
的矢量1。类似地,
代表潜在对照组中单位的协变量加上一行各元素均是1的矢量1。
接下来,用
拟合一个线性回归,得到权重,如式(1.52)所示:
这样就可以利用
去预测受到干预的单位的反事实结果。而我们可以把它写成合成控制的形式,如式(1.52)所示:
其中, W reg 是各潜在对照组中单位的权重,我们可以发现这样得到的权重的和为1,但是可能会导致某些单位的权重是负的,从而引起外推。在实践中,Abadie等人 [30] 发现,如果在东德、西德合并这个数据集中使用回归调整,会得到不稀疏的权重,这可能导致模型过拟合,且可能会有负的权重导致外推。除此之外,在计算合成控制的权重时,其实我们并不需要观测到干预后的潜在对照组中单位的事实结果。这可以避免在设计模型时受到干预后观测到的数据的影响(例如,可以避免P-hacking)。合成控制得到的更稀疏的解也有利于提高模型的可解释性,让领域内的专家更容易找出模型的问题所在。
双重差分模型允许隐藏混淆变量的存在,但一个潜在的假设是这些隐藏混淆变量对结果变量的影响是常数。而在上面介绍的合成控制模型中可以看到隐藏混淆变量 U t 是可以随时间变化的。即便如此,在文献[26]中提到只要权重矢量满足式(1.54)即可:
这样合成控制就能得到非偏的估测。这意味着即便不能观测到部分混淆变量,也有可能得到一组权重,以使我们获得非偏的对干预后单位 i 的对照组结果的估测。与双重差分模型相比,合成控制会基于对结构方程组的线性假设,而且需要观测到 X j ,即那些不随时间变化但随单位变化的特征。事实上,直接通过事实结果求解权重也是常见的,即只需近似满足式(1.51)中的第一个等式。
如果受干预的单位有很多,有可能出现一种情况,即 X 1 会出现在 X 0 的凸包(convex hull)中,这会导致通过解式(1.48)得到的 w 并不稀疏,从而无法得到合成控制相对于回归调整的优势。针对这种情况,在文献[31]中,Abadie和L’Hour提出了新的优化问题,或者说是权重 w 的评价器,如式(1.55)所示:
其中, λ >0控制了目标函数中两项的重要性。// X 1 -X j // 2 是潜在对照组中每一个单位与受干预单位的协变量之间的差异(discrepancy)。这使我们能够降低那些与受干预的单位相似度很低的单位在合成控制模型中的权重,从而得到更加稀疏的解。
前面针对不同的数据和假设讨论了几种识别因果效应的方法。本节进一步介绍因果中介效应分析(causal mediation analysis,CMA)这个重要的问题和用来解决它的经典方法。不正式地讲,我们把那些处于处理变量和结果变量的因果路径上的变量叫作中介变量。因果中介效应分析的主要目的是理解中介变量在研究处理变量对于结果变量的因果效应中扮演的角色。最早的对因果中介效应分析的研究可以追溯到文献[32]。在这项研究中,统计学家Cocharan想要研究几种土壤熏蒸剂是如何影响庄稼产量的。他发现使用土壤熏蒸剂可以提高燕麦产量,并使线虫数量下降。若要更深刻地理解这三个变量之间的关系,则要知道“线虫数量”这个变量是否是处理变量“使用土壤熏蒸剂”对结果变量“庄稼产量”的因果效应的中介变量,即“使用土壤熏蒸剂”是否是通过影响“线虫数量”来影响“庄稼产量”的?要回答这样的问题,需要把处理变量对结果变量的总因果效应(total effect,TE)分解成处理变量对结果变量的直接因果效应(direct causal effect)和通过中介变量的间接因果效应(indirect causal effect)。
因果中介效应分析的一个主要挑战是,即便在可以进行随机实验的情况下,也需要一些合适的假设才可以识别因果效应。这里首先展示在随机实验数据中为什么仍然不能直接实现因果识别。如图1.11所示的因果图,假设数据可以表示为
,其中
T
i
∈{0,1}是二元处理变量,
M
i
代表单位
i
的中介变量,
X
i
代表干预前协变量(pre-treatment covariates)。如果给定一对处理变量和结果变量,什么样的变量可以被称为中介变量呢?因为中介变量必须存在于处理变量到结果变量的路径上,我们要求它必须是一个干预后变量(post-treatment variable),同时,它的值必须在结果变量的值被确定之前就已确定
[33]
。
图1.11 一个典型的因果中介效应分析的因果图
接下来,基于潜在结果框架给出在因果中介效应分析中几个想要识别和估测的因果效应的定义 [33] 。首先,用 M i ( T i = t )表示单位 i 的中介变量在处理变量取值为 t 时的潜在取值。然后可以将潜在结果表示为一个中介变量和处理变量的函数,即令 Y i ( T i = t,M i = m ),表示当单位 i 的处理变量为 t 、中介变量为 m 时的潜在结果。
定义1.22 因果中介效应。
在潜在结果框架中,假设二元处理变量 T ∈{0,1},单位 i 的因果中介效应 δ i ( t )是一个处理变量的函数,它的定义如式(1.56)所示:
在定义1.22中,可以把因果中介效应理解成潜在结果在处理变量被固定为 t ,但中介变量在处理变量取值为 T =1和 T =0时的差。换句话说,因果中介效应代表处理变量通过影响中介变量对结果变量产生的因果效应。在文献[34]中,因果中介效应 δ ( t )也被称为自然间接效应(natural indirect effect,NIE)。因果中介效应的定义(见定义1.22)其实基于一些隐含假设。它要求潜在结果仅仅受到处理变量和中介变量取值的影响,而不论中介变量是否受到干预的影响。也就是说,它要求当 M i ( t )= M i (1 -t )= m 时, Y i ( t , M i ( t ))= Y i ( t , M i (1 -t ))= Y i ( t , m )。这样很容易由因果中介效应的定义得到平均因果中介效应(average causal mediation effect,ACME)的定义,如式(1.57)所示:
定义1.23 总因果效应。
在潜在结果框架中,假设二元处理变量 T ∈{0,1},单位 i 的总因果效应为 τ i ,它的定义如式(1.58)所示:
本质上,总因果效应与个人因果效应是等价的,但它考虑了中介变量的取值。我们可以发现因果中介效应和总因果效应的关系可以表示为式(1.59):
其中, ζ ( t )= Y i ( T =1, M i ( t )) -Y i ( T =0, M i ( t ))又被称为自然直接效应(natural direct effect,NDE)或者总直接效应(total direct effect,TDE)。它也是一个处理变量 t 的函数。我们可以把它理解为处理变量不通过中介变量,而直接对结果变量产生的因果效应;或者说,当中介变量的值固定为 M i ( t )时,改变处理变量对结果变量的影响。式(1.59)意味着,总因果效应是因果中介效应在处理变量 t 时的取值与自然直接效应在处理变量为1 -t 时的取值之和。另外,还有一种重要的因果量,即控制直接效应(controlled direct effect) [34-35] 。它的定义如下。
定义1.24 控制直接效应。
在潜在结果框架中,假设二元处理变量 T ∈{0,1},单位 i 的控制直接效应定义如式(1.60)所示:
我们可以发现控制直接效应同时是处理变量取值 t 和中介变量取值 m 、 m′ 的函数。总体来说,我们可以将因果中介效应分析的目的理解为将总因果效应分解成以上定义,从而解释总因果效应。
接下来根据这些因果量的定义来分析因果中介效应分析的挑战:即使在随机实验数据中,也无法直接识别平均因果中介效应。而序列可忽略(sequential ignorability)假设 [33] 是当前最常见的用来识别平均因果中介效应和平均自然直接效应的假设。下面给出它的定义。
定义1.25 序列可忽略假设。
在潜在结果框架中,假设二元处理变量 T ∈{0,1},单位 i 的控制直接效应定义如式(1.61)和式(1.62)所示:
与非混淆假设相似,序列可忽略假设也需要相对应的重叠假设,如式(1.63)所示:
其中, X 和 M 是协变量和中介变量的取值空间。式(1.61)首先假设了处理变量的可忽略性,即给定协变量(干预前变量)的值,一个单位的潜在结果和中介变量的潜在取值已经确定,而处理变量只是影响哪一种潜在结果或者中介变量的潜在取值会被观测到。之后,式(1.62)假设了中介变量的可忽略性,即确定了协变量和处理变量的值之后,潜在结果不再受中介变量取值的影响。这里的序列可忽略性假设 [33] 与更早的文献[36]中所提到的序列可忽略假设有一点不同:中介变量的可忽略性不再以未观察到的干预后混淆变量为条件。接下来利用序列可忽略性假设推导出平均因果中介效应和平均自然直接效应的(非参数的)因果识别,如式(1.64)~式(1.71)所示:
其中,式(1.66)来自
Y
i
(
t′
,
m)
T
i
|
M
i
(
t
)=
m′
,
X
i
=
x
,它可以由式(1.61)(即处理变量的可忽略性)得到。类似地,式(1.68)和式(1.71)也可以由式(1.61)得到。式(1.67)和式(1.69)利用了式(1.62),即中介变量的可忽略性。式(1.70)则利用了潜在结果框架中介绍的一致性假设,即
Y
i
=
Y
i
(
T
i
,
M
i
(
T
i
))。
这样就可以利用上面的结果〔见式(1.71)〕,再对协变量的边缘分布求期望,从而完成对平均因果中介效应和平均自然直接效应的识别,如式(1.72)所示:
这样就可以利用式(1.72)的结论,将 t 和 t′ 设为需要的值来估测平均因果中介效应和平均自然直接效应,因为等式右边的项均为已观测到的变量的分布。
近几年,因果中介效应分析被广泛应用在机器学习研究中。后面章节将详细介绍如何利用因果中介效应分析对复杂的机器学习模型(如深度神经网络的可解释性)进行研究(见4.1.3节)。
1.2.1节到1.2.6节已经介绍了很多种识别因果效应和估测它们的方法。但我们知道,某种识别因果效应的方法都依赖于较强的假设。在此考虑一个常见的情况,即存在隐藏混淆变量、可忽略性假设不能被满足的情况,假如利用
这个评价器去估测ATE,结果会有多大的偏差,这个估测的偏差又主要由哪些因素决定?首先需要明确一点,当用可忽略性假设去做因果识别和估测得到ATE时,得到的是一个点估测,即准确地估测了ATE的值。而在更弱的假设下,可能只能将估测变成一个范围,即想要估测ATE的上界和下界。这类估测在可忽略性假设被违反的情况下非常实用。估测因果效应上下界的方法常常被形象地称为部分识别(partial identification)
[37]
。与普通的因果识别不同,部分识别只能够得到因果效应的范围,不能得到准确的点估计(point estimate)
[38]
。
1.基于ITE取值范围的ATE的上下界
如果知道潜在结果的范围,就可以直接得到ITE的范围。举个例子,如果知道式(1.73):
则可以知道ITE的范围,如式(1.74)所示:
而我们可以对整体求期望,得到ATE的范围,如式(1.75)所示:
这意味着ATE的范围大小为2 b -2 a ,然后尝试得到一个更小的范围,使ATE的估测更加精确。首先,对ATE做一个观测-反事实分解(observational-counterfactual decomposition),如式(1.76)所示:
其中,第一个等式用到了期望的线性(linearity of expectation)。第二个等式用到了概率密度函数的边缘化。最后一个等式用到了一致性(consistency)。将式(1.76)称为观测-反事实分解,是因为我们将潜在结果分解成了可以观测到的事实结果的期望和不能观测到的反事实结果的期望。为了简化符号,接下来令
π
=
P
(
T
=1)。由式(1.76)可知,ATE中无法从观测性数据中得到的部分就是带有反事实结果的
。所以要得到ATE的上下界,需要得到这一部分的上下界。由式(1.73)可以直接得到ATE的上下界,如式(1.77)所示:
这样就得到了一组ATE的上下界。它唯一需要的假设就是对潜在结果的范围的约束〔见式(1.73)〕,可以得到ATE的上下界〔见式(1.77)〕。数学基础好的读者可能已经发现,经过观测-反事实分解,能够将ATE的范围(即ATE上下界之间的差)缩小为(1 -π ) b-πa -(1 -π ) a + πb = b-a 。接下来为了更直观地体现这些上下界的范围,采用式(1.78)所示的数值设定作为一个例子:
根据这些数值可以由式(1.77)得出ATE的下界为:0.25×0.8-0.25×1-0.75×0.3=-0.275,其上界为:0.25×0.8+0.75×1-0.75×0.3=0.725。
2.非负单调状态反馈假设对ATE下界的影响
另一个常见的关于ITE取值范围的假设就是非负单调状态反馈假设(nonnegative monotonic treatment response),它意味着
。这个假设在很多场景下都是合理的,如可以保证处理变量为1一定是有益的情况。例如,为罪犯提供指导预审服务不会提高罪犯成为累犯的概率
[39]
。
有了非负单调状态反馈假设,就可以利用观测-反事实分解来收紧ATE的下界。我们可以证明在非负单调状态反馈假设成立的情况下,ATE≥0,证明如式(1.79)所示:
这里的不等式用到了
,即非负单调状态反馈假设。利用这个假设时,如果考虑式(1.78)中的设定,那么可以把ATE的范围从[-0.275,0.725]缩小为[0,0.725]。
类似地,如果做出非正单调状态反馈假设,即
。那么可以用观测-反事实分解得到ATE≤0,它也有助于缩小ATE的取值范围。
3.单调状态选择假设及它对ATE上下界的影响
下面介绍另一种常见的单调性假设,即单调状态选择(monotonic treatment selection)假设。单调状态选择意味着实验组中潜在结果的期望总是大于或等于对照组中潜在结果的期望。它的定义可以由式(1.80)给出:
符合单调状态选择假设的情况也有很多,比如,身体素质好的人更喜欢参加锻炼。单调状态选择假设可以得到如式(1.81)所示的ATE上界:
接下来证明它。由观测-反事实分解可以得到式(1.82):
其中不等式利用了单调状态选择假设〔见式(1.80)〕。那么用式(1.78)中例子的数值来看一下这个ATE上界能缩小多少ATE的取值范围呢?由ATE上界〔见式(1.81)〕可以得到,ATE∈[-0.275,0.5],比没有用单调状态选择假设时的上界小一些。
4.最优状态选择假设及它对ATE上下界的影响
下面介绍最优状态选择假设(optimal treatment selection)。最优状态选择假设意味着每个个体的处理变量的值都是最优的,即事实结果总是大于或等于反事实结果。最优状态选择假设可以用式(1.83)所示的两条规则来定义:
在现实生活中,也可以找到最优状态选择假设成立的场景。比如,一个水平很高的健身教练只会让那些适合进行高强度训练的人采取某种高强度的训练方式,而不会让普通人采取高强度的训练方式。那么可以根据最优状态选择假设〔见式(1.83)〕得到式(1.84)所示的两个期望的不等式:
由这两个不等式结合观测-反事实分解〔见式(1.76)〕,可以得到ATE的上界,如式(1.85)所示:
其中的不等式用到了潜在结果的范围 Y 1 , Y 0 ≥ a 和式(1.84)。类似地,可以利用式(1.84)中的第二个不等式和潜在结果的范围 Y 1 , Y 0 ≤ b ,得到式(1.86)所示的ATE下界:
那么可以计算这一对由最优状态选择假设带来的ATE上下界的范围 π E[ Y | T =1] -πa -(1 -π ) a -(1 -π )E[ Y i | T =0]= π E[ Y | T =1]-( 1-π )E[ Y i | T =0] -a 。用式(1.78)中的数值,可以由最优状态选择假设带来的ATE上下界为ATE∈[-0.225,0.2]。
其实,还可以用最优状态选择假设得到另外一组ATE的上下界。首先,基于最优状态选择假设的第二部分,即
,通过否定证明可以得到
,从而可以得到式(1.87):
其中,第一个等式可以由最优状态选择假设的第二部分得到,最后一个等式可以由刚才推导出的
得到。然后,与之前的推导方式相似,可以利用观测-反事实分解得到ATE的一个上界,如式(1.88)所示:
其中,不等式利用了刚刚推导出的式(1.87)和
Y
1
,Y
0
≥
a
。类似地,可以用最优状态选择假设的第一部分得到一个ATE下界。首先可以用否定证明得到
。然后可以相应地推出式(1.89):
将式(1.89)代入观测-反事实分解中,可以得到ATE下界,如式(1.90)所示:
这样就可以得到一对ATE的上下界
。用式(1.78)中的数值,可以计算得到这一对ATE上下界的值为ATE∈[-0.1,0.575],ATE的范围大小为0.675。这并不意味着这一对上下界总是比由式(1.86)得到的那一对上下界差,我们需要根据具体的情况而定。
总体来说,可以发现随着假设越来越强,得到的ATE的范围也越来越小。表1.1总结了根据本节各例中的数值计算出的各假设推导出的上下界的值。
表1.1 根据示例数值中各假设推导出的ATE上下界
5.隐藏混淆变量、可忽略性假设和ATE敏感性分析
下面介绍的内容依然会依赖于可忽略性假设,即
Y
1
,
Y
0
T
|
X
,
U
,其中
U
是隐藏混淆变量,目的是量化式(1.91)所示的两个评价器对ATE的估测的差:
其中,第一个评价器会得到ATE的基准真相,但因为没有观测到 U ,它并不能在实际中被使用。第二个评价器一般情况下会得到有偏差的估测。
接下来考虑式(1.92)所示的线性SCM,其中 X 和 U 均为一维随机变量,而 τ 是想要得到的ATE:
那么在这种SCM的设定下,如果利用评价器
,它的偏差是多少呢?可以得到式(1.93):
要证明这个结论,首先推导
中的期望E
X
[
Y
|
T
,
X
],如式(1.94)所示:
其中,第三个等式利用了
,这可以由假设的线性SCM〔见式(1.92))〕中的第一个结构方程得到。发现根据式(1.94)可以得到式(1.95):
所以可以下结论
。我们可以发现,根据如图1.12所示的因果图和假设的线性SCM,
α
U
和
β
U
正好可以代表隐藏混淆变量
U
所在的那条后门通路上,
U
对处理变量和结果变量的影响大小。
图1.12 一个典型的存在隐藏混淆变量 U 的因果图
在以上推导中,我们在很强的假设(线性SCM、没有噪声项、一维隐藏混淆变量)下能够精确地推导出评价器
的偏差。那么能不能把这些推导的结果推广到其他设定(如非线性SCM、有噪声项、多维隐藏混淆变量)呢?能否考虑与图1.12不同的情况呢?如在工具变量或者中介分析中出现隐藏混淆变量的情况下,能否量化隐藏混淆变量对标准的基于工具变量或者是中介分析的ATE评价器带来的偏差呢?在此不再详细介绍这些内容,有兴趣的读者可以自行查阅相关的文献,如文献[40]。