中介效应

中介效应

1. 中介效应的定义

中介效应是指原因通过一个或几个中间变量影响结果,这种中间变量被称作中介变量。当我们探讨自变量 X 对因变量 Y 的影响时,可能需要通过一个或多个中间变量 M 来传导,这里的 M 就是中介变量(mediator),发挥的是中介效应。

graph LR
D --α1--> Y
graph LR
D --β1--> Y
D --γ1--> M
M --β2--> Y

一组因果关系及其作用渠道可以用如下结构模型来刻画:

其中,Y 是结果变量,D 是处理变量,M 是中介变量。(1) 式表示 D 对 Y 有因果影响;(3) 式表示 D 对 M 有因果影响;(2) 式一方面表示 M 对 Y 有因果影响,从而建立起了 D→M→Y 的因果链条,另一方面表示在 M 之外,D 还可能独立影响 Y。 可称 α1 为 D 对 Y 的总效应,β1 为 D 对 Y 的直接效应,β2γ1 为 D 对 Y(经由 M 中介) 的间接效应,显然三者存在如下关系: 例如考虑央行存款准备金率对企业融资成本的影响,需要通过商行信贷供给来传导,即准备金率变动改变了商行的信贷供给量,从而导致企业融资难度变化和融资成本变化。

graph LR
央行存款准备金 --> 企业融资成本
央行存款准备金 --> 商行信贷供给 --> 企业融资成本

这个时候存在一个问题:我们怎么判断作为中介变量 M 对 Y 的影响是承担了全部的中介传导作用还是部分的中介传导作用呢?此时,存在两种情况:完全中介部分中介

举个生活中的例子,学生听老师讲课,有一部分知识是学生直接听老师讲的,有一部分是由于翘课、玩手机等原因没听到,而听室友转述的,这里室友起的作用就是中介效应;当学生偶尔翘课时,那么室友就是部分中介效应,而当学生从来不去上课、只能听室友转述时,就是完全中介效应

2. 中介效应的检验

  1. 逐步法( Causal Steps Approach )

Baron and Kenny 提出的一整套检验流程。他们认为,中介效应的存在需要满足四个条件:

① α1不为零;

② γ1不为零;

③ β2 不为零;

④ β1为零,或至少其绝对值小于 α1

相应地,整个检验流程由四个先后步骤组成:

① 估计( 1 ) 式,统计上显著的 意味着存在可以“被中介”的效应

② 估计 ( 3 ) 式,统计上显著的 意味着处理 D 影响了中介变量 M

③ 估计( 2 ) 式,统计上显著的 意味着中介变量 M 影响了结果 Y

④ 如果 在统计上不显著,则意味着 M 是 D 与 Y 关系的“完全中介”,否则意味着 M 是 “部分中介”

上述 Baron 和 Kenny 的逐步法,第一步检验的是 D 对 Y 的总效应;第二步和第三步实际上是检验系数乘积的显著性(即检验 ),通过依次检验系数 β2 和 γ1 来间接进行;第三步检验用来区分完全中介还是部分中介。

系数乘积的检验(即检验 )是中介效应检验的核心,但是上述的逐步法的逐步检验实对系数乘积的间接检验如果检验结果是 , 就可以推出 ,虽然该推理在代数学上不存在逻辑上的问题,但是在统计检验的研究发现用依次检验来检验 ,第一类错误率较低,低于设定的显著性水平(如 0.05),所以如果我们想要通过上述逐步发逐次检验结果 β2 和 γ1 都显著,已经足够支持所要的结果,即 显著。但依次检验的检验力(power)也较低,即系数乘积实际上显著而依次检验比较容易得出不显著的结论。

方程(1)的系数 显著是逐步检验回归系数方法的基础,但是这一点也受到了后来研究的挑战,因为在有些情况下 不显著恰恰是受到了中介效应 M 的影响。例如,工人的智力(D)按理说应该和工人在产线中犯得错误数量(Y)反向相关,但是数据呈现两者之间的并不相关,也就是方程(1)的系数 不显著。经过分析,发现是工人在工作中的无聊程度(M)在起作用。在所有其他条件相同的情况下,越聪明的工人会表现出越高的无聊水平,D 和 M 正相关,方程(3)的系数 符号为正;而无聊与错误的数量呈正相关,M 和 Y 正相关,方程(2)的系数 β2 符号为正;越聪明的工人将犯越少的错误,即 D 和 Y 负相关,方程(2)的系数 符号为负。这样虽然中介变量在发挥作用,总效应 却因为直接效应 和间接效应 的相互抵消而不再显著,即所谓的抑制(遮掩)模型。在实践中直接和间接效应完全抵消的情况并不常见,但是在直接和间接效应大小相似或符号相反必然存在,甚至会影响因变量和自变量之间的整体关系,所以逐步检验法可能会错过一些实际存在的中介效应。

graph LR
智力--α1>0-->犯错
graph LR
智力 --β1<0--> 犯错
智力 --γ1>0-->无聊--β2>0-->犯错
  1. Sobel Test 法

模拟研究发现,Sobel 法的检验力高于依次检验回归系数法 (MacKinnon et al., 2002; 温忠麟等,2004),也就是说 Sobel 可以检验出比前者更多的中介效应,但如果两种方法检验的结果都显著,依次检验结果要强于 Sobel 检验结果 (温忠麟等,2004)。

通过 Sobel Test 来检验 。原理是令 分别表示 的标准误估计, 的标准误估计可以近似为:

由此构造统计量 ,渐进服从标准正态分布。但这个检验统计量存在一个很严格的假设 : 必须要服从正态分布,就算其中每一个系数都是正态分布,其乘积通常也不是正态的,因而上面标准误 的计算只是近似的,可能很不准确,所以 Sobel Test 检验也存在无法满足保证系数乘积服从正态分布的严格假设的局限性,下面采用自抽样 (Bootstrap) 法来得到间接效应的自抽样分布,进而计算其自抽样标准误和自抽样置信区间。

  1. Boostrap 自抽样法

通过 Bootstrap的检验假设也是 。Shrout and Bolger 建议使用自抽样(Bootstrap)方法得到间接效应的自抽样分布,进而计算其自抽样标准误和自抽样置信区间。通过对样本进行有放回抽样的方法使得到更为准确的标准误。

模拟研究发现,与其他中介效应检验方法相比, Bootstrap 具有较高的统计效力,Bootstrap 法是公认的可以取代 Sobel 方法而直接检验系数乘积的方法

3. 中介效应的反思

假定 D 是一种随机处理,那么我们可以说由于 D 的发生对于 Y 所产生的效应其实是一种随机发生的事情,不和任何变量相关,即存在 ) 和 成立,因此,(1)式和(3)式的普通最小二乘估计分别能够得到 α1 和 γ1 的一致估计: 但是对于(2)式的参数是否可以保证一直估计是需要讨论的,在(2)式的普通最小二乘估计中,根据 Frisch-Waugh-Lovell 定理,有: 其中,第二个等号用到 以及 根据(1)可知,可知 。由于上述假设可知,(3)式能够保持参数 的一致估计,所以有:

因此,只有当 ,即不存在同时影响 M 和 Y 的不可观测因素,不存在从 Y 到 M 的反向因果,且 M 不存在测量误差时,简言之,只有当 M 也可以外生随机干预时,β1 和 β2 的普通最小二乘估计才是一致的。如果处理变量 D 是随机的但中介变量 M 不是随机的,那么通过估计(1)式可以得到处理 D 对结果 Y 的因果总效应 ,通过估计(3)式可以得到处理 D 对中介 M 的因果效应 ,但(2)式的最小二乘估计是不可靠的,无法得到处理对结果的直接因果效应( β1 ) ,也无法得到中介对结果的因果效应( β2 ) ,从而无法得到处理对结果的间接因果效应( ) 。

当只有 D 具有随机处理时,无法识别直接效应和间接效应;只有当研究者可以对中介变量进行外生干预时,才有可能识别。所以我们本来在设计的时候想的应该是图(a)这样的情形,但是实际上真正通过中介传导的机制并不是这样,可能是图(b)甚至是图(c)。

image-20221128101943648

其实,在经济学的因果推断中使用中介效应最大的缺陷是:我们没有办法去在假定了处理变量 D 是外生的情况下,还可以保证中介变量 M 也是外生的。那是因为当我们假定了处理变量 D 是随机的情况下,确定了(3)式中的 的关系,而我们想要保证(2)式的参数 一致被估计出来,就要存在有 但是中介变量 M 肯定是会和 存在关系的,而 M 又和 存在相关关系(因为我们没有假设中介变量也是外生的),所以使用中介效应时候肯定是会存在一个无法保证所有参数都被一致估计的情况,除非可以使用其他的方法解决了中介变量 M 是一个外生变量的情况,比如是用工具变量,但是一篇论文两个很核心的变量同时都用工具变量会使得工作量很大,并且好的工具变量并不好想到。

4. 经济学中的中介效应分析

中介效应检验的适用前提是:识别 D 对 M 和 Y 的因果关系比较容易,同时识别 M 对 Y 的因果关系也比较容易。实现中介效应的前提是要满足这两个前提假设,但是对于观测性数据研究,真实的数据生成过程纷繁复杂,是很困难的,所以这是为什么中介效应检验很少出现在经济学经验研究中。

现阶段经济学中对于中介效应分析一种常见的做法是,提出一个或几个中介变量 M,这些变量和 Y 的因果关系在理论上比较直观,在逻辑和时空关系上都比较接近,以至于不必采用正式的因果推断手段来研究从 M 到 Y 的因果关系;然后仅看 D 对 M 的影响,即只考察(1)式和(3)式,而不考察(2)式,从而避免正式区分出在间接效应之外是否还有无法解释的直接效应。

有少量研究在一定程度上借鉴了中介效应检验逐步法的思路,考察 Y 对 D 的回归中加入中介 变量 M 后 D 的系数估计绝对值是否减少,以此论证 M 是否为 D 作用于 Y 的渠道。在“渠道检验”(Test of the Potential Channels)中指出,要使这些可能的中介变量 M 能够成为作用渠道,除了要和处理变量 D (核心解释变量) 相关之外,还必须和被解释变量 Y 相关,在 Y 对 D 的回归中控制这些中介变量 M 后,D 的系数估计绝对值应该会下降,因为存在在我们加入了中介变量 M 作为控制变量后必定会吸收部分 D 对 Y 的效应。不过一旦认识到这种做法的固有缺陷,就不会过于强调论证力度,而只是将其视作某种试探性的证据。下面举两个例子:

第一个例子来自 Alesina and Zhuravskaya(2011)。这是一项跨国研究,构造了每个国家的族群分散指数,发现分散指数越高的国家,政府的治理质量越低。用周边国家的族群分布来预测每个国家的族群分布,从而构造出一国分散指数的工具变量,识别了族群分散对政府治理质量的因果影响。提出了因果关系的三个作用渠道,即是中介变量 M :人际信任、国家凝聚力和族群投票行为,同样用工具变量方法识别了分散指数 D 对这三个中介变量 M 的因果影响。结果表明:当控制人际信任后,分散指数的系数估计绝对值确实大幅下降,而且人际信任的系数显著为正;当继续控制另外两个中介变量后,分散指数的系数估计不再发生变化并且两个中介变量的系数并不显著。他们认为,这一结果意味着人际信任是将族群分散和政府质量联系起来的重要渠道,但不足以断定国家凝聚力和族群投票行为就不是额外的渠道,因为这三个变量是高度相关的,因此很难把每个渠道彼此分离。由此看出,他们在识别因果关系的作用渠道时,仍然更多地依赖于中介变量对处理变量的回归结果,而只是将诸如(2)式的回归结果作为一个旁证。

第二个例子来自 Persico et al.(2004)。利用英国和美国青少年大型调查数据发现,在控制人口统计学、家庭背景和个人健康智力等特征后,青少年时期的身高与成年的工资水平显著正相关。随后提出了一系列潜在的作用渠道:职业选择、自尊、社交活动、能力测试。他们没有把这些中介变量对青少年身高进行回归,而是将其作为控制变量依次控制在工资水平对青少年身高的回归中。当控制职业选择和自尊后,青少年身高的系数估计没有发生大的改变,因而认为这两个变量的中介作用有限。当控制社交活动数量后,青少年身高的系数估计值下降了近 40% 且不再显著,而社交活动的系数估计显著为正。控制能力测试成绩也得到了类似的结果。但他们认为必须谨慎地解释这些结果。社交活动本身是一种主动选择,而该文中并没有对这一选择进行正式的建模,因此不能认为回归结果反映了社交活动对工资的因果效应。在解释能力测试与工资水平的显著正相关时,也十分小心地用辅 助证据来论证这种相关性不是出于先天智商的混淆影响,而确实可能说明身高会影响青少年经历。

中介效应分析应该服务于何种目的的理解:究竟是在度量的意义上还是在解释的意义上考察中介效应?如果是前者,那么中介效应本身就是研究的主题,就是我们要求讨论的 β2γ1 ;如果是后者,那么研究中介效应只是为了更好地理解处理与结果之间的因果关系,研究是否存在中介效应以及传导的机制是怎样的,即是研究中介是否显著产生影响。

5. 中介效应分析的操作建议

(1)停止使用中介效应的逐步法检验,更不需要估计间接效应的大小并检验其统计显著性。把研究的重心重新聚焦到如何提高 D 对 Y 的因果关系的识别可信度。

(2)根据经济学理论,提出一个或几个能够反映 D 对 Y 的作用渠道的中介变量 M, M 对 Y 的影响应该是直接而显然的,采用和第一条中同样的方法识别 D 对 M 的因果关系。

(3)尽量避免提出与 Y 的因果关系不明显、因果链条过长或者明显受到 Y 反向影响的中介变量 M 。有时,考察 Y 对 M 的回归也许是有益的,但要记住这只是一条相关性证据。

(4)在绝大多数时候,做好前两条就足够了。如果要考察 D 对 Y 的效应在多大程度上可以被 M 这一作用渠道所捕捉,可以尝试在 Y 对 D 的回归中控制 M,但必须先弄清楚这种考察对理解 D 对 Y 的因果关系有何帮助,并审慎解释回归结果。如有可能,尽量论证这一结果受到 M 的潜在内生性的影响是有限的。

6. 中介效应分析示例

数据基本描述:这是一组有关大型百货公司销售人员的数据,我们用来讨论经理的激励与员工工作表现之间的关系,基本假设是:经理的激励 (perceived support from managers) 可能通过影响员工的工作满意度 (job satisfaction) 而影响员工的工作表现 (job performance)。

graph LR
领导的支持Support --> 工作表现Perform
领导的支持Support --> 工作满意度Satis --> 工作表现Perform
use "http://www.stata-press.com/data/r15/gsem_multmed", clear

support:经理的激励,自变量,连续变量 perform:员工的工作表现,因变量,连续变量 satis:员工的工作满意度,中介变量,连续变量

  1. 逐步回归法

逐步回归法分为三步:

reg perform support    //分析 D 和 Y 之间的关系
reg satis support      //分析 D 和 M 之间的关系
reg perform satis support     // 加入 M,看 D 和 Y 之间的关系
  • 第一步:reg support peform 结果显示员工的工作表现与经理的激励显著相关,回归系数 c=0.822,可以进行下一步检验。
reg perform support    // 分析 D 对 Y 的影响效应c
/*------------------------------------------------------------------------------
     perform | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
     support |   .8217557   .0404849    20.30   0.000     .7423427    .9011687
       _cons |    4.99836   .0204746   244.13   0.000     4.958198    5.038522
------------------------------------------------------------------------------*/
  • reg satis perform 回归结果显示, 经理的激励显著增加员工的工作满意度,系数 a=0.229。
reg satis support      // 分析中介 D 对 M 的影响效应a
/*------------------------------------------------------------------------------
       satis | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
     support |   .2288945   .0305251     7.50   0.000     .1690181    .2887709
       _cons |    .019262   .0154376     1.25   0.212    -.0110195    .0495436
------------------------------------------------------------------------------
  • reg perform satis support 在加入工作满意度后,员工的表现和经理激励之间的显著关系没有发生变化,但是系数由第一步的 c=0.822 减小到 c’=0.616,员工的工作满意度和员工的表现之间显著相关,系数 b=0.898,说明工作满意度在经理激励和员工表现之间起到了部分中介的作用。
reg perform satis support   // 加入中介 M 后,看 D 对 Y 的效应c'
/*------------------------------------------------------------------------------
     perform | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
       satis |   .8984401   .0252156    35.63   0.000     .8489785    .9479017
     support |   .6161077   .0303447    20.30   0.000      .556585    .6756303
       _cons |   4.981054    .015074   330.44   0.000     4.951486    5.010622
------------------------------------------------------------------------------
  1. sobel test

进行中介效应的 sobel test 需要安装外部命令包,可通过人大经济论坛下载

命令会自动检验变量之间的关系路径,并提供中介效应在总效应中的占比和显著值。*如果需要加入控制变量,sgmediation y, mv(m) iv(x) cv(c)

sgmediation perform, mv(satis) iv(support)

/*Model with dv regressed on iv (path c)     //自动检验经理激励和员工工作表现之间的路径,形成路径 c,逐步回归的第一步(总效应D->Y)

      Source |       SS           df       MS      Number of obs   =     1,500
-------------+----------------------------------   F(1, 1498)      =    412.00
       Model |  258.999482         1  258.999482   Prob > F        =    0.0000
    Residual |  941.695489     1,498  .628635173   R-squared       =    0.2157
-------------+----------------------------------   Adj R-squared   =    0.2152
       Total |  1200.69497     1,499  .800997312   Root MSE        =    .79287

------------------------------------------------------------------------------
     perform | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
     support |   .8217557   .0404849    20.30   0.000     .7423427    .9011687
       _cons |    4.99836   .0204746   244.13   0.000     4.958198    5.038522
------------------------------------------------------------------------------

Model with mediator regressed on iv (path a)    //检验中介变量(工作满意度)与自变量(经理激励) 之间的关系,形成路劲 a,逐步回归的第二部(D->M)

      Source |       SS           df       MS      Number of obs   =     1,500
-------------+----------------------------------   F(1, 1498)      =     56.23
       Model |  20.0948214         1  20.0948214   Prob > F        =    0.0000
    Residual |  535.351023     1,498  .357377185   R-squared       =    0.0362
-------------+----------------------------------   Adj R-squared   =    0.0355
       Total |  555.445844     1,499  .370544259   Root MSE        =    .59781

------------------------------------------------------------------------------
       satis | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
     support |   .2288945   .0305251     7.50   0.000     .1690181    .2887709
       _cons |    .019262   .0154376     1.25   0.212    -.0110195    .0495436
------------------------------------------------------------------------------

Model with dv regressed on mediator and iv (paths b and c')  //加入中介变量satis,再次检验经理支持对员工工作表现的影响c',逐步回归的第三步(在中介M下的D->Y)

      Source |       SS           df       MS      Number of obs   =     1,500
-------------+----------------------------------   F(2, 1497)      =   1015.21
       Model |  691.131957         2  345.565979   Prob > F        =    0.0000
    Residual |  509.563014     1,497  .340389455   R-squared       =    0.5756
-------------+----------------------------------   Adj R-squared   =    0.5750
       Total |  1200.69497     1,499  .800997312   Root MSE        =    .58343

------------------------------------------------------------------------------
     perform | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
       satis |   .8984401   .0252156    35.63   0.000     .8489785    .9479017
     support |   .6161077   .0303447    20.30   0.000      .556585    .6756303
       _cons |   4.981054    .015074   330.44   0.000     4.951486    5.010622
------------------------------------------------------------------------------

Sobel-Goodman Mediation Tests     ////进行 Sobel 检验,原假设 H0 : ab=0

                     Coef         Std Err     Z           P>|Z|
Sobel               .20564799    .02802571   7.338      2.172e-13  //关注这个部分的P值,这里的 P<0.05 则代表拒绝原假设,中介效应成立
Goodman-1 (Aroian)  .20564799    .02803628   7.335      2.216e-13
Goodman-2           .20564799    .02801514   7.341      2.127e-13

                    Coef      Std Err    Z          P>|Z|
a coefficient   =  .228894   .030525   7.49857    6.5e-14
b coefficient   =   .89844   .025216   35.6304          0
Indirect effect =  .205648   .028026   7.33783    2.2e-13
  Direct effect =  .616108   .030345   20.3036          0
   Total effect =  .821756   .040485   20.2979          0

Proportion of total effect that is mediated:  .25025442   //这里 Stata 直接帮我们计算出中介效应在总效应中的占比 25.03%
Ratio of indirect to direct effect:           .3337858
Ratio of total to direct effect:              1.3337858*/
  • 经理激励对员工工作表现的总效应,等于直接效应 0.616 加上间接效应0.229×0.898=0.206,总效应为 0.616+0.206=0.822;
  • 中介效应的 Sobel 检验 P 值小于 0.05,说明中介效应成立;
  • 计算出的中介效应在总效应中占比为 25.03%。
graph LR
D--0.822-->Y
graph LR
D--0.616-->Y
D--0.229-->M--0.898-->Y
  1. Bootstrap 检验
bootstrap r(ind_eff) r(dir_eff), reps(200) : sgmediation perform, mv(satis) iv(support) // bootstrap 方法首先计算出直接效应 bs_1 和间接效应 bs_2
/*outcome:
Bootstrap results                                        Number of obs = 1,500
                                                         Replications  =   200

      Command: sgmediation perform, mv(satis) iv(support)
        _bs_1: r(ind_eff)   //间接效应 = 0.206
        _bs_2: r(dir_eff)   //直接效应 = 0.616

------------------------------------------------------------------------------
             |   Observed   Bootstrap                         Normal-based
             | coefficient  std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
       _bs_1 |    .205648   .0258528     7.95   0.000     .1549775    .2563185
       _bs_2 |   .6161077   .0319977    19.25   0.000     .5533933     .678822
------------------------------------------------------------------------------


estat bootstrap, percentile bc  //这里计算直接效应和间接效应的置信区间

Bootstrap results                               Number of obs     =      1,500
                                                Replications      =        200

      Command: sgmediation perform, mv(satis) iv(support)
        _bs_1: r(ind_eff)
        _bs_2: r(dir_eff)

------------------------------------------------------------------------------
             |    Observed               Bootstrap
             | coefficient       Bias    std. err.  [95% conf. interval]
-------------+----------------------------------------------------------------
       _bs_1 |   .20564799   -.002336   .02585275    .1469985   .2479751   (P)
             |                                       .1568943    .255744  (BC)
       _bs_2 |   .61610768  -.0025643   .03199771    .5511098   .6797884   (P) //需要关注这个地方的置信区间,显然不包含0 ,中介效应成立
             |                                       .5527368   .6811376  (BC)
------------------------------------------------------------------------------
Key:  P: Percentile
     BC: Bias-corrected*/