歡迎投稿(薦稿)計量經濟圈,計量相關都行git
郵箱:econometrics666@sina.cnweb
copyrights@計量經濟圈因果推斷研究小組, 歡迎加入交流學習, 值得青睞的博士研究羣體組織。do文件也放在我們的社羣。app
感謝各位,一旦成爲圈子的一員,但願咱們就珍惜緣分,互幫互助讓彼此都有所進步。框架
今天,咱們因果推斷研究小組給圈友引薦一下「政策評估中中介效應的因果分析(causal mediation analysis)」。ide
在通常的政策評估框架下,咱們只須要兩個主要變量——結果變量和政策處理變量,再加上一些協變量。而後經過反事實的框架來理清政策效應,即經過準實驗的方式來從新構建一個對照組和參與組樣本。學習
在咱們學習過程當中,常常用到的例子是:參與政府的就業培訓項目是否提升了咱們找到工做的機率。由於這個例子裏存在着嚴重的「自選擇(self-selection)效應」——可能有更大概率找到工做的個體更願意參與就業培訓項目,由於他們還能夠從中獲得更多的技能提高。3d
咱們爲了推斷出一個因果關係,而後經過使用匹配方法去修正樣本里隱含的內生性問題。通常地,咱們經過尋找那些會影響「是否參與就業培訓」這個決策的pretreatment variables(好比,性別,教育等這些已經改變不了的我的特徵變量),來得到一個傾向值,即這我的有多大概率會參與這個就業培訓項目。再經過不一樣的匹配方式來尋找可以匹配得起來的參與組與對照組,這樣就能夠獲得相對沒有那麼多混淆因素存在的因果關係。orm
如今,咱們想要研究一下究竟是什麼機制致使參與就業培訓項目的人更可以找到工做?而根據文獻或者直覺判斷,咱們認爲多是參與就業培訓項目會提升人的在找工做中的自信度,從而有了更高的概率去得到工做。因此,這裏面的中介變量就是人在找工做過程當中的自信度。blog
咱們須要驗證這個假設,那該怎麼着手呢?傳統地方法是以下方三個方程展現的那樣,其中Y是因變量或結果變量,T是政策處理變量(虛擬變量),M是中介變量。咱們依次作一個迴歸方程,前面兩個方程的β1和β2係數都顯著,那就須要着重看看第三個方程裏β3和γ是否是顯著了。若是γ顯著,但β3不顯著,那意味着M是我們想要尋找到的中介變量;若是γ顯著,但β3的係數降低不少,那也意味着M至少部分地成爲了T到Y的中介變量。開發
那麼,這種三步方程的形式是否是就可以造成一種先後因果的中介效應機制呢?答案是,須要知足幾個條件:方程是線性的,處理變量T與中介變量M沒有交互效應(下面這個表達形式),知足序列可忽略性(sequential ignorability)。
因此,通常而言這個sgmediation程序是不能用來處理結果變量Y或中介變量M是非連續性的方程。序列可忽略性是什麼意思呢?第一,咱們須要保證這個政策處理變量分配是隨機的,就是說咱們經過pretreatment variables預測的政策處理效應,須要與結果變量Y和中介變量M是彼此獨立的。第二,這個中介變量在上面的最後一個方程中是須要知足外生性假定的,即經過第二式中政策處理變量T和pretreatment variables獲得的中介效應M也知足隨機性。
若是不知足上面的三個條件,即便咱們開發了針對結果變量Y和中介變量M的logit/probit估計方程,那也不能說這是「中介因果效應」。好比,咱們如今用得比較多的binary_mediation, ldecomp等針對二值虛擬變量的中介效應分析(要麼Y,要麼M是二值虛擬變量)。
如今,咱們要介紹的這種可以識別中介因果效應的方法,最核心的優點在於他可以提供關於中介變量M是不是具備隨機性的敏感性分析。這個敏感性分析可以告訴咱們,一旦上面提到的一些關鍵性條件再也不成立時,我們的這些估計值會發生怎樣的改變。
示例:
clear
*Create simulated data
set seed 312789
set obs 2000
*Draw realizations of error terms and pretreatment covariate x assuming no correlation
matrix m = (0,0,0)
matrix sd = (1,1,1)
drawnorm e1 e2 x, n(`n') means(m) sds(sd)
*Generate realizations of treatment (T), mediator (M), and outcome (Y)variables
generate T = round(runiform(), 1) // 政策處理虛擬變量
generate M = 0.25+0.25T+0.25x+e1 // 中介變量能夠連續或二值
generate Y = 0.25 + 0.25T + 0.25M + 0.25*x + e2 // 結果變量能夠連續或二指
*中介效應分析,兩個方程不能同時爲probit
medeff (regress M T x) (regress Y T M x), mediate(M) treat(T) sims(1000) seed(1)
ACME就是中介效應0.067,而這個政策的直接效應爲0.297。
gen M1=1 if M>1 //生成一個虛擬變量爲後面probit迴歸使用
replace M1=0 if M<=1
gen Y1=1 if Y>0 // 生成一個虛擬變量爲後面probit迴歸使用
replace Y1=0 if Y<=0
medeff (probit M1 T x) (regress Y T M1 x), mediate(M1) treat(T) sims(1000) // M1是虛擬變量,Y是連續變量
medeff (regress M T x) (probit Y1 T M x), mediate(M) treat(T) sims(1000) // Y1是虛擬變量,M是連續變量
medsens (regress M T x) (regress Y T M x), treat(T) mediate(M) sims(100)
The results show that for the point estimate of the ACME to be zero, the correlation between e2 and e3 must be approximately 0.24.
這個圖是平均的因果中介效應與違反序列可忽略性假設的關係圖。
能夠參看這篇文章,再進行系統學習。須要do文件的,能夠前往計量經濟圈社羣直接領取。