可有償投稿計量經濟圈,計量相關則可git
郵箱:econometrics666@sina.cn框架
全部關於因果推斷方法的do文件都放在社羣裏,能夠直接取出使用運行,也歡迎到因果推斷研究小組交流訪問.ide
計量經濟圈推薦函數
PSM-DID, DID, RDD, Stata程序百科全書式的寶典學習
RDD斷點回歸, Stata程序百科全書式的寶典ui
Generalized分位數迴歸, 新的前沿因果推斷方法3d
Heckman模型out了,內生轉換模型掌控大局blog
PSM傾向匹配Stata操做詳細步驟和代碼,乾貨it
咱們已經知道,匹配做爲一種因果識別方法,能夠經過構建「反事實場景」來減輕混淆因素。在二值處理效應中,咱們有控制組與處理組,但咱們並不能直接用控制組的結果變量減去處理組的結果變量,從而獲得所謂的處理效應。io
由於咱們沒法有效地排除掉其餘obsevable(可見的)因素會同時影響處理變量和結果變量,從而致使咱們不可以有效地識別出這個結果變量在兩組之間的變更是否應歸因於處理效應,畢竟其餘因素也能夠影響結果變量的變更。
咱們的解決辦法就是構建反事實框架,Matching方法是其中之一,而其中的傾向值得分匹配PSM最大的優點在於,他能夠把多維的那些協變量(混淆變量)轉化爲一個一維的傾向機率值,這大大減輕了咱們的匹配工做,尤爲是那些連續協變量的匹配問題。
今天咱們因果推斷研究小組,想要引薦一個「廣義傾向值得分匹配」方法,由於他可以處理連續處理變量。好比,你想要研究在因果推斷研究小組學習的時長,是否可以影響你未來文章發表的數量。這裏做爲處理效用的學習時長就是連續的,但咱們也可以把他放在反事實框架下進行因果識別。
在咱們平時的迴歸中,咱們傾向於直接作一個OLS迴歸,裏面放置一些會影響你未來文章發表數量的協變量。但那並非一個很是值得推薦的方式,由於裏面實際上存在着太多混淆因素影響二者的關係。咱們最好採用廣義PSM來進行因果識別,畢竟廣義PSM與PSM同樣也須要檢驗協變量在各區間的平衡性。
在操做廣義PSM的時候,原理也很簡單,由於咱們計量經濟圈的圈友已經很熟悉PSM的操做了。第一,先用pretreatment variables估計連續處理變量;第二,檢驗匹配後的這些協變量是否在各組(區間)是否平衡;第三,用獲得廣義傾向得分預測平均處理效應。注:這裏省略了不少具體步驟,下面這個具體操做示例,可讓你清楚地知道如何開展廣義PSM。
咱們須要研究,是否在某年得到彩票獎金的數量,與獎金得到後第六年我的的收入之間的關係。這裏的處理變量獎金的數量(prize)是連續的,結果變量是第六年我的的收入(year6)。
do文件和程序都會放在社羣,能夠直接進羣領取。
*把這個連續處理變量prize分割成三個區間
qui generate cut = 23 if prize<=23
qui replace cut = 80 if prize>23 & prize<=80
qui replace cut = 485 if prize>80
如今咱們來看看這三個區間的頻率分佈表
注意,此時咱們使用的是log轉換的這個連續政策處理變量(prize),由於原始的prize是不具備正態性的,存在嚴重的偏倚。
接下來,咱們借鑑平時使用到的PSM操做思路,先行用pretreatment variable(i.e., 就是這些變量在沒有政策出現的時候就已經存在了)來估計傾向得分值。這裏用到的混淆變量包括,年齡、性別、獲獎以前的工做狀態、獲獎以前第1-6年的收入、上了幾年高中和大學和獲獎的年份。這裏與咱們的binary處理變量的預測是不相同的,那邊使用的是probit或者logit,但這裏只能使用ols來進行預測,由於處理變量prize是連續的。
這個是咱們用reg作的ols迴歸結果,看看與上面的結果是否是幾乎如出一轍的。
咱們假設這個通過log轉化的連續處理變量prize服從正態分佈,從而根據他的極大似然估計值來估計其參數。如今咱們就須要用KS正態分佈檢驗來檢測咱們以前的假設是否是成立的,若是不成立咱們就須要用其餘分佈來進行擬合。這個結果顯示,迴歸後的disturbances符合正態分佈假定,所以咱們經過正態分佈構建的極大似然函數是合適的。
咱們經過迴歸獲得了預測的傾向值,這裏咱們叫作GPS,廣義傾向得分。咱們能夠看出他的最小值爲0.0003053,最大值爲0.4501086。後面咱們就須要用這些傾向得分去進行計算在我們以前分割的各個prize區間的平均處理效應。
咱們經過柱狀圖來看看估計的GPS。
下面就是檢驗那些預測連續處理變量lnprize的協變量是否是在通過GPS匹配後會在各個處理組區間裏變得沒有系統性差別。只有顯示沒有在各個區間出現系統的差別,那麼表明咱們的匹配至少在某種程度減輕了confounding bias。因爲咱們有三個處理組區間,因此會出現三個表格的檢驗,與我們的Table 1的顯著區間進行對比,咱們得出的結論:協變量知足平衡性要求。實際上,你壓根不用去與這個Table 1對比,由於結果天然會顯示或支持或不支持平衡性要求的。
接下來,咱們主要是估計劑量反應函數——dose response function(DRF),而後經過這個函數去獲得在咱們想要的每一個處理點的邊際處理效應,把這些點鏈接起來就是咱們這個DRF。
matrix define tp = (10\20\30\40\50\60\70\80\90\100) //這個表示,咱們想要在連續處理變量prize=十、20到100這10個點處的平均處理效應。
咱們估計結果變量year6的條件指望值——獲獎後第6年的收入,這裏是經過以下這種2次方和交叉項形式來獲得year6的條件指望值。注意:這裏Ti是我們的連續處理變量prize,Ri是我們的廣義傾向得分GPS。
下面這個表格就是最終的平均處理效應的結果(他被單獨放在你的directory)。咱們能夠看到在prize=10的時候,這個prize的處理效應爲-1157.582,而當prize=100的時候,這個prize的處理效應爲-66.023。這意味着,prize的處理效應降低得很是快,在這我的得到小獎的時候,他六年後的收入指望值爲16933,可在這我的得到大獎的時候,他六年後的收入指望值爲9298。那些收入低的人對收入的變更顯得很是敏感,而那些收入高的人對收入變更就顯得不那麼敏感了。