《正文》web
當你看這篇文章的時候,先參看一下《IV和GMM相關估計步驟,內生性、異方差性等檢驗方法》,裏面有圈友提議詳細作一期動態面板命令方面的,因此我們就敲定了這篇工具類型文章。固然這篇文章不只僅講解了xtabond2,還有xtabond,xtdpdsys,xtdpd和xtdpdml這些動態面板Stata命令。只不過xtabond2能夠涵蓋其餘類型命令,因此咱們就着重解析了xtabond2。dom
xtabond2整體而言,在設計思路上能夠取代xtabond(difference GMM)和xtdpdsys(System GMM),由於他的語法更加靈活和複雜一些,能夠經過設置參數來作前面這兩個動態面板迴歸的操做。這些動態面板迴歸都尤爲適用於那些N比較大,T比較小的數據中。不過他們這三個的具體執行步驟是不一樣的。ide
A problem with the original Arellano-Bond estimator is that lagged levels are poor instruments for first differences if the variables are close to a random walk(xtabond使用的工具變量有時候表現很很差). Arellano and Bover (1995) describe how, if the original equation in levels is added to the system, additional instruments can be brought to bear to increase efficiency. In this equation, variables in levels are instrumented with suitable lags of their own first differences(而後xtdpdsys就改進了工具變量的選擇方式,不只包括levels還有differences).The assumption needed is that these differences are uncorrelated with the unobserved country effects(要求假定這些differenced事後的工具變量與不可見的個體效應不相關). Blundell and Bond show that this assumption in turn depends on a more precise one about initial conditions.工具
xtabond2的語法格式:ui
xtabond2 depvar(因變量) varlist(系列解釋變量:前置變量、嚴格外生變量、內生變量) [條件篩選] [迴歸區間][, level(置信區間) twostep(代表計算two step估計量而不是one step估計量) robust(若是前面選擇了twostep,那麼就必須選擇這個robust) cluster(用來從新命名Panel變量,就是說改變以前的id) noconstant(在level equations中不要常數項) small(用t統計量和F統計量,而不是用z統計量和Wald統計量來評估迴歸顯著性) noleveleq(若是有這個命令,那工具變量中就只有difference equations,沒有了level equations,所以就等同於作了difference GMM) orthogonal gmmopt [gmmopt ...] ivopt [ivopt ...] pca components(主成分部分) artests(自相關檢驗的最大階數) arlevels(標明自相關檢驗用於level equations) h(這個選項通常不影響大局) ]this
上面的gmmopt指的是, gmmstyle(varlist [, laglimits(對於transformed或者level equations,這個選項規定了工具變量選擇的先後日期) collapse(只爲每一個變量和滯後距離創造一個工具變量,而不是每個時間段都創造一個工具變量,減小了工具變量個數) orthogonal(這是用向後orthogonal deviations方法來創造工具變量,主要是與difference GMM連着用,比傳統的AR(1)difference GMM更加穩定無偏) equation({diff | level | both}) passthru split(僅僅用於system GMM和沒有規定equation(),主要是把工具變量分紅2組來作difference-in-Sargan/Hansen testing)])設計
上面ivopt指的是,ivstyle(varlist [, equation({diff | level | both}(表示哪一個equation用前面的那個工具變量)) passthru (這個命令在equation(diff)和nolevelleq用了以後使用)mz(工具變量中Missing值就換成0)])#注意的是,若是x變量是個前置變量,那做爲level equation的工具變量是能夠的,可是如今就不能用ivstyle選項,而是後面這個iv(x, eq(level))。3d
On balanced panels, GMM estimators based on the two transforms return numerically identical coefficient estimates, holding the instrument set fixed (Arellano and Bover 1995). But orthogonal deviations has the virtue of preserving sample size in panels with gaps. If some e_it is missing, for example, neither D.e_it nor D.e_i,t+1 can be computed(xtabond2在MATA程序中是用forward orthogonal deviations方法來消除固定個體效應,即一個第t期的變量減去t期以後全部日期的平均數值,這與咱們時經常使用的first difference不太同樣,由於這種方式保證不了全部日期都可以得到數值)。rest
Autocorrelation indicates that lags of the dependent variable (and any other variables used as instruments that are not strictly exogenous), are in fact endogenous, thus bad instruments(xtabond2會報告自相關檢驗狀況,若是有自相關狀況,那代表這些工具變量並很差). For example, if there is AR(s), then y_i,t-s would be correlated with e_i,t-s, which would be correlated with D.e_i,t-s, which would be correlated with D.e_i,t.component
So for one-step, robust estimation (and for all two-step estimation), xtabond2 also reports the Hansen J statistic, which is the minimized value of the two-step GMM criterion function, and is robust. xtabond2 still reports the Sargan statistic in these cases because the J test has its own problem: it can be greatly weakened by instrument proliferation (xtabond2會報告Hansen J統計指標和Sargan指標來檢驗過分識別問題)。
To compensate, xtabond2 makes available a finite-sample correction to the two-step covariance matrix derived by Windmeijer (2005). This can make two-step robust estimations more efficient than one-step robust, especially for system GMM (xtabond2反正用了一些方式讓他的迴歸更加有效率和穩健)。
Xtabond2操做示例:
GMM估計包括一步(One-Step)和兩步(Two-Step)的GMM。兩步估計的權重矩陣依賴於估計參數且標準差存在向下偏倚,並無帶來多大的效率改善且估計量不可靠,一步估計量儘管效率有所降低但它是一致的,於是在經驗應用中人們一般使用一步GMM估計。理論上,一步系統廣義矩估計(One-StepSystemGMM)利用了比一步差分廣義矩估計(One-stepDifference-GMM)更多的信息,前者能夠解決後者不能解決的內生性和弱工具變量問題,於是前者比後者的估計結果更有效。Blundell and Bond利用蒙特卡羅模擬實驗也證明,在有限樣本下,系統GMM比差分GMM估計的誤差更小、效率也有所改進。
>use http://www.stata-press.com/data/r7/abdata.dta
>xtabond2 n l.n l(0/1).(w k) yr1980-yr1984, gmm(l.n w k) iv(yr1980-yr1984, passthru) noleveleq small
是檢驗擾動項的差分是否存在一階與二階自相關,以保證GMM的一致估計,通常而言擾動項的差分會存在一階自相關,由於是動態面板數據,但若不存在二階自相關或更高階的自相關,則接受原假設「擾動項無自相關」。圖片
Arrellano-Bond test for AR(1/2) in first differences,是檢驗擾動項的差分是否存在一階與二階自相關,以保證GMM的一致估計,通常而言擾動項的差分會存在一階自相關,由於是動態面板數據,但若不存在二階自相關或更高階的自相關,則接受原假設「擾動項無自相關」。
對於最下面的這些Sargan test of overid. restrictions和Difference-in-Sargan tests of exogeneity of instrument subsets,原假設是這些instruments valid, 所以p不顯著,不reject原假設就是好的具體見這篇文章Roodman 2008 revised Note on too many instruments.pdf.pdf
兩步GMM會嚴重低估迴歸係數的標準偏差;當標準偏差很小的時候,迴歸係數的顯著性檢驗固然是拒絕的(例如p<0.05)。因此當兩步GMM沒有糾正這個誤差的時候,一般獲得的迴歸係數都是很是顯著的(例如p<0.01或者p<0.001)。
可是這個結果是有很大的偏差的,因此兩步GMM必須經過加vce(robust)糾正這個偏差。如下那個論文專門討論了這個問題。所以,兩步GMM必須糾正這個偏差,在目前已經算是一個共識了。
> xtabond2 n l.n l(0/1).(w k) yr1980-yr1984, gmm(l.n w k) iv(yr1980-yr1984, mz) robust twostep small h(2)
以上的Sargan檢驗拒絕了overidentification restrictions,可是Hansen檢驗失敗拒絕overidentification restrictions,多是由於Hansen檢驗比Sargan檢驗更穩健。例如,在異方差狀況下,Sargan檢驗不具備卡方分佈,可是Hansen檢驗卻具備卡方分佈,所以若是這個問題出現了,那Sargan可能錯誤地拒絕原假設。不過,像這種有不少工具變量的估計,其餘的問題也徹底可能出現,從而致使上面的結果出現。
關於工具變量的選擇問題,能夠看看下方的合併圖,一個是以differenced equations做爲工具變量,另外一個是以level equations做爲工具變量。
xtabond2 n L.n L(0/1).(w k) yr1978-yr1984, gmm(L.(w k n), collapse) iv(yr1978-yr1984, eq(level)) h(2) robust twostep ##經過collapse選項,咱們減小了工具變量的數目,這樣有利於作諸如overidentification 檢驗。
xtabond2 n w cap [pw=_n], iv(cap k ys, eq(level)) iv(rec, eq(level)) cluster(id year) h(1) # Cluster主要考慮組內(好比以id爲組,year爲組)相關問題。
xtabond2是默認把ivstyle裏面的變量都取滯後項同時做爲差分、水平方程的工具變量;xtdpdsys默認只用於差分方程,而且,xtdpdsys將沒有設定爲內生或先決變量的都自動做爲外生變量,將其滯後項用做工具變量估計差分方程;
xtabond2中能夠有一部分在前面的迴歸變量中列出,但既不列入gmmstyle,也不列入ivstyle,這樣就不參與差分和水平方程的估計了(主要是一些滯後項)。
xtdpd的靈活性基本跟xtabond2同樣,但更加簡潔,就是能夠直接、分別地設定差分估計和水平估計中採用gmm形式(一個多列矩陣)和iv形式(一個包含自身滯後的列向量)的變量。
webuse abdata, clear
xtabond2 n L.n, gmm(n, laglimits(2 .)) small h(2)
用xtabond2作了一個與xtdpd相同的迴歸,不過xtabond2報告的檢驗更多,而xtdpd須要經過下一步estab來作檢驗。
下面咱們用xtdpd也能夠獲得同樣的迴歸結果,請看劃線部分與上圖對比。
xtdpd n L.n, dgmm(n, lagrange(2 .)) lgmm(n, lag(1)) vce(r)
還想要介紹一個相似的動態面板迴歸命令xtdpdml(似然法估計的)
Paul Allison, Enrique Moral-Benito, and Richard Williams are currently working on a project entitled "Dynamic Panel Data Modeling using Maximum Likelihood." Panel data have many advantages when trying to make causal inferences but can also be difficult to work with. We show that ML provides an alternative to widely used GMM methods such as Arellano-Bond and is superior in many cases. We have prepared a Stata command called xtdpdml that greatly simplifies the process of estimating our models.
《END》