可有償投稿計量經濟圈,計量相關則可git
郵箱:econometrics666@sina.cn框架
全部計量經濟圈方法論叢的do文件都放在社羣裏,能夠直接取出使用運行,也歡迎到研究小組交流訪問.ide
今天,咱們"微觀計量研究小組"將爲計量經濟圈的圈友引薦「雙欄模型」(double hurdle model)。這個模型其實是「託賓模型」(Tobit model)的通常化,由於Tobit是雙欄模型的一個特例。函數
咱們在計量經濟學中常常碰到歸併數據(censored data),即這個因變量的每一個觀測點都有數據,只不過咱們把超過一些臨界值的數據歸併到這個臨界值而已。好比,對於一我的的體重觀測數據,咱們在低於250KG的那些區間裏都列出實際觀測值,而對於超過250KG的那些觀測值統必定爲250KG,這就是所謂的右端歸併。又好比,咱們想要記錄一我的每週工做小時數,那麼這個變量的觀測值最小爲0,因此這就形成了一個左端歸併。假若咱們又規定把這我的每週工做小時數超過40的統一記錄爲40,那這個變量就出現了雙向歸併,這就是所謂的「Two-limit tobit」。orm
我們常常用到的是Tobit模型,在那個每週工做小時數的模型裏,咱們須要先預測這我的是否是工做的,用一個簡單的logit或者probit就能夠完成;這以後,咱們就須要對那些工做的個體(即工做小時數大於0)再經過一個截斷正太分佈(Truncated normal distribution)去估計他們的具體工做小時數。然而,Tobit模型最大的缺陷在於,他在這兩個部分的模型中(probit和truncreg)中使用的是徹底相同的參數。這就暗含着,不幹工做的人與幹工做的人沒有什麼不一樣,否則,怎麼可以使用同樣的解釋變量到兩個模型裏。Tobit的似然函數爲下式所示:blog
爲了讓Tobit模型變量更加靈活一些,Cragg等人就構建了「雙欄模型」,也就是咱們如今熟知的「Cragg hurdle model」。這個模型容許不一樣的解釋變量出如今probit這個二值選擇模型和以後的截斷迴歸模型。這至關於,咱們用一系列變量A(#, #)去估計這我的是否幹工做;而對於幹工做的這一部分人,咱們又用另外一系列變量B(#, #)去估計這我的到底每週幹多長小時數。這樣的靈活性安排有一個假設,即這兩個模型估計後留下來的偏差是不相關的,即暗含幹工做的人是不一樣於不幹工做的人。雙欄模型的似然函數以下:ci
在這裏,咱們須要注意把他與Heckman自選擇模型區分開,儘管他們都有一個選擇方程(selection equation)和後面的線性迴歸方程。注:咱們以前講過Extended regression model,在那個框架裏,容許離散變量裏出現自選擇行爲,即Heckman自選擇行爲也能夠運用到離散變量裏。Heckman模型是用來處理樣本選擇誤差帶來的內生性問題,即因變量出現缺失值(missing value)的狀況是因爲個體的自選擇行爲。好比,咱們去發放調查問卷詢問關於個體鍛鍊狀況和身體健康情況。但是,咱們並不能收回全部的調查問卷,而且那些沒有收回的問卷是這個個體根據自身健康情況而作出的選擇行爲,即他們可能因爲自身健康情況差而不肯意把問卷交回來。it
雙欄模型可以用於如下個體決策行爲中:給慈善機構捐款,菸酒消費量,志願服務時間和對耐用消費品的需求。若是你不肯定是否是應該使用雙欄模型,那你能夠在心中問本身一個問題:「是否是有些人不捐款,不買菸酒,不志願服務,不購買耐用消費品?」這裏仍是一些特殊例子,都屬於左端歸併。上面說起到,數據還存在右端歸併,所以在實際研究過程當中咱們須要把"歸併"一詞理解好。io
注:雙欄模型在文獻中主要用於Count data,即那些因變量知足泊松分佈或者負二項分佈的情形(overdispersed data)。除此以外,雙欄模型也主要是用於左端0處歸併的情形,即全部觀測值都是0和正數的數據類型。而對於連續性變量而非計數型變量,文獻中有專門的程序去處理而且命名爲「二部分模型」(Two-part model)。table
下面咱們來作一個具體示例,來對比Tobit模型與雙欄模型的差別。
背景:咱們想要研究一我的天天鍛鍊的時長影響因素:年齡、吸菸狀況、與最近體育館的距離,是否單身(結婚)。可是,這裏的因變量——鍛鍊時長存在左端歸併的現象,由於這我的頗有可能不鍛鍊身體。所以,第一步,咱們須要經過一些變量來預測這我的是否參與身體鍛鍊活動,包括「天天工做時長」、「上下班的路程」和「年齡」。而後,咱們再用上面說起的變量(如,年齡、吸菸狀況)去估計天天的鍛鍊時長。
下面這個圖顯示,有43.9%的個體壓根不參與身體鍛鍊活動,這個比例是很大的了。此處的因變量機率分佈不適合使用簡單的OLS進行迴歸。適合使用Poisson分佈去擬合,但在0這個點上存在很大樣本量,所以咱們打算用一個單獨的方程去擬合0點處的數值。
下面這個表展現了雙欄模型的迴歸結果,hours下方的變量用來估計那些參加鍛鍊的個體的鍛鍊時長,而selection_ll下方的變量用來預測個體是否參與鍛鍊活動,lnsigma爲hours方程的偏差項的標準差。
咱們須要得到每一個協變量的邊際效應來對結果變量hours作出更直觀的解釋。好比,協變量age的邊際效應爲-0.0216855,代表個體年齡越大一歲那麼他參與身體鍛鍊的時長(per day)就會降低0.021每小時。
在用雙欄模型作出估計以後,咱們能夠以此模型預測因變量的相關信息。下表中的hourshat表示因變量hours的條件指望值,他與實際觀測值hours的指望值相差不大。exercises表示因變量hours大於0的條件指望值,他比實際觀測值hours的指望值大差很少2倍。
在雙欄模型中,咱們容許選擇方程和結果方程的隨機偏差項存在條件異方差,並且容許標明是哪一個解釋變量影響了偏差項的條件方差。在下表中,咱們標明是個體的年齡和是不是單身(結婚)兩個變量影響了hours方程和selection_ll方程中隨機偏差項的條件方差。不過從下方的lnsigma和lnsigma_ll中,咱們能夠看出age和single實際上並無影響到我們兩個方程的條件方差。因此,咱們以前的那個關於這兩個變量致使條件異方差的Hypothesis是多餘的。
若是咱們有理由相信,咱們的結果潛變量hi*(hours)是一個服從指數分佈的函數,那麼咱們構造的似然函數就會不一樣於當他服從正太分佈的情形。咱們能夠用指數雙欄模型去估計個體天天鍛鍊身體的小時數。
下表顯示的是指數雙欄模型下各個變量的邊際效應。這個結果與前面的線性雙欄模型在符號上一致,而在大小程度上卻有細微差別。好比,他們都代表隨着年齡的增加,個體進行身體鍛鍊的小時數會有降低的趨勢。
如今,咱們使用Tobit模型來進行估計hours方程。全部的解釋變量與上面雙欄模型中是徹底同樣的,可是這裏選擇方程所用的協變量與結果方程所用的協變量是也是同樣的。這也是Tobit相對於Hurdle模型要僵化不少的緣由。
經過邊際影響值對比,咱們發現Tobit模型獲得的結果與以前的雙欄模型獲得的,在符號上是一致的,只不過邊際影響的力度存在差別。
以上這些方法都只適用於截面數據或者pooled面板數據,所以對於面板數據,這些模型不能控制unobservable異質性。
本質上,雙欄模型與二部分模型是同樣的原理,只不過在因變量的處理上有區別對待。當咱們把因變量hours當成連續變量而非計數變量時,咱們則須要採用二部分模型(Two-part model)來進行迴歸。下面這個就是咱們使用專門針對二部分模型進行的迴歸,結果顯示這二個方程中(Hurdle模型和Two-part模型)的係數和邊際影響都大體相同。所以,不管咱們使用hurdle模型仍是two-part模型,均可以獲得一個比較一致的結論。
下方是two-part模型下的邊際影響。
若是咱們不進行hurdle模型或者two-part模型迴歸,而用零膨脹泊松模型,那能夠獲得以下的迴歸結果。你能夠比較一下zero-inflated Poisson model與hurdle模型和two-part模型的不一樣之處。
附上三句話:
Joseph Hilbe (2005) has written a series of convenience commands to analyze hurdle models. The hpclg does the poisson-cloglog hurdle model. Here is a table of the various hurdle models written by Hilbe:
微觀計量研究小組各類方法論叢的do file都放在我們的社羣,能夠直接到社羣提取使用。