可有償投稿計量經濟圈,計量相關則可git
郵箱:econometrics666@sina.cnweb
全部計量經濟圈方法論叢的do文件都放在社羣裏,能夠直接取出使用運行,也歡迎到研究小組交流訪問.bootstrap
計量經濟圈推薦app
PSM-DID, DID, RDD, Stata程序百科全書式的寶典機器學習
RDD斷點回歸, Stata程序百科全書式的寶典ide
Generalized分位數迴歸, 新的前沿因果推斷方法函數
Heckman模型out了,內生轉換模型掌控大局工具
PSM傾向匹配Stata操做詳細步驟和代碼,乾貨學習
條件Logit絕對不輸多項Logit,而混合模型最給力3d
廣義PSM,連續政策變量因果識別的不二利器
今天,咱們微觀計量研究小組給計量經濟圈的圈友引薦「有限混合模型」(finite mixture model)。咱們常常作異質性分析,好比針對不一樣的年齡段,不一樣收入階層或者不一樣的地域等,也就是所謂的分組迴歸而後來探討各個組別之間爲何不一樣。這實際上暗含了,咱們各組都有本身的機率分佈,而這個整體的分佈是經過各分組的機率分佈聯合起來的。
人與人之間自己就是不一樣的,有些人比較喜歡冒險而有的人比較喜歡平穩的生活,有的人作事情比較匆忙而有的人作事比較緩慢。若是咱們找不到一個劃分各組別的依據,好比,個體的冒險傾向或者個體的儲蓄傾向或者個體患病的傾向,那咱們如何去區分高風險傾向個體與低風險傾向個體呢?就是說,有時候咱們對於那些具備異質性個體所展示的異質性觀測不到或不太瞭解,咱們若只用一個機率分佈函數去逼近樣本數據就會損失效率和出現偏誤,此時咱們不妨使用fmm這個能夠將幾個分機率密度"組裝"起來的彈性模型。看一段原話:「Finite mixture models (FMMs) are used to classify observations, to adjust for clustering, and to model unobserved heterogeneity.」
有限混合模型已經普遍應用於以下研究中:互聯網流量聚類等機器學習,醫療保險的需求,疾病風險等健康經濟學,顧客感知風險等保險經濟學等。計數模型和質點分佈的混合模型常常用於零點膨脹和截斷的計數結果變量。提供參考文獻:「A mixture of regression models can be used to model phenomena such as clustering of Internet traffic (Jorgensen 2004), demand for medical care (Deb and Trivedi 1997), disease risk (Schlattmann, Dietz, and Bohning ¨ 1996), and perceived consumer risk (Wedel and DeSarbo 1993). A mixture of a count model and a degenerate point mass distribution is often used for modeling zero-inflated and truncated count outcomes; see, for example, Jones et al. (2013, chap. 11). McLachlan and Peel (2000) and Fruhwirth-Schnatter ¨ (2006) provide a comprehensive treatment of finite mixture modeling.」
注意:如下所引薦的fmm的程序執行須要Stata 15, 若是沒有Stata 15可直接在社羣下載使用。
有限混合模型fmm就像bootstrap和bayes,它是做爲前綴放在迴歸模型的前面。如下這些迴歸模型均可以使用fmm進行分組,從而能以不一樣機率密度進行逼近:線性迴歸模型、二值響應模型、有序響應模型、多值響應模型、廣義線性模型、分數響應模型和生存模型。
對於具體的fmm在各類不一樣模型裏的用法,咱們舉8個示例,來展現fmm程序使用規則。從如下這些標準迴歸程序中,咱們可以知道以下幾點關於fmm的使用法則。第一,fmm後面的數字表明瞭對這個因變量y進行分組估計的數目,好比2就表明咱們須要對y分2組進行估計。第二,咱們可以使用lcinvariant(errvar)或者lcinvariant(coef)來限定各組迴歸裏y的方差相等或解釋變量係數相等。第三,咱們可以使用lcprob(z1 z2)來預測咱們這個觀察值屬於某個小組的機率,其中z1和z2是指定的協變量。
1.針對reg,普通線性迴歸模型的有限混合模型。
2.針對betareg,貝塔分佈迴歸模型的有限混合模型。
3.針對cloglog,離散時間Cloglog模型的有限混合模型。
4.針對glm,廣義線性迴歸模型的有限混合模型。
5.針對intreg,區間線性迴歸模型的有限混合模型。
6.針對ivregress,工具變量線性迴歸模型的有限混合模型。
7.針對nbreg,負二項迴歸模型的有限混合模型。
8.針對pointmass,零點膨脹泊松迴歸模型的有限混合模型
上面這8個示例有一個共同的特徵,即這些分組迴歸模型的自變量都是同樣的。在第一個組裏,咱們用某些自變量去作迴歸,而後用相同的自變量也去對第二組的數據進行迴歸。然而,這顯得fmm不那麼具備靈活性,畢竟咱們限定這兩組的迴歸協變量居然徹底相同,這與我們的經濟理論和直覺都有有偏離。
咱們看看下面這個實際生活中的例子。一個機動車保險公司想要針對不一樣風險程度的個體設置不一樣的保險費率,爲此,它首先須要區別開高事故羣體與低事故羣體。accident:一個個體在一年中發生交通事故的次數,age:該個體的年齡,metro:該個體是否生活在大城市,male:該個體的性別。咱們用泊松機率密度去預測一個個體發生交通事故的機率,而後據此,咱們來區分開高風險事故羣體與低風險事故羣體。
下面這個程序就是用相同的協變量去預測個體發生交通事故的數量。
可是,咱們認爲高風險事故羣體與低風險事故羣體發生交通事故次數的受影響因素是不同的。所以,咱們採用了不一樣的協變量來對這二組羣體進行迴歸——在第二組裏面,咱們少放了「是否居住在大城市」的虛擬變量。從而,咱們容許二個組別迴歸中的協變量出現差別,用不一樣的協變量來預測不一樣組別的結果變量。
除了協變量能夠在不一樣組別進行分別設置以外,fmm還容許咱們在不一樣組別之間用不一樣的機率密度分佈去逼近數據集裏面的真實分佈。下面是用泊松分佈去預測高風險羣體發生交通事故次數,而用負二項分佈去預測低風險羣體發生交通事故的次數。這樣就給咱們賦予了極大的彈性,讓fmm可以更好地運用於經濟研究實踐中。
如今,咱們來舉一個能夠直接操做的簡單例子,目的是看看fmm方法是怎樣逼近一個由三組正態分佈構成的總分佈的。下面的柱狀圖顯示咱們的這個變量thickness是有些右偏的,因此從整體的角度而言不符合正態分佈。不過,當咱們把他分紅不一樣的子區間,咱們發現這些子區間符合正態分佈的假設。所以,咱們用fmm有限混合模型去分組逼近thickness的真實分佈。
fmm 3: regress thickness //把thickness劃分紅三個組別分別對常數進行迴歸
下面這個iteration過程是在尋找「初始值」,有限混合模型尋找初始值顯得有些麻煩,不過程序給出了幾個選擇來發現初始值。
下面這個表格是估計的該變量thickness屬於組1、組二和組三的係數(難於解釋),這個通過以下方程的轉換就能夠獲得這個變量屬於各組的邊際機率。
下面咱們用estat lcprob來得到該變量thickness屬於某個組別的邊際機率。從下表咱們能夠看出,變量thickness屬於組3的邊際機率最大,其次是屬於組2的機率。就數量關係而言,thickness屬於組3的機率是他屬於組1的機率的2倍多,這與我們的柱狀分佈圖其實是有些偏離的。也能夠這麼說,有44%的觀測值屬於組3,37%的觀測值屬於組2,19%的觀測值屬於組1。
咱們列出前十個thickness的觀測值分別屬於組一、組2和組3的機率。實際上,咱們總共有485個觀測值,咱們能夠所有列出來看看那些觀測值屬於這些不一樣的小組。不過,咱們看到前面5個觀測值居然所有以高於90%的機率屬於第3組,這種狀況有些不符合現實狀況,由於這代表咱們用thickness中最小的觀測值反而更容易出如今第3組(即最右邊那個區間段),所以咱們用glm家族的lognormal鏈接函數從新去作一遍。
fmm 3: glm thickness, family(lognormal) //如今咱們使用lognormal迴歸,由於上面的迴歸方差過大
下面這個圖形中,咱們用綠色去標註用glm擬合的曲線,而紅色去標註reg擬合的曲線。經過比較柱狀圖與兩條曲線,咱們發現綠色的曲線擬合的更好。
咱們列出前十個thickness的觀測值分別屬於組一、組2和組3的機率。如今thickness中的最小值都以極大機率屬於第一組,與咱們的柱狀圖所傳達的信息相符合。並且thickness屬於組1與組3的機率相差就小不少(注:組3是一個比較長的區間但比較扁平,而組1是一個比較短的區間但比較陡峭),這與柱狀圖所示的信息是更加符合的。
咱們如今列舉一個帶有協變量且有經濟學意義的示例。咱們想要預測這我的
這是醫療支出的柱狀圖,從圖裏咱們以爲他好像只服從一個正太分佈。當咱們須要用一系列控制變量去預測一個個體的醫療支出時,咱們可能發現存在三組個體:低醫療支出個體、平均醫療支出個體和高醫療支出個體。
當咱們分3組來對醫療支出進行迴歸fmm 3: regress lmedexp income c.age##c.age totchr i.sex 。迴歸的結果與前面的示例樣式是相仿的,所以咱們再也不在這裏進行展現。
下面這張表格展現的是各組間的邊際均值,咱們發現低醫療支出羣體屬於組1,平均醫療支出羣體屬於組2,高醫療支出羣體屬於組3。除此以外,咱們發現組1和組2兩組的均值實際上相差不大,所以咱們接下來考慮把把lmedexp劃分紅2組和直接合併成1組分別進行迴歸。
咱們下表的fmm一、fmm2和fmm3分別表明把lmedexp合併成1組、劃分紅2組和三組的迴歸結果。從AIC和BIC信息準則來看,咱們會選擇fmm3這個模型。
fmm3的圖形擬合結果與原來的lmedexp柱狀圖進行對比,咱們發現總體擬合效果仍是挺好的。
還有其餘不少示例,咱們就再也不一一展開講述了。最後,咱們其實是說了一個關於不一樣羣體具備異質性的問題,從而咱們使用不一樣的機率密度分佈函數和協變量去進行對應迴歸。在經濟學中的應用天地廣闊,只要存在分組的可能,無論這個分組變量能不可以被觀測到,咱們均可以使用fmm來進行latent class regression。
Econometric applications of finite mixture models include the seminal work of Heckman and Singer (1984), of Wedel et al. (1993) to marketing data and El-Gamal and Grether (1995) to data from experiments in decision making under uncertainty
微觀計量研究小組各類方法論叢的do file都放在我們的社羣,能夠直接到社羣提取使用。