計量經濟學導論16：面板數據模型

時間 2021-02-22

標籤 spa 排序 class 變量 lambda 數據類型方法欄目應用數學简体版

原文原文鏈接

面板數據模型

面板數據模型

經濟數據模型

在介紹面板數據以前，咱們先回顧一下計量經濟學中涉及的各種數據類型。spa

橫截面數據，Cross-sectional Data ，指在特定的時點上，對我的、家庭、企業、城市、省份、國家或一系列其餘單位採集的樣本所構成的數據集。排序

一般假定樣本是從整體中隨機抽樣而獲得的，經常使用指標集 \(i=1,2,\cdots,n\) 表示隨機樣本。
計量分析的結果與數據的排序無關。

時間序列數據，Time-series Data ，指由一個或幾個變量不一樣時間的觀測值所構成，或是由同一觀測個體在不一樣時點上所觀測的數據構成。it

時間序列的數據先後之間具備相關性。
經常使用時間指標集 \(t=1,2,\cdots,T\) 表示有序樣本數據，不知足隨機樣本的設定。

混合截面數據，Pooled Cross-sections Data ，指既有橫截面數據的特色，又有時間序列數據特色的數據。爲了擴大樣本容量，能夠將數據合併成一個混合截面數據。io

Cross-section 與 Time-series 同時存在，需引入兩組指標集 \(i=1,2,\cdots,n\) 和 \(t=1,2,\cdots,T\) 分別表示隨機樣本和時間序列。
在計量分析過程當中，須要引入表示時間變化的虛擬變量以擴大樣本容量。
不一樣時間點上的截面個體可能不同。
例如：2008年，隨機抽取一組家庭針對某些變量作調查；2010年，再隨機抽取一組新家庭作調查。

面板數據，Panel Data，指將橫截面數據域時間序列數據結合起來的數據，即對橫截面中的觀測個體在時間上進行連續觀測所獲得的數據。class

不一樣時點上相同截面個體，即只在第一期作隨機抽樣，後面都在觀察這一組樣本的數據。
例如：收集同一組公司不一樣時點的財務信息。
面板數據一般可以研究決策行爲或結果中滯後的重要性，因此反映的信息更有意義。
因爲面板數據要求對同一組個體在不一樣時期進行重複觀測，所以面板數據的收集成本更大。

面板數據模型的基本形式

面板數據模型同時包含了截面和時間兩個維度，設 \(i=1,2,\cdots,n\) 表示截面個體，\(t=1,2,\cdots,T\) 表示時間。面板數據模型的基本形式爲變量

\[y_{it}=f(x_{1it},x_{2it},\cdots,x_{kit})+u_{it} \ , \]

模型偏差通常能夠認爲由三部分組成：lambda

\[u_{it}=\alpha_i+\lambda_t+\varepsilon_{it} \ , \]

\(\alpha_i\) 表示個體效應、非觀測效應、固定效應，表示那些不隨時間改變的影響因素，如我的的消費習慣、企業文化、經營風格等。數據類型

\(\lambda_t\) 表示時間效應，用於控制隨時間改變的影響，如用於表示技術進步的時間趨勢項。方法

\(\varepsilon_{it}\) 表示特異性偏差、時變偏差，是整個模型的隨機偏差項。im

在這裏將 \(\alpha_i\) 和 \(\lambda_t\) 設定爲干擾項，由於 \(\alpha_i\) 和 \(\lambda_t\) 在多數狀況下都是沒法直接觀測或難以量化的，所以也就沒法做爲解釋變量進入模型。使用截面分析的模型每每會引發遺漏變量的問題。通常地，咱們不考慮時間效應，或者說將 \(\lambda_t\) 的做用併入了 \(\varepsilon_{it}\) 中。此時，咱們能夠設定線性的面板數據模型爲

\[y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . \]

其中 \(\alpha_i+\varepsilon_{it}=u_{it}\) ，而且假設 \(\varepsilon_{it}\sim N(0,\,\sigma_{\varepsilon}^2)\) 。

根據 \(\alpha_i\) 的不一樣狀態，咱們能夠將面板數據模型分爲三類：混合迴歸模型，固定效應模型，隨機效應模型。其差別主要反映在對個體效應的處理上。

混合迴歸模型就是由混合截面數據構成的計量經濟學模型。正如咱們在經濟數據模型中介紹的，這裏的混合迴歸模型嚴格來講並不屬於面板數據模型，它是面板數據模型的一種退化形式。當對全部的截面個體 \(i\) ，個體效應 \(\alpha_i\) 均相等時，模型退化爲混合迴歸模型。

混合迴歸模型的基本形式

\[y_{it}=\alpha+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . \]

\[i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ . \]

混合迴歸模型假設全部的橫截面個體在各個不一樣的時期的截距和斜率都是相同的，這樣能夠直接把面板數據混合在一塊兒，或是直接收集不一樣時間點上的不一樣截面個體數據，即混合截面數據。

混合迴歸模型能夠直接用 OLS 方法進行參數估計。

固定效應模型的基本形式

\[y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . \]

\[i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ . \]

固定效應模型的每個截面個體具備不一樣的截距項（常數項）。即 \(\alpha_i\) 歸納了影響着 \(y_{it}\) 但不隨着時間而變化的全部沒法觀測的因素。

固定的含義：\(\alpha_i\) 是個常數。雖然每一個截面個體具備不一樣的截距項，可是每一個截面個體的截距項並不隨着時間而變化。即在時間上是固定的，只和個體相關。

因爲 \(\alpha_i\) 表現出個體異質性，觀測不到，因此通常假設 \(a_i\) 與 \(x_{it}\) 相關：\({\rm Cov}(\alpha_i,\,x_{it})\neq 0\) 。

隨機效應模型的基本形式

\[y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . \]

\[i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ . \]

其中，截距項 \(\alpha_i\) 是一個隨機變量，設其均值爲 \({\rm E}(\alpha_i)=\alpha\) ，則能夠將 \(\alpha_i\) 寫爲

\[\alpha_i=\alpha+v_i \ . \]

這裏的 \(v_i\) 是一個隨機變量，知足零均值假設和同方差假設。隨機效應的含義爲，假設個體間的差別是隨機的，反應在隨機干擾項的設定上。

通常假設這種隨機的個體間差別與 \(x_{it}\) 無關：\({\rm Cov}(\alpha_i,\,x_{it})={\rm Cov}(v_i,\,x_{it}) = 0\) 。

因爲隨機效應模型具備多種隨機偏差項，所以咱們須要提出一系列的隨機效應模型的方差結構假定：

\[{\rm E}(v_i)={\rm E}(\varepsilon_{it})=0 \ , \ \ \ \ \forall\ i,\,t \ . \]

\[{\rm Cov}(v_i,\,\varepsilon_{it})=0 \, \ \ \ \ \forall\,i,\,t \ . \]

\[{\rm Cov}(\varepsilon_{it},\,\varepsilon_{is})=0 \, \ \ \ \ \forall \, i,\,s\neq t \ . \]

\[{\rm Var}(v_i|X)=\sigma_v^2 \ , \ \ \ \ \forall\,i \ . \]

\[{\rm Var}(\varepsilon_{it}|X)=\sigma_\varepsilon^2 \ , \ \ \ \ \forall\,i,\,t \ . \]

從上到下依次爲：假設兩種隨機偏差項 \(v_i\) 和 \(\varepsilon_{it}\) 均知足零均值假設，假設兩種隨機偏差項 \(v_i\) 和 \(\varepsilon_{it}\) 相互獨立，假設時變偏差 \(\varepsilon_{it}\) 不具備序列相關性，假設兩種隨機偏差項 \(v_i\) 和 \(\varepsilon_{it}\) 均知足同方差假設。

因爲兩種隨機偏差項均不可觀測，所以咱們經常將二者寫在一塊兒。設 \(u_{it}=v_i+\varepsilon_{it}\) ，根據上述假設條件能夠獲得：

\[{\rm E}(u_{it}u_{is})=\sigma_v^2 \ , \ \ \ \ \forall \, i,\,s\neq t \ . \]

\[{\rm E}(u_{it}^2)=\sigma_v^2+\sigma_\varepsilon^2 \ , \ \ \ \ \forall\,i,\,t \ . \]

\[{\rm Corr}(u_{it}u_{is})=\frac{\sigma_v^2}{\sigma_v^2+\sigma_\varepsilon^2} \ , \ \ \ \ \forall \, i,\,s\neq t \ . \]

對於個體 \(i\) ，設 \(\boldsymbol{u}_i^{\rm T}=(u_{i1},u_{i2},\cdots,u_{iT})\) ，咱們能夠寫出隨機偏差項的協方差矩陣：

\[{\rm E}(\boldsymbol{u_i}\boldsymbol{u_i}^{\rm T})=\left[ \begin{array}{ccccc} \sigma_v^2+\sigma_\varepsilon^2 & \sigma_v^2 & \sigma_v^2&\cdots & \sigma_v^2 \\ \sigma_v^2 & \sigma_v^2+\sigma_\varepsilon^2 & \sigma_v^2 &\cdots & \sigma_v^2 \\ \vdots & \vdots & \vdots & \ddots & \vdots\\ \sigma_v^2 & \sigma_v^2& \sigma_v^2 &\cdots& \sigma_v^2+\sigma_\varepsilon^2 \\ \end{array} \right]_{T\times T} =\sigma_\varepsilon^2\boldsymbol{I}+\sigma_v^2\boldsymbol{1}\triangleq\boldsymbol\Omega \ . \]

固定效應模型的參數估計

最小二乘虛擬變量估計法 LSDV

因爲固定效應模型假設存在着「個體效應」，每一個截面個體都有其單獨的截距項。這就至關於在經典的線性迴歸模型中，經過加法方式引入 \(n-1\) 個虛擬變量來表明不一樣的個體。若是省略模型的常數項 \(\beta_0\) ，則引入 \(n\) 個虛擬變量。

若是一元的固定效應模型設定爲

\[y_{it}=\alpha_i+\beta_1x_{it}+\varepsilon_{it} \ . \]

假設上式爲含截距項的模型，所以咱們能夠引入 \(n-1\) 個虛擬變量：

\[D_1=\left\{ \begin{array}{cc} 1\ \ , & i=1 \ ; \\ 0\ \ , & i\neq1 \ ; \end{array} \right. \ \ \ \ D_2=\left\{ \begin{array}{cc} 1\ \ , & i=2 \ ; \\ 0\ \ , & i\neq2 \ ; \end{array} \right. \ \ \ \ \cdots \ \ \ \ D_{n-1}=\left\{ \begin{array}{cc} 1\ \ , & i=n-1 \ ; \\ 0\ \ , & i\neq n-1 \ ; \end{array} \right. \ \]

此時咱們的虛擬變量模型設定爲：

\[y_{it}=\alpha_i+\beta_1x_{it}+\gamma_1D_1+\gamma_2D_2+\cdots+\gamma_{n-1}D_{n-1}+\varepsilon_{it} \ . \]

對上式進行 OLS 迴歸，咱們能夠獲得 LSDV 估計量 \(\hat\beta_1\) 。

該模型還能夠用來檢驗應該選擇混合迴歸模型仍是固定效應模型。利用受約束迴歸模型和 \(F\) 檢驗，約束條件爲 \(\gamma_1=\gamma_2=\cdots=\gamma_{n-1}=0\) 。若是接受原假設，則認爲不存在個體異質性，此時應該選擇混合迴歸模型。若是拒絕原假設，則認爲存在個體異質性，此時應該選擇固定效應模型。

一階差分法 FD

在固定效應模型中，截距項 \(\alpha_i\) 表示的個體異質性是一個常數，且並不隨着時間而變化。所以，咱們能夠經過差分的方式消去模型中的個體異質性，從而可使用 OLS 進行迴歸。

考慮一元的狀況，假設固定效應模型設定以下：

\[y_{it}=\alpha_i+\beta_1x_{it}+\varepsilon_{it} \ . \]

寫出一階滯後的狀況：

\[y_{i,t-1}=\alpha_i+\beta_1x_{i,t-1}+\varepsilon_{i,t-1} \ . \]

兩式相減獲得一階差分方程：

\[\Delta y_{it}=\beta_1\Delta x_{it}+\Delta \varepsilon_{it} \ . \]

能夠看到，非觀測效應 \(\alpha_i\) 被差分掉了，所以上述模型只要知足經典假設即可以經過 OLS 迴歸進行參數估計。由一階差分方程獲得的 OLS 估計量稱爲一階差分估計量 \(\hat\beta_{1,fd}\) 。

爲了保證 \(\hat\beta_{1,fd}\) 的一致性，需假定 \(\Delta X_{it}\) 與 \(\Delta\varepsilon_{it}\) 無關：

\[{\rm Cov}(\Delta X_{it},\,\Delta\varepsilon_{it})=0 \ . \]

須要注意的是，一階差分法可能會存在 \(\Delta\varepsilon_{it}\) 和 \(\Delta\varepsilon_{i,t-1}\) 相關的問題。

固定效應轉換法 FE

又稱爲除時間均值法、固定效應估計法、組內變換法。當 \(n\) 很大時，利用 LSDV 迴歸會損失大量的自由度，能夠考慮對模型進行變化，消去常數項，再用變換後的模型進行迴歸。該模型的另外一好處是能夠消除 \(\alpha_i\) 與其餘解釋變量的相關性。

仍然考慮一元的狀況：

\[y_{it}=\alpha_i+\beta_1x_{it}+\varepsilon_{it} \ . \]

對每一個橫截面個體 \(i\) 求方程在時間上的均值（組間均值）：

\[\bar{y}_i=\alpha_i+\beta_1\bar{x}_i+\bar\varepsilon_i \ . \]

兩個模型相減獲得：

\[y_{it}-\bar{y}_i=\beta_1(x_{it}-\bar{x}_i)+\varepsilon_{it}-\bar\varepsilon_i \ . \]

通過變換後的模型便可經過混合 OLS 進行參數估計。基於除時間均值變量的混合 OLS 估計量被稱爲固定效應估計量 \(\hat\beta_{1,fe}\) 。

隨機效應模型的參數估計

隨機效應模型將固定效應模型的個體異質性納入到隨機偏差項中，所以更加靈活，也具備更加複雜的隨機偏差項的結構。此時咱們須要經過變換，構造出符合基本假設的隨機偏差項。所以咱們使用 GLS 進行參數估計。

仍然考慮一元的隨機效應模型：

\[y_{it}=\beta_0+\beta_1x_{it}+u_{it} \ . \]

假設該模型含有截距項，設 \(u_{it}=v_i+\varepsilon_{it}\) 爲模型的非觀測偏差。

定義：\(\lambda=1-\displaystyle\frac{\sigma_\varepsilon}{\sqrt{\sigma_\varepsilon^2+T\sigma_v^2}}\) ， \(\bar{y}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Ty_{it}\) ，\(\bar{x}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Tx_{it}\) 。咱們能夠作以下變換：

\[y_{it}-\lambda\bar{y}_i=\beta_0(1-\lambda)+\beta_1(x_{it}-\lambda\bar{x}_i)+u_{it}-\lambda\bar{u}_i \ . \]

能夠驗證此時的隨機偏差項不存在序列相關性：\({\rm Cov}(u_{it}-\lambda\bar{u}_i,\,u_{is}-\lambda\bar{u}_i)=0\) 。對變換後的方程進行 OLS 迴歸獲得 GLS 估計量 \(\hat\beta_{1,re}\) ，也被稱做隨機效應估計量。在知足 \({\rm E}(u_{it}|x_{it})=0\) 假設條件下，隨機效應估計量是有效的。

隨機效應模型與固定效應模型的選擇

豪斯曼檢驗

這裏的豪斯曼檢驗並不是內生性檢驗，而是隨機效應檢驗。檢驗的基本思路：若是 \({\rm Cov}(\alpha_i,\,x_{it})\neq0\) ，則 GLS 估計量是有偏和非一致的，可是固定效應估計量是無偏且一致的。因此，若是模型的異質性與解釋變量之間是正交的，則應將模型設定爲隨機效應模型，不然設定爲固定效應模型。

這裏的正交指的是：若 \({\rm E}(XY)=0\) ，則稱隨機變量 \(X\) 和 \(Y\) 正交。

\(H_0\) ：個體異質性與 \(x_{it}\) 不相關。

\(H_1\) ：個體異質性與 \(x_{it}\) 相關。

用矩陣和向量的形式，構造 Wald 統計量：

\[W=\left(\hat{\boldsymbol\beta}_{fe}-\hat{\boldsymbol\beta}_{re}\right)^{\rm T}\left[{\rm Var}\left(\hat{\boldsymbol\beta}_{fe}-\hat{\boldsymbol\beta}_{re}\right)\right]^{-1}\left(\hat{\boldsymbol\beta}_{fe}-\hat{\boldsymbol\beta}_{re}\right)\sim\chi^2(k) \ . \]

其中 \(k\) 是解釋變量的個數。

若是拒絕原假設，則選擇固定效應模型；若是接受原假設，則選擇隨機效應模型。

實證研究中的模型選擇問題

固定效應模型僅適用於所抽到的橫截面單位，不適用於樣本之外的單位。即若是所抽取的樣本自己是整體，例如從全國抽取全部的省份，那麼固定效應模型就是一個合理的面板數據模型。
若是想以樣本結果對整體進行推斷分析，那麼應該選用隨機效應模型，即把反映個體差別的特定常數項看做是跨個體成員的隨機分佈更爲合適。例如從全國抽取部分省，固定效應模型便僅適用於所抽到的個體成員單位，而不適用於樣本以外的其餘單位，這時採用隨機效應模型就較爲合適。