計量經濟學中混頻數據的處理

從若干學術論文中總結出的一些混頻數據處理技術、模型與使用案例,但願爲賣方的宏觀研究提供來自學術界的思路。爲了顧及實踐中的可操做性,忽略了一些結構過於複雜的技術或模型。git

計量經濟學中混頻數據的處理

集成與插值

集成

標準的集成方法根據低頻數據的週期對高頻數據作平均或累加,另外一種方法是根據低頻數據的週期選取高頻數據的最新值。github

插值

插值方法不經常使用,實施分兩步:框架

  1. 低頻數據映射到高頻時間索引上,缺失值用插值補全;
  2. 在增廣數據及上擬合模型參數。

可能須要考慮度量增長插值數據帶來的偏差。spa

橋接等式

因爲統計數據的發佈有時間延遲,在實際使用預測模型時可能某些高頻數據還沒有發佈,這時就須要橋接等式補全未發佈的數據。htm

橋接等式是用於鏈接高頻數據和低頻數據的線性迴歸,橋接等式:遞歸

\[ y_{t_q} = \alpha + \sum_{i=1}^{j}\beta_i(L)x_{it_q} + u_{t_q} \]索引

其中,\(\beta_i(L)\) 是一個階數爲 \(k\) 的滯後多項式,\(x_{it_q}\) 是集成後的高頻指標。ci

橋接等式的實施分兩步:get

  1. 對高頻數據創建預測模型,並將預測數據集成,與低頻數據的頻率保持一致;
  2. 將集成後的數據放入橋接等式中作迴歸。

高頻數據上的預測模型一般是自迴歸模型。

案例

  • 《Using Monthly Data to Predict Quarterly Output》

做者針對真實 GDP(RGDP)創建了一個 ARX 預測模型,其中 X 分別是就業(EMP)和消費(CONS)。因爲外部變量的發佈頻率爲月度,模型中實際使用的數據爲月度數據的季度平均。

在使用模型作預測時,若只能得到上個季度的部分月度數據,則先對月度數據創建單變量預測模型(滾動建模,保持參數估計的樣本數一致),預測剩餘月份的數據,再將已知數據和預測數據放在一塊兒計算季度平均,最後放進 ARX 模型中。

混合數據抽樣(Mixed-Data Sampling,MIDAS)

「橋接等式」並未真正解決將高、低頻數據歸入到一個統一模型框架下的問題,數據的集成不可避免。 MIDAS 巧妙地應用「集約參數化」的手段使得高頻數據在無需集成的前提下能夠做爲低頻數據的解釋變量。在某些情形下,若選擇的高頻數據是來自金融市場的交易數據,則能夠實現對低頻數據的實時預測。

符號約定:

  • \(t_q\),低頻數據的時間索引;
  • \(t_m\),高頻數據的時間索引;
  • \(m\),低頻週期關於高頻週期的倍數(例如,季度數據關於月度數據的倍數等於 3,月度數據關於周度數據的倍數等於 4);
  • \(w\),高頻數據相對於低頻數據可以提早的時間(以高頻數據的時間索引爲準,\(w \lt m\)),這意味着能夠提早 \(m-w\) 進行預測。
  • 規定 \(y_{t_q} = y_{t_m},\forall t_m = mt_q\)

基本 MIDAS

提早 \(h_q\) 步的預測模型:

  • 單變量

\[ y_{t_q + h_q} = y_{t_m + mh_q} = \beta_0 + \beta_1 b(L_m;\theta)x_{t_m+w}^{(m)} + \varepsilon_{t_m+h_m} \]

  • 多變量

\[ y_{t_q + h_q} = y_{t_m + mh_q} = \beta_0 + \sum_{i=1}^N \beta_i b(L_m;\theta_i)x_{i,t_m+w}^{(m)} + \varepsilon_{t_m+h_m} \]

其中,\(h_q=h_m/m\)\(b(L_m;\theta) = \sum_{k=0}^K c(k;\theta) L_m^k\)\(L_m^k x_{t_m}^{(m)} = x_{t_m-k}^{(m)}\)\(x_{t_m +w}^{(m)}\) 是從高頻數據 \(x_{t_m}\) 中的跳躍採樣。

預測值爲:

\[ \hat y_{T_m^y + h_m\mid T_m^x} = \hat \beta_0 + \hat \beta_1 b(L_m;\hat \theta)x_{T_m^x}^{(m)} \\ \hat y_{T_m^y + h_m\mid T_m^x} = \hat \beta_0 + \sum_{i=1}^N \hat \beta_i b(L_m;\hat \theta_i)x_{i,T_m^x}^{(m)} \]

\(c(k;\theta)\) 的集約參數化(Parameterization in a Parsimonious Way)是 MIDAS 的關鍵,經常使用選擇有兩個:

  • Exponential Almon Lag
  • Beta Lag

Exponential Almon Lag

\[ c(k;\theta) = \frac{\exp(\theta_1 k + \cdots + \theta_Q k^Q)} {\sum_{k=1}^K \exp(\theta_1 k + \cdots + \theta_Q k^Q)} \]

Beta Lag

\[ c(k;\theta_1,\theta_2) = \frac{f(\frac kK;\theta_1,\theta_2)} {\sum_{k=1}^K f(\frac kK;\theta_1,\theta_2)} \]

其中,\(f(x,a,b) = \frac{x^{a-1}(1-x)^{b-1}\Gamma (a+b)}{\Gamma(a)\Gamma(b)}\)\(\Gamma(a) = \int_0^\infty e^{-x}x^{a-1}dx\)

其餘集約參數化

\[ c(k;\theta) = \frac 1K \]

\[ c(k;\theta) = \frac{g(\frac kK, \theta)}{\sum_{k=1}^K g(\frac kK, \theta)} \]

其中,\(g(k,\theta) = \frac{\Gamma(k+\theta)}{\Gamma(k+1)\Gamma(\theta)}\)
\[ c(k;\theta) = \frac{\theta^k}{\sum_{k=1}^\infty \theta^k}, \mid \theta \mid \le 1 \]

AR-MIDAS

AR-MIDAS 中一階自迴歸模型最爲常見。

  • 一步模型

\[ y_{t_m} = \beta_0 + \lambda y_{t_m-m} + \beta_1 b(L_m;\theta)(1-\lambda L_m^m)x_{t_m+w-m}^{(m)} + \varepsilon_{t_m} \]

  • 多步模型

\[ y_{t_m} = \beta_0 + \lambda y_{t_m-h_m} + \beta_1 b(L_m;\theta)(1-\lambda L_m^{h_m})x_{t_m+w-h_m}^{(m)} + \varepsilon_{t_m} \]

遞歸式的參數估計

  1. 估計對應的基本 MIDAS 模型,獲得殘差估計 \(\hat \varepsilon_{t_m}\)
  2. 並算出 \(\lambda\) 的初始值 \(\lambda_0\)\(\hat\lambda_0 = (\sum \hat \varepsilon^2_{t_m+w-h_m})^{-1}\sum \hat \varepsilon_{t_m} \hat\varepsilon_{t_m+w-h_m}\)
  3. 構造新變量 \(y^*_{t_m} = y_{t_m} - \hat\lambda_0y_{t_m-h_m}​\) 以及 \(x^{*(3)}_{t_m + w - h_m} = x^{(3)}_{t_m + w - h_m} - \hat\lambda_0 x^{(3)}_{t_m-( h_m - w)-h_m}​\)
  4. \(y^*_{t_m} = \beta_0 + \beta_1 b(L_m;\theta)x^{*(3)}_{t_m + w - h_m} + \varepsilon_{t_m}\) 應用 NLS,獲得估計 \(\hat \theta_1\) 和 新的殘差;
  5. 重複 二、三、4 步,直到估計值 \(\hat \lambda\)\(\hat \theta\) 穩定。

案例

  • 《Macroeconomic Forecasting With Mixed-Frequency Data》

做者使用月度數據工業產值(IP)、就業(EMP)和設備開工率(CU)聯合產出增速(季度數據)創建一個 AR-MIDAS 模型,預測下季度產出增速。

  • 《Should Macroeconomic Forecasters Use Daily Financial Data and How》

做者將大量來自金融市場的每日數據和許多月度統計數據(集成爲季度數據)與 GDP 增加率(季度)聯合起來創建 AR-MIDAS 模型,實施策略有兩種:

  1. 用 PCA 提取每日數據和季度數據的主成分,將主成分和 GDP 增加率聯合創建 AR-MIDAS 模型;
  2. 用若干每日數據分別和 GDP 增加率聯合創建 AR-MIDAS 模型,獲得若干預測結果,再將預測加權平均。
  • 《Real-Time Forecasts of Inflation The Role of Financial Variables》

做者挑選了幾個來自金融市場的數據與其餘若干經濟指標(月度數據)聯合歐元區 HICP(調和消費者物價指數)創建起 HICP 的 AR-MIDAS 模型,並藉助金融市場的數據實現了對 HICP 的實時預測。

金融市場數據包括:

  • 短時間與長期利率;
  • 期限利差;
  • 股票指數;
  • 商品價格;
  • 匯率。

經濟指標包括:

  • 滯後 1 期的 HICP 數據;
  • 滯後 1 期的油價同比;
  • 滯後 5 期的核心通脹。

相關軟件

  • forecast:單變量時間序列預測
  • MTS:多變量時間序列預測
  • midasr:MIDAS 迴歸
  • statsmodels:迴歸分析與時序預測
  • prophet:單變量時間序列預測

參考文獻

  1. A Survey of Econometric Methods for Mixed-Frequency Data
  2. Using monthly data to predict quarterly
  3. Macroeconomic forecasting with mixedfrequency data Forecasting US output growth
  4. Should Macroeconomic Forecasters Use Daily Financial Data and How
  5. Real-Time Forecasts of Inflation The Role of Financial Variables
相關文章
相關標籤/搜索