時間序列分析中預測類問題下的建模方案

時間 2020-05-20

標籤時間序列分析預測問題建模方案简体版

原文原文鏈接

【說在前面】本人博客新手一枚，象牙塔的老白，職業場的小白。如下內容僅爲我的看法，歡迎批評指正，不喜勿噴！[認真看圖][認真看圖]html

【補充說明】時間序列分析主要有兩個方向，一個經過是對歷史數據的分析進行異常檢測和分類，二是進行預測！ python

【補充說明】迴歸分析假設每一個數據點都是獨立的，而時間序列分析則是利用數據之間的相關性進行預測！面試

【多說一句】本文主要對時間序列分析中預測類問題下的建模方案進行探討，其餘內容以後再分享！算法

1、基於統計學模型

1. 基本概念

一個時間序列可能存在的特徵包括如下幾種：網絡

趨勢：時間序列在長時間內呈現出來的長期上升或降低的變更
季節性：時間序列在一年內出現的週期性波動，例如銷售淡季和銷售旺季等
序列相關性：又稱爲自相關性。即時間序列中數據點之間存在正相關或者負相關
隨機噪聲：時間序列中除去趨勢、季節變化和自相關性以後的剩餘隨機擾動。

時間序列中預測類問題的目標是利用統計建模來識別時間序列中潛在的趨勢、季節變化和序列相關性。框架

而衡量一個模型是否適合原始時間序列的標準正是考察原始值和擬合值之間的殘差序列是否近似的爲白噪聲。機器學習

所以，首先要進行時間序列的自相關性分析，肯定訓練數據是符合時間序列要求：函數

用時滯圖觀察：時滯圖是把時間序列的值及相同序列在時間軸上後延的值放在一塊兒展現。
Ljung-Box檢驗：是一種對平穩性檢驗的方法，判斷一個序列是白噪聲仍是序列存在相關性。

時間序列建模的過程能夠總結以下：工具

2. 平穩性檢驗

若是想要對時間序列進行統計學模型分析，須要保證時間序列具備平穩性。post

在數學上，時間序列的嚴平穩有着更精確的定義：它要求時間序列中任意給定長度的兩段子序列都知足相同的聯合分佈。這是一個很強的條件，在實際中幾乎不可能被知足。所以還有弱平穩的定義，它要求時間序列知足均值平穩性和二階平穩性（方差平穩性）。

檢驗平穩性的方法有不少種：

（1）圖示法

根據時序圖粗略判斷是否平穩：平穩時序圖的特徵爲圍繞均值波動，而非平穩時序圖表現爲在不一樣時間段具備不一樣的均值。

便可以從兩個特徵進行判斷：趨勢（即均值隨時間變化）、季節性（即方差隨時間變化、自協方差隨時間變化）。

如圖所示，圖a爲平穩時序圖，圖b爲非平穩時序圖。

（2）單位根檢測法

例如DF檢驗、ADF檢驗、KPSS、P-P等，具體不展開介紹。

3. 平穩化處理

變換：例如取對數、取平方等
平滑處理：例如移動平均等
差分
分解
多項式擬合：例如擬合迴歸等

4. 統計學模型：自迴歸模型 AR

數學上，知足以下關係的時間序列 $\{r_t\}$ 被稱爲一個 $p$ 階的自迴歸模型，記爲 $\mbox{AR}(p)$ 模型：

$\begin{array}{rll} r_t&=&\alpha_1r_{t-1}+\alpha_2r_{t-2}+\cdots+\alpha_pr_{t-p}+w_t\\ &=&\displaystyle\sum_{i=1}^p\alpha_i r_{t-i}+w_t \end{array}$

$p$ 階的意思是使用當前時刻 $t$ 以前的 $p$ 個觀測值做爲自變量對 $r_t$ 建模。模型的含義是， $r_t$ 能夠表達爲 $t$ 時刻以前的 $p$ 個收益率觀測值的線性組合以及一個 $t$ 時刻的隨機偏差 $w_t$ 。 $p$ 的取值能夠是任何一個正整數，所以最簡單的自迴歸模型就是 $\mbox{AR}(1)$ 模型（ $p = 1$ ）。

須要說明的是，自迴歸模型不必定都知足平穩性。

5. 統計學模型：滑動平均模型 MA

數學上，知足以下關係的時間序列 $\{r_t\}$ 被稱爲一個 $q$ 階的滑動平均模型，記爲 $\mbox{MA}(q)$ 模型：

$r_t=\omega_t+\beta_1\omega_{t-1}+\beta_2\omega_{t-2}+\cdots+\beta_q\omega_{t-q}$

與自迴歸模型不一樣，滑動平均模型必定知足平穩性。

6. 統計學模型：自迴歸滑動平均模型 ARMA

ARMA模型是針對平穩時間序列創建的模型。將一個 $p$ 階的自迴歸模型和一個 $q$ 階的滑動平均模型組合在一塊兒，將 AR 和 MA 模型的優點互補起來。因爲 AR 和 MA 模型都是線性模型，所以它倆的線性組合，即 ARMA 模型，也是線性模型。

數學上，知足以下關係的時間序列 $\{r_t\}$ 被稱爲一個階數爲 $(p,q)$ 的自迴歸滑動平均模型，記爲 $\mbox{ARMA}(p,q)$ 模型：

相比較單一的 AR 或者 MA 模型，ARMA 模型擁有更多的參數，出現過擬合的危險就更高。所以，在肯定 AR、MA 以及 ARMA 模型的階數時，常使用信息量準則，包括赤池信息量準則（簡稱 AIC）以及貝葉斯信息量準則（簡稱 BIC）。這兩個信息量準則的目的都是尋找能夠最好地解釋數據但包含最少自由參數的模型，均使用模型的似然函數、參數個數以及觀測點個數來構建一個標量函數，以此做爲評價模型好壞的標準，區別在於標量函數的表達式有所不一樣。

7. 統計學模型：差分整合移動平均自迴歸模型 ARIMA

ARIMA （p，d，q）模型是針對非平穩時間序列建模，在ARMA模型的基礎上多了差分項（即前文提到的平穩化處理）。其中AR是「自迴歸」，p爲自迴歸項數，MA爲「滑動平均」，q爲滑動平均項數，d爲使之成爲平穩序列所作的差分次數。其中，對於p，d，q的選擇是經過ACF（自相關函數，描述了時間序列數據與其以後版本的相關性）與PACF（偏自相關函數，描述了各個序列的相關性）來肯定的。