初始HMM及hmmlearn實現 - 知乎

一、初始HMM

隱馬爾科夫模型（Hidden Markov Model，簡稱HMM）是用來描述隱含未知參數的統計模型，HMM已經被成功於語音識別、文本分類、生物信息科學、故障診斷和壽命預測等領域。python

HMM能夠由三個要素組成： $\lambda$ =（A,B,II），其中A爲狀態轉移機率矩陣，B爲觀測狀態機率矩陣，II爲隱藏狀態初始機率分佈。算法

HMM有兩個基本假設，一是齊次馬爾可夫性假設，隱馬爾可夫鏈t的狀態只和t-1狀態有關；二是觀測獨立性假設，觀測只和當前時刻狀態有關。網絡

HMM解決的三個問題：app

一是機率計算問題，已知模型和觀測序列，計算觀測序列出現的機率，該問題求解的方法爲向前向後法；
二是學習問題，已知觀測序列，估計模型的參數，該問題求解的方法爲鮑姆-韋爾奇算法
三是預測問題（解碼問題），已知模型和觀測序列，求解狀態序列，該問題求解的方法爲動態規劃的維特比算法。【實例分析】

HMM的實現：python的hmmlearn類，按照觀測狀態是連續狀態仍是離散狀態，能夠分爲兩類。GaussianHMM和GMMHMM是連續觀測狀態的HMM模型；MultinomialHMM是離散觀測狀態的模型。學習

二、實例分析

（1）問題描述：股票預測問題，觀測值爲股票的漲幅值（當天收盤價-前一天收盤價）和成交量2種，隱藏狀態假定爲平、跌和漲3種，根據股票的歷史數據構建HMM，並進一步預測股票的收盤價。測試

（2）數據預處理：從原始數據中提取有用的列，並作異常值處理操做，獲得模型的數據數據，原始數據爲某支股票2013-2019的記錄數據，以下圖所示。flex

import datetime
import numpy as np
import pandas as pd
from matplotlib import cm, pyplot as plt
from hmmlearn.hmm import GaussianHMM
#數據處理
df = pd.read_excel("601668.SH.xlsx", header=0)
print("原始數據的大小：", df.shape)
print("原始數據的列名", df.columns)
df['日期'] = pd.to_datetime(df['日期'])
df.reset_index(inplace=True, drop=False)
df.drop(['index','交易日期','開盤價','最高價','最低價' ,'市值', '換手率', 'pe', 'pb'], axis=1, inplace=True)
df['日期'] = df['日期'].apply(datetime.datetime.toordinal)
print(df.head())
dates = df['日期'][1:]
close_v = df['收盤價']
volume = df['成交量'][1:]
diff = np.diff(close_v)
#得到輸入數據
X = np.column_stack([diff, volume])
print("輸入數據的大小：", X.shape)   #(1504, 2)

（3）異常值的處理：spa

min = X.mean(axis=0)[0] - 8*X.std(axis=0)[0]   #最小值
max = X.mean(axis=0)[0] + 8*X.std(axis=0)[0]  #最大值
X = pd.DataFrame(X)
#異常值設爲均值
for i in range(len(X)):  #dataframe的遍歷
    if (X.loc[i, 0]< min) | (X.loc[i, 0] > max):
            X.loc[i, 0] = X.mean(axis=0)[0]

（4）模型的構建：3d

#數據集的劃分
X_Test = X.iloc[:-30]
X_Pre = X.iloc[-30:]
print("訓練集的大小：", X_Test.shape)     #(1474, 2)
print("測試集的大小：", X_Pre.shape)      #(30, 2)
#模型的搭建
model = GaussianHMM(n_components=3, covariance_type='diag', n_iter=1000) 
model.fit(X_Test)
print("隱藏狀態的個數", model.n_components)  #
print("均值矩陣")
print(model.means_)
print("協方差矩陣")
print(model.covars_)
print("狀態轉移矩陣--A")
print(model.transmat_)

均值矩陣：共三行，每一行表明一種隱藏層狀態（狀態0、一、2），每一行的兩個元素分別表明漲幅值的均值和成交量的均值。因爲該股票的變化不是特別大，所以結果不是特別明顯，但能夠觀察到狀態0均值爲負值，能夠解釋爲「跌」；狀態1均值最小，接近0，能夠解釋爲「平」，狀態2均值爲正，能夠解釋爲「漲」。excel

協方差矩陣：共三個協方差矩陣，分別對應三種隱藏層狀態。對角線的值爲該狀態下的方差，方差越大，表明該狀態的預測不可信。狀態0的方差約爲0.00255，方差最小，預測很是可信；狀態1的方差約爲0.0157，可信度居中；狀態2的方差爲0.1232，方差最大，最不可信。

狀態轉移矩陣：表明三個隱藏層狀態的轉移機率。能夠看出對角線的數值較大，即狀態0、一、2都傾向保持當前的狀態，意味該股票較穩。

（5）隱藏狀態劃分結果：

#訓練數據的隱藏狀態劃分
X_pic = np.column_stack([dates[:-30], hidden_states, X_Test])
for i in range(len(X_pic)):
    if X_pic[i, 1] == 0:
        plt.plot_date(x=X_pic[i, 0],y=X_pic[i,2],color='r')
    elif X_pic[i, 1] == 1:
        plt.plot_date(x=X_pic[i, 0],y=X_pic[i,2],color='purple')
    else:plt.plot_date(x=X_pic[i, 0],y=X_pic[i,2],color ='y')
plt.show()

（6）預測值計算：

將預測數據的第一組做爲初始數據，預測下一時段的股票漲幅值，以此類推預測該股票後三十組的價格。

expected_returns_volumes = np.dot(model.transmat_, model.means_)
expected_returns = expected_returns_volumes[:,0]        
predicted_price = []  #預測值
current_price = close_v.iloc[-30]
for i in range(len(X_Pre)):
    hidden_states = model.predict(X_Pre.iloc[i].values.reshape(1,2))  #將預測的第一組做爲初始值
    predicted_price.append(current_price+expected_returns[hidden_states])
    current_price = predicted_price[i]

（7）預測結果展現：

x = dates[-29: ]
y_act = close_v[-29:]
y_pre = pd.Series(predicted_price[:-1])
plt.figure(figsize=(8,6))
plt.plot_date(x, y_act,linestyle="-",marker="None",color='g')
plt.plot_date(x, y_pre,linestyle="-",marker="None",color='r')
plt.legend(['Actual', 'Predicted'])
plt.show()

三、小結

能夠看出，該預測結果的趨勢與真實值一致，但預測結果不佳。能夠經過增長訓練的數據量，並進行模型參數調優來提升預測的精度。
HMM應用場景：研究問題是基於序列的，好比時間序列或狀態序列；存在兩種狀態的意義，一種是觀測序列，一種是隱藏狀態序列。
相比於RNN、LSTM等神經網絡序列模型，HMM進行預測的效果可能較劣，總之【股市有風險】

參考資料：hmmlearn官方文檔

https://hmmlearn.readthedocs.io/en/latest/ hmmlearn.readthedocs.io