題目:github
Deep Transformer Models for Time Series Forecasting: The Influenza Prevalence Case微信
做者:網絡
Neo Wu, Bradley Green, Xue Ben, Shawn O'Banion架構
來源:app
Machine Learning
框架
Submitted on 23 Jan 2020機器學習
文檔連接:svg
https://arxiv.org/pdf/2001.08317v1.pdf函數
代碼連接:
https://github.com/Yabin10/M5-Forecasting-Accuracy-Uncertainty
本文提出了一種時間序列預測的新方法。時間序列數據廣泛存在於許多科學和工程學科中。時間序列預測是時間序列數據建模中的一項重要任務,也是機器學習的一個重要領域。在這項工做中,咱們開發了一種新的方法,使用基於Transformer的機器學習模型來預測時間序列數據。這種方法利用自我注意機制從時間序列數據中學習複雜的模式和動態。此外,它是一個通用的框架,能夠應用於單變量和多變量時間序列數據,以及時間序列嵌入。使用流感樣疾病(ILI)預測做爲案例研究,咱們代表,咱們的方法產生的預測結果能夠與最新的預測結果相媲美。
In this paper, we present a new approach to time series forecasting. Time series data are prevalent in many scientific and engineering disciplines. Time series forecasting is a crucial task in modeling time series data, and is an important area of machine learning. In this work we developed a novel method that employs Transformer-based machine learning models to forecast time series data. This approach works by leveraging self-attention mechanisms to learn complex patterns and dynamics from time series data. Moreover, it is a generic framework and can be applied to univariate and multivariate time series data, as well as time series embeddings. Using influenza-like illness (ILI) forecasting as a case study, we show that the forecasting results produced by our approach are favorably comparable to the state-of-the-art.
具體來講,咱們的貢獻以下:
咱們開發了一個通用的基於轉換器的時間序列預測模型。
咱們證實了咱們的方法是對狀態空間模型的補充。它能夠模擬觀測數據。使用嵌入做爲代理,咱們的方法也能夠建模狀態變量和系統的相空間。
以ILI預測爲例,咱們證實了基於轉換者的模型可以利用各類特徵準確預測ILI流行率。
咱們證實,在ILI案例中,咱們的基於變壓器的模型可以得到最早進的預測結果。
咱們基於轉換器的ILI預測模型遵循原始的Transformer架構(Vaswani et al., 2017),包括編碼器和解碼器層。
Encoder:編碼器由輸入層,位置編碼層和四個相同的編碼器層的堆棧組成。輸入層經過徹底鏈接的網絡將輸入時間序列數據映射到維dmodel的向量。這一步對於模型採用多頭注意力機制相當重要。經過將輸入向量與位置編碼向量逐元素相加,可以使用具備正弦和餘弦函數的位置編碼對時間序列數據中的順序信息進行編碼。所得的向量被饋送到四個編碼器層。每一個編碼器層都包含兩個子層:一個自我注意子層和一個徹底鏈接的前饋子層。每一個子層以後是歸一化層。編碼器生成dmodel維向量,以饋送到解碼器。
Decoder:咱們採用相似於原始Transformer架構的解碼器設計(Vaswani et al。,2017)。解碼器還由輸入層,四個相同的解碼器層和輸出層組成。解碼器輸入從編碼器輸入的最後一個數據點開始。輸入層將解碼器輸入映射到dmodel維向量。除了每一個編碼器層中的兩個子層以外,解碼器還插入一個第三子層,以在編碼器輸出上應用自我關注機制。最後,有一個輸出層,它將最後一個解碼器層的輸出映射到目標時間序列。咱們在解碼器的輸入和目標輸出之間採用了預視掩蔽和一位置偏移,以確保對時序數據點的預測僅取決於先前的數據點。
數據集
咱們利用了CDC(CDC)從2010年到2018年的國家和州級別的ILI歷史數據。
實驗結果分析
咱們將結果與ARGONet的ILI預測數據進行了比較(Lu等,2019),這是文獻中最早進的ILI預測模型。圖6和圖7顯示了ARGONet的相關性和RMSE值以及咱們的變壓器結果。整體而言,基於Transformer的模型與ARGONet的性能相同,平均相關性略有改善(ARGONet:0.912,Transformer:0.931),平均RMSE值略有降低(ARGONet:0.550,Transformer:0.593)
圖6:ARGONet和transformer模型的皮爾遜相關。
圖7:ARGONet和transformer模型的RMSE。
表1.與基準模型相對變化的模型性能摘要
在三種深度學習方法中,相關係數很是類似,基於transformer的模型略高於LSTM和Seq2Seq的注意模型。在RMSE方面,Transformer模型優於attention模型的LSTM和Seq2Seq,相對RMSE分別降低27%和8.4%。
該分析代表,注意機制有助於預測性能,由於帶有注意和變壓器的Seq2Seq模型優於普通的LSTM模型。
此外,變壓器比Seq2Seq具備更好的預測性能,說明變壓器的自注意機制比Seq2Seq使用的線性注意機制能更好地捕捉數據中的複雜動態模式。
在這項工做中,咱們提出了一種基於變壓器的方法來預測時間序列數據。與其餘序列對齊的深度學習方法相比,咱們的方法利用自我注意力機制對序列數據進行建模,所以能夠從時間序列數據中學習各類長度的複雜依賴關係。
並且,這種基於變壓器的方法是用於對各類非線性動力學系統進行建模的通用框架。如ILI案例所示,此方法能夠經過時間延遲嵌入對觀察到的時間序列數據以及狀態變量的相空間進行建模。它也是可擴展的,可用於對單變量和多變量時間序列數據進行建模,而對模型實現的修改最少。
最後,儘管當前的案例研究集中在時間序列數據上,但咱們假設咱們的方法能夠進一步擴展爲對由時間和位置座標索引的時空數據進行建模。自我注意機制能夠歸納爲學習時空空間中兩個任意點之間的關係。這是咱們計劃未來探索的方向。
文字來源於網絡 侵刪
翻譯:人工智能學術前沿
掃碼關注咱們
微信號 : zzh1464501547
qq羣:966308496
今日頭條:人工智能學術前沿
知乎:人工智能學術前沿
本文分享自微信公衆號 - 人工智能學術前沿(AI_Frontier)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。