更多精彩內容,歡迎關注公衆號:數量技術宅,也可添加技術宅我的微信號:sljsz01,與我交流。html
不論在學術領域仍是實踐範疇上,股價預測一直是重要的研究課題。直到如今,各類預測股價的理論仍然在不斷研究中。在金融領域,用來解釋股票價格界面分析的特性被稱爲「因子」,不少金融方面的研究已經識別出了這些截面數據因子跟股價漲跌的關係。因爲這些因子和股票價格的關係日趨複雜和非線性,最近,使用機器學習,特別是深度學習用於預測股票價格的研究被不斷提出。不過,這些理論上的研究都和實際的投資操做有着必定距離。微信
咱們解讀的這篇論文《Cross-sectional Stock Price Prediction using Deep Learning for Actual Investment Management》被2020年國際人工智能與區塊鏈大會(AIBC 2020)收錄,在文章中,做者提出了使用深度學習進行實際投資管理的截面每日股價預測框架。 例如,做者使用在收盤時可用的信息來構建投資組合,並在次日開盤時進行投資。做者在日本股票市場進行實證分析,並確認框架的盈利能力。網絡
股價預測已經日漸成爲一個重要的研究主題,各種預測股價的理論不斷提出,到目前爲止,這些理論大概能夠分位兩個方面:時間序列分析和截面數據分析。框架
第一類理論將股票價格做爲時間序列數據,而後進行時間序列分析。金融上的時間序列分析始於線性模型,例如自迴歸模型(AR),這類模型中,參數是惟一且肯定的。在實際的金融時間序列中,隨着許多非線性特性被發現,在時間序列結構中併入波動率的廣義自迴歸條件異方差模型(GARCH)開始被應用。近年來,GARCH模型進一步發展,擴展出了不少變量。另外,在時間序列分析領域,例如k最近鄰法,神經網絡和支持向量機等非線性模型已經普遍應用於股票價格預測。這些模型不只努力從學術上把握經濟意義,並且努力在實踐中提升預測準確性,它們經過反覆試驗來嘗試掌握股價波動的模式,這些嘗試在近幾年已經引發人們對算力的重視。機器學習
第二類理論使用諸如公司屬性之類的橫截面數據執行橫截面(迴歸)分析。 經過截面分析來解釋股價的特徵在金融領域被稱爲「因子」。 金融方面的許多實證研究已經肯定了哪些股票的橫截面特徵相對增長,哪些股票價格降低。 解釋橫截面股票價格的表明性模型是Fama-French三因子模型。 模型指出,能夠經過三個因子來解釋股票收益的橫截面結構:β(市場投資組合),規模(市場資本化)和價值(價格市價比)。 從那之後,除了Fama-French三因子模型中的因子外,其餘因子也相繼被發現。 到2012年發現的因子就多達300多個,並且,大多數這些因子是在最近10年中發現的。函數
儘管投資者須要考慮的因子在快速增加,但要同時測試超過300個因子,從維度的規模上將也是很是困難的。此外,因爲不錯的可操做性和結果的魯棒性,線性迴歸模型仍是在金融領域長期應用。可是,因爲大量因子和股票收益關係的複雜性,線性迴歸模型在預測準確性上限制很大。就像不少非參數截面股票預測研究的那樣,使用深度學習來非線性擬合各類因子相比簡單擬合各類因子的線性迴歸,能夠提升預測的準確性和股票盈利。工具
可是,這些研究僅限於每個月的股票價格預測並且它們與實際的投資管理不符。 在這篇論文中,做者提出了一個使用每日股價橫截面數據預測使用深度學習進行實際投資管理的框架,而且在日本股市進行實證分析,以確認框架的有效性。爲了天天進行投資,做者會在實際投資時創建投資組合。 例如,在收市時段利用可用信息構建投資組合,而後在次日開市時在市場上進行投資。 此外,投資組合週轉率是計算並比較以考慮影響交易成本。 週轉率高的投資組合與較低利率的投資組合相比,交易成本更高。post
文章使用的數據集爲TOPIX500成分股指數,TOPIX500覆蓋了日本股市的大盤股和部分中盤股,同時這個指數也常做爲海外投資機構投資日本股市的投資標的。學習
文章使用了33個因子,以下表:區塊鏈
做者把問題定義爲了一個迴歸問題,這樣就把問題轉化成了尋找一個預測變量f,同時用均方偏差(MSE)做爲損失函數。定義t時刻訓練模型的均方偏差以下:
做者使用深度學習給函數f構造一個模型,而後用嶺迴歸和隨機森嶺做爲比較模型。
DNN經過開源機器學習庫TensorFlow實現。對於超參數,總共選用了6種模式,其中3個隱藏層,2種丟棄率和迭代次數。模型設置以下:
表示股票i在T+5時間的評分由T時刻股價代入函數f產生,而參數𝜃T*則是由以前創建的模型訓練產生。而後根據這個評分創建投資組合,流程以下:
下表顯示了多頭策略組合的表現,黑體表示了每一個模型最佳的表現,下劃線表示了每一列最好的值。
(Model:模型,Alpha:收益,TE:風險,IR:收益風險比,MaxDD:最大回撤,TN:週轉率)
下圖顯示了累計收益最佳的組合表現,紅線在整個階段的表現更爲穩健。
下圖顯示了紅線仍然是最穩健的曲線。
文章實現了使用深度學習一個每日股價截面數據預測框架用來進行投資管理實踐。主要結論以下:
有效參數越多,基於深度學習(DNN)股價預測模型的表現要越好於隨機森林和嶺迴歸的模型。
DNN模型有更低的風險波動,或者說相比RF和RR模型有着更好的收益風險比。
DNN模型有着更高的週轉率。
隨着參數愈來愈多,深度學習做爲一個重要工具,正在愈來愈多地發揮着做用。若是您對於量化交易有興趣,也歡迎找到咱們跟咱們討論交流。
關注 「數量技術宅」不迷路,您的點贊、轉發,是我輸出乾貨,最大的動力
Omega System Trading and Development Club內部分享策略Easylanguage源碼
【數量技術宅|量化投資策略系列分享】基於指數移動平均的股指期貨交易策略
AMA指標原做者Perry Kaufman 100+套交易策略源碼分享
【數量技術宅|金融數據系列分享】套利策略的價差序列計算,恐怕沒有你想的那麼簡單
【數量技術宅|量化投資策略系列分享】成熟交易者期貨持倉跟隨策略
【數量技術宅|金融數據分析系列分享】爲何中證500(IC)是最適合長期作多的指數
商品現貨數據很差拿?商品季節性難跟蹤?一鍵解決沒煩惱的Python爬蟲分享
【數量技術宅|金融數據分析系列分享】如何正確抄底商品期貨、大宗商品