(轉) 深度強化學習綜述：從AlphaGo背後的力量到學習資源分享（附論文）

時間 2019-11-10

標籤深度強化學習綜述 alphago 背後力量資源分享論文简体版

原文原文鏈接

本文轉自：http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WAgit

專題 | 深度強化學習綜述：從AlphaGo背後的力量到學習資源分享（附論文）

原創 2017-01-28 Yuxi Li 機器之心

選自arXivgithub

做者：Yuxi Li算法

編譯：Xavier Massa、侯韻楚、吳攀編程

摘要瀏覽器

本論文將概述最近在深度強化學習（Deep Reinforcement Learning）方面喜人的進展。本文將從深度學習及強化學習的背景知識開始，包括了對實驗平臺的介紹。接着咱們會介紹深度 Q 網絡（Deep Q-Network，DQN）及其拓展、異步方法（asynchronous methods）、策略優化（policy optimization）、獎勵（reward）及規劃（planning）。在這以後，我會討論注意和記憶（attention and memory）機制、非監督學習及學習去學習。隨後，會討論強化學習的各類應用，包括在遊戲（特別是 AlphaGo）、機器人、口語對話系統（聊天機器人）、機器翻譯、文本序列預測、神經架構設計、個性化網絡服務、醫療、金融及音樂生成等方面的應用。咱們會提到一些未覆蓋到的主題/論文。在列舉強化學習相關資源以後，咱們將會以討論結束論文。安全

1 導語微信

強化學習（RL）其實是關於序列決策的一種工具，它可以解決包括科學研究、工程文理等學科的一系列問題（Sutton and Barto, 2017）。網絡

加強學習及神經網絡的結合能夠追溯到 1990 年代（Tesauro, 1994; Bertsekas and Tsitsiklis, 1996; Schmidhuber, 2015）。而在最近深度學習的突破性進展之下（LeCun et al., 2015; Goodfellow et al., 2016），得益於大數據的普及、計算能力的提高及新的算法技術，咱們正見證着強化學習的復興（Krakovsky, 2016），特別是強化學習及深度學習的結合（也就是深度強化學習（deep RL））。數據結構

咱們已見證了諸多突破性進展——深度 Q 網絡（Mnih et al., 2015）、AlphaGo（Silver et al., 2016）及可微分神經計算機（Graves et al., 2016）。還有一些全新的架構及應用，包括異步方法（Mnih et al., 2016）、對抗網絡架構（Dueling Network Architectures，Wang et al., 2016a）、價值迭代網絡（value iteration networks，Tamar et al., 2016）、用於機器翻譯的雙學習（dual learning for machine translation，He et al., 2016a）、口語對話系統（spoken dialogue systems，Su et al., 2016b）、信息提取（information extraction，Narasimhan et al., 2016）、引導性策略搜索（guided policy search，Levine et al., 2016a）、生成對抗模仿學習（generative adversarial imitation learning，Ho and Ermon，2016）、非監督的強化及輔助學習（unsupervised reinforcement and auxiliary learning，Jaderberg et al., 2017）及神經架構設計（neural architecture design，Zoph and Le, 2017）等等。在這篇概述中，咱們主要關注近幾年的工做成果，固然也只能覆蓋不徹底的、一小部分紅果。架構

咱們將給讀者一系列的參考資料以幫助其進一步學習：

強化學習（Sutton and Barto, 2017; Szepesvari, 2010; Bertsekas, 2012; Powell, 2011; Bertsekas and Tsitsiklis, 1996; Puterman, 2005; Littman, 2015; Kaelbling et al., 1996）

深度學習（LeCun et al., 2015; Goodfellow et al., 2016; Bengio, 2009; Deng and Dong, 2014）

機器學習（Jordan and Mitchell, 2015; Hastie et al., 2009;Bishop,2011;Murphy,2012;Jamesetal.,2013）

實用機器學習建議（Domingos，2012；Zinkevich，2017）

人工智能（Russell and Norvig, 2009）

神經網絡中的深度學習（Schmidhuber，2015）

天然語言處理（Hirschberg and Manning，2015；Deng and Liu, 2017）

機器人學（Kober et al., 2013）

遷移學習（Taylor and Stone、2009；Panand Yang，2010；Weiss et al., 2016）

半監督學習（Zhu and Goldberg，2009）

貝葉斯強化學習（Ghavamzadeh et al., 2015）

口語對話系統（Hinton et al., 2012；He and Deng，2013；Young et al., 2013）

人工智能安全（Amodei et al., 2016； Garcia and Fernandez，2015）

蒙特卡洛搜索（MCTS）（Browne et al., 2012；Gelly et al., 2012）

多代理強化學習（Shoham et al., 2003；Busoniu et al., 2008）

博弈論（Leyton-Brown and Shoham，2008）等等。

咱們將會在 23 節中列舉強化學習資源。在 goo.gl/KoXIQC 及 goo.gl/1Q1lzg 參見強化學習的應用。

該概述的大綱以下：第二節，深度學習及強化學習的背景知識及對測試平臺的介紹；第三節，對深度 Q 網絡及其拓展的介紹；第四節，異步放法的介紹；第五節，策略優化；第六節，獎勵；第七節，規劃；第八節，注意和記憶機制，特別是對可微分神經計算機（DNC）的介紹；第九節，非監督學習；第十節；學習去學習（learning to learn）；第十一節，遊戲/博弈，包括棋類遊戲、視頻遊戲及非完美信息博弈；第十二節，AlphaGo；第十三屆，機器人學；第十四節，對話系統（聊天機器人）；第十五節，機器翻譯；第十六節，文字序列預測；第十七屆，神經架構設計；第十八節，個性化網絡服務；第十九節，醫療；第二十節，金融；第二十一節，音樂生成；第二十二節，一個未回顧論文/話題的待辦清單；第二十四節，討論。

特別地，咱們將在 23 節中列舉一系列關於強化學習的資源，包括圖書、在線課程、教程、會議、期刊、研討會乃至博客等。若是非要選擇惟一一個推薦的強化學習的資源，那麼應該是 Sutton 教授的強化學習書（RL Book，Sutton and Barto，2017，第二版正在編輯中）。它覆蓋了強化學習的基礎知識，並介紹了它最新的進展，包括深度 Q 網絡、AlphaGo、梯度策略方法（Policy Gradient Methods）及在心理學與神經科方面的進展。對深度學習而言，則能夠選擇 Goodfellow 等人的書（2016）。

2 背景知識

在這一節中，咱們將會簡要介紹在深度學習（Sutton and Barto，2017）與深度學習（Goodfellow et al., 2016）方面的基礎知識與概念。

2.1 深度學習

2.2 強化學習

2.3 測試平臺

街機學習環境（Arcade Learning Environment，ALE，Bellemare et al., 2013）是一個由 2600 個 Atari 遊戲構成的用於研發及評估 AI 的框架。
DeepMind 團隊則發佈了它的第一人稱視角 3D 遊戲平臺 DeepMind Lab（Beattie et al., 2016）。DeepMind 及暴雪會合做以發佈星際爭霸 2 的人工智能研究環境（goo.gl/Ptiwfg）。
OpenAI Gym（https://gym.openai.com/）是一個用於開發強化學習算法的工具包。它由一系列環境構成，包括了 Atari 遊戲及模擬的機器人構成，以及一個用於比較及復現結果的網站。
OpenAI Universe（https://universe.openai.com/）被用於將任一程序轉換到一個 Gym 環境。Universe 已經集成了許多的環境，包括 Atari 遊戲、flash 遊戲、如 Mini World of Bit Sand 這樣的瀏覽器任務。最近，俠盜獵車手 5（GTA5）也已經被加入到 Universe 中來幫助模擬自動駕駛車輛。
FAIR TorchCraft（Synnaeve et al., 2016）是一個爲如星際爭霸這樣實時戰略類（RTS）遊戲開發的庫。
ViZDoom 是一個基於《毀滅戰士（Doom）》遊戲的爲研究視覺強化學習的研究平臺。
TORCS 是一個賽車比賽駕駛模擬器（Bernhard Wymann et al., 2014）。
MuJoCO（Multi-Joint dynamics with Contact）是一個物理引擎，參見：http://www.mujoco.org/
Duan et al., 2016 爲連續控制任務給出了一個跑分平臺，開源代碼參見：https://github.com/openai/rllab
Nogueira and Cho（2016）展現了 WebNav 挑戰，來測試維基百科連接導航。

3 深度 Q 網絡（DEEP Q-NETWORK）

算法 1：深度 Q 網絡，截取自 Mnih et al. (2015)

3.1 雙重 DQN（DOUBLE DQN）

3.2 優先經驗回放（PRIORITIZED EXPERIENCE REPLAY）

3.3 對抗架構（DUELING ARCHITECTURE）

3.4 更多拓展

4 異步方法

算法 2：A3C，每一個 actor-learner 線程，來自 Mnih et al. (2016)

5 策略優化

策略一般是隨機的。然而在 2014 年，Silver et al. (2014) 引入肯定性策略梯度（DPG）來有效估計策略梯度。Lillicrap et al. (2016) 用深度神經網絡擴展了 DPG。同時咱們介紹了幾份近期成果，包括引導策略搜索（Guided Policy Search，Levine et al.,2016a）、信賴域策略優化（Trust Region Policy Optimization，Schulman et al.,2015）、基準測試結果（Duan et al., 2016）以及策略梯度與 Q 學習（O'Donoghue et al., 2017）。

5.1 肯定性策略梯度

5.2 深度肯定性策略梯度

5.3 引導策略搜索

5.4 信賴域策略優化

5.5 基準測試結果

Duan et al. (2016) 提出了連續控制任務的基準，包括了一些經典任務（如車柱）、具備極大狀態與動做空間的任務（如 3D 人形運動）、部分觀察任務、層次結構任務，並實施了許多算法，包括批處理算法：REINFORCE 算法、截斷性天然策略梯度（TNPG）、獎勵加權迴歸（RWR）、相對熵策略搜索（REPS）、信賴域策略優化（TRPO）、交叉熵方法（CEM）、自適應協方差矩陣進化策略（CMA-ES）; 也包括在線算法：深度肯定性策略梯度（DDPG）；還有批處理算法的重複性變體。開源地址：https://github.com/openai/rllab

Duan et al.(2016) 比較了各類算法，並代表 DDPG、TRPO 和截斷性天然策略梯度（TNPG）(Schulman et al., 2015) 在訓練深度神經網絡策略中很有成效，但分層任務（hierarchical tasks）也還須要更好的算法。

5.6 結合策略梯度與 Q-Learning

6 獎勵

逆向強化學習（IRL/inverse reinforcement learning）是給定觀察最佳行爲來肯定獎勵函數的問題（Ngand Russell，2000）。在激勵學習或學徒制學習中，代理學習使用來自專家的軌跡樣本並從其演示中執行任務，代理學習沒有強化信號，在訓練時也沒有來自專家的額外數據；模仿學習的兩種主要方法是行爲克隆和逆向強化學習；行爲克隆被制定爲監督學習問題，將狀態行動對（state-action pairs）從專家軌跡（expert trajectories）映射到策略中（Ho and Ermon，2016）。

6.1 生成對抗網絡

6.2 生成對抗式模仿學習

7 規劃

Tamar et al. (2016) 提出了價值迭代網絡（VIN），即一個用於近似價值迭代算法的徹底可微分的 CNN 規劃模塊，它可用於學習規劃，例如強化學習中的策略。與傳統的規劃相反，VIN 是無模型的，其中的獎勵和轉移機率是要學習的神經網絡的一部分，從而避免系統識別的問題。VIN 能夠經過反向傳播進行端到端訓練，它也能夠在一組不一樣的任務中泛化：VIN 能夠泛化在一組不一樣的任務：簡單的網格世界（gridworlds）、火星車導航、連續控制和用於維基百科連接導航的 WebNav Challenge（Nogueira and Cho, 2016）。價值迭代網絡及決鬥網絡（Wang et al.，2016b）的一個優勢即是它們能爲強化學習問題設計新型深度神經網絡架構。欲訪問有關 VIN 的博客，請點擊 goo.gl/Dr8gKL。

8 注意和記憶

注意（attention）和記憶（memory）是兩個重要的機制，在許多狀況下它們一塊兒發揮做用。

Mnih et al. (2014) 引入循環注意模型（RAM/ recurrent attention model）來關注圖像或視頻的區域或位置的選定序列，用於圖像分類和對象檢測。做者使用 RL 方法特別是 REINFORCE 算法來訓練模型，以克服模型不可微分的問題，並對圖像分類任務和動態視覺控制問題進行實驗。Xu et al. (2015) 整合了圖像字幕的注意，用 REINFORCE 算法訓練硬版本的注意機制，並在 Flickr8k、Flickr30k 和 MSCOCO 數據集上展現了注意的有效性。注意機制也應用到了 NLP 中，如 Bahdanau et al. (2015; 2017)，以及應用外部記憶的可微分神經計算機中（Graves et al., 2016）。

Graves et al.(2016) 提出了可微分神經計算機（DNC），其中神經網絡能夠從外部存儲器讀取與寫入，使 DNC 能夠解決複雜的結構化的問題，而沒有讀寫存儲器的神經網絡卻不能解決。DNC 將內存分配干擾最小化，並實現了長期存儲。相似於常規計算機，在 DNC 中，神經網絡是控制器，外部存儲器是隨機存取存儲器；而且 DNC 用存儲來表示並操縱複雜的數據結構。不一樣的是，DNC 使用梯度降低來學習端對端的表示和操縱，而梯度降低的數據是目標導向的。當使用有監督學習來訓練時，DNC 能夠解決合成問題來用於天然語言的推理；它能夠解決交通網絡中兩個站點之間的最短路徑定位問題和家庭樹中的關係推理問題。當使用強化學習來訓練時，DNC 能夠解決一個使用被符號序列指定的變更性目標的移動塊拼圖。DNC 優於正常神經網絡，如 LSTM 或 DNC 的前身神經圖靈機（Graves et al., 2014），若碰到更困難的問題，LSTM 可能會失敗。雖然這些實驗是相對小規模的，咱們仍指望看到 DNC 的進一步改進和應用。

欲查閱 Deepmind 對於 DNC 的描述，請點擊 goo.gl/58mgoX。欲查閱注意與/或記憶的更多信息，如 Ba et al. (2014); Eslami et al. (2016); Gregor et al. (2015); Jaderberg et al. (2015); Oquab et al.(2015);Yang et al.(2015);Zagoruyko and Komodakis(2017);Zaremba and Sutskever(2015); Weston et al. (2015); Sukhbaatar et al. (2015); Ba et al. (2016); Danihelka et al. (2016); Kaiser and Bengio (2016)，請參閱 goo.gl/ArW2nE 和 goo.gl/UukROv，這是有關注意與記憶的博客。

9 無監督學習

Jaderberget al.(2017) 提出了無監督的強化輔助學習（UNREAL），經過共享一個共同的表徵（representation），並在一般的累積獎勵以外最大化僞獎勵功能，從而提升學習效率。UNREAL 經過學習大量的可能訓練信號而受益，特別是當外部獎勵信號不多被觀察到時。UNREAL 由 RNN-LSTM 基本代理，像素控制，獎勵預測和值函數重放組成。基本代理（base agent）使用 A3C 進行在策略（on-policy）訓練。觀察、獎勵和動做的經驗存儲於答覆緩衝器（reply buffer）內，以供輔助任務使用。輔助策略使用基礎 CNN、LSTM 以及解卷積網絡（deconvolutional network）來使輸入圖像中不一樣區域的像素強度的變化最大化。獎勵預測模塊經過觀察最後三個幀來預測下一幀中的短時間外在獎勵，以解決獎勵稀疏性的問題。值函數重放則會進一步訓練值函數。UNREAL 改善了 A3C 在 Atari 遊戲上的表現，並在 3D Labyrinth 遊戲中表現出色。欲訪問Deepmind有關 UNREAL 的官方博客，請點擊 goo.gl/zhqBGy。

咱們將在第 13 節討論使用相似的無監督輔助學習的機器人導航以及生成式對抗網絡（GAN），並在第 6 節討論近期的無監督學習框架。也請參閱Sutton et al.(2011) , 一個用於以無監督感受運動學習互動來學習知識的可擴展實時架構 Horde.

10 學習去學習（LEARNING TO LEARN）

學習去學習與遷移學習、多任務學習或表徵學習相關，是造成實現強大人工智能的核心要素之一（Lake et al., 2016）。學習去學習也與元學習（meta learning）和一次性學習（one-shot learning）有關。

Duan et al. (2017) 和 Wang et al. (2016a) 提出經過學習一個靈活的 RNN 模型來處理一系列 RL 任務，從而可以提升樣本效率，可以從幾個樣本中學到新任務，而且能夠從先驗知識中獲益。此代理使用 RNN 建模，並輸入了觀察、獎勵、行動和終止標誌；它使用 RL，Duan et al.（2017）提出的 TRPO 和 Wang 等（2016a）的 A3C 算法來訓練 RNN 的權重，而且在使用特定 RL 算法解決的多個問題中表現類似。Duan 等在 2017 年使用多臂賭博機、表 MDP 和視覺導航進行了實驗，並指出對於較大型的問題，須要更好的 RL 算法來訓練 RNN。Wang et al.（2016a）對獨立臂賭博機、依賴臂賭博機、持續性臂和 MDP 進行了實驗。將來的工做方向之一即是提升可擴展性。

Li 和 Malik 在 2017 年建議經過將特定的優化算法表示爲策略，將收斂速度表示爲獎勵，以引導策略搜索（Levine et al.，2016a）來使無約束連續性優化算法自動化。

11 Games（博弈/遊戲）

遊戲爲強化學習/人工智能算法提供了很是好的測試平臺。咱們在第 3 節討論了深度 Q 網絡（DQN）及其延展，全部這些都在 Atari 遊戲上作了測試。咱們在第 4 節討論了 Mnih et al. (2016)，在第 9 節討論了 Jaderberg et al. (2017)，在第 13 節討論了 Mirowski et al. (2017)——他們使用了 Labyrinth 做爲測試平臺。

西洋雙陸棋和圍棋是完美信息博弈（perfect information games）。咱們在 11.1 討論了西洋雙陸棋這樣的棋盤遊戲。在 11.2 討論了 Doom 這樣的視頻遊戲。咱們將撲克遊戲放到了 11.3，討論了非完美信息博弈（imperfect information games），其中涉及到了博弈論（game theory）。Labyrinth 和 Doom 等視頻遊戲一般是非完美博弈，可是目前尚未使用博弈論來解決這些問題。

咱們將 AlphaGo(Silver et al., 2016) 單獨成了第 12 節，由於其有很大的重要性。

11.1 棋盤遊戲

11.2 視頻遊戲

11.3 非完美信息博弈

12 AlphaGo

AlphaGo (Silver et al., 2016) 是一個計算機圍棋程序，其在 2015 年 10 月份以 5 局全勝擊敗了歐洲圍棋冠軍，成爲了第一個在全尺寸 19×19 棋盤上無讓子地擊敗了人類職業棋手的計算機圍棋程序。不久以後，2016 年 3 月份，AlphaGo 以 4:1 的成績擊敗了曾獲 18 次世界冠軍的圍棋手李世石，引發了世界的普遍關注。這是人工智能發展的一個里程碑。圍棋問題的困難之處不只在於其超大的搜索空間（search space）——250^150，一個天文數字；並且也是由於其局面評估（position evaluation）的難度很是大，而西洋雙陸棋和國際象棋等遊戲已經經過局面評估獲得瞭解決。

12.1 訓練流程和蒙特卡洛樹搜索（MCTS）

咱們在 Silver et al. (2016) 與 Sutton and Barto (2017) 的基礎上簡要討論了 AlphaGo 的工做方式。參見 Sutton and Barto (2017) 中第 16 章可瞭解 AlphaGo 的詳細和直觀描述。DeepMind 對 AlphaGo 的描述可查閱：goo.gl/lZoQ1d

AlphaGo 是使用深度 CNN 技術、監督學習、強化學習和蒙特卡洛樹搜索（MCTS）(Browne et al., 2012; Gelly et al., 2012) 打造的。AlphaGo 的工做分紅了兩個階段：神經網絡訓練流程和 MCTS。其訓練流程階段包括根據專家的走子訓練一個監督學習策略網絡、快速部署策略、強化學習策略網絡和強化學習價值網絡。

13-21：強化學習的應用介紹

這幾節介紹了強化學習的不一樣類型的應用，這裏簡單給出目錄，詳情請查閱原論文。

13 機器人學

14 口語對話系統

15 機器翻譯

16 文本序列預測

17 神經架構設計

18 個性化網絡服務

19 醫療保健

20 金融

21 音樂生成

22 將來工做

下面咱們列出了上面的概述中沒有討論到的有趣的和/或重要的研究方向/論文，但願可以爲有興趣進一步研究它們的人提供信息入口。這也將是咱們將來工做的一部分。

• 理解機器學習（understanding deep learning）, Daniely et al. (2016); Li et al. (2016b); Zhang et al. (2017)

• 探索（exploration）如：Stadie et al. (2015); Bellemare et al. (2016); Kulkarni et al. (2016); Osband et al. (2016); Nachum et al. (2017)

• 基於模型的學習（model-based learning）如：Oh et al. (2015); Gu et al. (2016b)

• 回溯算法（retrace algorithm）, Munos et al. (2016)

• 預測（predictron）, Silver et al. (2017)

• 分層強化學習（hierarchical RL）如：Kulkarni et al. (2016); Vezhnevets et al. (2016); Tessler et al. (2017); Florensa et al. (2017)

• 遷移/多任務強化學習（transfer/multitask RL）如： Maurer et al. (2016); Mo et al. (2016); Parisotto et al. (2016), NIPS 2015 Transfer and Multi-Task Learning: Trends and New Perspectives Workshop

• 零次/一次性學習（zero/one-shot learning）如：Vinyals et al. (2016); Lake et al. (2015); Johnson et al. (2016)

• 半監督強化學習（semi-supervised RL）如：Finn et al. (2017)

• deep symbolic RL, Garnelo et al. (2016)

•內在動機（intrinsic motivation）如：Stadie et al. (2015); Kulkarni et al. (2016); Oudeyer et al. (2016)

• 超參數學習（hyperparameter learning）如：Andrychowicz et al. (2016)

• 信息提取（information extraction）如：Narasimhan et al. (2016)

• 文本博弈（text games）如：He et al. (2016b); Narasimhan et al. (2015)

• 語言樹結構學習（language tree-structure learning）如：Yogatama et al. (2017)

• 問答系統（question answering）如：Shen et al. (2016); Trischler et al. (2016)

• 大型動做空間（large action space）如：Dulac-Arnold et al. (2016); He et al. (2016c)

• 適應性規範化（adaptive normalization）, van Hasselt et al. (2016b)

• 自動駕駛載具（self-driving vehicle）如：Bojarskietal.(2016),NIPS 2016 Workshop on Machine Learning for Intelligent Transportation Systems

• 智能電網（smart grid）如： Wen et al. (2015b)

• 通訊網絡（communication networks）如： Mestres et al. (2016)

• 物理實驗（physics experiments）如： Denil et al. (2016)

• 深度機率編程（deep probabilistic programming）, Tran et al. (2017)

• 深度博弈學習（deep learning games）, Schuurmans and Zinkevich (2016)

• 程序學習（program learning）如：Reed and de Freitas (2016)

• 量子強化學習（quantum RL）如：Crawford et al. (2016), NIPS 2015 Workshop on Quantum Machine Learning

23 資源

咱們列出了一些用於深度強化學習的資源，固然並不能作到徹底。

23.1 書籍

• Richard S. Sutton 和 Andrew G. Barto 所著的毫無疑問的和直觀的強化學習書 (Sutton and Barto, 2017)

• 簡明和理論性的《Algorithms for Reinforcement Learning》，做者：Csaba Szepesv´ari (Szepesv´ari, 2010)

• 一本關於近似動態編程的理論書籍，做者：Dimitri P.Bertsekas(Bertsekas, 2012)

• 一本面向運籌學的書《Approximate Dynamic Programming》，做者：WarrenB. Powell (Powell, 2011)

•《Deep Learning》，做者：IanGoodfellow, Yoshua Bengio 和 Aaron Courville (Goodfellow et al., 2016)

23.2 課程

• David Silver, 強化學習（Reinforcement Learning）, 2015, 幻燈片：goo.gl/UqaxlO，視頻：goo.gl/7BVRkT

• Sergey Levine, John Schulman and Chelsea Finn, CS 294: 深度強化學習（Deep Reinforcement Learning）2017 年春季課程, http://rll.berkeley.edu/deeprlcourse/

• Charles Isbell, Michael Littman and Pushkar Kolhe, Udacity: 機器學習：強化學習（Machine Learning: Reinforcement Learning）, goo.gl/eyvLfg

• 李飛飛、 Andrej Karpathy 和 Justin Johnson, CS231n: 用於視覺識別的卷積神經網絡（Convolutional Neural Networks for Visual Recognition）, http://cs231n.stanford.edu

• Richard Socher, CS224d: 用於天然語言處理的深度學習（Deep Learning for Natural Language Processing）, http://cs224d.stanford.edu

• Nando de Freitas, 深度學習課程（Deep Learning Lectures）, https://www.youtube.com/user/ProfNandoDF

23.3 教程

• David Silver, 深度強化學習（Deep Reinforcement Learning）, ICML 2016

• Pieter Abbeel 和 John Schulman, 經過策略優化的深度強化學習（Deep Reinforcement Learning Through Policy Optimization）, NIPS 2016

• 吳恩達，使用深度學習開發人工智能應用的基本要點（Nuts and Bolts of Building Applications using Deep Learning）, NIPS 2016

• John Schulman，深度強化學習研究的基本要點（The Nuts and Bolts of Deep Reinforcement Learning Research），深度強化學習研討會, NIPS 2016

• John Schulman, 深度強化學習（Deep Reinforcement Learning）, Deep Learning School, 2016

• Pieter Abbeel, Deep Reinforcement Learning, Deep Learning Summer School, 2016; http://videolectures.net/deeplearning2016 abbeel deep reinforcement/

• David Silver, Deep Reinforcement Learning, 第二屆強化學習與決策多學科會議（RLDM）, Edmonton 2015; http://videolectures.net/rldm2015 silver reinforcement learning/

• Rich Sutton, Introduction to Reinforcement Learning with Function Approximation, https://www.microsoft.com/en-us/research/video/tutorial-introduction-to-reinforcementlearning-with-function-approximation/

• Joelle Pineau, 強化學習入門（Introduction to Reinforcement Learning）, Deep Learning Summer School, 2016; http://videolectures.net/deeplearning2016 pineau reinforcement learning/

• Deep Learning Summer School, 2016, 2015

23.4 會議、期刊和研討會

• NIPS: 神經信息處理系統

• ICML: 國際機器學習大會

• ICLR: 國際學習表徵大會

• RLDM: 強化學習與決策多學科會議

• AAAI, IJCAI, ACL, EMNLP, SIGDIAL, ICRA, IROS, KDD, SIGIR, CVPR, 等

• Science Robotics, JMLR, MLJ, AIJ, JAIR, PAMI, 等

• Nature May 2015, Science July 2015, 搜索關於機器學習/人工智能的論文

• Deep Reinforcement Learning Workshop, NIPS 2016, 2015; IJCAI 2016

• Deep Learning Workshop, ICML 2016

23.5 博客

• Andrej Karpathy, karpathy.github.io, esp. goo.gl/1hkKrb

• Denny Britz, www.wildml.com, 尤爲是 goo.gl/MyrwDC

• Junling Hu, Reinforcement learning explained -learning to act based on long-term payoffs

• 鄧力，深度強化學習能夠如何幫助打造聊天機器人（How deep reinforcement learning can help chatbots）

• Christopher Olah, colah.github.io

在這個信息/社交網絡時代，信息已經超過了咱們的極限，好比來自 Twitter、Google+、微信、arXiv 等的信息。有效地篩選最佳信息的技巧變得十分關鍵。

24 討論

這是深度強化學習最好的時代，也是深度強化學習最壞的時代，而緣由倒是同樣的：它以驚人的速度在發展。咱們已經看到了突破、激動人心的新方法和應用，而且還有望看到更多和見證更快的發展。所以，無論是在深度仍是在廣度上，這篇概述都是不完整的。可是，咱們也儘可能總結這一驚人領域的重要成就並討論其潛在的方向和應用。

深度強化學習這一領域的進步是有目共睹的，在不到兩年時間內，咱們就看到 Nature 上發表了三篇使用了深度強化學習的論文：深度 Q 網絡（deep Q-network）(Mnih et al., 2015)、AlphaGo (Silver et al., 2016) 和可微分神經計算機 (Graves et al., 2016)；咱們也已經見證了許多深度 Q 網絡上的擴展、改進和應用。注意和記憶機制（Graves et al., 2016）也獲得了很大的關注。

2016 年，使用了深度強化學習的全新架構和應用在許多頂級會議上被評選爲最佳（學生）論文：ICML 上的決鬥網絡（dueling network）架構（Wang et al., 2016a）、ACL 上的口語對話系統（Su et al., 2016b）（學生論文）、EMNLP 上的信息提取（Narasimhan et al., 2016）、以及 NIPS 上的價值迭代網絡（value iteration networks）(Tamar et al., 2016)。激動人心的成就比比皆是：異步方法（Mnihetal.,2016）、用於機器翻譯的雙學習（dual learning）（Heetal., 2016a）、有引導的策略搜索（Levine et al., 2016a）、生成對抗式模仿學習（Hoand Ermon, 2016）、無監督強化和輔助學習（Jaderberg et al., 2017）、神經架構設計（Zoph and Le, 2017）等等。

價值函數是強化學習的核心，好比在深度 Q 網絡及其許多擴展中。策略優化方法已經在許多不一樣的應用領域獲得了關注，好比：機器人、神經架構設計、口語對話系統、機器翻譯、注意（attention）和學習去學習（learning to learn）等等，不能勝舉。新的學習機制也在涌現，好比：使用無監督/半監督/遷移學習來提高學習的質量和速度，並且更多的新機制還將涌現。這是強化學習的復興（Krakovsky, 2016）。事實上，即便是在「人工智能的冬天」，強化學習和深度學習也在不斷髮展進步。

考慮學習模型的問題是很是關鍵的，這些問題包括穩定性、收斂性、準確度、數據效率、可擴展性、速度、簡潔性、可解釋性、穩健性和安全性等。調查評論/批評也是很重要的，這些批評可能來自認知科學領域，涉及到直觀物理學、直觀心理學、因果模型、組合性、學習去學習、實時運行（Lake et al., 2016）等問題；這可以幫助咱們打造出更強大的人工智能。也請參考 Peter Norvig 的觀點 goo.gl/obvmVB.

在這第三波人工智能的大潮下，深度學習將會有更爲深度的影響，正如咱們已經見證的許多成就同樣。強化學習做爲一種更爲通用的學習和決策範式，將會給深度學習、機器學習和廣義上的人工智能帶來深遠的影響。這裏提一件有趣的故事，當 Rich Sutton 教授 2003 年在阿爾伯塔大學開始工做時，他將他的實驗室命名爲了 RLAI：Reinforcement Learning and Artiﬁcial Intelligence（強化學習與人工智能實驗室）。

致謝

感謝來自Baochun Bai, 胡峻玲（Junling Hu）, Ruitong Huang, Lihong Li, Dale Schuurmans, David Silver, Rich Sutton, Csaba Szepesvari, Yi Wan 和 Qing Yu的建議。任何剩餘錯誤爲本文做者所出。本文同時受益於各種研討會/網上討論，特別是2016年4月在MIT舉行的AlphaGo研討會，以及2016年10月份『機器之心』北美系列巡遊活動中在多倫多大學、McGill大學和阿爾伯塔大學舉辦的深度（強化）學習研討會。另外也要感謝2016年11月關於David Silver幻燈片的網上研討會，以及幾個微信羣組中的討論。

參考文獻（略）

論文連接：https://arxiv.org/abs/1701.07274

✄------------------------------------------------

加入機器之心（全職記者/實習生）：hr@almosthuman.cn

投稿或尋求報道：editor@almosthuman.cn

廣告&商務合做：bd@almosthuman.cn

閱讀原文

微信掃一掃關注該公衆號