乾貨 | 140頁《深度強化學習入門》PDF版下載!

深度強化學習已經爲圍棋、視頻遊戲和機器人等領域帶來了變革式的發展,成爲了人工智能領域的一大主流研究方向。麥吉爾大學、谷歌大腦和 Facebook 的多位研究者在 arXiv 發佈了 140 頁的《深度強化學習入門》文稿,對深度強化學習的當前發展和將來趨勢進行了系統性的總結和介紹。本書是伯克利知名機器學習專家 Michael Jordan 教授主編的「機器學習基礎與趨勢」系列叢書中最新加入的一本。小編摘取翻譯了其中部份內容以呈現本書的結構脈絡,更多內容請查閱原文。

PS:文末獲取方式!算法


1 引言安全


1.1 動機網絡


機器學習領域的一大核心主題是序列決策。該任務是在不肯定的環境中根據經驗決定所要執行的動做序列。序列決策任務涵蓋種類普遍的潛在應用,有望對不少領域產生影響,好比機器人、醫療保健、智能電網、金融、自動駕駛汽車等等。架構


受行爲心理學的啓發(如 Sutton, 1984),研究者爲這一問題提出了一種形式框架,即強化學習(RL)。其主要思想是人工智能體(agent)能夠經過與其環境(environment)進行交互來學習,這相似於生物智能體。使用收集到的經歷(experience),人工智能體能夠根據某種形式的累積獎勵(reward)來優化某些目標(objective)。原則上而言,這種方法可應用於任何類型的依賴於過去經歷的序列決策問題。對於這樣的任務,環境多是隨機的;智能體可能僅能觀察有關當前狀態的部分信息;觀察結果多是高維的(好比幀和時間序列);智能體可能會自由地在環境中收集經歷;或者相反,數據可能會有所限制(好比,沒有準確的模擬器或數據有限)。框架

過去幾年來,因爲在解決高難度序列決策問題上所取得的成功,強化學習愈來愈流行。其中多項成果可歸功於強化學習與深度學習技術(LeCun et al., 2015; Schmidhuber, 2015; Goodfellow et al., 2016)的組合。這一組合也被稱爲「深度強化學習」,在具備高維狀態空間的問題中最有用。以前的強化學習方法在特徵選擇上存在一個困難的設計問題(Munos and Moore, 2002; Bellemare et al., 2013)。可是,因爲深度強化學習可以從數據中學到不一樣層面的抽象,所以其也已經在具備更少先驗知識的複雜任務中取得了成功。好比,深度強化學習智能體能夠成功學習由成千上萬像素構成的視覺感官信號輸入(Mnih et al., 2015)。這使得其有可能模擬人類解決問題的某些能力,即便是在高維空間也能夠——這在幾年前仍是不可思議的。機器學習


深度強化學習在遊戲領域有一些很是突出的成果,包括使用像素輸入在 Atari 遊戲上達到了超越人類玩家的水平(Mnih et al., 2015)、掌握了圍棋(Silver et al., 2016a)、在撲克遊戲上擊敗了頂級職業玩家(Brown and Sandholm, 2017; Moravčik et al., 2017)。深度強化學習也有應用於現實世界應用的潛力,好比機器人(Levine et al., 2016; Gandhi et al., 2017; Pinto et al., 2017)、自動駕駛汽車(You et al., 2017)、金融(Deng et al., 2017)和智能電網(François-Lavet, 2017)。儘管如此,應用深度強化學習算法還面臨着一些難題。其中,有效地探索環境以及在稍有不一樣的環境中泛化出優良行爲的能力還不能輕鬆地得到。所以,根據各類不一樣的序列決策任務設定,研究者們已經爲深度強化學習框架提出了不少算法。函數


1.2 大綱性能


這份「深度強化學習入門」的目標是指導讀者有效地使用和理解核心的方法,以及提供更深度閱讀的索引。在讀完這份介紹以後,讀者應當可以理解不一樣的重點深度強化學習方法和算法,而且應該可以應用它們。讀者也應該能收穫足夠的背景知識,以便進一步研讀科研文獻或從事深度強化學習研究。學習


第二章將介紹機器學習領域和深度學習方法。目標是提供一個通常的技術背景以及簡要解釋深度學習在更普遍的機器學習領域中的位置。咱們假設讀者已經瞭解了基本的監督學習和無監督學習概念;但咱們仍是會簡要回顧一下這些要點。大數據


第三章將介紹通常的強化學習框架以及馬爾可夫決策過程(MDP)的狀況。咱們將在這樣的背景中介紹可用於訓練深度強化學習智能體的不一樣方法。一方面,學習一個價值函數(第四章)和/或策略的直接表徵(第五章)屬於所謂的「無模型方法」。另外一方面,可使用學習到的環境模型的規劃算法屬於所謂的「基於模型的方法」(第六章)。


第七章將專門介紹強化學習的「泛化」概念。咱們將會討論基於模型方法和無模型方法中不一樣元素的重要性:(1)特徵選取,(2)函數近似方法選擇,(3)修改目標函數和(4)分層學習。在第八章,咱們將給出在在線環境中使用強化學習時所面臨的主要難題。咱們將重點討論探索-利用困境和重放記憶的使用。


第九章將概述不一樣的用於評估強化學習算法的已有基準。此外,咱們還會提供一組最佳實踐,以確保在不一樣基準上所得結果的一致性和可再現性。


第十章會討論比 MDP 更通常的設定:(1)部分可觀察馬爾可夫決策過程(POMDP),(2)MDP 的分佈(而不是給定的 MDP)與遷移學習的概念,(3)無明確獎勵函數的學習,(4)多智能體系統。咱們會描述如何在這些設定中使用深度強化學習。


第十一章會從更普遍的視角介紹深度強化學習。其中包括討論深度強化學習在不一樣領域的應用以及已經取得的成功和仍待解決的挑戰(好比機器人、自動駕駛汽車、智能電網、醫療保健等)。咱們還會簡要介紹深度強化學習與神經科學之間的關係。


最後,咱們將在第十二章中進行總結,並展望深度強化學習技術的將來發展、將來應用以及深度強化學習和人工智能的社會影響。


深度強化學習入門(An Introduction to Deep Reinforcement Learning)





深度強化學習是強化學習(RL)和深度學習的組合。這一研究領域已經有能力解決多種以前超出了機器能力的複雜決策任務。所以,深度強化學習在醫療保健、機器人、智能電網、金融等不少領域都催生出了不少新應用。這份文稿將對深度強化學習模型、算法和技術進行介紹,其中會重點介紹與泛化相關的方面以及深度強化學習可被用於實際應用的方式。咱們假設讀者已經熟悉基本的機器學習概念。












圖 3.1:強化學習中智能體與環境的交互




圖 3.3:強化學習不一樣方法的通常模式。直接方法是使用價值函數或策略的表徵來在環境中活動。間接方法是使用環境的模型。




圖 3.4:深度強化學習方法的通常模式




圖 4.1:DQN 算法圖示




圖 6.1:MCTS 算法執行蒙特卡洛模擬以及經過更新不一樣節點的統計數據來構建樹的示意圖。基於從當前節點 s_t 收集的統計數據,MCTS 算法會選擇一個要在實際環境中執行的動做。



圖 6.2:可能的強化學習算法空間的維恩圖




圖 9.2:OpenAI Gym 提供的 MuJoCo 運動基準環境的截圖


11 剖析深度強化學習


這一章首先將介紹深度強化學習的主要成功之處。而後咱們會描述在解決範圍更大的真實世界問題時所面臨的主要難題。最後,咱們會討論深度強化學習與神經科學的一些類似之處。


11.1 深度強化學習的成功


深度強化學習技術已經展示出了能解決以前沒法解決的多種問題的能力。下面是一些廣爲人知的成就:


  • 在西洋雙陸棋遊戲上擊敗以前的計算機程序(Tesauro, 1995)
  • 在根據像素輸入玩 Atari 遊戲方面達到超越人類的水平(Mnih et al., 2015)
  • 掌握圍棋(Silver et al., 2016a)
  • 在一對一無限制德州撲克遊戲中擊敗職業撲克玩家:Libratus(Brown and Sandholm, 2017)和 Deepstack(Moravčik et al., 2017)


這些在常見遊戲中取得的成就是很重要的,由於它們展示了深度強化學習在須要處理高維輸入的各類複雜和多樣的任務中的潛力。深度強化學習已經展示出了不少真實世界應用潛力,好比機器人(Kalashnikov et al., 20180、自動駕駛汽車(You et al., 2017)、金融(Deng et al., 2017)、智能電網(François-Lavet et al., 2016b)、診斷系統(Fazel-Zarandi et al., 2017)。事實上,深度強化學習系統已經被用在了生產環境中。好比,Gauci et al. (2018) 描述了 Facebook 使用深度強化學習的方式,好比用於推送通知和使用智能預取的更快視頻加載。


強化學習也可用於人們或許認爲僅使用監督學習也足以完成的領域,好比序列預測(Ranzato et al., 2015; Bahdanau et al., 2016)。爲監督學習任務設計合適的神經架構也被視爲一類強化學習問題(Zoph and Le, 2016)。注意,這些類型的任務也可以使用進化策略解決(Miikkulainen et al., 2017; Real et al., 2017)。


最後還要指出,深度強化學習也可用於計算機科學領域內一些經典的基礎算法問題,好比旅行商問題(Bello et al., 2016)。這是一個 NP 徹底問題,能使用深度強化學習解決它的可能性代表了深度強化學習對其它一些 NP 徹底問題(條件是能夠利用這些問題的結構)的潛在影響


11.2 將強化學習應用於真實世界問題所面臨的挑戰


原則上講,這份深度強化學習入門中討論的算法可被用於解決許多不一樣類型的真實世界問題。在實踐中,即便是在任務定義良好的狀況下(有明確的獎勵函數),也仍然存在一個基本難題:因爲安全、成本或時間限制,在實際環境中一般不可能讓智能體自由和充分地交互。咱們可將真實世界應用分爲兩大主要類別:


  1. 智能體也許不能與真實環境交互,而只能與真實環境的一個不許確的模擬進行交互。機器人領域就有這個狀況(Zhu et al., 2016; Gu et al., 2017a)。當先在模擬中學習時,與真實世界數據域的差別被稱爲「reality gap」(參與 Jakobi et al., 1995)。
  2. 可能沒法再獲取新的觀察(好比批設定)。這類狀況包括醫療試驗、依賴於天氣狀況或交易市場(好比能源市場或股票市場)的任務。


注意,這兩種狀況也有可能組合到一塊兒,此時環境的動態也許能夠被模擬,但卻依賴於一個有外在緣由的時間序列,而這個序列只能經過有限的數據獲取(François-Lavet et al., 2016b)。


爲了處理這些限制,存在幾個不一樣的重要因素:


  • 人們能夠努力開發儘量準確的模擬器。
  • 人們能夠設計泛化能力更好的學習算法,和/或使用遷移學習方法。


12 總結


序列決策仍然是一個活躍的研究領域,有不少理論的、方法的和試驗的難題有待解決。深度學習領域的重要進展已經爲強化學習和深度學習結合的領域帶來了不少新的發展道路。尤爲是深度學習帶來的重要的泛化能力爲處理大規模的高維狀態和/或動做空間帶來了新的可能性。有足夠的理由相信這種發展在將來幾年裏還會繼續,帶來更高效的算法和不少新應用。


12.1 深度強化學習的將來發展


咱們在這份手稿中強調,深度強化學習領域最核心的問題之一是泛化的概念。爲此,深度強化學習領域的新進展勢必推動當前這一趨勢:使算法可微分,從而可將它們嵌入到特定的神經網絡形式中,進而實現端到端的訓練。這能爲算法帶來更豐富和更智能的結構,從而更適用於在更抽象層面上的推理,這能讓智能算法實現應用的範圍在當前基礎上實現進一步提高。智能的架構也可用於分層學習,其中時間抽象領域還須要更多進展。


能夠預見,咱們將會看到深度強化學習算法進入元學習和終身學習的方向,從而可將以前的知識(好比以預訓練網絡的形式)嵌入進來,以提高性能和改善訓練時間。另外一個關鍵挑戰是提高模擬和真實狀況之間的當前的遷移學習能力。這讓智能體能夠在模擬中學習解決複雜的決策問題(並有可能以一種靈活的方式收集樣本),而後在真實世界環境中使用所學到的技能,在機器人和自動駕駛汽車等領域獲得應用。


最後,咱們預期深度強化學習技術將會發展出更好的好奇心驅動的能力,從而讓它們能在環境中自行發現知識。

資料領取方式

關注公衆帳號【飛馬會

後臺回覆數字【57


便可查看下載方式



往期福利關注飛馬會公衆號,回覆對應關鍵詞打包下載學習資料;回覆「入羣」,加入飛馬網AI、大數據、項目經理學習羣,和優秀的人一塊兒成長!

回覆 數字「1」下載從入門到研究,人工智能領域最值得一讀的10本資料(附下載)

回覆 數字「2」機器學習 & 數據科學必讀的經典書籍,內附資料包!

相關文章
相關標籤/搜索