[譯] 強化學習中的好奇心與拖延症

時間 2019-11-07

標籤強化學習好奇心拖延简体版

原文原文鏈接

原文出自：Google AI Blog

譯文出自：掘金翻譯計劃

本文永久連接：github.com/xitu/gold-m…

譯者：haiyang-tju

校對者：Mcskiller，Wangalan30

強化學習（RL）是機器學習中最活躍的研究技術之一，在這項技術中，當一我的工代理（artificial agent）作了正確的事情時會獲得積極的獎勵，反之則會受到消極的獎勵。這種胡蘿蔔加大棒的方法簡單而通用，好比 DeepMind 教授的 DQN 算法可讓它去玩老式的雅達利（Atari）遊戲，可讓 AlphaGoZero 玩古老的圍棋遊戲。這也是 OpenAI 如何教會它 OpenAI-Five 算法去玩現代電子遊戲 Dota，以及 Google 如何教會機器人手臂來抓取新物體。然而，儘管 RL 取得了成功，但要使其成爲一種有效的技術仍面臨許多的挑戰。html

標準的 RL 算法 struggle 適用於對代理反饋稀疏的環境 —— 關鍵的是，這種環境在現實世界中很常見。舉個例子，想象一下如何在一個迷宮般的大型超市裏找到你最喜歡的奶酪。你搜索了一遍又一遍，但沒有找到奶酪區域。若是你每走一步都沒有獲得「胡蘿蔔」或者「大棒」，那麼你就沒法判斷本身是否在朝着正確的方向前進。在沒有回報反饋的狀況下，你如何才能不在原地打轉呢？也許除了那個可以激發你走進一個不熟悉的產品區域去尋找心愛奶酪的好奇心，再沒有什麼可以打破這個循環了。ios

在論文「基於可及性實現情景式的好奇心」中 —— 這是 Google Brain 團隊、DeepMind 和蘇黎世 ETH 之間合做的結果 —— 咱們提出了一種新的情景式記憶模型，以給予 RL 獎勵，這相似於在好奇心的驅使下來探索環境。因爲咱們不只想讓代理探索環境，並且要解決原始任務，因此咱們在原始稀疏任務獎勵的基礎上增長了模型提供的獎勵。聯合獎勵再也不是稀疏的，這容許標準的 RL 算法能夠從中獲得學習。所以，咱們的好奇心方法擴展了 RL 可解決的任務集。git

基於可及性實現情景式的好奇心：經過向記憶中添加觀察機制，而後根據當前的觀察與記憶中最類似的觀察的距離來計算獎勵。若是看到了在記憶中尚未出現的觀察結果，代理會得到更多的獎勵。github

咱們的方法中的關鍵想法是把代理對環境的觀察儲存在情景記憶中，同時當代理得到了在記憶中尚未表現出來的觀察時給予獎勵，從而避免原地打轉，並最終向目標摸索前行。「不在記憶中」是咱們方法中比較創新的定義 —— 尋找這樣的觀察內容即尋找不熟悉的事物。這樣一種尋找不熟悉事物的驅動條件能夠將人工代理引導至一個新的位置，從而避免了它在已知圈子中徘徊，並最終幫助它摸索到目標點。正如咱們稍後將討論的，咱們的方法可使代理避免一些其它方法中容易出現的不良結果。令咱們驚訝的是，這些行爲與外行人口中所謂的「拖延症」有一些類似之處。算法

之前的好奇心形式
儘管過去曾經有不少對好奇心進行制定的嘗試[1][2][3][4]，但在本文中，咱們專一於一種天然且很是流行的方法：經過基於預測的驚訝來探索好奇心（一般稱爲 ICM 方法），該方法在最近的論文「經過自我監督預測的好奇心驅動探索」中進行了探討。爲了說明驚訝是如何引發好奇心的，再次考慮咱們在超市尋找奶酪的例子。網絡

插圖 © Indira Pasko，在 CC BY-NC-ND 4.0 許可下使用。機器學習

當你在整個市場漫步時，你試着預測將來的狀況（「如今我在肉類區域，因此我認爲拐角處的部分是魚類區域 —— 這些區域一般在超市中是相鄰的」）。若是你的預測是錯誤的，你會感到驚訝（「不，它其實是蔬菜區域。我沒料到！」）於是獲得相應的回報。這使你更加有動力接下來去看看這個角落周圍的環境，探索新的位置來看看你對它們的指望是不是符合實際的（而且，但願能偶然間發現奶酪）。工具

相似地，ICM 方法創建了對整個世界環境的動態預測模型，並在模型未能作出良好預測時給予代理必定的獎勵 —— 這是驚訝或新奇的標誌。請注意，探索未訪問的位置並不直接是 ICM 好奇心公式的一部分。對於 ICM 方法來講，訪問它們只是用於得到更多「驚訝」的方式，從而最大化總體獎勵。事實證實，在某些環境中可能存在其它方式會形成自我驚訝，從而致使沒法預料的結果。性能

基於驚訝的好奇心的代理在遇到電視畫面時會被卡住。GIF 採用了來自 © Deepak Pathak 的視頻，在 CC BY 2.0 許可下使用。學習

「拖延症」的威脅
在論文「大規模好奇心驅動學習研究」中，ICM 方法做者以及 OpenAI 研究人員揭示了最大化驚訝的潛在危險：代理可能會放縱這種拖延行爲，而不是爲當前的任務作一些有用的事情。爲了找出緣由，讓咱們考慮一個常見思惟實驗，該實驗被做者稱爲「嘈雜電視問題」，在這個實驗中，一個代理被置於迷宮中，它的任務是找到一個高回報的物體（這相似於咱們以前提到的超市例子中的「奶酪」）。該環境中還包含了一個電視裝置，代理能夠遠程操控。電視裝置的頻道數量有限（每一個頻道都有不一樣的節目），而且每次按遙控器都會切換到一個隨機頻道。那麼該代理會如何在這樣的環境中執行呢？

對於基於驚訝的好奇心公式來講，改變電視頻道會產生很大的回報，由於每次改變都是不可預測和使人驚訝的。相當重要的是，即便全部可用頻道都循環播放以後，隨機地頻道選擇也會確保每個新的變化仍然是使人驚訝的 —— 由於代理正在預測頻道改變後電視上會出現什麼，並且這種預測極可能是錯誤的，從而致使驚訝出現。重要的是，即便代理已經看過每一個頻道的每一個節目，變化仍然是不可預測的。所以，這種基於驚訝的好奇心會使得代理最終永遠停留在電視機前，而不是去尋找那個很是有價值的物體了 —— 這相似於拖延症。那麼，怎樣定義好奇心纔不會致使這種行爲呢？

情景式好奇心
在論文「基於可及性實現情景式的好奇心」中，咱們探索了一種基於情景記憶的好奇心模型，這種模型不太容易產生「自我放縱」的即時知足感。爲何會這樣呢？使用咱們上面的例子，在更改了一段時間的頻道以後，全部的節目都在內存中了。所以，電視節目將再也不具備吸引力：即便屏幕上出現的節目順序是隨機且不可預測的，全部的這些節目已經在內存中了！這是與基於驚訝的方法的主要區別：咱們的方法甚至不去嘗試對可能很難（甚至不可能）預測的將來下注。相反地，代理會檢查過去，以瞭解它是否看到過與當前相似的觀察結果。這樣咱們的代理就不會被嘈雜的電視帶來的即時知足所吸引。它將不得不去探索電視以外的世界來得到更多的獎勵。

可是，咱們如何判斷代理是否看到了與現有內存中相同的內容內容？檢查精確匹配多是毫無心義的：由於在現實環境中，代理不多能看到兩次徹底相同的事情。例如，即便代理返回到同一個房間，它仍然會從一個與記憶中不一樣的角度來看這個房間。

咱們訓練一個深度神經網絡來測量兩種體驗的類似程度，而不是去尋求一個與內存中內容的精確匹配。爲了訓練這個網絡，咱們讓它來猜想這兩個觀察內容是在時間上緊密相連，仍是在時間上相距很遠。咱們使用時間接近程度（Temporal proximity）做爲一個較好的指標，判斷兩個經歷是否屬於同一體驗的一部分。該訓練能夠經過可達性來獲取通用概念上的新穎性，以下所示。

可達性圖會決定新穎性。而在實踐中，該圖是不可用的 —— 所以咱們須要訓練一個神經網絡近似器來估計多步觀察內容之間的關係。

實現結果
爲了比較不一樣的好奇心方法的性能表現，咱們在兩個具備豐富視覺效果三維環境中測試它們：即 ViZDoom 和 DMLab。在這些環境中，代理的任務是處理各類問題，好比在迷宮中搜索目標，或者收集好的以及避免壞的物體。DMLab 環境剛好能夠爲代理提供相似激光的科幻工具。在以前工做中的標準設置是爲代理在全部任務中都設置 DMLab 的小工具，若是代理在特定任務中不須要此工具，則能夠不用它。有趣的是，相似於上面描述的嘈雜電視實驗，基於驚訝的 ICM 方法其實是使用了這個工具的，即便它對於當前任務是無用的！當在迷宮中搜索高回報的物體時，它更喜歡花時間來標記牆壁，由於這會產生不少的「驚訝」獎勵。從理論上來說，應該是能夠預測到標記結果的，但這在實踐中是很難的，由於這很顯然須要標準代理了解更深刻的物理學知識才行。

基於驚訝的 ICM 方法是在持續標記牆壁，而不是探索迷宮。

相反，咱們的方法在相同的條件下學習合理的探索行爲。這是由於它沒有試圖預測自身行爲的結果，而是尋求從情景記憶中「更難」得到的觀察結果。換句話說，代理隱式地追求一些目標，這些目標須要更多的努力才能獲取到內存中，而不只僅是單一的標記操做。

咱們的方法展現出的合理的探索行爲。

有趣的是，咱們給予獎勵的方法會懲罰在圈子中循環的代理。這是由於在完成第一次循環後，代理不會遇到除記憶中的觀察以外的新的觀察結果，所以不會獲得任何的獎勵：

方法中獎勵的可視化：紅色表示負面的獎勵，綠色表示積極的獎勵。從左到右：帶有獎勵的地圖，內存中帶有當前位置的地圖，第一人稱視角圖。

同時，咱們的方法有利於良好的探索行爲：

方法中獎勵的可視化：紅色表示負面的獎勵，綠色表示積極的獎勵。從左到右：帶有獎勵的地圖，內存中帶有當前位置的地圖，第一人稱視角圖。

但願咱們的工做有助於引領新的探索方法浪潮，可以超越驚訝機制並學習到更加智能的探索行爲。具體方法的深刻分析，請查看咱們的研究論文預印本。

致謝：
該項目是 Google Brain 團隊、DeepMind 和 ETH Zürich 之間合做的成果。核心團隊包括 Nikolay Savinov、Anton Raichuk、Raphaël Marinier、Damien Vincent、Marc Pollefeys、Timothy Lillicrap 和 Sylvain Gelly。感謝 Olivier Pietquin、Carlos Riquelme、Charles Blundell 和 Sergey Levine 關於該論文的討論。感謝 Indira Pasko 對插圖的幫助。

參考文獻：
[1] "Count-Based Exploration with Neural Density Models", Georg Ostrovski, Marc G. Bellemare, Aaron van den Oord, Remi Munos
[2] "#Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning", Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel
[3] "Unsupervised Learning of Goal Spaces for Intrinsically Motivated Goal Exploration", Alexandre Péré, Sébastien Forestier, Olivier Sigaud, Pierre-Yves Oudeyer
[4] "VIME: Variational Information Maximizing Exploration", Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel