原文地址:算法
baijiahao.baidu.com/s?id=1600509777750939986&wfr=spider&for=pc網絡
---------------------------------------------------------------------------------------------框架
上週,DeepMind在 Nature 發表論文,用 AI 復現大腦的導航功能。ide
今天,DeepMind 在 Nature Neuroscience 發表新論文,該研究中他們根據神經科學中的多巴胺學習模型的侷限,強調了多巴胺在大腦最重要的智能區域即前額葉皮質發揮的總體做用,並據此提出了一種新型的元強化學習證實。DeepMind 指望該研究能推進神經科學自 AI 研究的啓發。性能
近期,AI 系統已經掌握多種視頻遊戲(例如 Atari 的經典遊戲 Breakout 和 Pong)的玩法。雖然其表現使人印象深入,但 AI 仍然依賴於數千小時的遊戲經驗才能達到並超越人類玩家的表現。而人類僅需數分鐘就能夠掌握視頻遊戲的基本玩法。學習
對大腦何以能在如此少的經驗下學到那麼多這一問題的探究推進了元學習(meta-learning)或「學習如何學習」理論的發展。人們認爲咱們是在兩個時間尺度上學習的:短時間學習聚焦於學習特定實例,長期學習主要學習抽象技能或用於完成任務的規則。正是該組合幫助咱們高效地學習,並在新任務上快速靈活地應用知識。在 AI 系統中從新建立這種元學習結構,即元強化學習(meta-RL),已被證實在推進快速、單次的智能體學習中卓有成效(參見 DeepMind 論文《Learning to reinforcement learn》以及 OpenAI 的相關研究《RL2: Fast Reinforcement Learning via Slow Reinforcement Learning》)。然而,大腦中容許該過程的特定機制目前在神經科學中基本未獲得解釋。測試
在 DeepMind 剛發表在 Nature Neuroscience 的新論文《Prefrontal cortex as a meta-reinforcement learning system》中,研究者使用了 AI 研究中開發出來的元強化學習框架來探索大腦中的多巴胺所發揮的幫助學習的做用。多巴胺是人們所熟悉的大腦快樂信號,一般被認爲是 AI 強化學習算法中使用的獎勵預測偏差信號的類比。這些系統學習經過反覆試錯來行動,這是由獎勵推進的。DeepMind 指出多巴胺的做用不只僅是使用獎勵來學習過去動做的價值,它發揮的是總體做用,特別是在前額葉區域,它容許咱們高效、快速和靈活地在新任務上學習。編碼
研究者經過虛擬重建神經科學領域中的六個元強化學習實驗來測試該理論,每一個實驗須要一個智能體使用相同的基礎原則或技能集(但在某些維度上有所變化)來執行任務。研究者使用標準的深度強化學習技術(表明多巴胺)訓練了一個循環神經網絡(表明前額葉),而後對比該循環網絡的活動動態和神經科學實驗以前研究成果的真實數據。循環網絡是很好的元學習代理,由於它們能夠內化過去的動做和觀察,而後在多種任務訓練中利用那些經驗。人工智能
DeepMind 重建的一個實驗是 Harlow 實驗,這是一個 1940 年代出現的心理測試,用於探索元學習的概念。在原始測試中,向一組猴子展現兩個不熟悉的物體並讓它們進行選擇,只有一個物體能帶來食物獎勵。這兩個物體被展現了 6 次,每次展現中兩個物體的左右位置都是隨機的,所以猴子必須學會哪一個物體能帶來食物獎勵。而後,它們被展現了兩個全新的物體,這時也是隻有一個能帶來食物獎勵。經過該訓練過程,猴子發展出了一種策略來選擇獎勵相關的物體:它學會了在第一次選擇時進行隨機選擇,而後基於獎勵反饋選擇特定的物體,而不是左邊或右邊的位置。該實驗證實了猴子能夠內化任務的基礎原則,並學習一種抽象的規則結構,即學會學習。
DeepMind 使用虛擬計算機屏幕和隨機選擇的圖像模擬了一個相似的測試,他們發現「meta-RL agent」的學習方式與 Harlow 實驗中的動物很是類似,這種類似性即便在展現徹底沒見過的全新圖像時也會存在。
在 DeepMind 模擬的 Harlow 實驗中,智能體必須將關注點移向它認爲與獎勵相關的目標。
實際上,DeepMind 研究團隊發現 meta-RL 智能體能 快速學習適應 有 不一樣規則和結構的大量任務。並且因爲該循環神經網絡學習瞭如何適應多種任務,所以它還學到了如何高效學習的通用法則。
重要的是,研究者發現大多數學習發生在循環網絡中,這也支持了 DeepMind 的假設,即多巴胺在元學習過程當中扮演的角色比之前認爲的更重要。傳統觀點認爲,多巴胺增強前額葉系統中的突觸聯繫,從而強化特定的行爲。在 AI 中,這一現象意味着,隨着相似多巴胺的獎勵信號學習到解決任務的正確方式,它們會調整神經網絡中的人工突觸權重。然而在通常的實驗中,神經網絡中的權重是固定的,這意味着權重在學習過程當中不能進行調整。
模擬循環網絡中編碼動做和獎勵歷史的獨立單元。
所以,DeepMind 研究團隊提出了 meta-RL 智能體,它能解決並適應新的任務。這種智能體代表相似多巴胺的獎勵不只用於調整權重,它們還傳輸和編碼關於抽象任務和規則結構的重要信息,使得智能體可以更快適應新任務。
長期以來,神經科學家們發現前額葉皮質中有相似的神經激活模式,這種模式適應速度快且靈活,但他們一直找不到一個合理的解釋。前額葉皮質不依賴緩慢的突觸權重變化來學習規則結構,而是使用在多巴胺中直接編碼的基於模型的抽象信息,這個思路爲其多功能性提供了更合理的解釋。
爲了證實致使人工智能元強化學習的關鍵因素也存在於大腦之中,DeepMind 研究者提出了一個理論。該理論不只符合多巴胺和前額葉皮質的現有知識,並且也解釋了神經科學和心理學的一系列神祕發現。尤爲是,該理論揭示了大腦中如何出現結構化的、基於模型的學習,多巴胺自己爲何包含基於模型的信息,以及前額葉皮質的神經元如何適應與學習相關的信號。對人工智能的深刻了解能夠幫助解釋神經科學和心理學的發現,這也強調了領域之間能夠互相提供價值。放眼將來,他們指望在強化學習智能體中設計新的學習模型時,能夠從特定的腦回路組織中得到許多逆向思惟的益處。
論文:Prefrontal cortex as a meta-reinforcement learning system
論文地址:https://www.nature.com/articles/s41593-018-0147-8
預印論文地址:https://www.biorxiv.org/content/biorxiv/early/2018/04/06/295964.full.pdf
摘要:過去 20 年來,對基於獎勵學習的神經科學研究已經收斂到了一類規範模型上,其中神經遞質多巴胺經過調整神經元之間突觸鏈接的強度在情景、動做和獎勵之間創建關聯。然而,近期出現的許多研究向這個標準模型提出了挑戰。咱們如今利用人工智能中的近期進展來引入一種新的基於獎勵的學習理論。這裏,多巴胺系統訓練了另外一個大腦區域——前額葉,來將其做爲獨立的學習系統。這個新的研究視角適應了啓發標準模型的那些發現,而且還能很好地處理寬泛的經驗觀察,爲將來的研究提供全新的基礎。
上圖展現了 meta-RL 在多個 episode 上學習如何高效地學習每個 episode。
其中 a 爲智能體架構、b 爲 DeepMind 模擬中實現的具體神經網絡結構、c 爲試驗模型在帶有伯努利獎勵參數的搖臂賭博機問題上的行爲、d 爲 meta-RL 網絡在搖臂賭博機問題上獨立訓練的性能,最後的 e 爲循環神經網絡激活模式在獨立實驗中的進化可視化。
------------------------------------------------------------------------