強化學習十大原則

強化學習十大原則算法

 

https://mp.weixin.qq.com/s/cFSalws3XP0FOF58TK8wuQ緩存

 

【導讀】強化學習是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益。David Sliver 總結了強化學習的十大原則,以指導強化學習的良好進行。網絡

 

做者 | David Sliver架構

編譯 | Xiaowen機器學習

                       

 

原則#1評估(Evaluation)推進進步函數

 

客觀,量化的評估推進了進步:工具

●評估指標的選擇決定了進度的方向性能

●能夠說是項目過程當中最重要的單一決策學習

 

排行榜驅動的(Leaderboard-driven)研究:測試

●確保評估指標對應最終目標

●避免主觀評估(例如人工檢查)

 

假設驅動的(Hypothesis-driven)研究:

●提出一個假設:

○「Double-Q學習優於Q-learning,由於它減小了向上誤差(upward bias)」

●在普遍的條件下驗證假設

●比較類似的現有stat-of-the-art技術

●尋求理解而不是排行榜績效

 


 

原則#2可伸縮性(Scalability)決定成功

 

●算法的可伸縮性是其相對於資源的性能梯度

○給定更多資源,性能如何提升?

 

●資源能夠是計算(computation),內存(memory)或數據(data)

 

●算法的可擴展性最終決定了它的成功與否

○圖像

 

●可伸縮性始終(最終)比起點更重要

 

●給定無限資源,(最終)優化算法是最佳的

 


 

原則#3通用性(Generality)將來證實算法

 

●不一樣的RL環境中,算法的通用性表現不一樣

 

●避免過分擬合當前任務

 

●尋求推廣到未知將來環境的算法

 

●咱們沒法預測將來,可是:

○將來的任務可能至少與當前任務同樣複雜

○當前任務遇到的困難極可能會增長

 

●結論:針對RL環境進行測試

 


 

原則 #4:信任Agent的經驗

 

●經驗(觀察observations,行動actions,獎勵rewards)是RL的數據

 

 

●相信經驗是惟一的知識來源

○老是有誘惑力來利用咱們的人文專長(人類數據,功能,啓發式,約束,抽象,域操做)

 

●從經驗中學習彷佛是不可能的

○接受RL的核心問題很難

○這是人工智能的核心問題

○值得努力

 

●從長遠來看,從經驗中學習總能贏得勝利

 


 

原則#5狀態(State)是主觀的

 

●Agents應根據本身的經驗構建本身的狀態

 

 

●Agent狀態是先前狀態和新觀察的函數

 

 

 

 

●它是循環神經網絡的隱藏狀態

 

●從未根據環境的「真實」狀態定義

 


 

原則#6控制流(Control theStream)

 

●Agents生活在豐富的感受運動數據流中

○Observations流入Agent

○Actions流出Agent

 

●Agent的操做會影響流

 

●控制功能=>控制流

 

●控制流=>控制將來

 

●控制將來=>能夠最大化任何獎勵

 


 

原則#7值函數(Value Functions)建模世界

 

爲何要使用值函數?

●價值功能有效地總結/緩存將來

●將計劃減小到恆定時間查找,而不是指數前瞻

●能夠獨立於其跨度進行計算和學習

 

學習多種值函數:

●有效地模擬世界的許多方面(控制流)

    ○包括後續狀態變量

●多個時間尺度

 

避免在原始時間步驟對世界進行建模。

 


 

原則#8規劃(Planning):從想象的經驗中學習

 

一種有效的規劃方法:

●想象一下接下來會發生什麼

    ○模型中狀態的樣本軌跡

●從想象的經驗中學習

    ○使用咱們應用於實際實驗的相同RL算法

 

如今,關注值函數近似值。

 


 

原則#9:受權函數近似器(FunctionApproximator)

 

●差別化的網絡架構是強大的工具,能夠促進:

    ○豐富的狀態表示

    ○不一樣的記憶

    ○不一樣的計劃

    ○分層控制

    ○...

 

●將算法複雜性推入網絡架構

    ○下降算法的複雜性(如何更新參數)

    ○提升架構的表現力(參數的做用)

 


 

原則#10學會學習(Learn toLearn)

 

人工智能的歷史顯示了明確的進展方向:

●第一代:良好的老式人工智能

    ○手工預測

    ○什麼都不學

 

●第二代:淺學習

    ○手工功能

    ○學習預測

 

●第3代:深度學習

    ○手工算法(優化器,目標,架構......)

    ○端到端地學習功能和預測

 

●第4代:元學習

    ○無手工

    ○端到端學習算法和功能以及預測

 

原文連接:

http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf

-END-

相關文章
相關標籤/搜索