強化學習十大原則算法
https://mp.weixin.qq.com/s/cFSalws3XP0FOF58TK8wuQ緩存
【導讀】強化學習是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益。David Sliver 總結了強化學習的十大原則,以指導強化學習的良好進行。網絡
做者 | David Sliver架構
編譯 | Xiaowen機器學習
原則#1:評估(Evaluation)推進進步函數
客觀,量化的評估推進了進步:工具
●評估指標的選擇決定了進度的方向性能
●能夠說是項目過程當中最重要的單一決策學習
排行榜驅動的(Leaderboard-driven)研究:測試
●確保評估指標對應最終目標
●避免主觀評估(例如人工檢查)
假設驅動的(Hypothesis-driven)研究:
●提出一個假設:
○「Double-Q學習優於Q-learning,由於它減小了向上誤差(upward bias)」
●在普遍的條件下驗證假設
●比較類似的現有stat-of-the-art技術
●尋求理解而不是排行榜績效
原則#2:可伸縮性(Scalability)決定成功
●算法的可伸縮性是其相對於資源的性能梯度
○給定更多資源,性能如何提升?
●資源能夠是計算(computation),內存(memory)或數據(data)
●算法的可擴展性最終決定了它的成功與否
○圖像
●可伸縮性始終(最終)比起點更重要
●給定無限資源,(最終)優化算法是最佳的
原則#3:通用性(Generality)將來證實算法
●不一樣的RL環境中,算法的通用性表現不一樣
●避免過分擬合當前任務
●尋求推廣到未知將來環境的算法
●咱們沒法預測將來,可是:
○將來的任務可能至少與當前任務同樣複雜
○當前任務遇到的困難極可能會增長
●結論:針對RL環境進行測試
原則 #4:信任Agent的經驗
●經驗(觀察observations,行動actions,獎勵rewards)是RL的數據
○
●相信經驗是惟一的知識來源
○老是有誘惑力來利用咱們的人文專長(人類數據,功能,啓發式,約束,抽象,域操做)
●從經驗中學習彷佛是不可能的
○接受RL的核心問題很難
○這是人工智能的核心問題
○值得努力
●從長遠來看,從經驗中學習總能贏得勝利
原則#5:狀態(State)是主觀的
●Agents應根據本身的經驗構建本身的狀態
○
●Agent狀態是先前狀態和新觀察的函數
○
●它是循環神經網絡的隱藏狀態
●從未根據環境的「真實」狀態定義
原則#6:控制流(Control theStream)
●Agents生活在豐富的感受運動數據流中
○Observations流入Agent
○Actions流出Agent
●Agent的操做會影響流
●控制功能=>控制流
●控制流=>控制將來
●控制將來=>能夠最大化任何獎勵
原則#7:值函數(Value Functions)建模世界
爲何要使用值函數?
●價值功能有效地總結/緩存將來
●將計劃減小到恆定時間查找,而不是指數前瞻
●能夠獨立於其跨度進行計算和學習
學習多種值函數:
●有效地模擬世界的許多方面(控制流)
○包括後續狀態變量
●多個時間尺度
避免在原始時間步驟對世界進行建模。
原則#8:規劃(Planning):從想象的經驗中學習
一種有效的規劃方法:
●想象一下接下來會發生什麼
○模型中狀態的樣本軌跡
●從想象的經驗中學習
○使用咱們應用於實際實驗的相同RL算法
如今,關注值函數近似值。
原則#9:受權函數近似器(FunctionApproximator)
●差別化的網絡架構是強大的工具,能夠促進:
○豐富的狀態表示
○不一樣的記憶
○不一樣的計劃
○分層控制
○...
●將算法複雜性推入網絡架構
○下降算法的複雜性(如何更新參數)
○提升架構的表現力(參數的做用)
原則#10:學會學習(Learn toLearn)
人工智能的歷史顯示了明確的進展方向:
●第一代:良好的老式人工智能
○手工預測
○什麼都不學
●第二代:淺學習
○手工功能
○學習預測
●第3代:深度學習
○手工算法(優化器,目標,架構......)
○端到端地學習功能和預測
●第4代:元學習
○無手工
○端到端學習算法和功能以及預測
原文連接:
http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf
-END-