DQN(Deep Reiforcement Learning) 發展歷程(二)

DQN發展歷程(一)異步

DQN發展歷程(二)函數

DQN發展歷程(三)學習

DQN發展歷程(四)htm

DQN發展歷程(五)blog

動態規劃

  • 動態規劃給出了求解強化學習的一種方式

使用條件

  • 使用動態規劃須要兩個條件
    • 總問題能夠分解成一系列相互重疊的子問題
    • 子問題的求解結果被存儲下來而且能夠重複使用
  • 強化學習對應以上兩個條件
    • 貝爾曼等式知足了重疊子問題的分解,每一個狀態的值求解從當前狀態到下一狀態。
    • 值函數用於存儲和複用子問題的求解結果

分類

  • 對於預測問題,動態規劃方法輸出的是每一狀態的值
  • 對於控制問題,動態規劃方法輸出的是每一狀態的策略

求解方法

  • 迭代策略:基於貝爾曼等式,每一個狀態值的求解從當前狀態St到下一狀態St+1,按此遞推方法迭代。
  • 策略的改進方法:迭代,根據值選擇最佳策略,每次更新經過貪婪法選擇最大的值替換原先的值。
  • 異步動態規劃:
    • 每次使用新的狀態值更新舊的狀態值In-place
    • 使用貝爾曼偏差引導狀態的選擇,優先更新偏差最大的狀態
    • 更新狀態值都使用狀態的參數
  • 全狀態的動態規劃存儲搜索每一個狀態空間,基於採樣的動態規劃和近似的動態規劃減小了部分狀態空間的使用
    Real-time dynamic programming

參考

david siver 課程get

https://home.cnblogs.com/u/pinard/it

相關文章
相關標籤/搜索