DQN發展歷程(一)異步
DQN發展歷程(二)函數
DQN發展歷程(三)學習
DQN發展歷程(四)htm
DQN發展歷程(五)blog
動態規劃
使用條件
- 使用動態規劃須要兩個條件
- 總問題能夠分解成一系列相互重疊的子問題
- 子問題的求解結果被存儲下來而且能夠重複使用
- 強化學習對應以上兩個條件
- 貝爾曼等式知足了重疊子問題的分解,每一個狀態的值求解從當前狀態到下一狀態。
- 值函數用於存儲和複用子問題的求解結果
分類
- 對於預測問題,動態規劃方法輸出的是每一狀態的值
- 對於控制問題,動態規劃方法輸出的是每一狀態的策略
求解方法
- 迭代策略:基於貝爾曼等式,每一個狀態值的求解從當前狀態St到下一狀態St+1,按此遞推方法迭代。
- 策略的改進方法:迭代,根據值選擇最佳策略,每次更新經過貪婪法選擇最大的值替換原先的值。
- 異步動態規劃:
- 每次使用新的狀態值更新舊的狀態值In-place
- 使用貝爾曼偏差引導狀態的選擇,優先更新偏差最大的狀態
- 更新狀態值都使用狀態的參數
- 全狀態的動態規劃存儲搜索每一個狀態空間,基於採樣的動態規劃和近似的動態規劃減小了部分狀態空間的使用
Real-time dynamic programming
參考
david siver 課程get
https://home.cnblogs.com/u/pinard/it