DQN(Deep Reiforcement Learning) 發展歷程（二）

時間 2019-12-06

標籤 dqn deep reiforcement learning 發展歷程简体版

原文原文鏈接

目錄html

DQN發展歷程(一)異步

DQN發展歷程(二)函數

DQN發展歷程(三)學習

DQN發展歷程(四)htm

DQN發展歷程(五)blog

動態規劃

動態規劃給出了求解強化學習的一種方式

使用條件

使用動態規劃須要兩個條件
- 總問題能夠分解成一系列相互重疊的子問題
- 子問題的求解結果被存儲下來而且能夠重複使用
強化學習對應以上兩個條件
- 貝爾曼等式知足了重疊子問題的分解，每一個狀態的值求解從當前狀態到下一狀態。
- 值函數用於存儲和複用子問題的求解結果

分類

對於預測問題，動態規劃方法輸出的是每一狀態的值
對於控制問題，動態規劃方法輸出的是每一狀態的策略

求解方法

迭代策略：基於貝爾曼等式，每一個狀態值的求解從當前狀態St到下一狀態St+1，按此遞推方法迭代。
策略的改進方法：迭代，根據值選擇最佳策略，每次更新經過貪婪法選擇最大的值替換原先的值。
異步動態規劃：
- 每次使用新的狀態值更新舊的狀態值In-place
- 使用貝爾曼偏差引導狀態的選擇，優先更新偏差最大的狀態
- 更新狀態值都使用狀態的參數
全狀態的動態規劃存儲搜索每一個狀態空間，基於採樣的動態規劃和近似的動態規劃減小了部分狀態空間的使用
Real-time dynamic programming

參考

david siver 課程get

https://home.cnblogs.com/u/pinard/it

相關文章

1. DQN(Deep Reiforcement Learning) 發展歷程(一)
2. DQN(Deep Reiforcement Learning) 發展歷程（三）
3. DQN(Deep Reiforcement Learning) 發展歷程（五）
4. DQN(Deep Reiforcement Learning) 發展歷程（四）
5. GAN 發展歷程
6. Optical Flow 發展歷程 (1)
7. USB發展歷程
8. Java 發展歷程
9. ECMAScript 發展歷程
10. Spring發展歷程
更多相關文章...
• Rust 併發編程 - RUST 教程
• RSS 歷史 - RSS 教程
• C# 中 foreach 遍歷的用法
• PHP開發工具

相關標籤/搜索

卷積神經網絡發展歷程

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<