JavaShuo
欄目
標籤
【RL】從on-policy到off-policy
時間 2021-01-02
標籤
Reinforce Learning
简体版
原文
原文鏈接
1. 什麼是on-policy,什麼是off-policy 其實這個概念我們之前已經提到了,這裏不妨再提一下: on-policy就是獲取數據的動作和最終策略的動作是一致的,比如Sarsa。 off-policy就是獲取數據的動作和最終策略的動作不一致,比如QLearning。 從這種定義我們也可以得知:我們的強化學習流程中涉及到兩個關鍵流程:一個是選擇用來獲取數據的動作,另一個則是我們最終用
>>阅读原文<<
相關文章
1.
【RL從入門到放棄】【二十五】
2.
【RL從入門到放棄】【十二】
3.
【RL從入門到放棄】【十五】
4.
【RL從入門到放棄】【二十】
5.
【RL從入門到放棄】【五】
6.
【RL從入門到放棄】【十一】
7.
【RL從入門到放棄】【二】
8.
【RL從入門到放棄】【八】
9.
【RL從入門到放棄】【四】
10.
【RL從入門到放棄】【十】
更多相關文章...
•
Rust 輸出到命令行
-
RUST 教程
•
從RedisTemplate中獲得Jedis實例
-
Redis教程
•
算法總結-廣度優先算法
•
算法總結-滑動窗口
相關標籤/搜索
從上到下
從0到0.1
從小到大
從古到今
從HTML到Pug
從無到有
從左到右
從頭到腳
從0到1
Docker教程
Docker命令大全
Spring教程
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
IDEA 2019.2解讀:性能更好,體驗更優!
2.
使用雲效搭建前端代碼倉庫管理,構建與部署
3.
Windows本地SVN服務器創建用戶和版本庫使用
4.
Sqli-labs-Less-46(筆記)
5.
Docker真正的入門
6.
vue面試知識點
7.
改變jre目錄之後要做的修改
8.
2019.2.23VScode的c++配置詳細方法
9.
從零開始OpenCV遇到的問題一
10.
創建動畫剪輯
本站公眾號
歡迎關注本站公眾號,獲取更多信息
相關文章
1.
【RL從入門到放棄】【二十五】
2.
【RL從入門到放棄】【十二】
3.
【RL從入門到放棄】【十五】
4.
【RL從入門到放棄】【二十】
5.
【RL從入門到放棄】【五】
6.
【RL從入門到放棄】【十一】
7.
【RL從入門到放棄】【二】
8.
【RL從入門到放棄】【八】
9.
【RL從入門到放棄】【四】
10.
【RL從入門到放棄】【十】
>>更多相關文章<<