JavaShuo
欄目
標籤
【RL】從on-policy到off-policy
時間 2021-01-02
標籤
Reinforce Learning
简体版
原文
原文鏈接
1. 什麼是on-policy,什麼是off-policy 其實這個概念我們之前已經提到了,這裏不妨再提一下: on-policy就是獲取數據的動作和最終策略的動作是一致的,比如Sarsa。 off-policy就是獲取數據的動作和最終策略的動作不一致,比如QLearning。 從這種定義我們也可以得知:我們的強化學習流程中涉及到兩個關鍵流程:一個是選擇用來獲取數據的動作,另一個則是我們最終用
>>阅读原文<<
相關文章
1.
【RL從入門到放棄】【二十五】
2.
【RL從入門到放棄】【十二】
3.
【RL從入門到放棄】【十五】
4.
【RL從入門到放棄】【二十】
5.
【RL從入門到放棄】【五】
6.
【RL從入門到放棄】【十一】
7.
【RL從入門到放棄】【二】
8.
【RL從入門到放棄】【八】
9.
【RL從入門到放棄】【四】
10.
【RL從入門到放棄】【十】
更多相關文章...
•
Rust 輸出到命令行
-
RUST 教程
•
從RedisTemplate中獲得Jedis實例
-
Redis教程
•
算法總結-廣度優先算法
•
算法總結-滑動窗口
相關標籤/搜索
從上到下
從0到0.1
從小到大
從古到今
從HTML到Pug
從無到有
從左到右
從頭到腳
從0到1
Docker教程
Docker命令大全
Spring教程
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
外部其他進程嵌入到qt FindWindow獲得窗口句柄 報錯無法鏈接的外部符號 [email protected] 無法被([email protected]@[email protected]@@引用
2.
UVa 11524 - InCircle
3.
The Monocycle(bfs)
4.
VEC-C滑窗
5.
堆排序的應用-TOPK問題
6.
實例演示ElasticSearch索引查詢term,match,match_phase,query_string之間的區別
7.
數學基礎知識 集合
8.
amazeUI 復擇框問題解決
9.
揹包問題理解
10.
算數平均-幾何平均不等式的證明,從麥克勞林到柯西
本站公眾號
歡迎關注本站公眾號,獲取更多信息
相關文章
1.
【RL從入門到放棄】【二十五】
2.
【RL從入門到放棄】【十二】
3.
【RL從入門到放棄】【十五】
4.
【RL從入門到放棄】【二十】
5.
【RL從入門到放棄】【五】
6.
【RL從入門到放棄】【十一】
7.
【RL從入門到放棄】【二】
8.
【RL從入門到放棄】【八】
9.
【RL從入門到放棄】【四】
10.
【RL從入門到放棄】【十】
>>更多相關文章<<