JavaShuo
欄目
標籤
【RL】從on-policy到off-policy
時間 2021-01-02
標籤
Reinforce Learning
简体版
原文
原文鏈接
1. 什麼是on-policy,什麼是off-policy 其實這個概念我們之前已經提到了,這裏不妨再提一下: on-policy就是獲取數據的動作和最終策略的動作是一致的,比如Sarsa。 off-policy就是獲取數據的動作和最終策略的動作不一致,比如QLearning。 從這種定義我們也可以得知:我們的強化學習流程中涉及到兩個關鍵流程:一個是選擇用來獲取數據的動作,另一個則是我們最終用
>>阅读原文<<
相關文章
1.
【RL從入門到放棄】【二十五】
2.
【RL從入門到放棄】【十二】
3.
【RL從入門到放棄】【十五】
4.
【RL從入門到放棄】【二十】
5.
【RL從入門到放棄】【五】
6.
【RL從入門到放棄】【十一】
7.
【RL從入門到放棄】【二】
8.
【RL從入門到放棄】【八】
9.
【RL從入門到放棄】【四】
10.
【RL從入門到放棄】【十】
更多相關文章...
•
Rust 輸出到命令行
-
RUST 教程
•
從RedisTemplate中獲得Jedis實例
-
Redis教程
•
算法總結-廣度優先算法
•
算法總結-滑動窗口
相關標籤/搜索
從上到下
從0到0.1
從小到大
從古到今
從HTML到Pug
從無到有
從左到右
從頭到腳
從0到1
Docker教程
Docker命令大全
Spring教程
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
如何將PPT某一頁幻燈片導出爲高清圖片
2.
Intellij IDEA中使用Debug調試
3.
build項目打包
4.
IDEA集成MAVEN項目極簡化打包部署
5.
eclipse如何導出java工程依賴的所有maven管理jar包(簡單明瞭)
6.
新建的Spring項目無法添加class,依賴下載失敗解決:Maven環境配置
7.
記在使用vue-cli中使用axios的心得
8.
分享提高自己作品UI設計形式感的幾個小技巧!
9.
造成 nginx 403 forbidden 的幾種原因
10.
AOP概述(什麼是AOP?)——Spring AOP(一)
本站公眾號
歡迎關注本站公眾號,獲取更多信息
相關文章
1.
【RL從入門到放棄】【二十五】
2.
【RL從入門到放棄】【十二】
3.
【RL從入門到放棄】【十五】
4.
【RL從入門到放棄】【二十】
5.
【RL從入門到放棄】【五】
6.
【RL從入門到放棄】【十一】
7.
【RL從入門到放棄】【二】
8.
【RL從入門到放棄】【八】
9.
【RL從入門到放棄】【四】
10.
【RL從入門到放棄】【十】
>>更多相關文章<<