JavaShuo
欄目
標籤
2020-11-06
時間 2021-06-23
原文
原文鏈接
DDPG 起源 對於這些連續的動作控制空間,Q-learning、DQN 等算法是沒有辦法處理的。在上面這個離散動作的場景下,比如說我輸出上下或是停止這幾個動作。有幾個動作,神經網絡就輸出幾個概率值,我們用 π θ ( a t ∣ s t ) \pi_\theta(a_t|s_t) πθ(at∣st)來表示這個隨機性的策略。在連續的動作場景下,比如說我要輸出這個機器人手臂彎曲的角度,這樣子的
>>阅读原文<<
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
resiprocate 之repro使用
2.
Ubuntu配置Github並且新建倉庫push代碼,從已有倉庫clone代碼,並且push
3.
設計模式9——模板方法模式
4.
avue crud form組件的快速配置使用方法詳細講解
5.
python基礎B
6.
從零開始···將工程上傳到github
7.
Eclipse插件篇
8.
Oracle網絡服務 獨立監聽的配置
9.
php7 fmp模式
10.
第5章 Linux文件及目錄管理命令基礎
本站公眾號
歡迎關注本站公眾號,獲取更多信息