【/強化學習7日打卡營-世界冠軍帶你從零實踐/課程摘要和調參心得-No.5】連續動作空間上求解RL

一、學習內容 5.連續動作空間上求解RL 5.1連續動作空間 離散和連續動作跟環境有關: 可分別採用隨機性策略和確定性策略: 實踐中可分別用sample函數和tanh函數: DDPG(Deep Deterministic Policy Gradient)的來源: DDPG可看做DQN的擴展版本,添加了策略網絡,使用了RL中的Actor-Critic架構 DQN有2條經驗的:target網絡,以及經
相關文章
相關標籤/搜索