【/強化學習7日打卡營-世界冠軍帶你從零實踐/課程摘要和調參心得-No.5】連續動作空間上求解RL

時間 2021-01-10

標籤深度學習強化學習算法简体版

原文原文鏈接

一、學習內容 5.連續動作空間上求解RL 5.1連續動作空間離散和連續動作跟環境有關：可分別採用隨機性策略和確定性策略：實踐中可分別用sample函數和tanh函數: DDPG(Deep Deterministic Policy Gradient)的來源： DDPG可看做DQN的擴展版本，添加了策略網絡，使用了RL中的Actor-Critic架構 DQN有2條經驗的：target網絡，以及經

>>阅读原文<<