強化學習6

1 關鍵詞 DDPG(Deep Deterministic Policy Gradient): 在連續控制領域經典的RL算法,是DQN在處理連續動作空間的一個擴充。具體地,從命名就可以看出,Deep是使用了神經網絡;Deterministic 表示 DDPG 輸出的是一個確定性的動作,可以用於連續動作的一個環境;Policy Gradient 代表的是它用到的是策略網絡,並且每個 step 都會更
相關文章
相關標籤/搜索