強化學習(7):深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)

本文主要講解有關 DDPG 算法的有關內容。 一、DDPG 算法 DDPG 是 Deep Deterministic Policy Gradient 的縮寫,其中深度 (Deep) 代表 DQN;確定性(Deterministic)是指不再先生成各個動作的概率然後再選擇概率最高的動作,而是直接輸出一個確定性的動作;Policy Gradient 就不用解釋了吧。 因爲在 Actor-Critic
相關文章
相關標籤/搜索