強化學習（7）：深度確定性策略梯度（Deep Deterministic Policy Gradient, DDPG）

時間 2021-01-02

標籤強化學習简体版

原文原文鏈接

本文主要講解有關 DDPG 算法的有關內容。一、DDPG 算法 DDPG 是 Deep Deterministic Policy Gradient 的縮寫，其中深度（Deep）代表 DQN；確定性（Deterministic）是指不再先生成各個動作的概率然後再選擇概率最高的動作，而是直接輸出一個確定性的動作；Policy Gradient 就不用解釋了吧。因爲在 Actor-Critic

>>阅读原文<<