深度強化學習-DDPG-筆記（八）

時間 2021-06-07

標籤學習筆記強化學習简体版

原文原文鏈接

深度確定性策略梯度 DDPG 離散動作 vs. 連續動作 DDPG(Deep Deterministic Policy Gradient) DDPG 的特點離散動作 vs. 連續動作離散動作：動作個數是可數的。比如，在 CartPole 環境中，可以有向左推小車、向右推小車兩個動作。在 Frozen Lake 環境中，小烏龜可以有上下左右四個動作。在 Atari 的 Pong 遊戲中，遊戲有

>>阅读原文<<