深度強化學習-DDPG-筆記(八)

深度確定性策略梯度 DDPG 離散動作 vs. 連續動作 DDPG(Deep Deterministic Policy Gradient) DDPG 的特點 離散動作 vs. 連續動作 離散動作:動作個數是可數的。比如,在 CartPole 環境中,可以有向左推小車、向右推小車兩個動作。在 Frozen Lake 環境中,小烏龜可以有上下左右四個動作。在 Atari 的 Pong 遊戲中,遊戲有
相關文章
相關標籤/搜索