DDPG 算法

時間 2021-06-25

標籤數據分析機器學習简体版

原文原文鏈接

DDPG 算法 1 離散動作 vs. 連續動作離散動作與連續動作是相對的概念，一個是可數的，一個是不可數的。在 CartPole 環境中，可以有向左推小車、向右推小車兩個動作。在 Frozen Lake 環境中，小烏龜可以有上下左右四個動作。在 Atari 的 Pong 遊戲中，遊戲有 6 個按鍵的動作可以輸出。但在實際情況中，經常會遇到連續動作空間的情況，也就是輸出的動作是不可數的。比如說

>>阅读原文<<