DDPG 算法

DDPG 算法 1 離散動作 vs. 連續動作 離散動作與連續動作是相對的概念,一個是可數的,一個是不可數的。 在 CartPole 環境中,可以有向左推小車、向右推小車兩個動作。在 Frozen Lake 環境中,小烏龜可以有上下左右四個動作。在 Atari 的 Pong 遊戲中,遊戲有 6 個按鍵的動作可以輸出。 但在實際情況中,經常會遇到連續動作空間的情況,也就是輸出的動作是不可數的。比如說
相關文章
相關標籤/搜索