2020-11-06

時間 2021-06-23

原文原文鏈接

DDPG 起源對於這些連續的動作控制空間，Q-learning、DQN 等算法是沒有辦法處理的。在上面這個離散動作的場景下，比如說我輸出上下或是停止這幾個動作。有幾個動作，神經網絡就輸出幾個概率值，我們用 π θ ( a t ∣ s t ) \pi_\theta(a_t|s_t) πθ(at∣st)來表示這個隨機性的策略。在連續的動作場景下，比如說我要輸出這個機器人手臂彎曲的角度，這樣子的