連續動作空間與DDPG

連續動作空間與DDPG 小車速度,角度,電壓的電流量值這些是連續值,對於連續動作的動作控制空間,之前所介紹的Q-learning和 Sarsa、DQN等算法,這裏是沒有辦法處理的。那怎麼去輸出連續的動作呢?這時候,萬能的神經網絡又出現了。 在離散的動作場景下,如果需要輸出上、停止、下,有幾個動作,神經網絡就輸出幾個概率值。在隨機性策略情況下,對於某一個s(state),採取的某一個action的概
相關文章
相關標籤/搜索