連續動作空間與DDPG

時間 2021-01-13

標籤神經網絡深度學習简体版

原文原文鏈接

連續動作空間與DDPG 小車速度，角度，電壓的電流量值這些是連續值，對於連續動作的動作控制空間，之前所介紹的Q-learning和 Sarsa、DQN等算法，這裏是沒有辦法處理的。那怎麼去輸出連續的動作呢？這時候，萬能的神經網絡又出現了。在離散的動作場景下，如果需要輸出上、停止、下，有幾個動作，神經網絡就輸出幾個概率值。在隨機性策略情況下，對於某一個s（state），採取的某一個action的概

>>阅读原文<<