DDPG,CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 論文閱讀

DDPG算法是訓練一個deterministic policy來處理動作連續的問題,主要是基於DQN的思想,訓練一個Q-functon來衡量動作的Q值。一般的DQN方法得到下面這個Q的最優值是很容易的,因爲動作是離散的,取對應Q值最大的動作即可。但是在連續動作上就不太好處理了。  原始的Q-Learning的貝爾曼方程是: 貝爾曼方程可以用來學習最優的Q函數,目標函數爲:  因爲連續動作沒法像離散
相關文章
相關標籤/搜索