DDPG，CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 論文閱讀

時間 2020-12-24

標籤強化學習简体版

原文原文鏈接

DDPG算法是訓練一個deterministic policy來處理動作連續的問題，主要是基於DQN的思想，訓練一個Q-functon來衡量動作的Q值。一般的DQN方法得到下面這個Q的最優值是很容易的，因爲動作是離散的，取對應Q值最大的動作即可。但是在連續動作上就不太好處理了。原始的Q-Learning的貝爾曼方程是：貝爾曼方程可以用來學習最優的Q函數，目標函數爲：因爲連續動作沒法像離散

>>阅读原文<<