DRL(五)——DDPG

在我的筆記DRL(四)——value function中,大部分講了Q Learning的算法、存在的問題和解決的措施。這一個筆記的內容是緊接上一篇的。 爲什麼要提出DDPG呢? 因爲不管是DQN也好,DDQN也好,都是離散動作的,就是說,action是有限的。然而很多時候action都是連續的,這時候就需要新的方法了。 在連續動作空間中怎樣選擇最優action呢? 我們知道,在離散動作的Q Le
相關文章
相關標籤/搜索