解讀continuous control with deep reinforcement learning(DDPG)

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 博主:shenshikexmu 聯繫方式:[email protected] 緣起 DDPG,是Google Deepmind第一篇關於連續動作的深度加強學習論文(是否第一篇存疑)。DQN(Deep Q Network)生成的策略執行的動作是離散或者低維的,雖然在狀態輸入上可以是高維的觀察狀態。如在DQN2014中,有效的動作在4到18個之間,
相關文章
相關標籤/搜索