解讀continuous control with deep reinforcement learning（DDPG）

時間 2021-01-01

原文原文鏈接

版權聲明：本文爲博主原創文章，未經博主允許不得轉載。博主：shenshikexmu 聯繫方式：[email protected] 緣起 DDPG，是Google Deepmind第一篇關於連續動作的深度加強學習論文（是否第一篇存疑）。DQN（Deep Q Network）生成的策略執行的動作是離散或者低維的，雖然在狀態輸入上可以是高維的觀察狀態。如在DQN2014中，有效的動作在4到18個之間，

>>阅读原文<<

相關文章

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<