Soft Actor-Critic:適用於機器人的深度強化學習

文 / Tuomas Haarnoja,學生研究員;Sergey Levine,Google 機器人團隊指導教師 深度強化學習 (RL) 能夠藉助通用的神經網絡表徵來處理複雜的感官輸入,因此可讓機器人直接從現實世界的經驗與互動中完全自主地學習行爲。然而,許多現有的 RL 算法均需幾天或幾周(甚至更久)的真實數據才能實現所期望的行爲。此外,我們很難在複雜的機器人系統(比如多足機器人)上部署這樣的系統
相關文章
相關標籤/搜索