伯克利強化學習新研究:機器人只用幾分鐘隨機數據就能學會軌跡跟蹤

伯克利人工智能研究實驗室(BAIR)博客近日介紹了一種使用神經網絡動態的基於模型的強化學習方法,該方法能夠非常高效地利用數據,能讓強化學習智能體使用少量數據就學會軌跡跟蹤。除了模擬實驗,他們還在真實機器人上進行了評估,讓一個機器人只用 17 分鐘數據就學會了軌跡跟蹤。機器之心對介紹這項研究的博客文章進行了編譯介紹,相關論文和代碼可在文末查閱。 圖 1:一個學習後的神經網絡動態模型能讓六足機器人學習
相關文章
相關標籤/搜索