谷歌發佈強化學習算法SimPLe,學習效率提升兩倍

深度強化學習(Deep reinforcement learning)利用獎勵來推動軟件政策朝着目標發展。該技術已被用於模擬社會規範的影響,創造出特別擅長玩遊戲的人工智能,併爲機器人編寫程序,使其能夠從惡劣的溢出中恢復過來。儘管強化學習功能多樣,它也有一個明顯的缺點:效率低下。訓練策略需要在模擬的或真實的環境中進行大量的交互——遠遠超過普通人學習任務的需要。 爲了在視頻遊戲領域有所彌補,谷歌的研究
相關文章
相關標籤/搜索