量化強化學習中的泛化

我們將發佈CoinRun,這是一種訓練環境,它爲agent將其經驗轉移到新穎情況中的能力提供了度量標準,並且已經幫助澄清了強化學習中的長期難題。CoinRun在複雜性方面取得了理想的平衡:環境比傳統的平臺遊戲(如Sonic)簡單,但仍對最先進的算法提出了有價值的泛化挑戰。 即使是令人印象深刻的RL策略,也經常在沒有監督學習技術(如dropout和batch normalization)的情況下進行
相關文章
相關標籤/搜索