量化強化學習中的泛化

時間 2021-01-01

原文原文鏈接

我們將發佈CoinRun，這是一種訓練環境，它爲agent將其經驗轉移到新穎情況中的能力提供了度量標準，並且已經幫助澄清了強化學習中的長期難題。CoinRun在複雜性方面取得了理想的平衡：環境比傳統的平臺遊戲（如Sonic）簡單，但仍對最先進的算法提出了有價值的泛化挑戰。即使是令人印象深刻的RL策略，也經常在沒有監督學習技術（如dropout和batch normalization）的情況下進行