DeepMind的驚人混合與匹配RL技術

時間 2021-01-09

原文原文鏈接

＃1研究論文解釋混合搭配-強化學習的代理課程[ arxiv ] 如今使用的強化學習技術非常快速，並且使用基於梯度的策略優化，可以在不那麼複雜的環境中立即獲得結果。基於漸變的策略是競爭性的而不是協作的。那麼，如果對於需要執行具有複雜任務的代理的更復雜環境，我們需要長期的結果，該怎麼辦？在許多世界環境中，我們無法修改環境，並且無法在現實世界中執行強化學習非常耗時。因此爲了解決這個問題，本文試