DeepMind的驚人混合與匹配RL技術

#1研究論文解釋 混合搭配-強化學習的代理課程[ arxiv ] 如今使用的強化學習技術非常快速,並且使用基於梯度的策略優化,可以在不那麼複雜的環境中立即獲得結果。 基於漸變的策略是競爭性的而不是協作的。 那麼,如果對於需要執行具有複雜任務的代理的更復雜環境,我們需要長期的結果,該怎麼辦? 在許多世界環境中,我們無法修改環境,並且無法在現實世界中執行強化學習非常耗時。 因此爲了解決這個問題,本文試
相關文章
相關標籤/搜索