【強化學習】Prioritized Experience Replay(2016)

RL最簡單的形式是,在單獨的更新後就立刻丟棄掉到來的數據。伴隨而來的有2個問題: 強相關的更新打破了隨機梯度下降算法的假定 一些少見的experience可能會在之後有用 經驗回放解決了2個問題: 通過融合一些近期的經驗有可能打破相關性 一些少見的經驗會被重複用到 這篇文章主要研究與所有的transition被均勻回放相比,哪種transition被回放可以是的經驗回放更加有效。之前有研究表示,一
相關文章
相關標籤/搜索