【強化學習】Prioritized Experience Replay（2016）

時間 2021-01-19

原文原文鏈接

RL最簡單的形式是，在單獨的更新後就立刻丟棄掉到來的數據。伴隨而來的有2個問題：強相關的更新打破了隨機梯度下降算法的假定一些少見的experience可能會在之後有用經驗回放解決了2個問題：通過融合一些近期的經驗有可能打破相關性一些少見的經驗會被重複用到這篇文章主要研究與所有的transition被均勻回放相比，哪種transition被回放可以是的經驗回放更加有效。之前有研究表示，一

>>阅读原文<<