強化學習模型-Priority Replay Buffer

時間 2021-01-19

原文原文鏈接

論文：Schaul T, Quan J, Antonoglou I, et al. Prioritized Experience Replay[J] . Computer Science,2015 前言 1.首先提下Replay Buffer吧，Replay Buffer是最基本的樣本收集再採樣的過程，是之前在做DDQN實驗中使用的一種樣本利用方式，原因是當我們使用Q-learning算法進行在線

>>阅读原文<<