強化學習模型-Priority Replay Buffer

論文:Schaul T, Quan J, Antonoglou I, et al. Prioritized Experience Replay[J] . Computer Science,2015 前言 1.首先提下Replay Buffer吧,Replay Buffer是最基本的樣本收集再採樣的過程,是之前在做DDQN實驗中使用的一種樣本利用方式,原因是當我們使用Q-learning算法進行在線
相關文章
相關標籤/搜索