DQN:強化學習 閱讀記錄

1、創新點1:Experience Replay 與普通的TD-r不同的是,DQN採用了一種 experience replay的方式,experience replay會存儲所有時刻agent的經驗與回報。存儲這些replay的數組結構被稱爲 replay memory。 如上圖所示,每一個replay memory被記錄爲(a, s, r, s)的元組,每次訓練將隨機選擇memory中的一個進
相關文章
相關標籤/搜索