Prioritized DQN

時間 2021-01-07

原文原文鏈接

論文鏈接：https://arxiv.org/pdf/1511.05952.pdf 經驗回放（Experience replay）讓在線強化學習代理記住和重複使用過去的經驗。在之前的工作中，experience replay 是均勻隨機取樣。然而，這種方法不考慮樣本的重要性。Prioritized DQN 使用了一個優先級經驗的框架，以便更頻繁地使用重要性高的樣本，從而更有效地學習