Q-learning的進階版算法

時間 2021-01-12

原文原文鏈接

文章目錄 Double DQN（DDQN） Dueling DQN 優先回放（Prioritized Experience Replay） N step bootstraping Noisy Net Distributional Q-function Rainbow Double DQN（DDQN） DQN的Q-value往往是被高估的，如下圖上圖爲四個遊戲的訓練結果的對比。橙色的曲線代表DQ

>>阅读原文<<