DQN

時間 2021-01-07

原文原文鏈接

文章目錄神經網絡的作用更新神經網絡 Experience replay 和 Fixed Q-targets 神經網絡的作用將狀態和動作當成神經網絡的輸入, 然後經過神經網絡分析後得到動作的 Q 值, 這樣我們就沒必要在表格中記錄 Q 值。而是直接使用神經網絡生成 Q 值. 也能只輸入狀態值, 輸出所有的動作值, 然後按照 Q learning 的原則, 直接選擇擁有最大值的動作當做下一步要做

>>阅读原文<<

1. Double DQN and Dueling DQN
2. Nature DQN與Double DQN
3. 6.DQN(Deep Q-Network)+Double DQN+Dueling DQN
4. DQN
5. Prioritized Replay DQN與Dueling DQN
6. GAN-DQN
7. Prioritized DQN
8. Noisy DQN
9. Double DQN
10. DQN 原理（二）：理解 DQN 中的「Q」
更多相關文章...

相關標籤/搜索

dqn