Double DQN

時間 2021-01-07

原文原文鏈接

論文鏈接：https://arxiv.org/abs/1509.06461 由於深度神經網絡提供了靈活的函數逼近與低漸近逼近誤差的潛力，DQN 在 Atari 2600 遊戲中的帶來了更好的性能。但是，DQN有時也會大大高估行動的價值。使用 DQN的改進版本（Double DQN）能夠產生更準確的值估計，減少 DQN 的過高估計，從而在遊戲中獲得更高的分數。給定策略 π \pi π ，在狀態 s