Double DQN

論文鏈接:https://arxiv.org/abs/1509.06461 由於深度神經網絡提供了靈活的函數逼近與低漸近逼近誤差的潛力,DQN 在 Atari 2600 遊戲中的帶來了更好的性能。但是,DQN有時也會大大高估行動的價值。使用 DQN的改進版本(Double DQN)能夠產生更準確的值估計,減少 DQN 的過高估計,從而在遊戲中獲得更高的分數。 給定策略 π \pi π ,在狀態 s
相關文章
相關標籤/搜索