論文結果難復現？本文教你完美實現深度強化學習算法DQN

時間 2021-01-01

原文原文鏈接

論文的復現一直是很多研究者和開發者關注的重點，近日有研究者詳細論述了他們在復現深度 Q 網絡所踩過的坑與訓練技巧。本論文不僅重點標註了實現過程中的終止條件和優化算法等關鍵點，同時還討論了實現的性能改進方案。機器之心簡要介紹了該論文，更詳細的實現細節請查看原論文。過去幾年來，深度強化學習逐漸流行，因爲它在有超大狀態空間（state-spaces）的領域上要比先前的方法有更好的表現。DQN 幾乎在所