深度強化學習DQN

時間 2020-12-27

原文原文鏈接

DQN模型輸入的是處理後的連續幀圖像（降維幅度圖），經過卷積層層後接兩個全連接層，輸出是所有動作的Q值。算法 1. NIPS 2013 2. Nature 2015 2.1 算法 2.2 流程圖 3. 不足由於Replay Memory原因：無法應用於連續動作控制；只能處理只需短時記憶問題，無法處理需長時記憶問題（後續研究提出了使用LSTM等改進方法）；

>>阅读原文<<