深度強化學習DQN

DQN模型 輸入的是處理後的連續幀圖像(降維幅度圖),經過卷積層層後接兩個全連接層,輸出是所有動作的Q值。 算法 1. NIPS 2013 2. Nature 2015 2.1 算法 2.2 流程圖 3. 不足 由於Replay Memory原因: 無法應用於連續動作控制; 只能處理只需短時記憶問題,無法處理需長時記憶問題(後續研究提出了使用LSTM等改進方法);
相關文章
相關標籤/搜索