論文閱讀（DRQN）：Deep Recurrent Q-Learning for Partially Observable MDPs

時間 2021-01-17

原文原文鏈接

簡單概括該文： a、創新之處：提出QRQN結構：DQN+LSTM b、創新原因：DQN有兩個缺陷——1、經驗池內存有限制；2、每個決策點都需要完整的遊戲界面。 c、改動措施：將DQN的第一個全連接層換成LSTM網絡 Introduction： DQN只取了過去四幀（即四張圖）作爲輸入，而如果遊戲需要四幀以上的記憶，則將出現部分可觀測馬爾科夫性（Partially-Observable Markov

>>阅读原文<<