論文閱讀(DRQN):Deep Recurrent Q-Learning for Partially Observable MDPs

簡單概括該文: a、創新之處:提出QRQN結構:DQN+LSTM b、創新原因:DQN有兩個缺陷——1、經驗池內存有限制;2、每個決策點都需要完整的遊戲界面。 c、改動措施:將DQN的第一個全連接層換成LSTM網絡 Introduction: DQN只取了過去四幀(即四張圖)作爲輸入,而如果遊戲需要四幀以上的記憶,則將出現部分可觀測馬爾科夫性(Partially-Observable Markov
相關文章
相關標籤/搜索