深度強化學習5——Deep Q-Learning(DQN)

之前大量敘述了強化學習的基本原理,至此纔開始真正的深度強化學習的部分。2013和2015年DeepMind的Deep Q Network(DQN)它用一個深度網絡代表價值函數,依據強化學習中的Q-Learning,爲深度網絡提供目標值,對網絡不斷更新直至收斂。用DQN從玩各種電子遊戲開始,直到訓練出阿爾法狗打敗了人類圍棋選手。本篇文章也主要圍繞DeepMind的論文Human-level cont
相關文章
相關標籤/搜索