深度強化學習5——Deep Q-Learning(DQN)

時間 2021-01-09

原文原文鏈接

之前大量敘述了強化學習的基本原理，至此纔開始真正的深度強化學習的部分。2013和2015年DeepMind的Deep Q Network（DQN）它用一個深度網絡代表價值函數，依據強化學習中的Q-Learning，爲深度網絡提供目標值，對網絡不斷更新直至收斂。用DQN從玩各種電子遊戲開始，直到訓練出阿爾法狗打敗了人類圍棋選手。本篇文章也主要圍繞DeepMind的論文Human-level cont

>>阅读原文<<