強化學習之DQN流程詳解

本文的主要流程按照: Q learning的基本流程 神經網絡的引入 deepmind 2015年nature論文的兩種改進策略 完整的DQN流程(參考上述論文) 來進行講解。 1. Q learning 的基本流程 幾個基礎概念: Q(s,a)--存儲在狀態s下動作a的Q value的矩陣,矩陣規模爲num(s)*num(a); s--狀態,a--動作,r--回報值; 整個Q學習的過程是利用be
相關文章
相關標籤/搜索