Double Deep Q-Learning Netwok的理解與實現

時間 2020-12-23

原文原文鏈接

理論簡介 Double Deep Q-Learning Netwok (DQN)，基礎理論來自於這篇論文。基礎理論部分，參考這篇筆記和這篇筆記。下面給出最核心的強化學習公式： Y t D o u b l e Q = R t + 1 + γ Q ^ ( S t + 1 , a r g m a x a Q ( S t + 1 , a ) ) Y_{t}^{DoubleQ} = R_{t+1}+\gam

>>阅读原文<<