DQN&DDQN算法推導及分析

時間 2021-01-19

原文原文鏈接

一、DGP推導本篇介紹確定性策略梯度算法，該算法主要用於off-policy（on-policy也能用）。在DQN等值函數估計算法中，最終策略的形式是需要對動作狀態值函數取極大 a = a r g m a x a ′ Q ( s , a ′ ) a={\rm argmax}_{a'}Q(s,a') a=argmaxa′Q(s,a′)，這種方法只能用在有限的離散動作空間中，無

>>阅读原文<<