DQN&DDQN算法推導及分析

一、DGP推導 本篇介紹確定性策略梯度算法,該算法主要用於off-policy(on-policy也能用)。在DQN等值函數估計算法中,最終策略的形式是需要對動作狀態值函數取極大 a = a r g m a x a ′ Q ( s , a ′ ) a={\rm argmax}_{a'}Q(s,a') a=argmaxa′​Q(s,a′),這種方法只能用在有限的離散動作空間中,無
相關文章
相關標籤/搜索