基礎算法篇(七),確定性策略的DPG與DDPG

我們在前面兩章介紹了Policy Based範疇的經典策略梯度方法和基於AC框架的PPO方法,在上述方法中,策略梯度都爲如下形式: ∇ J ( θ ) = E τ ∼ P ( τ ; θ ) [ R ( τ ) ∑ t = 1 T ∇ log ⁡ π θ ( a t ∣ s t ) ] \nabla J\left(\theta\right)=E_{\tau\sim P\left(\tau;\the
相關文章
相關標籤/搜索