基礎算法篇（七），確定性策略的DPG與DDPG

時間 2021-01-12

原文原文鏈接

我們在前面兩章介紹了Policy Based範疇的經典策略梯度方法和基於AC框架的PPO方法，在上述方法中，策略梯度都爲如下形式： ∇ J ( θ ) = E τ ∼ P ( τ ; θ ) [ R ( τ ) ∑ t = 1 T ∇ log ⁡ π θ ( a t ∣ s t ) ] \nabla J\left(\theta\right)=E_{\tau\sim P\left(\tau;\the

>>阅读原文<<