近端策略優化算法(PPO)

策略梯度算法法 (PG) 策略梯度迭代,通過計算策略梯度的估計,並利用隨機梯度上升算法進行迭代。其常用的梯度估計形式爲: E ^ t [ ∇ θ l o g π θ ( a t ∣ s t ) A ^ t ] \hat{\mathbb{E}}_t[\nabla_\theta log \pi_\theta(a_t | s_t)\hat{A}_t] E^t​[∇θ​logπθ​(at​∣st​)A^t
相關文章
相關標籤/搜索