近端策略優化算法(PPO)

時間 2021-01-13

標籤強化學習 TRPO PPO 简体版

原文原文鏈接

策略梯度算法法 (PG) 策略梯度迭代，通過計算策略梯度的估計，並利用隨機梯度上升算法進行迭代。其常用的梯度估計形式爲： E ^ t [ ∇ θ l o g π θ ( a t ∣ s t ) A ^ t ] \hat{\mathbb{E}}_t[\nabla_\theta log \pi_\theta(a_t | s_t)\hat{A}_t] E^t[∇θlogπθ(at∣st)A^t

>>阅读原文<<