【學習筆記】PPO(Proximal Policy Optimization) - 李宏毅

  所謂PPO(ProximalPolicyOptimization),就是在策略梯度的基礎上,使其可以具有Off-Policy的學習能力,同時保證動作執行者和學習者之間差距不要太大,穩紮穩打。 目錄 1.Policy Gradient 2.PPO(ProximalPolicyOptimization) 參考: 1.Policy Gradient 增加一個衰減discount 2.PPO(Prox
相關文章
相關標籤/搜索