【學習筆記】PPO(Proximal Policy Optimization) - 李宏毅

時間 2021-01-02

標籤深度強化學習简体版

原文原文鏈接

所謂PPO（ProximalPolicyOptimization），就是在策略梯度的基礎上，使其可以具有Off-Policy的學習能力，同時保證動作執行者和學習者之間差距不要太大，穩紮穩打。目錄 1.Policy Gradient 2.PPO(ProximalPolicyOptimization) 參考： 1.Policy Gradient 增加一個衰減discount 2.PPO(Prox

>>阅读原文<<