Proximal Policy Optimization (PPO)詳解

時間 2021-01-16

原文原文鏈接

文章目錄 On-policy v.s. Off-policy 將On-policy變爲Off-policy PPO算法/TRPO算法 PPO2 總結 On-policy v.s. Off-policy On-Policy方式指的是用於學習的agent與觀察環境的agent是同一個，所以參數θ始終保持一致。 Off-Policy方式指的是用於學習的agent與用於觀察環境的agent不是同一個，他們

>>阅读原文<<