Proximal Policy Optimization (PPO)詳解

文章目錄 On-policy v.s. Off-policy 將On-policy變爲Off-policy PPO算法/TRPO算法 PPO2 總結 On-policy v.s. Off-policy On-Policy方式指的是用於學習的agent與觀察環境的agent是同一個,所以參數θ始終保持一致。 Off-Policy方式指的是用於學習的agent與用於觀察環境的agent不是同一個,他們
相關文章
相關標籤/搜索