PPO-強化學習算法

文章目錄 Quick Facts Key Equations Exploration vs. Exploitation Pseudocode Documentaton PPO受到與TRPO相同的問題的激勵:我們如何才能使用當前擁有的數據在策略上採取最大可能的改進步驟,而又不會走得太遠而導致意外導致性能下降? 在TRPO試圖通過複雜的二階方法解決此問題的地方,PPO是一階方法的族,它使用其他一些技巧
相關文章
相關標籤/搜索