PPO，Proximal Policy Optimization Algorithms 論文閱讀

時間 2021-01-02

原文原文鏈接

TRPO的優化方式比較複雜，對於某些模型結構無法使用，例如模型使用了dropout或policy跟value function模型參數進行了共享。PPO算法基於TRPO的目標函數進行了簡化，使用目標函數的一階導數進行policy的更新，並且更新時可以進行多次迭代，重複使用現有的數據更新policy。先看TRPO的目標函數（是surrogate的）其複雜的優化方式主要來源於那個hard的KL散度

>>阅读原文<<