PPO,Proximal Policy Optimization Algorithms 論文閱讀

TRPO的優化方式比較複雜,對於某些模型結構無法使用,例如模型使用了dropout或policy跟value function模型參數進行了共享。PPO算法基於TRPO的目標函數進行了簡化,使用目標函數的一階導數進行policy的更新,並且更新時可以進行多次迭代,重複使用現有的數據更新policy。 先看TRPO的目標函數(是surrogate的) 其複雜的優化方式主要來源於那個hard的KL散度
相關文章
相關標籤/搜索