強化學習之PPO（Proximal Policy Optimization Algorithms）算法

時間 2021-01-02

標籤強化學習算法简体版

原文原文鏈接

強化學習之PPO（Proximal Policy Optimization Algorithms）算法 PPO算法提出了新的目標函數可以在多個訓練步驟實現小批量的更新，解決了策略梯度算法中步長難以確定的問題。如果步長太小，訓練時間就會過長。如果步長過大，有用信息會被噪音掩蓋（因爲每個數據影響都很大），或者令性能災難性的下降，難以收斂。 on-policy與off-policy的區別 on-poli

>>阅读原文<<