強化學習之PPO(Proximal Policy Optimization Algorithms)算法

強化學習之PPO(Proximal Policy Optimization Algorithms)算法 PPO算法提出了新的目標函數可以在多個訓練步驟實現小批量的更新,解決了策略梯度算法中步長難以確定的問題。如果步長太小,訓練時間就會過長。如果步長過大,有用信息會被噪音掩蓋(因爲每個數據影響都很大),或者令性能災難性的下降,難以收斂。 on-policy與off-policy的區別 on-poli
相關文章
相關標籤/搜索