3.Proximal Policy Optimization(PPO)+on/off policy

時間 2021-01-16

標籤深度強化學習深度學習算法简体版

原文原文鏈接

目錄深度強化學習目錄簡介策略梯度（Policy Gradient）的缺點在於採樣量大，且每一次更新參數都需要採樣n輪，更新完又要去採樣……換言之，對遊戲數據的利用率很低，太慢了。這種採樣-學習-採樣的過程，是一種on-policy策略，接下來我們要將的PPO則不同，是一種off-policy的策略。符號本篇中運用到的符號和上一篇中的基本一致。 On/Off Policy On Poli

>>阅读原文<<