3.Proximal Policy Optimization(PPO)+on/off policy

目錄 深度強化學習目錄 簡介 策略梯度(Policy Gradient)的缺點在於採樣量大,且每一次更新參數都需要採樣n輪,更新完又要去採樣……換言之,對遊戲數據的利用率很低,太慢了。 這種採樣-學習-採樣的過程,是一種on-policy策略,接下來我們要將的PPO則不同,是一種off-policy的策略。 符號 本篇中運用到的符號和上一篇中的基本一致。 On/Off Policy On Poli
相關文章
相關標籤/搜索