強化學習之SAC（soft actor-critic）算法

時間 2021-01-12

標籤強化學習算法简体版

原文原文鏈接

強化學習之SAC（soft actor-critic）算法 PPO算法是目前最主流的DRL算法，但是PPO是一種on-policy算法，存在sample inefficiency的缺點，需要巨量的採樣才能學習。DDPG及其拓展是面向連續控制的off-policy的算法，相對於PPO來說更sample efficient，但是它存在對其超參數敏感，收斂效果差的問題。SAC算法是面向最大熵強化學習開發

>>阅读原文<<