強化學習之SAC(soft actor-critic)算法

強化學習之SAC(soft actor-critic)算法 PPO算法是目前最主流的DRL算法,但是PPO是一種on-policy算法,存在sample inefficiency的缺點,需要巨量的採樣才能學習。DDPG及其拓展是面向連續控制的off-policy的算法,相對於PPO來說更sample efficient,但是它存在對其超參數敏感,收斂效果差的問題。SAC算法是面向最大熵強化學習開發
相關文章
相關標籤/搜索