強化學習算法SAC的學習探究及基於百度PARL的實戰

時間 2021-01-13

原文原文鏈接

本文要點： SAC算法的理解基於百度飛槳PARL的算法實戰個人學習心得參考文獻及學習資源 1. SAC算法的理解 SAC即Soft Actor-Critic（柔性致動/評價），它是一種基於off-policy和最大熵的深度強化學習算法，其由伯克利和谷歌大腦的研究人員提出。作爲目前高效的model-free算法，SAC是深度強化學習中對於連續動作控制的又一經典algorithm，

>>阅读原文<<