強化學習算法SAC的學習探究及基於百度PARL的實戰

本文要點: SAC算法的理解 基於百度飛槳PARL的算法實戰 個人學習心得 參考文獻及學習資源 1. SAC算法的理解        SAC即Soft Actor-Critic(柔性致動/評價),它是一種基於off-policy和最大熵的深度強化學習算法,其由伯克利和谷歌大腦的研究人員提出。作爲目前高效的model-free算法,SAC是深度強化學習中對於連續動作控制的又一經典algorithm,
相關文章
相關標籤/搜索