深度解讀Soft Actor-Critic 算法

1 前言 機器人學習Robot Learning正在快速的發展,其中深度強化學習deep reinforcement learning(DRL),特別是面向連續控制continous control的DRL算法起着重要的作用。在這一領域中,目前可以說有三類行之有效的modle free DRL算法: TRPO,PPO DDPG及其拓展(D4PG,TD3等) Soft Q-Learning, Sof
相關文章
相關標籤/搜索