深度解讀Soft Actor-Critic 算法

時間 2021-01-12

標籤 Reinforcement learning 简体版

原文原文鏈接

1 前言機器人學習Robot Learning正在快速的發展，其中深度強化學習deep reinforcement learning（DRL），特別是面向連續控制continous control的DRL算法起着重要的作用。在這一領域中，目前可以說有三類行之有效的modle free DRL算法： TRPO,PPO DDPG及其拓展（D4PG,TD3等） Soft Q-Learning, Sof

>>阅读原文<<