Reinforcement Learning DQN 算法及 Actor-Critic 算法

1、Actor-Critic 在 Actor-Critic 裏面,最知名的方法就是 A3C(Asynchronous Advantage Actor-Critic)。如果去掉前面這個 Asynchronous,只有 Advantage Actor-Critic,就叫做 A2C。 1.1、迴歸策略梯度 那我們複習一下 policy gradient,在 policy gradient,我們在 upd
相關文章
相關標籤/搜索