Reinforcement Learning DQN 算法及 Actor-Critic 算法

時間 2021-06-05

原文原文鏈接

1、Actor-Critic 在 Actor-Critic 裏面，最知名的方法就是 A3C(Asynchronous Advantage Actor-Critic)。如果去掉前面這個 Asynchronous，只有 Advantage Actor-Critic，就叫做 A2C。 1.1、迴歸策略梯度那我們複習一下 policy gradient，在 policy gradient，我們在 upd

>>阅读原文<<