RL policy gradient 之 A2C, A3C,PPO小總結

時間 2021-01-02

原文原文鏈接

A2C, A3C, PPO 都不是純 policy based 的 RL 方法，準確地說是 Actor-Critic 方法，即，同時用到了 value function 和 policy funtion. 這三種方法之間有什麼區別呢？ A2C 這裏的數字 2 其實是說有多少個「A」的意思, 作爲 Actor-Critic 方法的一種，A2C 是在 Actor-Critic 方法的基礎上多了一個

>>阅读原文<<