RL policy gradient 之 A2C, A3C,PPO小總結

A2C, A3C, PPO 都不是純 policy based 的 RL 方法,準確地說是 Actor-Critic 方法,即,同時用到了 value function 和 policy funtion. 這三種方法之間有什麼區別呢? A2C 這裏的數字 2 其實是說有多少個 「A」 的意思, 作爲 Actor-Critic 方法的一種,A2C 是在 Actor-Critic 方法的基礎上多了一個
相關文章
相關標籤/搜索