【強化學習】actor-critic算法

時間 2021-01-12

原文原文鏈接

actor：行動者，對應policy critic：評論者，對應value function值函數 (1)actor-only：將policy參數化，可以在算法過程中直接優化，因此action可以是連續的。優化方法通常爲policy gradient方法，該方法的缺點爲在估計梯度的時候將會產生較大的方差，導致學習速度較慢。 (2)critic-only：使用temporal difference

>>阅读原文<<