【強化學習】actor-critic算法

actor:行動者,對應policy critic:評論者,對應value function值函數 (1)actor-only:將policy參數化,可以在算法過程中直接優化,因此action可以是連續的。優化方法通常爲policy gradient方法,該方法的缺點爲在估計梯度的時候將會產生較大的方差,導致學習速度較慢。  (2)critic-only:使用temporal difference
相關文章
相關標籤/搜索