強化學習Actor-Critic算法

在前面的文章中,介紹過基於Value的一系列強化學習算法以及基於Policy的強化學習算法。這兩類算法有着各自優勢,也有着各自的缺點。 基於Value的算法可以單步更新,在確定性策略,離散動作空間的強化學習問題上有着良好的性能,但不適合解決連續型動作空間的強化學習問題。 基於Policy的強化學習算法以回合爲單位來更新,可以解決隨機策略,連續型動作空間的強化學習問題,但因爲是回合更新,收斂速度較慢
相關文章
相關標籤/搜索