強化學習Actor-Critic算法

時間 2021-01-12

原文原文鏈接

在前面的文章中，介紹過基於Value的一系列強化學習算法以及基於Policy的強化學習算法。這兩類算法有着各自優勢，也有着各自的缺點。基於Value的算法可以單步更新，在確定性策略，離散動作空間的強化學習問題上有着良好的性能，但不適合解決連續型動作空間的強化學習問題。基於Policy的強化學習算法以回合爲單位來更新，可以解決隨機策略，連續型動作空間的強化學習問題，但因爲是回合更新，收斂速度較慢

>>阅读原文<<