【RL】Actor-Critic

時間 2021-01-12

標籤 IL&IRL&RL Actor-Critic 简体版

原文原文鏈接

強化學習的算法分爲基於價值與基於策略兩大類，這兩大類在思想上是完全不同的。基於價值的算法目標是擬合隱藏在環境中的價值函數，而基於策略的算法則是不斷地優化策略。所有強化學習的算法，基本的思想都不外乎於這兩種。從這個角度上說，Actor-Critic算法本質上還是基於策略的方法，因爲其算法的核心還是在不斷地優化策略。雖然我們要訓練價值網絡，但是其目標也只是「輔佐」策略網絡更好地訓練。當我們學習VPG算

>>阅读原文<<

1. Variational RL for POMDP
2. RL for Sentence Generation
3. Bayesian RL and PGMRL
4. RL的分類
5. cs294-RL introduction
6. 【RL】7.Reward Issue
7. 【RL】6.Actor-Critic
8. 【RL】8.Imitation Learning
9. Attacks for RL
10. （轉）RL — Policy Gradient Explained
更多相關文章...
• PHP substr_compare() 函數 - PHP參考手冊
• PHP crypt() 函數 - PHP參考手冊

相關標籤/搜索

RL系列

RL-TCPnet網絡教程