【RL】Actor-Critic

強化學習的算法分爲基於價值與基於策略兩大類,這兩大類在思想上是完全不同的。基於價值的算法目標是擬合隱藏在環境中的價值函數,而基於策略的算法則是不斷地優化策略。所有強化學習的算法,基本的思想都不外乎於這兩種。從這個角度上說,Actor-Critic算法本質上還是基於策略的方法,因爲其算法的核心還是在不斷地優化策略。雖然我們要訓練價值網絡,但是其目標也只是「輔佐」策略網絡更好地訓練。當我們學習VPG算
相關文章
相關標籤/搜索