強化學習系列之六:策略梯度

文章目錄 [隱藏] 1. 策略參數化 2. 策略梯度算法 2.1 MC Policy Gradient 2.2 Actor-Critic 3. 爲什麼要有策略梯度 4. 總結 強化學習系列系列文章       上一篇文章介紹價值函數近似,用模型擬合價值函數。這篇文章我們介紹梯度策略,用模型直接擬合策略。        1. 策略參數化       強化學習有兩種場景。一種是離散的強化學習場景。在這
相關文章
相關標籤/搜索