強化學習系列之六:策略梯度

時間 2021-01-16

原文原文鏈接

文章目錄 [隱藏] 1. 策略參數化 2. 策略梯度算法 2.1 MC Policy Gradient 2.2 Actor-Critic 3. 爲什麼要有策略梯度 4. 總結強化學習系列系列文章上一篇文章介紹價值函數近似，用模型擬合價值函數。這篇文章我們介紹梯度策略，用模型直接擬合策略。 1. 策略參數化強化學習有兩種場景。一種是離散的強化學習場景。在這

>>阅读原文<<