增強學習(強化學習)基礎之策略梯度

http://www.52ml.net/18133.html https://zhuanlan.zhihu.com/p/28348110 這兩篇文章必須結合起來理解。 上一篇文章介紹價值函數近似,用模型擬合價值函數。這篇文章我們介紹梯度策略,用模型直接擬合策略。        1. 策略參數化       強化學習有兩種場景。一種是離散的強化學習場景。在這種場景下,我們從狀態抽取狀態特徵向量 s^
相關文章
相關標籤/搜索