增強學習（強化學習）基礎之策略梯度

時間 2021-01-12

原文原文鏈接

http://www.52ml.net/18133.html https://zhuanlan.zhihu.com/p/28348110 這兩篇文章必須結合起來理解。上一篇文章介紹價值函數近似，用模型擬合價值函數。這篇文章我們介紹梯度策略，用模型直接擬合策略。 1. 策略參數化強化學習有兩種場景。一種是離散的強化學習場景。在這種場景下，我們從狀態抽取狀態特徵向量 s^

>>阅读原文<<