策略梯度

Policy Gradient Methods for Reinforcement Learning with Function Approximation(PG)   在強化學習的算法中存在兩種算法,一個是基於價值函數的算法,另一個是基於策略梯度的算法。爲什麼要提出策略梯度算法呢? 基於策略的學習可能會具有更好的收斂性,這是因爲基於策略的學習雖然每次只改善一點點,但總是朝着好的方向在改善;而在基
相關文章
相關標籤/搜索