策略梯度

時間 2021-01-12

標籤 deepmind 欄目 Google 简体版

原文原文鏈接

Policy Gradient Methods for Reinforcement Learning with Function Approximation(PG) 在強化學習的算法中存在兩種算法，一個是基於價值函數的算法，另一個是基於策略梯度的算法。爲什麼要提出策略梯度算法呢？基於策略的學習可能會具有更好的收斂性，這是因爲基於策略的學習雖然每次只改善一點點，但總是朝着好的方向在改善；而在基

>>阅读原文<<