強化學習 10 —— Policy Gradient詳細推導

時間 2021-01-02

標籤強化學習 REINFORCE Policy Gradient 简体版

原文原文鏈接

前面幾篇文章價值函數近似、DQN算法、DQN改進算法DDQN和Dueling DQN我們學習了 DQN 算法以及其改進算法 DDQN 和 Dueling DQN 。他們都是對價值函數進行了近似表示，也就是學習價值函數，然後從價值函數中提取策略，我們把這種方式叫做 Value Based。一、Value Based 的不足回顧我們的學習路徑，我們從動態規劃到蒙地卡羅，到TD到Qleaning再

>>阅读原文<<