強化學習 10 —— Policy Gradient詳細推導

前面幾篇文章價值函數近似、DQN算法、DQN改進算法DDQN和Dueling DQN我們學習了 DQN 算法以及其改進算法 DDQN 和 Dueling DQN 。他們都是對價值函數進行了近似表示,也就是 學習價值函數,然後從價值函數中提取策略,我們把這種方式叫做 Value Based。 一、Value Based 的不足 回顧我們的學習路徑,我們從動態規劃到蒙地卡羅,到TD到Qleaning再
相關文章
相關標籤/搜索