基於policy gradient的強化學習算法

時間 2021-01-02

原文原文鏈接

基於policy gradient的強化學習算法相比於value function方法的優缺點：優點：直接策略搜索是對策略進行參數化表示，與值函數相比，策略化參數的方法更簡單，更容易收斂。值函數的放法無法解決狀態空間過大或者不連續的情形直接策略的方法可以採取隨機策略，隨機策略可以將探索直接集成到算法當中缺點：策略搜索的方法更容易收斂局部極值點在評估單個策略時，評估的並不好，方差容易過

>>阅读原文<<