基於policy gradient的強化學習算法

基於policy gradient的強化學習算法相比於value function方法的優缺點: 優點: 直接策略搜索是對策略進行參數化表示,與值函數相比,策略化參數的方法更簡單,更容易收斂。 值函數的放法無法解決狀態空間過大或者不連續的情形 直接策略的方法可以採取隨機策略,隨機策略可以將探索直接集成到算法當中 缺點: 策略搜索的方法更容易收斂局部極值點 在評估單個策略時,評估的並不好,方差容易過
相關文章
相關標籤/搜索