Trust region policy optimization筆記

時間 2021-01-02

原文原文鏈接

Trust region policy optimization筆記一、論文解決的問題相比於值函數方法，策略搜索算法無疑具有很多的優點。（1）直接策略搜索方法是對策略π進行參數化表示，與值函數方中對值函數進行參數化表示相比，策略參數化更簡單，有更好的收斂性。（2）值函數方法無法求解動作空間很大或者動作爲連續集的問題。 ) 策略搜索算法目前發展最迅速的是策略梯度方法。然而策略梯度方法存在