Trust region policy optimization筆記

Trust region policy optimization筆記 一、 論文解決的問題 相比於值函數方法,策略搜索算法無疑具有很多的優點。 (1) 直接策略搜索方法是對策略π進行參數化表示,與值函數方中對值函數進行參數化表示相比,策略參數化更簡單,有更好的收斂性。 (2)值函數方法無法求解動作空間很大或者動作爲連續集的問題。 ) 策略搜索算法目前發展最迅速的是策略梯度方法。然而策略梯度方法存在
相關文章
相關標籤/搜索