深度強化學習之近端策略優化(Proximal Policy Optimization)

  今天學習了李宏毅老師的深度強化學習課程—策略梯度和近端策略優化,其中近端策略優化是策略梯度的升級版本,並且是openai的默認強化學習算法,可見其重要性。近端策略優化可以在策略梯度的基礎上,將在策略變爲離策略變,並添加一定的約束得到,因此本部分內容包括策略梯度、在策略變離策略和添加約束三部分內容。   策略梯度方法是對策略參數化,然後通過梯度下降的方法對參數進行優化,從最大化期望累積獎勵出發,
相關文章
相關標籤/搜索