深度強化學習之近端策略優化（Proximal Policy Optimization)

時間 2021-01-16

標籤筆記简体版

原文原文鏈接

今天學習了李宏毅老師的深度強化學習課程—策略梯度和近端策略優化，其中近端策略優化是策略梯度的升級版本，並且是openai的默認強化學習算法，可見其重要性。近端策略優化可以在策略梯度的基礎上，將在策略變爲離策略變，並添加一定的約束得到，因此本部分內容包括策略梯度、在策略變離策略和添加約束三部分內容。策略梯度方法是對策略參數化，然後通過梯度下降的方法對參數進行優化，從最大化期望累積獎勵出發，

>>阅读原文<<