置信域方法總結——TRPO、ACER、ACKTR、PPO

時間 2021-01-19

標籤強化學習简体版

原文原文鏈接

置信域方法總結——TRPO、ACER、ACKTR、PPO 一、概述引用GAE論文的觀點，策略梯度法存在的兩個方面問題：樣本利用率低，由於樣本利用率低需要大量採樣；算法訓練不穩定，需要讓算法在變化的數據分佈中穩定提升；目前比較常用的四種置信域方法TRPO、ACER、ACKTR、PPO，就是圍繞策略梯度法的上述兩方面問題進行改進和優化。算法 TRPO ACER ACKTR PPO 穩定性問題

>>阅读原文<<