置信域方法總結——TRPO、ACER、ACKTR、PPO

置信域方法總結——TRPO、ACER、ACKTR、PPO 一、概述 引用GAE論文的觀點,策略梯度法存在的兩個方面問題: 樣本利用率低,由於樣本利用率低需要大量採樣; 算法訓練不穩定,需要讓算法在變化的數據分佈中穩定提升; 目前比較常用的四種置信域方法TRPO、ACER、ACKTR、PPO,就是圍繞策略梯度法的上述兩方面問題進行改進和優化。 算法 TRPO ACER ACKTR PPO 穩定性問題
相關文章
相關標籤/搜索