RL論文閱讀13-mf-ACER2017

1. Tittle source 2. 標籤 model-free PG Continue/Discrete 3. 總結 對AC算法的提升,引入了一些創新,包括使用偏差修正的截斷重要性採樣,隨機競爭網絡架構和新的TRPO方法(trust region policy optimization) 4. 原理 4.1 背景和問題引出: agent的目標是最大化return的數學期望。加入Advantag
相關文章
相關標籤/搜索