ACER算法介紹

ACER 算法介紹 1. 離散動作 1.1 截斷重要性採樣 1.2 新的置信域方法 1.3 離散算法Atari實驗 2 連續動作 2.1 stochastic dueling network 3 總結 ACER算法是在論文SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY中提出的一種可以使用off-policy訓練的置信域策略優化方法。 ACE
相關文章
相關標籤/搜索