論文筆記 Reinforcement Learning with Derivative-Free Exploration

摘要 高效的探索是sample-efficient強化學習的關鍵。目前最普遍常用的方法(如-greedy)仍是低效率的,而無梯度優化(derivative-free optimization)發明了高效的方法來更好地全局搜索。本文介紹一種無梯度探索(DFE)作爲一種早期強化學習的常用高效探索方法。DFE克服了基於純無梯度優化的強化學習方法的優化低效和可擴展性差的缺點。本文實驗通過在確定離線策略方法
相關文章
相關標籤/搜索