論文筆記 Reinforcement Learning with Derivative-Free Exploration

時間 2021-01-02

標籤論文筆記強化學習简体版

原文原文鏈接

摘要高效的探索是sample-efficient強化學習的關鍵。目前最普遍常用的方法（如-greedy）仍是低效率的，而無梯度優化（derivative-free optimization）發明了高效的方法來更好地全局搜索。本文介紹一種無梯度探索（DFE）作爲一種早期強化學習的常用高效探索方法。DFE克服了基於純無梯度優化的強化學習方法的優化低效和可擴展性差的缺點。本文實驗通過在確定離線策略方法

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。