用於分層強化學習的隨機神經網絡

論文鏈接:https://openreview.net/pdf?id=B1oK8aoxe 1. 引言 近期,深度強化學習取得了許多令人印象深刻的結果,但這些深度強化學習算法一般都是採用單純探索策略,如 ε-貪婪算法或統一的高斯探索噪聲,這些方法在獎勵稀疏的任務中表現不佳。要想解決這些問題,可採用兩種策略: 1. 設計動作的層次結構,這需要專業知識以及細緻的手動工程。 2. 使用與領域無關的內在獎勵
相關文章
相關標籤/搜索