用於分層強化學習的隨機神經網絡

時間 2020-12-24

原文原文鏈接

論文鏈接：https://openreview.net/pdf?id=B1oK8aoxe 1. 引言近期，深度強化學習取得了許多令人印象深刻的結果，但這些深度強化學習算法一般都是採用單純探索策略，如 ε-貪婪算法或統一的高斯探索噪聲，這些方法在獎勵稀疏的任務中表現不佳。要想解決這些問題，可採用兩種策略： 1. 設計動作的層次結構，這需要專業知識以及細緻的手動工程。 2. 使用與領域無關的內在獎勵

>>阅读原文<<