強化學習算法在被引入深度神經網絡後,對大量樣本的需求更加明顯。若是智能體在與環境的交互過程當中沒有得到獎勵,那麼該樣本在基於值函數和基於策略梯度的損失中的貢獻會很小。ios
針對解決稀疏獎勵問題的研究主要包括:1算法
Reward Shaping:獎勵設計與學習spring
經驗回放機制api
探索與利用網絡
多目標學習和輔助任務函數
人爲設計的 「密集」獎勵。學習
例如,在機械臂「開門」的任務中,原始的稀疏獎勵設定爲:若機械臂把門打開,則給予「+1」獎勵,其他狀況下均給予「0」獎勵。然而,因爲任務的複雜性,機械臂從隨機策略開始,很難經過自身探索得到獎勵。爲了簡化訓練過程,可使用人爲設計的獎勵:1)在機械臂未碰到門把手時,將機械臂與門把手距離的倒數做爲獎勵;2)當機械臂接觸門把手時,給予「+0.1」獎勵;3)當機械臂轉動門把手時,給予「+0.5」獎勵;4)當機械臂完成開門時,給予「+1」獎勵。這樣,經過人爲設計的密集獎勵,能夠引導機械臂完成開門的操做,簡化訓練過程。spa
針對人爲設計獎勵中存在的問題,Ng等2提出了從最優交互序列中學習獎勵函數的思路,此類方法稱爲」逆強化學習」。.net
在序列決策中,智能體可能須要犧牲當前利益來選擇非最優動做,指望可以得到更大的長期回報。設計
在 DRL領域中使用的探索與利用方法主要包括兩類:基於計數的方法和基於內在激勵的方法。其目的是構造虛擬獎勵,用於和真實獎勵函數共同窗習。因爲真實的獎勵是稀疏的,使用虛擬獎勵能夠加快學習的進程。
在稀疏獎勵狀況下,當原始任務難以完成時,每每能夠經過設置輔助任務的方法加速學習和訓練。
Curriculum Learning,「課程式」強化學習:
當完成原始任務較爲困難時,獎勵的獲取是困難的。此時,智能體能夠先從簡單的、相關的任務開始學習,而後不斷增長任務的難度,逐步學習更加複雜的任務。