深度強化學習中稀疏獎勵問題Sparse Reward

Sparse Reward

推薦資料


​ 強化學習算法在被引入深度神經網絡後,對大量樣本的需求更加明顯。若是智能體在與環境的交互過程當中沒有得到獎勵,那麼該樣本在基於值函數和基於策略梯度的損失中的貢獻會很小。ios

​ 針對解決稀疏獎勵問題的研究主要包括:1算法

  • Reward Shaping:獎勵設計與學習spring

  • 經驗回放機制api

  • 探索與利用網絡

  • 多目標學習和輔助任務函數


1. Reward Shaping

人爲設計的 「密集」獎勵。學習

例如,在機械臂「開門」的任務中,原始的稀疏獎勵設定爲:若機械臂把門打開,則給予「+1」獎勵,其他狀況下均給予「0」獎勵。然而,因爲任務的複雜性,機械臂從隨機策略開始,很難經過自身探索得到獎勵。爲了簡化訓練過程,可使用人爲設計的獎勵:1)在機械臂未碰到門把手時,將機械臂與門把手距離的倒數做爲獎勵;2)當機械臂接觸門把手時,給予「+0.1」獎勵;3)當機械臂轉動門把手時,給予「+0.5」獎勵;4)當機械臂完成開門時,給予「+1」獎勵。這樣,經過人爲設計的密集獎勵,能夠引導機械臂完成開門的操做,簡化訓練過程。spa

2. 逆向強化學習

針對人爲設計獎勵中存在的問題,Ng等2提出了從最優交互序列中學習獎勵函數的思路,此類方法稱爲」逆強化學習」。.net

3. 探索與利用(好奇法):

在序列決策中,智能體可能須要犧牲當前利益來選擇非最優動做,指望可以得到更大的長期回報。設計

在 DRL領域中使用的探索與利用方法主要包括兩類:基於計數的方法和基於內在激勵的方法。其目的是構造虛擬獎勵,用於和真實獎勵函數共同窗習。因爲真實的獎勵是稀疏的,使用虛擬獎勵能夠加快學習的進程。

ICM3(逆環境模型)—— 改進的基於內在激勵的方法

  • Network 1:預測的狀態S與實際狀態S差異越大,回報r越大,鼓勵冒險
  • Network 2:輸入 \(S_t\)\(S_{t+1}\) ,預測動做 \(a_t\)​​ ,與真實動做差異大時,表示可有可無的狀態。​​
  • ICM 經過學習能夠在特徵空間中去除與預測動做無關的狀態特徵,在特徵空間中構建環境模型能夠去除環境噪聲。

4. 多目標學習——層次強化學習

  • 智能體能夠從已經到達的位置來得到獎勵。在訓練中使用虛擬目標替代原始目標,使智能體即便在訓練初期也能很快得到獎勵,極大地加速了學習過程。
  • 將一個單一目標,拆解爲多個階段的多層級的目標。

5. 輔助任務

在稀疏獎勵狀況下,當原始任務難以完成時,每每能夠經過設置輔助任務的方法加速學習和訓練。

  • Curriculum Learning,「課程式」強化學習:

    當完成原始任務較爲困難時,獎勵的獲取是困難的。此時,智能體能夠先從簡單的、相關的任務開始學習,而後不斷增長任務的難度,逐步學習更加複雜的任務。

  • 直接添加輔助任務:第二類方法是直接在原任務的基礎上添加並行的輔助任 務,原任務和輔助任務共同窗習。

參考文獻

相關文章
相關標籤/搜索