深度強化學習中稀疏獎勵問題Sparse Reward

時間 2021-08-12

標籤 ios 算法 spring api 網絡函數學習 spa .net 設計欄目 iOS 简体版

原文原文鏈接

Sparse Reward

推薦資料

強化學習算法在被引入深度神經網絡後，對大量樣本的需求更加明顯。若是智能體在與環境的交互過程當中沒有得到獎勵，那麼該樣本在基於值函數和基於策略梯度的損失中的貢獻會很小。ios

針對解決稀疏獎勵問題的研究主要包括：¹算法

Reward Shaping：獎勵設計與學習spring
經驗回放機制api
探索與利用網絡
多目標學習和輔助任務函數

1. Reward Shaping

人爲設計的「密集」獎勵。學習

例如，在機械臂「開門」的任務中，原始的稀疏獎勵設定爲：若機械臂把門打開，則給予「＋１」獎勵，其他狀況下均給予「０」獎勵。然而，因爲任務的複雜性，機械臂從隨機策略開始，很難經過自身探索得到獎勵。爲了簡化訓練過程，可使用人爲設計的獎勵：１)在機械臂未碰到門把手時，將機械臂與門把手距離的倒數做爲獎勵；２)當機械臂接觸門把手時，給予「＋0.１」獎勵；３)當機械臂轉動門把手時，給予「＋０.５」獎勵；４)當機械臂完成開門時，給予「＋１」獎勵。這樣，經過人爲設計的密集獎勵，能夠引導機械臂完成開門的操做，簡化訓練過程。spa

2. 逆向強化學習

針對人爲設計獎勵中存在的問題，Ng等²提出了從最優交互序列中學習獎勵函數的思路，此類方法稱爲」逆強化學習」。.net

3. 探索與利用（好奇法）：

在序列決策中，智能體可能須要犧牲當前利益來選擇非最優動做，指望可以得到更大的長期回報。設計

在 DRL領域中使用的探索與利用方法主要包括兩類：基於計數的方法和基於內在激勵的方法。其目的是構造虛擬獎勵，用於和真實獎勵函數共同窗習。因爲真實的獎勵是稀疏的，使用虛擬獎勵能夠加快學習的進程。

ICM³（逆環境模型）—— 改進的基於內在激勵的方法

Network 1：預測的狀態S與實際狀態S差異越大，回報r越大，鼓勵冒險
Network 2：輸入 \(S_t\) 和 \(S_{t+1}\) ，預測動做 \(a_t\) ，與真實動做差異大時，表示可有可無的狀態。
ICM 經過學習能夠在特徵空間中去除與預測動做無關的狀態特徵，在特徵空間中構建環境模型能夠去除環境噪聲。

4. 多目標學習——層次強化學習

智能體能夠從已經到達的位置來得到獎勵。在訓練中使用虛擬目標替代原始目標，使智能體即便在訓練初期也能很快得到獎勵，極大地加速了學習過程。
將一個單一目標，拆解爲多個階段的多層級的目標。

5. 輔助任務

在稀疏獎勵狀況下，當原始任務難以完成時，每每能夠經過設置輔助任務的方法加速學習和訓練。

Curriculum Learning，「課程式」強化學習：

當完成原始任務較爲困難時，獎勵的獲取是困難的。此時，智能體能夠先從簡單的、相關的任務開始學習，而後不斷增長任務的難度，逐步學習更加複雜的任務。

直接添加輔助任務：第二類方法是直接在原任務的基礎上添加並行的輔助任務，原任務和輔助任務共同窗習。

參考文獻

[1] 楊唯軼,白辰甲,蔡超,趙英男,劉鵬.深度強化學習中稀疏獎勵問題研究綜述[J].計算機科學,2020,47(03):182-191.

相關文章

相關標籤/搜索

深度學習 500 問

強化學習篇

深度學習 CNN

Thymeleaf 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<