強化學習 —— （5）Sparse Reward

時間 2021-01-13

標籤強化學習简体版

原文原文鏈接

1. Reward 問題通常情況下，agent每一步操作有一個reward對應，但是，當reward非常稀疏時怎麼辦，可能三四步甚至更多才能產生reward。 1.2. reward shaping 環境有一個固定的reward，爲了引導agent，需要我們自己設計規則制定reward。在設計類遊戲中，人爲指定的規則爲： 1.2.1 增加好奇模塊在Intrinsic Curiosity Mod

>>阅读原文<<