強化學習 —— (5)Sparse Reward

1. Reward 問題 通常情況下,agent每一步操作有一個reward對應,但是,當reward非常稀疏時怎麼辦,可能三四步甚至更多才能產生reward。 1.2. reward shaping 環境有一個固定的reward,爲了引導agent,需要我們自己設計規則制定reward。在設計類遊戲中,人爲指定的規則爲: 1.2.1 增加好奇模塊 在Intrinsic Curiosity Mod
相關文章
相關標籤/搜索