李宏毅強化學習筆記【4.Sparse Reward】

時間 2021-01-14

標籤強化學習简体版

原文原文鏈接

沒有reward，訓練很難。因爲一開始機器什麼都不知道，就靠隨機。如果隨機一個概率特別小的纔有reward，reward非常稀疏，就非常難學習，因爲做什麼動作都一樣糟糕。 1.reward shaping 環境有一個固定的reward。我們還可以設計一些reward，這些不是真正的reward，但是可以引導機器去做一些你想要他做的事情。增加好奇心：鼓勵冒險，真實的s與network1

>>阅读原文<<