李宏毅強化學習筆記【4.Sparse Reward】

沒有reward,訓練很難。 因爲一開始機器什麼都不知道,就靠隨機。如果隨機一個概率特別小的纔有reward,reward非常稀疏,就非常難學習,因爲做什麼動作都一樣糟糕。   1.reward shaping 環境有一個固定的reward。我們還可以設計一些reward,這些不是真正的reward,但是可以引導機器去做一些你想要他做的事情。   增加好奇心: 鼓勵冒險,真實的s與network1
相關文章
相關標籤/搜索