【李宏毅-強化學習筆記】p7、Sparse reward

首先sparse reward是什麼意思呢?有很多情況下,我們做很多事是沒有reward的,例如考研,我們每天看書、做習題然後不斷的重複都沒有獎勵值,但是一旦考上了,就會有豐厚的獎勵,這樣總體來看,我們獲得的獎勵類似於:                  0,0,0,…0,0,100 這就稱爲稀疏獎勵。 一、reward shaping(塑造) 想法就是:認爲的設置一些reward來引導agent
相關文章
相關標籤/搜索