強化學習打卡之稀疏獎勵和模仿學習

強化學習打卡之稀疏獎勵和模仿學習 1.稀疏獎勵 稀疏獎勵就是說狀態空間很大的情況下采取特定的少數幾個動作才能獲得獎勵,就會導致agent經過大量學習和嘗試都沒拿到獎勵。(這裏我想到用epsilon-greedy去探索不就行了嗎),這裏李宏毅老師的舉例十分的妙,我們人每天或者做的事情都沒有獎勵,但還是一直學習。針對這個情況的辦法Reward Shaping(就是認爲設計獎勵去引導agent)、Cur
相關文章
相關標籤/搜索