深度強化學task05

一、sparse reward 如果是複雜的問題很難會得到reward,所以要在中間的時間點給一些reward,以引導行爲,但是中間加入的reward不一定就會對最終任務的完成有利,因此需要增加一個新的reward 這裏面新的reward就是ICM,它的作用是給mechine加上「好奇心」。下面看怎麼加ICM 這裏面看兩個state的差值,如果差值越大則獎勵越大。這裏面的network是單獨訓練的
相關文章
相關標籤/搜索