深度強化學task05

時間 2021-06-07

原文原文鏈接

一、sparse reward 如果是複雜的問題很難會得到reward，所以要在中間的時間點給一些reward，以引導行爲，但是中間加入的reward不一定就會對最終任務的完成有利，因此需要增加一個新的reward 這裏面新的reward就是ICM，它的作用是給mechine加上「好奇心」。下面看怎麼加ICM 這裏面看兩個state的差值，如果差值越大則獎勵越大。這裏面的network是單獨訓練的

>>阅读原文<<