2020李宏毅學習筆記——71 RL Advanced Version7.Sparse Reward

Reward Shaping 當reward的分佈非常分散時,對於機器而言學習如何行動會十分困難。 比如說要讓一個機器人倒水進水杯裏,如果不對機器人做任何指導,可能它做很多次嘗試,reward都一直是零。(不知道杯子在哪,不知道拿着手上的水壺幹嘛,不知道水壺靠近杯子之後應該怎麼做) 因此,在訓練或指導一個actor去做你想要它做的事情時,需要進行reward shaping 好奇 在原來的模型當中
相關文章
相關標籤/搜索