2020李宏毅學習筆記——71 RL Advanced Version7.Sparse Reward

時間 2021-01-04

原文原文鏈接

Reward Shaping 當reward的分佈非常分散時，對於機器而言學習如何行動會十分困難。比如說要讓一個機器人倒水進水杯裏，如果不對機器人做任何指導，可能它做很多次嘗試，reward都一直是零。（不知道杯子在哪，不知道拿着手上的水壺幹嘛，不知道水壺靠近杯子之後應該怎麼做）因此，在訓練或指導一個actor去做你想要它做的事情時，需要進行reward shaping 好奇在原來的模型當中

>>阅读原文<<