機器學習:李宏毅深度強化學習筆記(四)Sparse Reward

https://blog.csdn.net/cindy_1102/article/details/87990012 Reward Shaping 當reward的分佈非常分散時,對於機器而言學習如何行動會十分困難。 比如說要讓一個機器人倒水進水杯裏,如果不對機器人做任何指導,可能它做很多次嘗試,reward都一直是零。(不知道杯子在哪,不知道拿着手上的水壺幹嘛,不知道水壺靠近杯子之後應該怎麼做)
相關文章
相關標籤/搜索