Lee Hung-yi強化學習 | (7) Sparse Reward

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv,原專欄地址 課程視頻 課件地址 在強化學習的訓練過程中,當環境的reward很少時(指出現的次數),這樣對agent的訓練是很不利的。比如,讓一個機器人拿起螺絲刀,再把螺絲擰進去才能得到reward。這一系列操作組合起來對於一個一開始什麼都不懂的機器人無疑是很難的,因爲它一開始不管做什麼動作都不會得到reward
相關文章
相關標籤/搜索