Lee Hung-yi強化學習 | (7) Sparse Reward

時間 2021-01-10

標籤 Lee Hung-yi強化學習简体版

原文原文鏈接

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv，原專欄地址課程視頻課件地址在強化學習的訓練過程中，當環境的reward很少時（指出現的次數），這樣對agent的訓練是很不利的。比如，讓一個機器人拿起螺絲刀，再把螺絲擰進去才能得到reward。這一系列操作組合起來對於一個一開始什麼都不懂的機器人無疑是很難的，因爲它一開始不管做什麼動作都不會得到reward

>>阅读原文<<