Sparse Reward

時間 2021-07-12

原文原文鏈接

文章目錄 1、Reward Shaping Curiosity ICM的設計 2、Curriculum Learning 3、Hierarchical RL 在強化學習的訓練過程中，當環境的reward很少時（指出現的次數），這樣對agent的訓練是很不利的。比如，讓一個機器人拿起螺絲刀，再把螺絲擰進去才能得到reward。這一系列操作組合起來對於一個一開始什麼都不懂的機器人無疑是很難的，因爲它一