【RL】7.Reward Issue

時間 2021-06-11

標籤強化學習_BW 強化學習简体版

原文原文鏈接

RL-Ch7-Reward Issue 因爲採樣的不充分性和種種原因(環境v很少給reward)，我們得到環境的回饋信息是很少的，這就是獎勵稀疏(sparse reward)的問題。 Reward Shaping 所以第一種方法是我們可以人爲構造/修正獎勵。某些情形如果讓環境直接給出獎勵，難以讓好的行爲得到學習。例如小學生在出去玩和學習這一當前時間步的選擇，很難考慮到未來的月考成績好壞這一遠景的

>>阅读原文<<

相關文章

相關標籤/搜索

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<