強化學習之獎勵reward 4

時間 2019-12-07

標籤強化學習獎勵 reward 简体版

原文原文鏈接

智能體的目標是最大化指望累計獎勵咱們把在時間t的回報定義爲Gt，在t時間的時候智能體會選擇動做At來使指望Gt最大化。一般智能體沒法徹底確定地預測將來的獎勵怎麼樣，他必須依賴於預測和估算咱們能夠給公式乘上折扣率，來表示對將來回報的關注度，當gama靠近0表示只關注與眼前的利益，當gamma靠近1表示對將來的回報和當前回報同樣地注重。這在連續性任務中是十分重要滴，由於沒有中止點，折扣率防止了智

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。