強化學習之獎勵reward 4

智能體的目標是最大化期望累計獎勵 我們把在時間t的回報定義爲Gt,在t時間的時候智能體會選擇動作At來使期望Gt最大化。通常智能體無法完全肯定地預測未來的獎勵怎麼樣,他必須依賴於預測和估算 我們可以給公式乘上折扣率,來表示對未來回報的關注度,當gama靠近0表示只關注與眼前的利益,當gamma靠近1表示 對未來的回報和當前回報一樣地注重。這在連續性任務中是十分重要滴,因爲沒有停止點,折扣率防止了智
相關文章
相關標籤/搜索