強化學習之獎勵reward 4

智能體的目標是最大化指望累計獎勵 咱們把在時間t的回報定義爲Gt,在t時間的時候智能體會選擇動做At來使指望Gt最大化。一般智能體沒法徹底確定地預測將來的獎勵怎麼樣,他必須依賴於預測和估算 咱們能夠給公式乘上折扣率,來表示對將來回報的關注度,當gama靠近0表示只關注與眼前的利益,當gamma靠近1表示 對將來的回報和當前回報同樣地注重。這在連續性任務中是十分重要滴,由於沒有中止點,折扣率防止了智
相關文章
相關標籤/搜索