強化學習學習筆記10.23

馬爾可夫鏈 & 馬爾可夫獎勵過程: 自己的初步理解就是,在某個環境中主體可能存在n個狀態,每個狀態都對應這一個獎勵,當前狀態有一定概率轉移到其他狀態或者保持原樣不動,那麼當前狀態 t1得到的獎勵 = 當前狀態的獎勵 + γ(折扣率) * (轉移到狀態n的概率 * 狀態n的獎勵 ) γ的設定原因之一是爲了避免死循環, 可作爲參數 所有時間得到的獎勵: 總獎勵 = ti時間所在狀態得到的獎勵 * 折扣
相關文章
相關標籤/搜索