強化學習學習筆記10.23

時間 2021-07-13

原文原文鏈接

馬爾可夫鏈 & 馬爾可夫獎勵過程：自己的初步理解就是，在某個環境中主體可能存在n個狀態，每個狀態都對應這一個獎勵，當前狀態有一定概率轉移到其他狀態或者保持原樣不動，那麼當前狀態 t1得到的獎勵 = 當前狀態的獎勵 + γ(折扣率) * (轉移到狀態n的概率 * 狀態n的獎勵 ) γ的設定原因之一是爲了避免死循環，可作爲參數所有時間得到的獎勵: 總獎勵 = ti時間所在狀態得到的獎勵 * 折扣

>>阅读原文<<