強化學習中的馬爾可夫決策過程MDP

馬爾可夫過程MP Definition:The Future is independent of the past given the present. 將來和過去是獨立的,只和現在有關。 P(St+1|St) = P(St+1|S1,S2,…St) 由此可見,t時刻到t+1時刻的轉移只和這兩個時刻有關,和其他時刻無關。 馬爾可夫獎勵過程MRP 馬爾可夫獎勵過程 可以認爲是 馬爾可夫過程+獎勵 在
相關文章
相關標籤/搜索