強化學習中的馬爾可夫決策過程MDP

時間 2021-06-19

標籤強化學習機器學習简体版

原文原文鏈接

馬爾可夫過程MP Definition:The Future is independent of the past given the present. 將來和過去是獨立的，只和現在有關。 P(St+1|St) = P(St+1|S1,S2,…St) 由此可見，t時刻到t+1時刻的轉移只和這兩個時刻有關，和其他時刻無關。馬爾可夫獎勵過程MRP 馬爾可夫獎勵過程可以認爲是馬爾可夫過程+獎勵在

>>阅读原文<<