馬爾可夫決策問題

1.在解釋馬爾可夫決策問題之前,我們首先應該知道馬爾可夫過程(Markov Process),簡單理解就是未來的行爲只取決於現在的狀態,而與之前的狀態無關。設是t時刻的狀態,那麼當滿足條件: 時,我們說狀態具有馬爾可夫性質。 我們討論一個簡單問題時,狀態的數目是有限的,不妨設爲n個。從而給出狀態轉移矩陣的定義: ,這個矩陣中的元素aij的值代表從從狀態i到狀態j的概率。 2.基於馬爾可夫過程,我們
相關文章
相關標籤/搜索