馬爾可夫決策問題

時間 2020-12-30

原文原文鏈接

1.在解釋馬爾可夫決策問題之前，我們首先應該知道馬爾可夫過程（Markov Process），簡單理解就是未來的行爲只取決於現在的狀態，而與之前的狀態無關。設是t時刻的狀態，那麼當滿足條件：時，我們說狀態具有馬爾可夫性質。我們討論一個簡單問題時，狀態的數目是有限的，不妨設爲n個。從而給出狀態轉移矩陣的定義： ,這個矩陣中的元素aij的值代表從從狀態i到狀態j的概率。 2.基於馬爾可夫過程，我們

>>阅读原文<<