機器學習——馬爾可夫模型及馬爾可夫決策過程(MDP)

一、馬爾可夫模型 1. 馬爾可夫鏈 設表示隨機變量X在離散時間t時刻的取值。若該變量隨時間變化的轉移概率僅依賴於它的當前值,即: 也就是時候狀態轉移概率指依賴於前一個狀態,稱這個變量爲馬爾可夫變量,其中 爲隨機變量X可能的狀態,這個性質稱爲馬爾可夫性質,具有馬爾可夫性質的隨機過程稱爲馬爾可夫過程。 馬爾可夫鏈是滿足馬爾可夫性質的隨機過程,指在一段時間內隨機變量X的取值序列()滿足上述性質 2、轉移
相關文章
相關標籤/搜索