馬爾可夫決策過程(還有很多需要填補)

馬爾可夫決策過程 馬爾可夫決策鏈與馬爾可夫獎勵過程 馬爾可夫、馬爾可夫獎勵過程;這兩個過程是馬爾可夫決策過程的一個基礎。 馬爾可夫 如果一個狀態轉移是符合馬爾可夫的,那就是說一個狀態的下一個狀態只取決於它當前狀態,而跟它當前狀態之前的狀態都沒有關係。 如果某一個過程滿足 馬爾可夫性質(Markov Property) ,就是說未來的轉移跟過去是獨立的,它只取決於現在。馬爾可夫性質是所有馬爾可夫過程
相關文章
相關標籤/搜索