馬爾可夫決策過程(MDP)和表格型方法

關鍵詞 馬爾可夫性質(Markov Property): 如果某一個過程未來的轉移跟過去是無關,只由現在的狀態決定,那麼其滿足馬爾可夫性質。換句話說,一個狀態的下一個狀態只取決於它當前狀態,而跟它當前狀態之前的狀態都沒有關係。 馬爾可夫鏈(Markov Chain): 概率論和數理統計中具有馬爾可夫性質(Markov property)且存在於離散的指數集(index set)和狀態空間(stat
相關文章
相關標籤/搜索