強化學習筆記2

馬爾可夫決策過程(MDP) 1、基本概念: 馬爾可夫性質(Markov Property): 如果某一個過程未來的轉移跟過去是無關,只由現在的狀態決定,那麼其滿足馬爾可夫性質。 馬爾可夫鏈(Markov Chain): 概率論和數理統計中具有馬爾可夫性質(Markov property)且存在於離散的指數集(index set)和狀態空間(state space)內的隨機過程(stochastic
相關文章
相關標籤/搜索