強化學習之馬爾可夫決策

大家學過機器學習的話應該對隱馬爾可夫模型(HMM)有所瞭解,它具有的馬爾可夫特性就是指系統的下個狀態只和當前狀態信息有關,而與更早之前的狀態無關,即: 馬爾科夫決策過程(Markov Decision Process, MDP)以馬爾可夫隨機過程爲理論基礎,馬爾科夫決策過程也可以用一個元組(S,A,P,R,γ)(S,A,P,R,γ)來表示。SS是決策過程中的狀態集合;AA是決策過程中的動作集合;P
相關文章
相關標籤/搜索