[work] 馬爾可夫決策過程MDP

增強學習(二)----- 馬爾可夫決策過程MDP 1. 馬爾可夫模型的幾類子模型 大家應該還記得馬爾科夫鏈(Markov Chain),瞭解機器學習的也都知道隱馬爾可夫模型(Hidden Markov Model,HMM)。它們具有的一個共同性質就是馬爾可夫性(無後效性),也就是指系統的下個狀態只與當前狀態信息有關,而與更早之前的狀態無關。 馬爾可夫決策過程(Markov Decision Pro
相關文章
相關標籤/搜索