增強學習（二）----- 馬爾可夫決策過程MDP

時間 2020-12-29

原文原文鏈接

1. 馬爾可夫模型的幾類子模型大家應該還記得馬爾科夫鏈(Markov Chain)，瞭解機器學習的也都知道隱馬爾可夫模型(Hidden Markov Model，HMM)。它們具有的一個共同性質就是馬爾可夫性(無後效性)，也就是指系統的下個狀態只與當前狀態信息有關，而與更早之前的狀態無關。馬爾可夫決策過程(Markov Decision Process, MDP)也具有馬爾可夫性，與上面不同的

>>阅读原文<<