強化學習之馬爾可夫決策

時間 2021-01-13

標籤深度學習強化學習機器學習決策樹简体版

原文原文鏈接

大家學過機器學習的話應該對隱馬爾可夫模型(HMM)有所瞭解，它具有的馬爾可夫特性就是指系統的下個狀態只和當前狀態信息有關，而與更早之前的狀態無關，即：馬爾科夫決策過程(Markov Decision Process, MDP)以馬爾可夫隨機過程爲理論基礎，馬爾科夫決策過程也可以用一個元組(S,A,P,R,γ)(S,A,P,R,γ)來表示。SS是決策過程中的狀態集合；AA是決策過程中的動作集合；P

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。