強化學習之馬爾可夫決策過程

文章目錄 一、Markov Process(MP) 二、Markov Reward Process(MRP) 三、Markov Decision Process(MDP) 一、Markov Process(MP) 如果一個狀態轉移是符合馬爾可夫的,那就是說一個狀態的下一個狀態只取決於它當前狀態,而跟它當前狀態之前的狀態都沒有關係。比如說我們這裏有一個 h t h_t ht​,它包含了之前的所有狀態
相關文章
相關標籤/搜索