強化學習之馬爾可夫決策過程

時間 2021-01-21

標籤強化學習筆記简体版

原文原文鏈接

文章目錄一、Markov Process(MP) 二、Markov Reward Process(MRP) 三、Markov Decision Process(MDP) 一、Markov Process(MP) 如果一個狀態轉移是符合馬爾可夫的，那就是說一個狀態的下一個狀態只取決於它當前狀態，而跟它當前狀態之前的狀態都沒有關係。比如說我們這裏有一個 h t h_t ht，它包含了之前的所有狀態

>>阅读原文<<