[強化學習-1] MP、MRP、MDP和Bellman equation

最近又開始重新學習強化學習了,記錄一下歷程 MP(馬爾科夫過程) 定義:S是有限狀態集合,P是狀態轉移概率矩陣 例子: 我們將一次有限步數的實驗稱作一個單獨的episode 1. C1 C2 Pass Sleep 2. C1 FB FB MRP(馬爾科夫獎勵過程) 定義:比MP多了個reward,只要達到某個狀態會獲得相應獎勵R,γ是折扣因子,一個episode中越往後的時刻獎勵越打折扣 Rewa
相關文章
相關標籤/搜索