[強化學習-1] MP、MRP、MDP和Bellman equation

時間 2021-01-02

原文原文鏈接

最近又開始重新學習強化學習了，記錄一下歷程 MP(馬爾科夫過程) 定義：S是有限狀態集合，P是狀態轉移概率矩陣例子：我們將一次有限步數的實驗稱作一個單獨的episode 1. C1 C2 Pass Sleep 2. C1 FB FB MRP(馬爾科夫獎勵過程) 定義：比MP多了個reward，只要達到某個狀態會獲得相應獎勵R，γ是折扣因子，一個episode中越往後的時刻獎勵越打折扣 Rewa

>>阅读原文<<