人工智能教程 - 專業選修課程4.3.5 - 強化學習 6.馬爾科夫獎勵過程

時間 2021-01-11

標籤專業選修課程简体版

原文原文鏈接

馬爾科夫獎勵過程 Markov Reward Process 可以視爲帶有value function 價值判斷的過程由一個 < S , P , R , γ > <S,P, R, \gamma > <S,P,R,γ>元組tuple構成 R：是獎勵函數 R s = E [ R t + 1 ∣ S t = s ] R_s = \mathbb{E} [R_{t+1} | S_t = s] Rs=E[

>>阅读原文<<