人工智能教程 - 專業選修課程4.3.5 - 強化學習 6.馬爾科夫獎勵過程

馬爾科夫獎勵過程 Markov Reward Process 可以視爲帶有value function 價值判斷的過程 由一個 < S , P , R , γ > <S,P, R, \gamma > <S,P,R,γ>元組tuple構成 R:是獎勵函數 R s = E [ R t + 1 ∣ S t = s ] R_s = \mathbb{E} [R_{t+1} | S_t = s] Rs​=E[
相關文章
相關標籤/搜索