強化學習系列(九):On-policy Prediction with Approximation

一、前言 針對 on-policy prediction 問題,用function approximate 估計 state-value function的創新在於:value function 不再是表格形式,而是權重參數爲w的數學表達式,即 v̂ (s,w)≈vπ(s) v ^ ( s , w ) ≈ v π ( s ) 。其中 v̂  v ^ 可以是state的線性函數,也可以是一個多層人工
相關文章
相關標籤/搜索