強化學習系列（九）：On-policy Prediction with Approximation

時間 2021-01-08

標籤強化學習简体版

原文原文鏈接

一、前言針對 on-policy prediction 問題，用function approximate 估計 state-value function的創新在於：value function 不再是表格形式，而是權重參數爲w的數學表達式，即 v̂ (s,w)≈vπ(s) v ^ ( s , w ) ≈ v π ( s ) 。其中 v̂ v ^ 可以是state的線性函數，也可以是一個多層人工

>>阅读原文<<