[Reinforcement Learning] Value Function Approximation

爲什麼需要值函數近似? 之前我們提到過各種計算值函數的方法,比如對於 MDP 已知的問題可以使用 Bellman 期望方程求得值函數;對於 MDP 未知的情況,可以通過 MC 以及 TD 方法來獲得值函數,爲什麼需要再進行值函數近似呢? 其實到目前爲止,我們介紹的值函數計算方法都是通過查表的方式獲取的: 表中每一個狀態 \(s\) 均對應一個 \(V(s)\) 或者每一個狀態-動作 <\(s, a
相關文章
相關標籤/搜索