[Reinforcement Learning] Value Function Approximation

時間 2020-12-24

原文原文鏈接

爲什麼需要值函數近似？之前我們提到過各種計算值函數的方法，比如對於 MDP 已知的問題可以使用 Bellman 期望方程求得值函數；對於 MDP 未知的情況，可以通過 MC 以及 TD 方法來獲得值函數，爲什麼需要再進行值函數近似呢？其實到目前爲止，我們介紹的值函數計算方法都是通過查表的方式獲取的：表中每一個狀態 \(s\) 均對應一個 \(V(s)\) 或者每一個狀態-動作 <\(s, a

>>阅读原文<<