[Reinforcement Learning] Value Function Approximation

時間 2021-01-02

原文原文鏈接

[Reinforcement Learning] Value Function Approximation 爲什麼需要值函數近似？之前我們提到過各種計算值函數的方法，比如對於 MDP 已知的問題可以使用 Bellman 期望方程求得值函數；對於 MDP 未知的情況，可以通過 MC 以及 TD 方法來獲得值函數，爲什麼需要再進行值函數近似呢？其實到目前爲止，我們介紹的值函數計算方法都是通過查表的

>>阅读原文<<