強化學習系列之五:價值函數近似

目前,我們已經介紹了一些強化學習的算法,但是我們無法在實際問題中運用這些算法。       爲什麼呢?因爲算法估算價值函數 (v(s)) 或者 (q(s,a)),保存這些價值函數意味着保存所有狀態。而實際問題中,狀態的數目非常巨大,遍歷一遍的事情就別想了。比如,圍棋的狀態總數是(3^{19}),聽說比宇宙的總原子數還多,23333。解決這個問題的方法是抽特徵。對於一個狀態 s, 我們抽取一些特徵
相關文章
相關標籤/搜索