強化學習系列之五:價值函數近似

時間 2020-12-29

原文原文鏈接

目前，我們已經介紹了一些強化學習的算法，但是我們無法在實際問題中運用這些算法。爲什麼呢？因爲算法估算價值函數 (v(s)) 或者 (q(s,a))，保存這些價值函數意味着保存所有狀態。而實際問題中，狀態的數目非常巨大，遍歷一遍的事情就別想了。比如，圍棋的狀態總數是(3^{19})，聽說比宇宙的總原子數還多，23333。解決這個問題的方法是抽特徵。對於一個狀態 s, 我們抽取一些特徵

>>阅读原文<<