強化學習 6 ——價值函數逼近 (VFA)

上篇文章強化學習——時序差分 (TD) 控制算法 Sarsa 和 Q-Learning我們主要介紹了 Sarsa 和 Q-Learning 兩種時序差分控制算法,在這兩種算法內部都要維護一張 Q 表格,對於小型的強化學習問題是非常靈活高效的。但是在狀態和可選動作非常多的問題中,這張Q表格就變得異常巨大,甚至超出內存,而且查找效率極其低下,從而限制了時序差分的應用場景。近些年來,隨着神經網絡的興起,
相關文章
相關標籤/搜索