強化學習 6 ——價值函數逼近 (VFA)

時間 2021-01-12

標籤強化學習简体版

原文原文鏈接

上篇文章強化學習——時序差分 (TD) 控制算法 Sarsa 和 Q-Learning我們主要介紹了 Sarsa 和 Q-Learning 兩種時序差分控制算法，在這兩種算法內部都要維護一張 Q 表格，對於小型的強化學習問題是非常靈活高效的。但是在狀態和可選動作非常多的問題中，這張Q表格就變得異常巨大，甚至超出內存，而且查找效率極其低下，從而限制了時序差分的應用場景。近些年來，隨着神經網絡的興起，

>>阅读原文<<