David silver強化學習課程第六課 值函數近似

第六課 值函數近似 一開始看這節課內容的時候,還是有些亂的。不像前五章每一章的聯繫都很緊密,本章內容較分散,概念性的東西變少了,更多的引入了幾種不同的算法,可以直接從算法上理解本課的內容—值函數近似。 對於預測問題,我們可以參數化的表示狀態值函數;對於預測問題,可以參數化的表示狀態-動作值函數。本章講了值函數近似的兩種方法:增量方法和批方法,這兩種方法主要在數據的使用上有所不同,但是都是基於隨機梯
相關文章
相關標籤/搜索