強化學習(RLAI)讀書筆記第九章On-policy Prediction with Approximation

這一章學習使用on-policy的數據對狀態值函數進行逼近,也就是在策略下估計值函數。這一章的重點在於估計的值函數不是使用表格來表示而是使用參數w的函數形式。一般來說權重參數的數量是遠遠比狀態的數量要小的,而且改變一個權重的大小會影響到很多個狀態值的估計。於是一個值函數的更新會帶來很多其它值函數的改變。這種泛化能力非常有用但更難操作和理解。 而且把強化學習延伸到函數逼近的形式也使得它能夠應用於部分
相關文章
相關標籤/搜索