強化學習（RLAI）讀書筆記第九章On-policy Prediction with Approximation

時間 2021-01-08

標籤 RLAI 简体版

原文原文鏈接

這一章學習使用on-policy的數據對狀態值函數進行逼近，也就是在策略下估計值函數。這一章的重點在於估計的值函數不是使用表格來表示而是使用參數w的函數形式。一般來說權重參數的數量是遠遠比狀態的數量要小的，而且改變一個權重的大小會影響到很多個狀態值的估計。於是一個值函數的更新會帶來很多其它值函數的改變。這種泛化能力非常有用但更難操作和理解。而且把強化學習延伸到函數逼近的形式也使得它能夠應用於部分

>>阅读原文<<