強化學習系列(十):On-policy Control with Approximation

一、前言 本章我們關注on-policy control 問題,這裏採用參數化方法逼近action-value函數 q̂ (s,a,w)≈q(s,a) q ^ ( s , a , w ) ≈ q ( s , a ) ,其中, w w 爲權重向量。在11章中會討論off-policy方法。本章介紹了semi-gradient Sarsa算法,是對上一章中介紹的semi-gradient TD(0)的
相關文章
相關標籤/搜索