強化學習系列（十）：On-policy Control with Approximation

時間 2021-01-08

標籤強化學習简体版

原文原文鏈接

一、前言本章我們關注on-policy control 問題，這裏採用參數化方法逼近action-value函數 q̂ (s,a,w)≈q(s,a) q ^ ( s , a , w ) ≈ q ( s , a ) ，其中， w w 爲權重向量。在11章中會討論off-policy方法。本章介紹了semi-gradient Sarsa算法，是對上一章中介紹的semi-gradient TD(0)的

>>阅读原文<<