強化學習（RLAI）讀書筆記第十章On-Policy Control with Approximation

時間 2021-01-07

標籤 RLAI 简体版

原文原文鏈接

目前繼續考慮on-policy的帶逼近的control算法。這章主要介紹半梯度Sarsa算法，也就是半梯度TD(0)算法對於動作值估計以及on-policy control算法的自然延伸。雖然這個延伸對於episodic的情況是很自然的，但是對於continuing的情況，我們需要再次考慮對於discounting方法來定義一個最優策略的方式。而當我們使用函數逼近的時候需要放棄discountin

>>阅读原文<<