強化學習(RLAI)讀書筆記第十章On-Policy Control with Approximation

目前繼續考慮on-policy的帶逼近的control算法。這章主要介紹半梯度Sarsa算法,也就是半梯度TD(0)算法對於動作值估計以及on-policy control算法的自然延伸。雖然這個延伸對於episodic的情況是很自然的,但是對於continuing的情況,我們需要再次考慮對於discounting方法來定義一個最優策略的方式。而當我們使用函數逼近的時候需要放棄discountin
相關文章
相關標籤/搜索