強化學習(RLAI)讀書筆記第十一章 Off-policy Methods with Approximation

本書第五章就已經講解過分別使用on-policy和off-policy方法來解決GPI框架裏固有的explore和exploit的矛盾。前兩章已經講了on-policy情形下對於函數近似的拓展,本章繼續講解off-policy下對函數近似的拓展,但是這個拓展比on-policy時更難更不同。在第六第七章中講到的off-policy方法可以拓展到函數近似的情況下,但是這些方法在半梯度法下不能像在on
相關文章
相關標籤/搜索