強化學習（RLAI）讀書筆記第十一章 Off-policy Methods with Approximation

時間 2020-12-27

標籤 RLAI 简体版

原文原文鏈接

本書第五章就已經講解過分別使用on-policy和off-policy方法來解決GPI框架裏固有的explore和exploit的矛盾。前兩章已經講了on-policy情形下對於函數近似的拓展，本章繼續講解off-policy下對函數近似的拓展，但是這個拓展比on-policy時更難更不同。在第六第七章中講到的off-policy方法可以拓展到函數近似的情況下，但是這些方法在半梯度法下不能像在on

>>阅读原文<<