強化學習系列（十一）：Off-policy Methods with Approximation

時間 2021-01-02

標籤強化學習泛化简体版

原文原文鏈接

一、前言針對Policy iteration 中存在的exploitation問題，在第五章中將強化學習算法分爲on-policy算法和off-policy算法。前兩章中，我們討論了對on-policy問題的函數逼近，本章中將重點介紹off-policy問題的函數逼近。兩者差異很大。第六章、第七章中出現的 tabular off-policy 方法很容易用semi-gradient方法進行擴展，

>>阅读原文<<