強化學習系列(十一):Off-policy Methods with Approximation

一、前言 針對Policy iteration 中存在的exploitation問題,在第五章中將強化學習算法分爲on-policy算法和off-policy算法。前兩章中,我們討論了對on-policy問題的函數逼近,本章中將重點介紹off-policy問題的函數逼近。兩者差異很大。第六章、第七章中出現的 tabular off-policy 方法很容易用semi-gradient方法進行擴展,
相關文章
相關標籤/搜索