強化學習系列之三:模型無關的策略評價

時間 2021-01-19

原文原文鏈接

文章目錄 [隱藏] 1. 蒙特卡羅算法 2. 時差學習算法 3. 一個例子 4. 總結強化學習系列系列文章上一章我們介紹了模型相關 (Model-based) 的強化學習。從現在開始我們要介紹模型無關 (Model-free) 的強化學習。由於模型無關的強化學習比較複雜，今天先介紹其中一部分——模型無關的策略評價。模型無關的策略評價是，不知道馬爾科夫決策過程轉移概率和

>>阅读原文<<