強化學習系列之三:模型無關的策略評價

文章目錄 [隱藏] 1. 蒙特卡羅算法 2. 時差學習算法 3. 一個例子 4. 總結 強化學習系列系列文章       上一章我們介紹了模型相關 (Model-based) 的強化學習。從現在開始我們要介紹模型無關 (Model-free) 的強化學習。       由於模型無關的強化學習比較複雜,今天先介紹其中一部分——模型無關的策略評價。模型無關的策略評價是,不知道馬爾科夫決策過程轉移概率和
相關文章
相關標籤/搜索