心得&複述知識體系：《強化學習》中的蒙特卡洛方法 Monte Carlo Methods in Reinforcement Learning

時間 2020-12-24

標籤 Reinforcement Learning 數學證明人工智能強化學習自動控制概率論動態規劃欄目應用數學简体版

原文原文鏈接

前言：剛剛讀完 Sutton 的《強化學習（第二版）》第5章：蒙特卡洛方法。爲了鞏固本章收穫，筆者將在本文中用盡量簡單直白的語言複述本章的思想，各個知識點之間的關係。同時，這方便筆者日後進行復習，也與他人分享了心得。文章目錄各小節間結構關係補充知識點與心得 [1] 重要度採樣比心得 [2] 增量式實現更新公式簡單推導 [3] 單狀態MDP中，$\pi (\text{left} | s) =

>>阅读原文<<