心得&複述知識體系:《強化學習》中的蒙特卡洛方法 Monte Carlo Methods in Reinforcement Learning

前言: 剛剛讀完 Sutton 的《強化學習(第二版)》第5章:蒙特卡洛方法。爲了鞏固本章收穫,筆者將在本文中用盡量簡單直白的語言複述本章的思想,各個知識點之間的關係。同時,這方便筆者日後進行復習,也與他人分享了心得。 文章目錄 各小節間結構關係 補充知識點與心得 [1] 重要度採樣比心得 [2] 增量式實現更新公式簡單推導 [3] 單狀態MDP中,$\pi (\text{left} | s) =
相關文章
相關標籤/搜索