強化學習-An introduction之 蒙特卡洛方法(MC) 個人筆記

Chapter 5 Monte Carlo Methods 蒙特卡洛方法不像前面幾章那樣假設我們對環境有充分的知識(即知道狀態轉移概率等),而是從真實的experience或者模擬的experience(只知道state、action、reward)來進行學習。 這不是說MC方法不需要模型,而是模型不像之前幾章那樣提供足夠的先驗知識,在這裏只用來生成experience。 There we com
相關文章
相關標籤/搜索