強化學習導論 第五章 蒙特卡洛模擬

這一章講蒙特卡洛方法在強化學習中的應用。 在這一章,我們將接觸第一個用於估計value functions,並發現最優policies的方法。和前幾章不一樣的是,這次假設我們並非完全知道環境的動態信息(轉移概率啦那些)。蒙特卡洛方法只需要經驗知識,即:來自線上或者模擬環境交互過程的樣本序列(包括狀態序列、動作序列、獎勵序列)。從在線的經驗中學習非常酷,因爲它不需要任何關於環境動態性質的先驗知識,卻
相關文章
相關標籤/搜索