強化學習導論第五章蒙特卡洛模擬

時間 2021-01-13

原文原文鏈接

這一章講蒙特卡洛方法在強化學習中的應用。在這一章，我們將接觸第一個用於估計value functions，並發現最優policies的方法。和前幾章不一樣的是，這次假設我們並非完全知道環境的動態信息（轉移概率啦那些）。蒙特卡洛方法只需要經驗知識，即：來自線上或者模擬環境交互過程的樣本序列（包括狀態序列、動作序列、獎勵序列）。從在線的經驗中學習非常酷，因爲它不需要任何關於環境動態性質的先驗知識，卻

>>阅读原文<<