強化學習 8.1

第8章 用計算機方法進行規劃和學習 在本章中,我們開發了強化學習方法的統一視圖,這些方法需要環境模型,例如動態規劃和啓發式搜索,以及可以在沒有模型的情況下使用的方法,例如蒙特卡羅和時間差分方法。這些分別稱爲基於模型和無模型的強化學習方法。基於模型的方法依賴於計劃作爲其主要組成部分,而無模型方法主要依賴於學習。雖然這兩種方法之間存在着真正的差異,但也存在很大的相似之處。特別是,這兩種方法的核心是價值
相關文章
相關標籤/搜索