8 Planning and Learning with Tabular Methods

【上一節 [7 Multi-step Bootstrapping] (https://blog.csdn.net/coffee_cream/article/details/81053960)】html 本節建立了一種統一的方法視圖,其中既包括須要一個環境模型)的方法(如動態編程、啓發式搜索等,也包括一些不依賴於模型的方法(如蒙特卡洛、temporal-difference等),這裏將前者視爲是一種
相關文章
相關標籤/搜索