《強化學習Sutton》讀書筆記(七)——列表法的計劃與學習(Planning and Learning with Tabular Methods)

此爲第八章 Planning and Learning with Tabular Methods 。 在上述章節中,我們已經看到了DP是基於模型 (Model-Based) 的,而MC和TD是模型無關的 (Model-Free) 。基於模型的方法中,Planning(下文定義這個詞)是最主要的一步;而對於模型無關的問題,Learning是最核心的步驟。Planning和Learning有很多異同點
相關文章
相關標籤/搜索