強化學習系列(八):Planning and learning with Tabular Methods(規劃和離散學習方法)

一、前言 本章是對前面七章的一個總結歸納,前七章中我們首先介紹馬爾科夫決策過程(MDP),而後介紹了求解環境模型已知的MDP的方法(model-based)——動態規劃方法(DP),啓發式搜索也屬於這類方法。最後針對環境模型未知(model free)的MDP,介紹了基於學習的強化學習方法——蒙特卡羅(MC)、時間差分(TD)等。前七章重點討論了這兩類方法的區別,但這兩類方法也有以下共同點: 方法
相關文章
相關標籤/搜索