強化學習系列（八）：Planning and learning with Tabular Methods（規劃和離散學習方法）

時間 2021-01-02

標籤強化學習简体版

原文原文鏈接

一、前言本章是對前面七章的一個總結歸納，前七章中我們首先介紹馬爾科夫決策過程（MDP），而後介紹了求解環境模型已知的MDP的方法（model-based)——動態規劃方法（DP)，啓發式搜索也屬於這類方法。最後針對環境模型未知(model free)的MDP，介紹了基於學習的強化學習方法——蒙特卡羅（MC）、時間差分（TD）等。前七章重點討論了這兩類方法的區別，但這兩類方法也有以下共同點：方法

>>阅读原文<<