Reinforcement Learning - An Introduction強化學習讀書筆記 Ch8.1-Ch8.3

時間 2021-01-12

原文原文鏈接

本章從一個統一視角來考慮一系列的強化學習方法，將整合之前所講的有模型方法和無模型方法。基於模型的方法具備環境模型，如動態規劃和啓發式搜索。無模型方法沒有環境模型，如蒙特卡洛方法和時序差分方法。有模型方法將規劃作爲其主要部分，無模型方法則主要依賴於學習。兩類方法的核心都是價值函數的計算，並且都基於對未來事件的展望，來計算一個回溯價值，然後使用它作爲目標更新一個近似價值函數。 8.1 模型

>>阅读原文<<