Reinforcement Learning - An Introduction強化學習讀書筆記 Ch8.1-Ch8.3

本章從一個統一視角來考慮一系列的強化學習方法,將整合之前所講的有模型方法和無模型方法。 基於模型的方法 具備環境模型,如動態規劃和啓發式搜索。 無模型方法 沒有環境模型,如蒙特卡洛方法和時序差分方法。 有模型方法將規劃作爲其主要部分,無模型方法則主要依賴於學習。 兩類方法的核心都是價值函數的計算,並且都基於對未來事件的展望,來計算一個回溯價值,然後使用它作爲目標更新一個近似價值函數。 8.1 模型
相關文章
相關標籤/搜索