強化學習課程筆記(三)——不基於模型的預測與控制

第四章 不基於模型的預測 其中本章將聚焦於策略評估,也就是預測問題;下一章將利用本講的主要觀念來進行控制進而找出最優策略以及最有價值函數。 本章分爲三個部分,將分別從理論上闡述基於完整採樣的蒙特卡羅強化學習、基於不完整採樣的時序差分強化學習以及介於兩者之間的 λ 時序差分強化學習。這部分內容比較抽象,在講解理論的同時會通過一些精彩的實例來加深對概念和算法的理解。 4.1蒙特卡羅強化學習 蒙特卡羅強
相關文章
相關標籤/搜索