1~8.PART one總結--閱讀筆記【Reinforcement Learning An Introduction 2nd】

本書主要分爲三大部分,分別是基於表格的方法;近似策略方法;擴展部分。 第一部分屬於rl基礎內容,基本涵蓋了基於值函數方法的核心思想。要熟悉並善於分析不同方法之間的區別和聯繫,構建起整個知識體系框架。 之前我們所講的方法都有很多共同點: 試圖估計值函數; 通過對實際的或仿真的經驗進行備份操作來更新值函數;都遵循GPI框架。 儘管大體框架都相同,但彼此之間還是有區別的,重要的區分維度就是更新的深度和寬
相關文章
相關標籤/搜索