Reinforcement Learning:An Introduction第二章讀書筆記

時間 2021-01-02

原文原文鏈接

Part I:Tabular Solution Methods 在這一部分中我們描述了強化學習中幾乎所有的核心思想。在這些問題中state和action空間足夠小可以被估計值函數如隊列，表來展示。在這些例子中，都能準確地找到最佳值函數和最佳策略。這與下一部分是不同的，下一部分模糊的解決，但適用範圍更廣。這一部分的第一章介紹了強化學習的特殊例子，它只有一種情況，被稱作bandit問題。第二章介紹了