Reinforcement Learning:An Introduction第二章讀書筆記

Part I:Tabular Solution Methods 在這一部分中我們描述了強化學習中幾乎所有的核心思想。在這些問題中state和action空間足夠小可以被估計值函數如隊列,表來展示。在這些例子中,都能準確地找到最佳值函數和最佳策略。這與下一部分是不同的,下一部分模糊的解決,但適用範圍更廣。 這一部分的第一章介紹了強化學習的特殊例子,它只有一種情況,被稱作bandit問題。第二章介紹了
相關文章
相關標籤/搜索