Sutton reinforcement learning _ Chapter 2 Multi-armed Bandits

時間 2021-01-16

原文原文鏈接

打算看英文版Sutton的《強化學習》，從第二章開始記錄下對每一章的理解，對每一塊的內容大致介紹，留個紀念。這一章圍繞着多臂賭博機問題，介紹了基本的強化學習算法（value based），並探討了利用（exploit）和探索（explore）問題。 2.1 A k-armed Bandit Problem 有k個賭博機，每次的操作就是拉下其中一個控制桿，隨後你會得到一個獎勵。通過多次的選擇，你要

>>阅读原文<<