Sutton reinforcement learning _ Chapter 2 Multi-armed Bandits

打算看英文版Sutton的《強化學習》,從第二章開始記錄下對每一章的理解,對每一塊的內容大致介紹,留個紀念。 這一章圍繞着多臂賭博機問題,介紹了基本的強化學習算法(value based),並探討了利用(exploit)和探索(explore)問題。 2.1 A k-armed Bandit Problem 有k個賭博機,每次的操作就是拉下其中一個控制桿,隨後你會得到一個獎勵。通過多次的選擇,你要
相關文章
相關標籤/搜索