Chapter 2 Multi-armed Bandits

本文爲看《reinforcement learning :an introduction》時的筆記總結 標題解釋爲:多臂老虎機 因爲我最開始看的時候不知道這個名詞的意思 這一章基本上把後面要講到的所有方法都簡介了一遍,初步瞭解這些方法對理解後面的內容很有幫助 1. A k-armed Bandit 該問題指老虎機,有k個臂,對應k個不同的options或actions。在每次選擇之後,你會收到一個
相關文章
相關標籤/搜索