UCB公式的理解

UCB公式的理解 在解決探索與利用平衡問題時,UCB1 策略是一個頗有效的方法,而探索與利用平衡問題中最經典的一個問題就是多臂賭博機問題(Multi-Armed Bandit)。 html 圖來自[1]web 問題假設:按下搖臂後的回報取值爲 1 或 0,每一個搖臂得到回報的機率服從不一樣的分佈,但事先並不知道算法 問題目標:按照某種策略來按壓搖臂以得到最大的累計回報(咦,這不就是強化學習的目標嘛
相關文章
相關標籤/搜索