UCB公式的理解

UCB公式的理解 在解決探索與利用平衡問題時,UCB1 策略是一個很有效的方法,而探索與利用平衡問題中最經典的一個問題就是多臂賭博機問題(Multi-Armed Bandit)。 圖來自[1] 問題假設:按下搖臂後的回報取值爲 1 或 0,每個搖臂獲得回報的概率服從不同的分佈,但事先並不知道 問題目標:按照某種策略來按壓搖臂以獲得最大的累計回報(咦,這不就是強化學習的目標嘛) 在這個問題中,探索與
相關文章
相關標籤/搜索