bandit算法(3)--UCB算法

引言 前面已經介紹了兩種bandit算法— ϵ -greedy算法和softmax算法。現在我們來總結下這兩種算法的共有屬性: 兩種算法在每一輪選擇時,默認都是選擇到目前爲止最好的臂; 除此之外,算法會嘗試去探索一些目前看起來不是最好的臂:       - ϵ -greedy算法探索的時候完全是隨機的。       -softmax算法探索是基於到當前時刻臂的收益概率。收益概率越高,選擇的概率越高
相關文章
相關標籤/搜索