bandit算法(3)--UCB算法

引言 前面已經介紹了兩種bandit算法— ϵ \epsilon ϵ-greedy算法和softmax算法。如今咱們來總結下這兩種算法的共有屬性:html 兩種算法在每一輪選擇時,默認都是選擇到目前爲止最好的臂;web 除此以外,算法會嘗試去探索一些目前看起來不是最好的臂:       - ϵ \epsilon ϵ-greedy算法探索的時候徹底是隨機的。       -softmax算法探索是基
相關文章
相關標籤/搜索