bandit算法（3）--UCB算法

時間 2020-12-24

標籤 bandit算法 UCB算法简体版

原文原文鏈接

引言前面已經介紹了兩種bandit算法— ϵ -greedy算法和softmax算法。現在我們來總結下這兩種算法的共有屬性：兩種算法在每一輪選擇時，默認都是選擇到目前爲止最好的臂；除此之外，算法會嘗試去探索一些目前看起來不是最好的臂： - ϵ -greedy算法探索的時候完全是隨機的。 -softmax算法探索是基於到當前時刻臂的收益概率。收益概率越高，選擇的概率越高

>>阅读原文<<

相關文章

相關標籤/搜索

算法 - Lru算法

算法 - 雪花算法

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<