Bandit:一種簡單而強大的在線學習算法

假設我有5枚硬幣,都是正反面不均勻的。咱們玩一個遊戲,每次你能夠選擇其中一枚硬幣擲出,若是擲出正面,你將獲得一百塊獎勵。擲硬幣的次數有限(好比10000次),顯然,若是要拿到最多的利益,你要作的就是儘快找出「正面機率最大」的硬幣,而後就拿它賺錢了。html 這個問題看起來很數學化,其實它在咱們的生活中常常碰見。好比咱們如今有不少在線場景,遇到一個相同的問題:一個平臺這麼多信息,該展現什麼給用戶,才
相關文章
相關標籤/搜索