Bandit總結1

假設我有5枚硬幣,都是正反面不均勻的。我們玩一個遊戲,每次你可以選擇其中一枚硬幣擲出,如果擲出正面,你將得到一百塊獎勵。擲硬幣的次數有限(比如10000次),顯然,如果要拿到最多的利益,你要做的就是儘快找出「正面概率最大」的硬幣,然後就拿它賺錢了。 這個問題看起來很數學化,其實它在我們的生活中經常遇見。比如我們現在有很多在線場景,遇到一個相同的問題:一個平臺這麼多信息,該展示什麼給用戶,纔能有最好
相關文章
相關標籤/搜索