選擇問題

選擇強迫症 在沒有先驗信息或者有部分先驗信息的情況下,如何持續的作出更好的選擇。 (第一次寫,抄一個有用的練練手) bandit算法 Thompson sampling算法 UCB算法 *Epsilon-Greedy算法 均值最大 背景 bandit算法來源於人民羣衆喜聞樂見的賭博學,它要解決的問題是這樣的: 一個賭徒,要去搖老虎機,走進賭場一看,一排老虎機,外表一模一樣,但是每個老虎機吐錢的概率
相關文章
相關標籤/搜索