論文翻譯：A Tutorial on Thompson Sampling

時間 2020-12-25

原文原文鏈接

目錄摘要 1 簡介 2 貪婪決策 3 Bernoulli Bandit的湯普森抽樣 4 一般湯普森抽樣 5 近似抽樣 6 建模方面的考慮 7 進一步的例子 8 爲何有效，合適失效，替代方法摘要本教程涵蓋了算法及其應用，通過一系列的例子來說明概念，包括伯努利老虎機問題、最短路徑問題、產品分類、推薦、使用神經網絡的主動學習和馬爾可夫決策過程中的強化學習。目的：教程的目的是解釋什麼時候、爲什麼以

>>阅读原文<<