論文翻譯:A Tutorial on Thompson Sampling

目錄 摘要 1 簡介 2 貪婪決策 3 Bernoulli Bandit的湯普森抽樣 4 一般湯普森抽樣 5 近似抽樣 6 建模方面的考慮 7 進一步的例子 8 爲何有效,合適失效,替代方法 摘要 本教程涵蓋了算法及其應用,通過一系列的例子來說明概念,包括伯努利老虎機問題、最短路徑問題、產品分類、推薦、使用神經網絡的主動學習和馬爾可夫決策過程中的強化學習。 目的:教程的目的是解釋什麼時候、爲什麼以
相關文章
相關標籤/搜索