推薦系統的EE問題及Bandit算法

E&E問題簡介 問題描述 條件:假設我們有K個準備推薦的item,每個item的回報的服從不同的概率分佈p_item,且分佈參數未知 目標:如果有T次機會推薦,如何制定決策過程從而獲取最大的累積回報 See also:多臂賭博機問題(Multi-armed bandit problem, K-armed bandit problem, MAB) 表現形式 隨機式(stochastic bandit
相關文章
相關標籤/搜索