ICML 2019 | 強化學習用於推薦系統,螞蟻金服提出生成對抗用戶模型

將強化學習用於推薦系統,能更好地考慮用戶的長期效益,從而保持用戶在平臺中的長期滿意度、活躍度。可是,強化學習須要大量訓練樣本,例如,AlphaGoZero [1] 進行了 490 百萬局模擬圍棋訓練,Atari game 的強化學習在電腦中高速運行了超過 50 個小時 [2]。而在推薦系統的場景中,在線用戶是訓練環境,系統須要與用戶進行大量的交互,利用用戶的在線反饋來訓練推薦策略。該過程將消耗大量
相關文章
相關標籤/搜索