ICML 2019 | 強化學習用於推薦系統，螞蟻金服提出生成對抗用戶模型

時間 2019-12-06

標籤 icml 強化學習用於推薦系統螞蟻提出生成對抗用戶模型简体版

原文原文鏈接

將強化學習用於推薦系統，能更好地考慮用戶的長期效益，從而保持用戶在平臺中的長期滿意度、活躍度。可是，強化學習須要大量訓練樣本，例如，AlphaGoZero [1] 進行了 490 百萬局模擬圍棋訓練，Atari game 的強化學習在電腦中高速運行了超過 50 個小時 [2]。而在推薦系統的場景中，在線用戶是訓練環境，系統須要與用戶進行大量的交互，利用用戶的在線反饋來訓練推薦策略。該過程將消耗大量

>>阅读原文<<