ICML 2019 | 強化學習用於推薦系統,螞蟻金服提出生成對抗用戶模型(附論文下載鏈接)...

選自arXiv 作者:Xinshi Chen、Shuang Li、Hui Li、Shaohua Jiang、Yuan Qi、Le Song 機器之心編譯 參與:李詩萌、shooting 將強化學習用於推薦系統,能更好地考慮用戶的長期效益,從而保持用戶在平臺中的長期滿意度、活躍度。但是,強化學習需要大量訓練樣本,例如,AlphaGoZero [1] 進行了 490 百萬局模擬圍棋訓練,Atari g
相關文章
相關標籤/搜索