以 YouTube 論文學習如何在推薦場景應用強化學習

時間 2021-01-15

標籤強化學習简体版

原文原文鏈接

在這篇文章中：推薦系統目前的問題 RL應用在推薦的挑戰旅程開始 RL的基本知識 RL在推薦場景的Label特點老生常談Bias off-policy vs on-policy importance weight RL在推薦場景的Objective特點 optimization 和 evaluation 怎麼訓練 β 和 π One more thing：TopK在解決什麼問題？ listwi

>>阅读原文<<