讓知識來指引你:序列推薦場景中以知識爲導向的強化學習模型

‍ ‍時序推薦是基於用戶的順序行爲,對未來的行爲進行預測的任務。目前的工作利用深度學習技術的優勢,取得了很好的效果。但是這些工作僅專注於所推薦商品的局部收益,並未考慮該商品對於序列長期的影響。 強化學習(RL)通過最大化長期回報爲這一問題提供了一個可能的解決方案。但是,在時推薦場景中,用戶與商品交互的稀疏性,動態性增加了強化學習的隨機探索的難度,使得模型不能很好地收斂。 近年來,知識圖譜被廣泛地用
相關文章
相關標籤/搜索