基於MDP和Policy Gradient的強化排序學習(RLTR)實驗

      排序(rank)是搜索、推薦業務中經常能夠遇到的業務場景:對於某個特定用戶,如何針對該用戶的信息,進行個性化的備選產品(candidate)的推薦排序,從而優化業務指標(例如點擊率、營收等)?在大數據的支撐下,我們可以通過一些流行的機器學習算法來自動實現排序任務的學習,如基於傳統模型計算出的分數直接排序,或者LTR(learning to rank)、rankBoost、rankSVM
相關文章
相關標籤/搜索