基於MDP和Policy Gradient的強化排序學習（RLTR）實驗

時間 2021-01-02

原文原文鏈接

排序（rank）是搜索、推薦業務中經常能夠遇到的業務場景：對於某個特定用戶，如何針對該用戶的信息，進行個性化的備選產品（candidate）的推薦排序，從而優化業務指標（例如點擊率、營收等）？在大數據的支撐下，我們可以通過一些流行的機器學習算法來自動實現排序任務的學習，如基於傳統模型計算出的分數直接排序，或者LTR（learning to rank）、rankBoost、rankSVM

>>阅读原文<<