基於MDP和Policy Gradient的強化排序學習（RLTR）實驗

時間 2019-12-13

標籤基於 mdp policy gradient 強化排序學習 rltr 實驗简体版

原文原文鏈接

排序（rank）是搜索、推薦業務中常常可以遇到的業務場景：對於某個特定用戶，如何針對該用戶的信息，進行個性化的備選產品（candidate）的推薦排序，從而優化業務指標（例如點擊率、營收等）？在大數據的支撐下，咱們能夠經過一些流行的機器學習算法來自動實現排序任務的學習，如基於傳統模型計算出的分數直接排序，或者LTR（learning to rank）、rankBoost、rankSVM

>>阅读原文<<