京東最新點擊率預估模型論文學習和分享

最近看了京東算法團隊最新發表的一篇點擊率預估模型的paper Telepath: Understanding Users from a Human Vision Perspective in Large-Scale Recommender Systems,在這裏分享一下。算法

這篇paper的創新點主要體如今嘗試從用戶視覺的角度來反映圖片/文字等信息對CTR的影響。從用戶視覺的角度來看,有兩個關鍵方面會影響用戶的行爲:一是商品的吸引力;二是商品與當前用戶興趣的匹配度。而paper中介紹的Telepath模型是融合了CNN、RNN、DNN這三種不一樣的神經網絡模型的結果。其中CNN是用於模擬用戶的視覺系統從而提取出體現商品吸引力的關鍵的視覺信號(key vision signal);而RNN和DNN則是基於用戶的瀏覽商品行爲來模擬其興趣信息。這樣一個模型在京東的推薦系統和廣告系統中中獲得應用,並取得了效果提高。網絡

首先看一下Telepath模型的框架圖:框架

Vision Extraction Moduleide

輸入數據是用戶最近瀏覽過的N個商品,以及待預估商品的圖像信息,該module用於模擬用戶的視覺系統從而提取出體現商品吸引力的關鍵的視覺信號(key vision signal),並表示成向量用於後續處理。相比於傳統的item-to-vector方法,其對於展示次數較少的長尾商品的擬合更好,可以更好地解決物品冷啓動問題,並具備更好的特徵表達能力(能夠表達例如顏色等信息)。使用CNN是由於其適用於處理圖像信息。學習

Interest Understanding Modulerest

基於上述Vision Extraction Module產出的體現商品吸引力的關鍵的視覺信號信息,能夠使用用戶最近瀏覽的商品的這些信息來獲得用戶的興趣偏好,故使用了RNN這樣一個適用於處理序列信息(用戶瀏覽商品序列)的模型;而DNN適用於處理序列中隱藏的用戶偏好信息。blog

Scoring Module圖片

如今能夠使用的特徵包括:待預估商品的圖像信息;用戶的偏好信息;用戶和商品的統計類信息。前二者是使用Vision Extraction Module和Interest Understanding Module獲得的;而第三種信息則是一使用wide&deep model獲得的特徵向量,wide部分用於學習特徵交叉的記憶類信息,deep部分用於學習隱藏的特徵組合信息。最後將這三種特徵組合進行打分預測。get

相關文章
相關標籤/搜索