京東的個性化推薦系統

1.這裏面涉及到較爲複雜的用戶購物狀態的推理和斷定,若是不借助人工輸入,好比經過產品設計提供用戶篩選接口,讓用戶人工輸入限制項,典型的好比過濾器,負反饋,則對目前的機器算法是一個很是大的挑戰。而推薦自然就是一個被動信息消費的產品,不適合作很重的意圖探索交互,所以,這是目前電商平臺上的推薦系統面臨的一個較大的挑戰。前端

2. 推薦的優化目標,局部與全局的指標權衡。不管承擔了多少的角色定位,電商平臺的個性化推薦一個萬變不離其宗的任務就是達成成交,畢竟,這是一個交易平臺,首要目標是最大化GMV(Gross Merchandise Volume)。然而,單純的優化成交類指標是有侷限性的。首先從全局來看,推薦流量上作gmv最優,與全站gmv最優存在不一致性。用戶從產生購買意向,到經歷購買決策的整個過程,到最後下單,推薦能夠做用於任何一個購物鏈路上的節點,若是推薦系統的優化目標是GMV,那就意味着推薦在作最後的收割,這裏收割的gmv是來自於其餘模塊的培育與引導的結果,而這些gmv即便不被推薦流量所收割,也大機率的會在其餘場景被收割,好比購物車,收藏夾或搜索等。所以,推薦單純作gmv的優化,未必能成就全局的gmv最大化。那麼推薦就須要往購物鏈條的前端去作,作平臺gmv的增量,這就引出了一系列的問題,如何使推薦在各個節點的做用可度量,優化目標怎麼定,與gmv的關係怎樣平衡。算法

3. 用戶體驗的考量。用戶體驗反映了一種感覺,既然是種感覺,那它是一個很是主觀,很難量化的東西。一旦不能量化,就成了算法最大的挑戰。作推薦的同窗應該都深有感觸,會收到各類關於體驗類的抱怨,好比內容不相關,多樣化不夠等等。在作商品的推薦時,咱們經常被抱怨的體驗問題包括買了還推,推薦商品品類單一,沒有讓人眼前一亮的商品能知足一下發現的驚喜等等不一而足。每每這些體驗問題的解決都須要人工規範的干預,但凡是有規則的介入好比加入購買過濾,類目打散展現等策略,都會形成交易類指標的降低,平衡二者之間的關係對推薦系統是一個現實的挑戰。網絡

 

下面向你們介紹一下京東的個性化推薦系統的主要模塊以及用到的主要算法。核心模塊包括offline pipeline的數據生產;recall部分;預測打分(prediction service),系統框架以下圖所示系統框架與傳統的推薦系統相似,這裏重點介紹下針對電商業務下,各個模塊的邏輯和策略。在召回部分,用精準用戶畫像,經過倒排索引的方式實時的召回。應用協同過濾,及經過神經網絡求解每一個商品隱層embedding的表示,應用於召回。有點要提的是因爲推薦系統會支持電商平臺上各類頻道,人羣場景以及爲你推薦模塊內部商品的個性化,也支持店鋪,活動等不一樣粒度的個性化展示,所以,召回的資源池會多種多樣,不只有不一樣選品標準的商品池,還有店鋪池,活動池,優惠券池,咱們經過實時消息通知和按期全量同步兩種機制來保證。內容同步過來後,會有pipeline抽取內容中的特徵。在排序階段,應用業界領先的深度神經網絡(DNN),及大規模線性模型,支持十億級別的特徵維度。應用強化學習的方法,實時的捕獲用戶和環境的交換及反饋,提高推薦效果。session

總結來講,咱們在推薦系統的效果優化上作了如下幾點獲得了效果的較大提高。(1) 實時性,系統對用戶行爲的反應是實時的。(2) 用戶畫像的精準性,找到用戶真正感興趣的類別,屬性及價格區間。使得推薦更精準。(3) 利用知識圖譜,豐富商品屬性,挖掘商品間的關係,改善用戶體驗。(4) 經過大規模排序模型,應用海量的特徵,提高排序效果。app

提高效果的同時,也面臨着一些特殊問題的解決,如冷啓動、冷門類目的曝光,這個問題在開始也提到過。對於新品和滲透率低的品類,咱們經過基於內容的sku關係挖掘,使得新品也能夠被推薦出來。對於徹底的新用戶,咱們會經過強利益點商品的推薦,獲得一些反饋。對於某些類別下的新用戶,咱們會經過其餘類別下的反饋,經過cross-domain推薦和遷移學習等技術進行推薦。框架

下面介紹下算法使用的特徵體系:用戶畫像和商品畫像。
用戶畫像是根據用戶人口統計學信息、社交關係、偏好習慣和消費行爲等信息而抽象出來的刻畫用戶的標籤化系統。用戶畫像分爲多個維度,如長期用戶畫像,中期用戶畫像,實時用戶畫像。長期用戶畫像用來推斷性別,年齡,地理位置等標籤。這部分應用分類算法完成。中期用戶畫像經過1個月的用戶行爲,推斷出用戶近期感興趣的cid3,價格,屬性等。這部分考慮了瀏覽的停留時間過濾了無效點擊;商詳頁內是否看評論圖片等細節信息。實時用戶畫像是基於瀏覽session的,能夠實時推斷用戶每次新的行爲後,感興趣的商品。短時間,長期和實時用戶畫像共同構成了對用戶的精準表達。dom

商品畫像是刻畫商品的標籤化系統。商品標籤大體分爲兩部分:商品的天然屬性(好比價格,品牌,銷量,產地等),另外一類是有共性的人羣屬性(好比購買此商品的人的購買能力,城市,年齡等等)。基於這些標籤就能夠刻畫出商品之間的各類關係。知識圖譜就是一種目前經常使用的刻畫關係的方法,目前被谷歌等公司普遍使用。在推薦系統領域,因爲它能夠方便的組織知識(好比sku,品牌,產品詞,店鋪)之間的各類關係,造成各類合理的推薦理由,從而有效的提高推薦結果結果的可解釋性。目前咱們已經創建了基於商品之間,品牌之間,以及商品與品牌之間的數十種關係的知識圖譜。學習

不一樣推薦位和場景會採用不一樣的算法。召回和排序部分都有所不一樣。好比app首頁猜你喜歡偏逛的推薦位,會有更豐富的召回,包括長期中期的興趣,模型也會應用推薦位的反饋訓練的。好比購物車和商詳頁的推薦,會以購物車中的商品及商詳頁的主商品爲種子商品,根據知識圖譜創建起來的商品間的關係召回更多商品,也會有本身的排序模型和特徵。大數據

最後一部分,介紹下618個性化大促會場。今年的618,京東取得了不俗的戰績。個性化會場,也稱智能賣場在其中發揮了不小的做用。「智能賣場」實現了活動會場的個性化分發,大大提升了流量效率和用戶體驗,從而達到商家和用戶共贏,不只帶來gmv的明顯提高,也大幅下降了人工成本。優化


爲了進一步提高用戶購物體驗,「智能賣場」還融入到用戶的整個購買流程中。智能賣場會在購買路徑上發現用戶需求並推薦熱點產品,以便提升購買效率;從加入購物車到肯定購買產品、準備結算這一階段,不少用戶會造成一個過渡期,若是其間商品出現無貨或者下架的狀況,智能賣場將會根據產品價格、內容指數等給用戶推薦相應的替代品;在提交訂單環節,若是訂單結算時無貨,然後續有其餘用戶訂單取消,經過大數據計算,智能化地推薦給信譽度較高的用戶
這裏面咱們實現了不止是傳統的商品排序,還實現了樓層、活動、品牌、類目、優惠券及店鋪等各類會場元素的算法排序,根據每一個人的我的興趣,給用戶展示出其最感興趣的活動、商品等,而不是像以往同樣,全部人是千篇一概的同樣的促銷活動。

京東用的spark mllib作的推薦嗎?仍是本身寫的?

有應用spark milib,也有用xgboost

另外在用戶畫像這一塊,有考慮將用戶profile向量化嗎?

用戶畫像咱們有用神經網絡學習一個隱式的向量表示

用戶的行爲鏈條會用rnn建模嗎?

會用lstm建模

相關文章
相關標籤/搜索