個性化推薦系統由亞馬遜電子商務公司、Netflix電影租賃公司,在線上業務大力使用推薦系統,並大力經過文章、競賽形式宣傳推薦系統。使得個性化推薦系統在電商領域及其受歡迎,而且個性化推薦技術應用到線上個頻道,相比於運營配置產品數據,uv、pv、gmv點擊轉化、訂單轉化均是大漲個別業務接入個性化推薦系統後數據漲幅高達400%-500%。 算法
個性化技術在線上商品業務上效果明顯,也加速個性化推薦技術使用的深度、廣度。微信
商品推薦特徵明顯,商品自己和文章、新聞存在較大差別,自己存在交易屬性。 若是推薦不許確用戶很難去點擊、去瀏覽、去購買。購買自己比新聞、文章轉化成本高不少,因此準確性對於商品推薦極其重要。分佈式
商品推薦通常基於用戶偏好模型,用戶偏好模型根據用戶歷史瀏覽、下訂單、加購物車、搜索、點贊、收藏、評論等行爲,經過邏輯迴歸LR模型離線訓練構成用戶離線偏好模型,離線模型通常經過map reduce計算。性能
爲了對用戶在線實時操做進行反饋,用戶實時瀏覽、點擊、加購物車等操做用過用戶客戶端上報,storm或spark steaming流式計算生成實時用戶偏好。spa
商品信息有別於文章、新聞等,有明顯分類信息,就是商品品類。商品偏好信息是關於用戶與二級品類、三級品類關係,這樣用戶與商品關係抽象爲與品類關係。能夠減小不少計算,試想幾億用戶、幾億商品關係計算將須要耗費多少時間,時間計算還好,如今有分佈式系統。對於商品、用戶關係進行存儲更是極大難題,一是存儲空間巨大,一是訪問不知足線上服務性能須要。orm
實際線上商品推薦系統,根據實際離線品類偏好、實時品類偏好。根據偏好拉取商品品類下商品,商品要進行已購買品類過濾。排序
素材若是不夠就要進行補充,怎麼補充補充什麼素材就很重要。一種思路是補充熱門素材信息、熱門素材信息對至關一部分人都有很大吸引力。另外一種是補充降價促銷力度大商品,降價力度越大對用戶吸引越大。而且素材信息要不斷進行更新,以保證降價信息、是否有貨信息準確無誤,避免用戶點擊後信息不存在。產品
根據商品、素材拉取用戶特徵、品類特徵、素材特徵、用戶素材交互特徵、上下文特徵、用戶手機信息、地理位置等多個維度30幾個特徵,傳入訓練出來GBDT模型,進行線上點擊量預估,估計用戶對於素材點擊量概率,根據概率排序商品。spark
對於用戶返回要進行過濾,一是曝光過濾給用戶展現過得,不要在進行展現,避免浪費位置。一是過濾用戶已購買,用戶已購買商品品類要進行過濾,避免已購買商品推薦,會給用戶感受很煩,而且感受系統老是推薦購買物品,用戶會對推薦失去信心。再有就是無貨過濾,要增長GMV轉化,那麼推出產品用戶點擊查看後,想要購買商品沒有那也浪費曝光,而且對用戶很不友好。電商
模型排序出素材,直接返回。可能會出現6個手機、5雙鞋連在一塊兒,用戶體驗差也會嚴重影響用戶體驗。也會下降用戶點擊率、加購率、訂單轉化率等指標。經過算法按三級品類、二級品類進行隔斷開這是一種品類隔斷方式。另外一種是根據用戶偏好商品品類信息,對多個品類進行輪詢,每一個品類選一個素材,執行多輪直到選夠一次返回素材。
經過這一系列複雜邏輯,終於完成一次用戶商品推薦。
微信搜索:mydevclub