1、 電商推薦算法簡述算法
目前比較多的電商模式爲B2B,B2C,O2O,在本文介紹和須要舉例說明的地方B2B電商模式爲主。數據庫
電商推薦根據推薦內容不一樣分爲物品推薦、商家推薦;流行的推薦應用主要有三個方面:1)針對用戶的瀏覽、搜索等行爲所作的相關推薦;2)根據購物車或物品收藏所作的類似物品推薦;3)根據歷史會員購買行爲記錄,利用推薦機制作郵件推送或會員營銷。其中推薦算法主要分爲如下幾個類: 網絡
一、基於用戶的協同過濾推薦算法性能
a. 找到與目標用戶興趣類似的用戶集合學習
b. 找到這個集合中用戶喜歡的、而且目標用戶沒有據說過的物品推薦給目標用戶網站
二、基於Item(項目)的協同過濾推薦算法spa
a.基於用戶對某商品的興趣程度,尋找出類似度最大的物品。對象
b.將類似度最大的物品推薦給目標用戶。排序
協同過濾舉例:四個用戶ABCD,對5個商品abcde的興趣與否見下表(實際用戶對物品的興趣程度有區別,須要具體的評份量化),這裏方便理解原理,用二元值表示用戶對物品是否感興趣。接口
|
a |
b |
c |
d |
e |
目標物品 |
A |
1 |
1 |
0 |
1 |
0 |
1 |
B |
1 |
0 |
1 |
0 |
0 |
0 |
C |
0 |
1 |
0 |
0 |
1 |
1 |
D |
0 |
1 |
1 |
1 |
0 |
? |
基於用戶的協同過濾:指根據用戶對各物品的興趣度計算類似性,類似性的算法有不少(主要有餘弦類似性、相關類似性以及歐式距離等),上述與用戶D類似對最高的是用戶A,用戶A對目標物品的興趣度爲1,就可將目標物品推薦給用戶D。
基於item的協同過濾:指從物品維度上看,根據用戶對每一個物品的興趣度,計算物品間的類似性,能夠算出物品b和目標物品的類似性最大,用戶D對物品b感興趣,則極可能對目標用戶感興趣。
三、基於內容的推薦算法
商品爲客觀體,提取商品對象的特徵,尋找類似度比較大的物品進行推薦。系統首先對物品的屬性進行建模,經過類似度計算,發現物品A和B類似度較高,或者他們都屬於同類物品。系統還會發現某用戶喜歡物品A,由此得出結論,某用戶可能對物品B也感興趣,因而將物品B推薦給該用戶。
基於內容的推薦算法比較容易理解,主要用到分類、聚類算法,對用戶興趣能夠很好的建模,並經過對物品屬性維度的增長,得到更好的推薦精度。可是物品的屬性有限,很可貴到更多數據屬性,且對於部分物品屬性特徵提取有時候比較困難,只考慮物品自己的特徵,忽略用戶的行爲特徵,存在必定片面性,對於從未購買物品的新用戶存在冷啓動問題,不能對新用戶進行推薦。
四、基於關聯規則的推薦算法
基於關聯規則的推薦是以關聯規則爲基礎,把已購商品做爲規則頭,規則體爲推薦對象。關聯規則挖掘能夠發現不一樣商品在銷售過程當中的相關性,關聯規則就是在一個交易數據庫中統計購買了商品集X的交易中有多大比例的交易同時購買了商品集Y,其直觀的意義就是用戶在購買某些商品的時候有多大傾向去購買另一些商品,根據某種商品所屬的置信度較高的關聯規則,推薦物品。
根據用戶的購買記錄,提取關聯規則,經常使用的算法有Apriori算法,爲了提取頻繁項集和必定置信度的關聯規則。Apriori算法的主要原則是若是項集A是頻繁的,那麼它的子集都是頻繁的。若是項集A是不頻繁的,那麼全部包括它的父集都是不頻繁的,簡化頻繁項集的選擇的複雜度。
五、基於RFM的推薦算法
六、基於人口統計特徵的推薦算法
這是最爲簡單的一種推薦算法,它只是簡單的根據系統用戶的基本信息發現用戶的相關程度,而後將類似用戶喜好的其餘物品推薦給當前用戶。系統首先會根據用戶的屬性建模,好比用戶的年齡,性別,興趣等信息。根據這些特徵計算用戶間的類似度。好比系統經過計算髮現用戶A和C比較類似。就會把A喜歡的物品推薦給C。
基於人口統計特徵推薦算法的優點是不須要歷史數據,沒有新用戶冷啓動問題,不依賴於物品的屬性,不足是算法比較粗糙,效果很難使人滿意,只適合簡單的推薦。
七、混合推薦算法
融合以上方法,以加權或者串聯、並聯等方式盡心融合。實際應用最多的是內容推薦和協同過濾推薦的組合。最簡單的作法就是分別用基於內容的方法和協同過濾推薦方法去產生一個推薦預測結果,而後用某方法組合其結果,如加權、變換、混合、特徵組合、層疊、特徵擴充、元級別等。組合推薦一個最重要原則就是經過組合後要能避免或彌補各自推薦技術的弱點。
1)加權(Weight):加權多種推薦技術結果。
2)變換(Switch):根據問題背景和實際狀況或要求決定變換採用不一樣的推薦技術。
3)混合(Mixed):同時採用多種推薦技術給出多種推薦結果爲用戶提供參考。
4)特徵組合(Feature combination):組合來自不一樣推薦數據源的特徵被另外一種推薦算法所採用。
5)層疊(Cascade):先用一種推薦技術產生一種粗糙的推薦結果,第二種推薦技術在此推薦結果的基礎上進一步做出更精確的推薦。
6)特徵擴充(Featureaugmentation):一種技術產生附加的特徵信息嵌入到另外一種推薦技術的特徵輸入中。
7)元級別(Meta-level):用一種推薦方法產生的模型做爲另外一種推薦方法的輸入
2、 各類推薦算法的優缺點
推薦方法 |
優勢 |
缺點 |
協同過濾推薦 |
新異興趣發現、不須要領域知識; 隨着時間推移性能提升; 推薦個性化、自動化程度高; 能處理複雜的非結構化對象 |
稀疏問題; 可擴展性問題; 新用戶問題; 質量取決於歷史數據集; 系統開始時推薦質量差; |
基於內容推薦 |
推薦結果直觀,容易解釋; 不須要領域知識 |
新用戶問題; 複雜屬性很差處理; 要有足夠數據構造分類器 |
基於規則推薦 |
能發現新興趣點; 不要領域知識 |
規則抽取難、耗時; 產品名同義性問題; 個性化程度低; |
基於人口統計 |
不須要歷史數據,沒有冷啓動問題; 不依賴於物品的屬性,所以其餘領域的問題均可無縫接入 |
算法比較粗糙,效果很難使人滿意,只適合簡單的推薦 |
3、 推薦算法總結
鑑於各類推薦算法的優缺點和適應場景,系統開始與系統成熟時的推薦算法應有區別。系統開始時,用戶數據不夠多,交易行爲記錄數據比較少,假若利用基於內容和協同過濾的推薦算法存在不少新用戶冷啓動問題。在系統成熟時,用戶交易數據較多,部分算法用到矩陣,產生較大的稀疏矩陣數據,運算量大,須要結合組合推薦法。總結B2B電商平臺在系統初和系統成熟時的推薦算法建議:
系統初可以使用的推薦方法:
一、基於人口統計、熱搜、瀏覽記錄
基於人口統計的推薦:經過註冊以及詢問得知一些用戶的屬性信息,譬如年齡、居住城市、受教育程度、性別、職業等等,可以獲得用戶之間屬性的類似度;
熱搜:站內熱搜,按排名進行推薦;
基於瀏覽記錄的內容的推薦:部分產品的內容特徵比較好提取,好比帶文字描述的產品,也有內容特徵比較難提取的,如圖片,或者瀏覽的商品不詳,則須要人工或智能爬取相關信息。總的來講,這一部分的推薦是基於用戶瀏覽的內容,經過提取特徵,計算類似度,推薦類似產品(類似產品的推薦精確度可能比較難達到要求,經過提升粒度,進行品類推薦是常見作法)。
二、標籤系統
利用標籤也只能是提升有少許行爲的用戶的推薦準確性,對於純粹的冷啓動用戶,是沒有幫助的,由於這些人尚未打過任何標籤。系統也能夠給商品打上標籤,可是這裏面沒有個性化的因素,效果會打一個折扣。從這個意義上講,利用標籤進行推薦、激勵用戶打標籤以及引導用戶選擇合適的標籤,都很是重要。引導用戶多打標籤,經過標籤進行分類推薦也是經常使用的方法
三、多維數據的利用
每一個人處於一個巨大的社會網絡中,在多個網站存在行爲數據,至關比例的用戶都具備交叉購物的習慣,把這些網絡數據整合起來,特別是知道每一個節點身份的對應關係,能夠帶來的巨大的社會經濟價值。使用‘遷移學習法’,能夠實現跨領域的推薦。多維數據的利用能解決新用戶的冷啓動問題。
神州商橋的用戶來自原本的用戶羣的比例應該很大,從其它的數據接口獲取數據源,得到用戶的基礎信息。
系統成熟時可以使用的推薦方法:
一、 協同過濾推薦法
二、 基於內容的推薦法
三、 基於關聯規則,用戶與用戶之間的關聯,商品與商品之間的關聯
四、 組合推薦法(協同過濾和基於內容的推薦的結合)
這三個推薦法在電商系統成熟時應用的比較多,行爲數據充足使得這些算法的推薦效果比較好,然而在數據量級特別大的時候存在數據稀疏問題,通常採用的解決辦法是把這些商品信息粗粒化,譬如只考慮一個個的品類,數據就會馬上變得稠密。若是可以計算品類之間的類似性,就能夠幫助進行基於品類的推薦。
4、推薦算法評價指標
準確度、多樣性、新穎性和覆蓋率。每一類下轄不少不一樣的指標,譬如準確度指標又能夠分爲四大類,分別是預測評分準確度、預測評分關聯、分類準確度、排序準確度四類。第二個層次是商業應用上的關鍵表現指標,譬如受推薦影響的轉化率,購買率,客單價,購買品類數等等,第三個層次是用戶真實的體驗,注意保護用戶隱私。