千人千面智能淘寶店鋪背後的算法研究登錄人工智能頂級會議AAAI 2017

原文連接node

 

電商時代,消費者對推薦系統已經再也不陌生。「驀然回首」,你發現喜歡的商品就在首頁顯眼處。算法

現在,不只僅是電商網站首頁會給你貼心推薦。你逛進一家淘寶商家的店鋪,也頗有可能享受到推薦算法的服務。網絡

這是阿里商家事業部推出的智能店鋪「千人千面」模塊。

image數據結構

 

阿里商家事業部相關負責人介紹,單純經過算法作出的商品推薦,未必符合商家利益。常有商家抱怨,自家想賣的商品得不到推薦,營銷被算法牽着鼻子走。而「千人千面」,就是先讓商家給出他們想要推送的商品集,算法再從指定候選集中爲進入某家商鋪的消費者作個性化推薦。如此一來,算法能夠爲商家的營銷服務,爲商家既定的 營銷計劃「錦上添花」。框架

不過要作到這一點並不簡單。dom

業界推薦系統每每由Matching和Ranking兩部分組成。Matching部分會根據全網用戶的瀏覽、加購、收藏等行爲數據,在一個龐大的商品池中找出較小的候選集。 Ranking則是利用綜合用戶Profile,偏好,以及商品特徵等信息訓練得出的一個打分排序模型。機器學習

可是,阿里電商目前擁有百萬級別的活躍店鋪,單個用戶在單個特定店鋪內的行爲記錄很是匱乏,很難按傳統方法有效進行matching。ide

對此,阿里商家事業部提出一種高可擴展性的Graph Embedding(圖嵌入)方法,並創新性地將它應用到商品的embedding中。它可以以很是小的存儲空間來計算任意兩個商品的類似度。就算你此前從未踏足這家店鋪,算法也能根據你此前在別家的瀏覽記錄,從店鋪裏挑出你可能喜歡的商品,擺在你面前。函數


image


模塊投入使用後,商家的商品點擊率提高了30%,成交量提高60%。學習

從學術層面來講,該Graph Embedding方法可學習到可以描述圖中節點間高階的、非對稱類似度的低維Embedding向量,而且能夠在理論上解釋這種基於機器學習的方法和基於預約義的傳統節點間類似度的關係,相關論文已被人工智能領域的頂級會議AAAI'2017接收。

如下是論文的中文描述:

工業界的推薦系統一般由Matching和Ranking兩個部分組成,Matching部分會根據全網用戶的瀏覽、加購、收藏等行爲數據,利用協同過濾一類的算法(例如基於商品的ItemCF)在一個龐大的商品池中找出一個足夠小的候選集,以縮小後續算法須要評估的範圍。Ranking則是利用綜合用戶Profile,偏好,以及商品特徵等額外信息訓練得出的一個打分排序模型。

咱們的推薦場景,即對於店鋪私域內的千人千面推薦模塊來講,其與公網推薦的重要區別在於,推薦的目標僅限於很小的一部分商家指定的商品集。

傳統的Matching這部分所遇到的難題在於,阿里電商目前擁有百萬級別的活躍店鋪,這使得單個用戶在單個店鋪內的行爲記錄很是稀疏。而在不少狀況下,用戶在近期首次進入某商鋪主頁時,因爲缺少店內的行爲信息(如足跡商品),很難有效利用店內ItemCF來進行推薦。

ItemCF的核心問題之一在於如何有效衡量與計算item與item之間的類似度\parencite{recsurvey05}。對於全網推薦的應用場景,因爲商品數量太大,一般咱們會離線計算出每一個item前k個類似的item list\parencite{itemcftopk},來用於在線打分的推薦方案。

然而,若是咱們直接用全網topk item類似度的數據,對於每一個商品來講,與他類似的商品數目其實可能不少,但因爲topk的限制(一般小於200),只有極少數店鋪的商品纔可以被召回,即基於全網top-k的商品類似度在同店推薦中的召回能力比較有限。

固然,咱們可使用一樣的方法,對於每一個店鋪,僅計算店鋪內部的i2i數據,來完成推薦。這樣作的缺陷在於,徹底沒法覆蓋用戶沒有店內足跡的狀況。

所以,爲了提升類似商品的召回,以覆蓋用戶沒有店內足跡的狀況,咱們使用了圖嵌入算法APP來基於用戶瀏覽記錄來作商品嵌入——試圖將商品嵌入到一個低維空間中,同時保存一些商品之間的結構特徵,即商品類似度。這樣就能夠用穩定、較小的代價在線算出任意兩個商品之間的類似度了。

image


「旺鋪智能版智能模塊「是一款面向中小商家的、商家可運營的個性化商品裝修模塊。在商家側算法提供面向場景的選品,同時容許商家對算法商品池進行調整,或者徹底手動創建商品池;在消費者端,個性化算法基於商家設置的商品池對訪客進行實時投放。產品設計上必定程度上知足了商家肯定性需求,在此基礎上經過個性化算法提高成交轉化。

咱們研究Graph Embedding的初衷是爲旺鋪模塊千人千面場景提供覆蓋率高的Match支持。由於用戶在店鋪內部的行爲稀疏,傳統的基於I2I的 match覆蓋率較低。而經過Embedding能夠計算出任意兩個商品之間的Match分數,極大改善覆蓋率問題。

咱們提出一種高可擴展性的Graph Embedding方法,該方法可學習到可以可描述圖中節點間高階的、非對稱類似度的低維Embedding向量。同時咱們提供理論上的解釋,來闡述這種基於機器學習的方法和基於預約義的傳統節點I2I類似度的關係。

1.背景介紹 & 相關工做
圖是一種抽象程度高、表達能力強的數據結構,它經過對節點和邊的定義來描述實體和實體之間的關聯關係。經常使用的圖有社交關係網絡,通訊網絡,商品網絡,知識圖譜等等。

而如何衡量圖中節點之間的類似度,對於朋友推薦、商品推薦、以及常見的分類聚類問題來講都是一個很重要的前置步驟。Graph Embedding能夠理解成是一種降維技術,它能夠將圖中的節點映射到一個低維空間裏,咱們只須要經過計算低維向量之間的關係,就能夠獲得原來節點之間的關聯關係。

儘管傳統Embedding技術被研究了好久,但他們的複雜度每每都在N^2級別以上,難以適應大規模數據。最近的一系列可擴展性較強的Graph Embedding工做主要是從DeepWalk【6】開始,後面有Line【7】,Node2vec【2】等等。DeepWalk在原圖中作了一些路徑採樣,而後將路徑看成一個句子,路徑中的點看成單詞,以後就採用word2vec中提出的Skip-Gram with Negative-Sampling【5】方式進行訓練,獲得每個節點的embedding向量。Line只針對邊進行採樣。Node2vec能夠調節參數來進行BFS或者DFS的抽樣。

然而圖中的路徑採樣在機率上有着很是嚴重的非對稱性,以前的這些方法並無注意到這件事,也沒有從理論上來思考爲何這麼幹不太科學。

例如在有向圖(圖1)中,對於A來講,可能並不關心C,而對於C來講,A極可能是他的興趣點。即便在無向圖中(圖2),也有一樣的現象。這樣的節點非對稱性關係是因爲節點周圍的圖結構不一樣形成的。而從C出發的路徑C->B->A和從A出發的路徑A->B->C有着徹底不相同的機率(0.5,0.08)。所以咱們不能認爲C->B->A這條路徑的產生會帶來一個(A->C)的正樣本。

image
圖 1有向圖中的非對稱性


image
圖 2 無向圖中的非對稱性

2.咱們的工做
咱們的工做所作的改進其實很是簡單,首先爲了有能力表達非對稱性類似度,咱們爲每一個節點引入了兩種Embedding向量,分別是Source向量和Target向量,如圖一所示。咱們將對於A來講B的類似度記爲 sim(A,B) ,並使用Source(A)與Target(B)的點積來表示,圖一中咱們能夠從Embedding中算出sim(A,C)
image
圖 3節點的兩種Embedding 身份

其次咱們遵循了一種標準的、用來估計Rooted PageRank【3】的蒙特卡洛隨機遊走的方法【1】【8】來進行正例的採樣。

節點u對於節點v的Rooted PageRank(PPR)值表明了從v出發落在u點的機率。咱們認爲以這種方式生成圖中節點對的正樣例是更加天然、合理、有說法的。

這類遊走方法都是基於常見的Random Walk with Restart,即從一個點出發以(1-alpha)的機率選擇鄰居進行跳轉,另外alpha的機率跳轉回本身。那麼現有的幾種方法稍有一些區別:

例如Monte Carlo End Point只保留首次跳轉以前的節點,Monte Carlo Full Path保留路徑上的全部節點,將路徑的後綴也看成有效的採樣【1】。由於這兩條路徑對於起始點來講能夠看做是相互獨立的。在最新的工做中也有對前綴路徑進行重用的【8】,就再也不此展開。值得注意的是,後兩種的採樣效率相對於1來講要更高,儘管這三種方法都在各自的文章中被證實是正確且有Bound的。

咱們遵循這類遊走方法,企圖給圖中的節點對創造一些正樣本。對於每個被標記爲正例的樣本(A, B)咱們會根據目標函數更新A的source向量和B的target向量。而且隨機採樣其餘的節點做爲負樣本。

咱們定義給定節點u,能夠預測到節點v的機率

image


利用Skip-Gram with Negative-Sampling【5】,近似等價於優化

image


K是負採樣數,P_D(n)在圖中可用均勻分佈替代。則總的目標函數以下:

image


下面咱們來解釋一個有趣的現象,咱們非對稱的點積最終會是以學習出兩點之間的PPR的對數爲目標。

image


這裏,相似於Levy【4】的證實,當維數充分大時,可看做互相獨立的變量。因而另下式爲0:

image


獲得:

image


因爲|V|, k均爲常數,咱們能夠看出x只跟Rooted PageRank的模擬值Sim_u(v)呈對數關係。經過以上證實,論證了該方法能夠保持非對稱的、高階類似度的說法,由於Rooted PageRank就是一種非對稱的、高階的類似度度量。

3.小數據集上的實驗
Link Prediction Task(AUC):Embedding方法相對於傳統Pre-defined i2i指標來講,在AUC上很佔便宜。由於傳統指標大多基於2跳之內的關係,包括阿里內部使用的Swing。這樣就有不少正例的結果是0——徹底沒法和負例分開,AUC不高。能夠看出咱們的方法(APP)在比現有的方法要好一些。

image


下表是爲了體現非對稱性的優點,而在負樣本中加大了單向邊的比例,即A->B有邊,B->A無邊。能夠看出咱們與以前的方法在LinkPrediction任務上有顯著提高。


image


Node Recommendation:

image


值得注意的是,在尋找topk的這個問題當中,咱們發現以前的Embedding方法彷佛並無傳統指標靠譜。但咱們的方法能夠比較好的反應Topk的類似關係。

4.在模塊千人千面中的實踐
爲了緩解用戶在店鋪內部行爲的稀疏性,咱們將用戶Session中的全網點商品擊序列轉化成一個全網商品點擊轉換圖。以後應用咱們的Graph Embedding方法獲得商品向量。該向量能夠用來計算用戶點擊行爲所產生的商品之間的類似度。下圖是咱們與傳統topk i2i方法在真實場景中的點擊率比較。


image


咱們的這項工做目前還只是做爲Match打分的基礎算法,咱們正在嘗試進一步融合一些外部信息,如商品文本屬性、類目信息等,提升長尾商品的結構化Embedding質量。

5.參考文獻
【1】 Fogaras, D.; R´acz, B.; Csalog´any, K.; and Sarl´os, T. 2005. Towards scaling fully personalized pagerank: Algorithms, lower bounds, and experiments. Internet Mathematics 2(3):333–358.
【2】 Grover, A., and Leskovec, J. 2016. node2vec: Scalable feature learning for networks. In International Conference on Knowledge Discovery and Data Mining. ACM.
【3】 Haveliwala, T. H. 2002. Topic-sensitive pagerank. In Proceedings of the 11th international conference on World Wide Web, 517–526. ACM.
【4】 Levy, O., and Goldberg, Y. 2014. Neural word embedding as implicit matrix factorization. In Advances in neural information processing systems, 2177–2185.
【5】 Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G. S.; and Dean, J. 2013. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, 3111–3119.
【6】 Perozzi, B.; Al-Rfou, R.; and Skiena, S. 2014. Deepwalk: Online learning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 701–710. ACM.
【7】 Tang, J.; Qu, M.;Wang, M.; Zhang, M.; Yan, J.; and Mei, Q. 2015. Line: Large-scale information network embedding. In Proceedings of the 24th International Conference on World Wide Web, 1067–1077. ACM.
【8】 Liu, Q.; Li, Z.; Lui, J.; and Cheng, J. 2016. Powerwalk: Scalable personalized pagerank via random walks with vertex-centric decomposition. In Proceedings of the 25th ACM International on Conference on Information and Knowledge Management, 195–204. ACM.

原文連接

 

原文連接

 

相關文章
相關標籤/搜索