FlyAI小課堂:深度學習推薦系統中各類流行的Embedding方法(下)

摘要:  Word2Vec和其衍生出的Item2Vec類模型是Embedding技術的基礎性方法,二者都是建立在「序列」樣本(比如句子、用戶行爲序列)的基礎上的。在互聯網場景下,數據對象之間更多呈現的是圖結構,所以Item2Vec在處理大量的 ...

人工智能學習離不開實踐的驗證,推薦大家可以多在FlyAI-AI競賽服務平臺多參加訓練和競賽,以此來提升自己的能力。FlyAI是爲AI開發者提供數據競賽並支持GPU離線訓練的一站式服務平臺。每週免費提供項目開源算法樣例,支持算法能力變現以及快速的迭代算法模型。

Embedding技術概覽:

1. Graph Embedding簡介

Word2Vec和其衍生出的Item2Vec類模型是Embedding技術的基礎性方法,二者都是建立在「序列」樣本(比如句子、用戶行爲序列)的基礎上的。在互聯網場景下,數據對象之間更多呈現的是圖結構,所以Item2Vec在處理大量的網絡化數據時往往顯得捉襟見肘,在這樣的背景下,Graph Embedding成了新的研究方向,並逐漸在深度學習推薦系統領域流行起來。

Graph Embedding也是一種特徵表示學習方式,借鑑了Word2Vec的思路。在Graph中隨機遊走生成頂點序列,構成訓練集,然後採用Skip-gram算法,訓練出低維稠密向量來表示頂點。之後再用學習出的向量解決下游問題,比如分類,或者連接預測問題等。可以看做是兩階段的學習任務,第一階段先做無監督訓練生成表示向量,第二階段再做有監督學習,解決下游問題。

總之,Graph Embedding是一種對圖結構中的節點進行Embedding編碼的方法。最終生成的節點Embedding向量一般包含圖的結構信息及附近節點的局部相似性信息。不同Graph Embedding方法的原理不盡相同,對於圖信息的保留方式也有所區別,下面就介紹幾種主流的Graph Embedding方法和它們之間的區別與聯繫。

2. DeepWalk-Graph Embedding早期技術

早期,影響力較大的Graph Embedding方法是於2014年提出的DeepWalk,它的主要思想是在由物品組成的圖結構上進行隨機遊走,產生大量物品序列,然後將這些物品序列作爲訓練樣本輸入Word2Vec進行訓練,得到物品的Embedding。因此,DeepWalk可以被看作連接序列Embedding和Graph Embedding的過渡方法。

論文《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》用上圖所示的方法展現了DeepWalk的算法流程。DeepWalk算法的具體步驟如下:

圖(a)是原始的用戶行爲序列。

圖(b)基於這些用戶行爲序列構建了物品關係圖。可以看出,物品A和B之間的邊產生的原因是用戶U1先後購買了物品A和物品B。如果後續產生了多條相同的有向邊,則有向邊的權重被加強。在將所有用戶行爲序列都轉換成物品關係圖中的邊之後,全局的物品關係圖就建立起來了。

圖(c)採用隨機遊走的方式隨機選擇起始點,重新產生物品序列。

將這些物品序列輸入圖(d)所示的Word2Vec模型中,生成最終的物品Embedding向量。

注意: 在DeepWalk論文中,作者只提出DeepWalk用於無向無權圖。DeepWalk用於有向有權圖的內容是阿里巴巴論文《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》中提出的Base Graph Embedding(BGE)模型,其實該模型就是對DeepWalk模型的實踐,本文後邊部分會講解該模型。

DeepWalk相關論文:

【1】Perozzi B, Alrfou R, Skiena S, et al. DeepWalk: online learning of social representations[C]. knowledge discovery and data mining, 2014: 701-710.

【2】Wang J, Huang P, Zhao H, et al. Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba[C]. knowledge discovery and data mining, 2018: 839-848.

3. LINE-DeepWalk的改進

DeepWalk使用DFS(Deep First Search,深度優先搜索)隨機遊走在圖中進行節點採樣,使用Word2Vec在採樣的序列上學習圖中節點的向量表示。LINE(Large-scale Information Network Embedding)也是一種基於鄰域相似假設的方法,只不過與DeepWalk使用DFS構造鄰域不同的是,LINE可以看作是一種使用BFS(Breath First Search,廣度優先搜索)構造鄰域的算法。

在Graph Embedding各個方法中,一個主要區別是對圖中頂點之間的相似度的定義不同,所以先看一下LINE對於相似度的定義。

3.1 LINE定義圖中節點之間的相似度

LINE通過捕捉網絡中的一階近鄰關係和二階近鄰關係,更加完整地描述網絡。並且LINE適用於有向圖、無向圖、有權圖、無權圖。

3.2 LINE算法模型

(1)一階近鄰關係模型

(2)二階近鄰關係模型

直接優化上式計算複雜度很高,每次迭代需要對所有的節點向量做優化,論文中使用Word2Vec中的負採樣方法,得到二階近鄰的優化目標,如下公式所示。從計算的過程可以看到,二階相似度模型可以描述有向圖。

對比一階近鄰模型和二階近鄰模型的優化目標,差別就在於,二階近鄰模型對每個節點多引入了一個向量表示。實際使用的時候,對一階近鄰模型和二階近鄰模型分別訓練,然後將兩個向量拼接起來作爲節點的向量表示。

此外有一點需要說明,在Graph Embedding方法中,例如DeepWalk、Node2Vec、EGES,都是採用隨機遊走的方式來生成序列再做訓練,而LINE直接用邊來構造樣本,這也是他們的一點區別。

LINE論文:

【1】Tang J, Qu M, Wang M, et al. Line: Large-scale information network embedding[C]//Proceedings of the 24th international conference on world wide web. 2015: 1067-1077.

4. node2vec - DeepWalk的改進

2016年,斯坦福大學的研究人員在DeepWalk的基礎上更進一步,提出了node2vec模型,它通過調整隨機遊走權重的方法使Graph Embedding的結果更傾向於體現網絡的同質性(homophily)或結構性(structural equivalence)。

4.1 node2vec的同質性和結構性

爲了使Graph Embedding的結果能夠表達網絡的「結構性」,在隨機遊走過程中,需要讓遊走的過程更傾向於BFS,因爲BFS會更多地在當前節點的鄰域中游走遍歷,相當於對當前節點周邊的網絡結構進行一次「微觀掃描」。當前節點是「局部中心節點」,還是「邊緣節點」,或是「連接性節點」,其生成的序列包含的節點數量和順序必然是不同的,從而讓最終的Embedding抓取到更多結構性信息。

另外,爲了表達「同質性」,需要讓隨機遊走的過程更傾向於DFS,因爲DFS更有可能通過多次跳轉,遊走到遠方的節點上,但無論怎樣,DFS的遊走更大概率會在一個大的集團內部進行,這就使得一個集團或者社區內部的節點的Embedding更爲相似,從而更多地表達網絡的「同質性」。

但是在不同的任務中需要關注的重點不同,可能有些任務需要關注網絡的homophily,而有些任務比較關注網絡的structural equivalence,可能還有些任務兩者兼而有之。在DeepWalk中,使用DFS隨機遊走在圖中進行節點採樣,使用Word2Vec在採樣的序列學習圖中節點的向量表示,無法靈活地捕捉這兩種關係。

實際上,對於這兩種關係的偏好,可以通過不同的序列採樣方式來實現。有兩種極端的方式,一種是BFS,如上圖中紅色箭頭所示,從u出發做隨機遊走,但是每次都只採樣頂點u的直接鄰域,這樣生成的序列通過無監督訓練之後,特徵向量表現出來的是structural equivalence特性。另外一種是DFS,如上圖中藍色箭頭所示,從u出發越走越遠,學習得到的特徵向量反應的是圖中的homophily關係。

4.2 node2vec算法

node2vec這種靈活表達同質性和結構性的特點也得到了實驗的證實,通過調整參數和產生了不同的Embedding結果。下圖中的上半部分圖片就是node2vec更注重同質性的體現,可以看到距離相近的節點顏色更爲接近,下圖中下半部分圖片則更注重體現結構性,其中結構特點相近的節點的顏色更爲接近。

4.3 node2vec在推薦系統中的思考

node2vec所體現的網絡的同質性和結構性在推薦系統中可以被很直觀的解釋。同質性相同的物品很可能是同品類、同屬性,或者經常被一同購買的商品,而結構性相同的物品則是各品類的爆款、各品類的較佳湊單商品等擁有類似趨勢或者結構性屬性的商品。毫無疑問,二者在推薦系統中都是非常重要的特徵表達。由於node2vec的這種靈活性,以及發掘不同圖特徵的能力,甚至可以把不同node2vec生成的偏向「結構性」的Embedding結果和偏向「同質性」的Embedding結果共同輸入後續的深度學習網絡,以保留物品的不同圖特徵信息。

node2vec論文:

【1】Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016: 855-864.

5. EGES - Graph Embedding較佳實踐

2018 年,阿里巴巴公佈了其在淘寶應用的Embedding方法 EGES(Enhanced Graph Embedding with Side Information)算法,其基本思想是Embedding過程中引入帶權重的補充信息(Side Information),從而解決冷啓動的問題。

淘寶平臺推薦的三個問題:

可擴展性(scalability):已有的推薦算法(CF、Base-Content、DL)可以在小數據集上有不錯效果,但是對於10億用戶和20億商品這樣海量的數據集上效果差。

稀疏性(sparsity):用戶僅與小部分商品交互,難以訓練準確的推薦模型。

冷啓動(cold start):物品上新頻繁,然而這些商品並沒有用戶行爲,預測用戶對這些商品的偏好是十分具有挑戰性的。

現在業界針對海量數據的推薦問題通用框架是分成兩個階段,即matching 和 ranking。在matching階段,我們會生成一個候選集,它的items會與用戶接觸過的每個item具有相似性;接着在ranking階段,我們會訓練一個深度神經網絡模型,它會爲每個用戶根據他的偏好對候選items進行排序。論文關注的問題在推薦系統的matching階段,也就是從商品池中召回候選商品的階段,核心的任務是計算所有item之間的相似度。

爲了達到這個目的,論文提出根據用戶歷史行爲構建一個item graph,然後使用DeepWalk學習每個item的embedding,即Base Graph Embedding(BGE)。BGE優於CF,因爲基於CF的方法只考慮了在用戶行爲歷史上的items的共現率,但是對於少量或者沒有交互行爲的item,仍然難以得到準確的embedding。爲了減輕該問題,論文提出使用side information來增強embedding過程,提出了Graph Embedding with Side information (GES)。例如,屬於相似類別或品牌的item的embedding應該相近。在這種方式下,即使item只有少量交互或沒有交互,也可以得到準確的item embedding。在淘寶場景下,side information包括:category、brand、price等。不同的side information對於最終表示的貢獻應該不同,於是論文進一步提出一種加權機制用於學習Embedding with Side Information,稱爲Enhanced Graph Embedding with Side information (EGES)。

5.1 基於圖的Embedding(BGE)

該方案是 DeepWalk 算法的實踐,具體流程如下:

首先,我們擁有上億用戶的行爲數據,不同的用戶,在每個 Session 中,訪問了一系列商品,例如用戶 u2 兩次訪問淘寶,第一次查看了兩個商品 B-E,第二次產看了三個商品 D-E-F。

然後,通過用戶的行爲數據,我們可以建立一個商品圖(Item Graph),可以看出,物品A,B之間的邊產生的原因就是因爲用戶U1先後購買了物品A和物品B,所以產生了一條由A到B的有向邊。如果後續產生了多條相同的有向邊,則有向邊的權重被加強。在將所有用戶行爲序列都轉換成物品相關圖中的邊之後,全局的物品相關圖就建立起來了。

接着,通過 Random Walk 對圖進行採樣,重新獲得商品序列。

最後,使用 Skip-gram 模型進行 Embedding 。

Base Graph Embedding 與 DeepWalk 不同的是:通過 user 的行爲序列構建網絡結構,並將網絡定義爲有向有權圖。 其中:根據行爲的時間間隔,將一個 user 的行爲序列分割爲多個session。session分割可以參考Airbnb這篇論文《Real-time Personalization using Embeddings for Search Ranking at Airbnb》。

5.2 使用Side Information的GE(GES)

通過使用BGE,我們能夠將items映射到高維向量空間,並考慮了CF沒有考慮的用戶序列關係。但是我們依然沒有解決冷啓動的問題。爲了解決冷啓動問題,我們使用邊信息( category, shop, price, etc)賦值給不同的item。因爲邊信息相同的兩個item,理論而言會更接近。通過DeepWalk方案得到item的遊走序列,同時得到對應的邊信息(category,brand,price)序列。然後將所有序列放到Word2Vec模型中進行訓練。針對每個 item,將得到:item_embedding,category_embedding,brand_embedding,price_embedding 等 embedding 信息。爲了與之前的item embedding區分開,在加入Side information之後,我們稱得到的embedding爲商品的aggregated embeddings。商品v的aggregated embeddings爲:

對上式做一個簡單的解釋:針對每個 item,將得到:item_embedding,category_embedding,brand_embedding,price_embedding 等 embedding 信息。將這些 embedding 信息求均值來表示該 item的Embedding。

需要注意的一點是,item 和 side information(例如category, brand, price等) 的 Embedding 是通過 Word2Vec 算法一起訓練得到的。 如果分開訓練,得到的item_embedding和category_embedding、brand_embedding、price_embedding不在一個向量空間中,做運算無意義。即:通過 DeepWalk 方案得到 item 的遊走序列,同時得到對應的{category, brand, price}序列。然後將所有序列數據放到Word2Vec模型中進行訓練。

5.3  增強型GES(EGES)

GES中存在一個問題是,針對每個item,它把所有的side information embedding求和後做了平均,沒有考慮不同的side information 之間的權重,EGES就是讓不同類型的side information具有不同的權重,提出來一個加權平均的方法來聚集這些邊界embedding。

EGES算法應用改進的Word2Vec算法(Weighted Skip-Gram)確定模型的參數。對上圖中EGES算法簡單說明如下:

EGES並沒有過於複雜的理論創新,但給出了一個工程上的融合多種Embedding的方法,降低了某類信息缺失造成的冷啓動問題,是實用性極強的Embedding方法。

EGES論文:

【1】Wang J, Huang P, Zhao H, et al. Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba[C]. knowledge discovery and data mining, 2018: 839-848.

6. 總結

時至今日,Graph Embedding仍然是工業界和學術界研究和實踐的熱點,除了本文介紹的DeepWalk、LINE、node2vec、EGES等主流方法,SDNE、struct2vec等方法也是重要的Graph Embedding模型,感興趣的讀者可以自己查找相關文獻進一步學習。

7. Reference

【1】《深度學習推薦系統》王喆編著。

【2】【Graph Embedding】DeepWalk:算法原理,實現和應用 - 淺夢的文章 - 知乎 https://zhuanlan.zhihu.com/p/56380812

【3】【論文筆記】DeepWalk - 陌上疏影涼的文章 - 知乎 https://zhuanlan.zhihu.com/p/45167021

【4】【Graph Embedding】LINE:算法原理,實現和應用 - 淺夢的文章 - 知乎 https://zhuanlan.zhihu.com/p/56478167

【5】Graph Embedding:從DeepWalk到SDNE - 羽刻的文章 - 知乎 https://zhuanlan.zhihu.com/p/33732033

【6】Graph Embedding之探索LINE - 張備的文章 - 知乎 https://zhuanlan.zhihu.com/p/74746503

【7】【Graph Embedding】node2vec:算法原理,實現和應用 - 淺夢的文章 - 知乎 https://zhuanlan.zhihu.com/p/56542707

【8】node2vec在工業界的應用-《當機器學習遇上覆雜網絡:解析微信朋友圈 Lookalike 算法》,地址:https://mp.weixin.qq.com/s/EV-25t2lWT2JJMLhXsz4zQ

【9】graph embedding之node2vec - 張備的文章 - 知乎 https://zhuanlan.zhihu.com/p/63631102

【10】Graph Embedding在淘寶推薦系統中的應用 - 張備的文章 - 知乎 https://zhuanlan.zhihu.com/p/70198918

【11】Graph Embedding - 阿里EGES算法 - 王多魚的文章 - 知乎 https://zhuanlan.zhihu.com/p/69069878

【12】Graph Embedding:深度學習推薦系統的"基本操作" - 顧鵬的文章 - 知乎 https://zhuanlan.zhihu.com/p/68247149

【13】論文閱讀:Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba,地址:https://blog.csdn.net/Super_Json/article/details/85537938


在這裏插入圖片描述


更多關於人工智能的文章,敬請訪問:FlyAI-AI競賽服務平臺學習圈學習;同時FlyAI歡迎廣大算法工程師在平臺發文,獲得更多原創獎勵。此外,FlyAI競賽平臺提供大量數據型賽題供學習黨和競賽黨蔘與,免費GPU試用,更多大賽經驗分享。