基於隨機遊走的圖嵌入之快速指南

本文來自OPPO互聯網技術團隊,轉載請註名做者。同時歡迎關注咱們的公衆號:OPPO_tech,與你分享OPPO前沿互聯網技術及活動。node

1. 背景

1.1 何爲圖嵌

圖嵌入是利用節點屬性、節點間拓撲關係將複雜、高維圖數據進行向量化的一項技術。算法

圖數據結構突破傳統數據庫按記錄組織數據的限制,具有更靈活的現實數據建模能力。如何將圖數據結構中的信息進行合理表徵,方便地應用於下游任務成爲一個問題。數據庫

近年來隨着NLP領域預訓練詞向量技術的流行,圖嵌入,也就是圖數據向量化也成爲了一個愈來愈活躍的研究領域。網絡

1.2 圖數據向量化

①能夠進行類似/相關節點計算、圖數據挖掘等下游計算,延伸至內容推薦業務興趣擴展模塊、鏈接預測;數據結構

②也能夠將圖數據中蘊含的知識編碼到深度學習網絡中,參與到文本、圖像、流媒體等內容理解的計算中。學習

在本文中,OPPO互聯網技術團隊針對知識圖譜領域數據特性對圖嵌入計算的三種思惟方法,進行簡要介紹。編碼

1.3 通用知識圖譜數據的特色

①關係:節點(知識圖譜中稱實體)之間會存在諸如互爲好友、參演做品、做品歸屬類型等關係;spa

②屬性:每一個節點會存在各類各樣的屬性,好比人物會存在基本信息、背景描述等屬性;blog

③類型:圖譜中會存在諸如人物、做品、品牌、景點等類型。rem

2. 方法

2.1 node2vec

針對圖數據中的關係,B. Perozzi等提出DeepWalk模型,開啓了隨機遊走圖嵌入的先河。

DeepWalk基本思想以下:

隨機選中圖中的節點,沿圖中的關係進行隨機的閒逛,將圖數據轉化爲一段段相似天然語言的序列,而後經過NLP(天然語言處理)領域word2vec對序列中節點的相鄰性進行建模,進而得出每一個節點的向量。

DeepWalk存在一個問題:遊走徹底隨機,沒法根據網絡特色(如關係權重)作到對遊走進行干預。

Aditya Grover等針對這一問題提出node2vec算法,經過p/q兩個參數控制隨機遊走下一跳的機率分配。

2.2 ANRL

針對圖譜中未拆分爲關係的屬性(諸如描述等拆分後度極低的屬性以及其餘一些)研究者們提出了不少方法。本文選取其中一種ANRL來進行介紹;

ANRL由Zhen Zhang等提出,思想以下:

經過一個雙目標網絡,分別對節點屬性、關係進行建模,最終獲得的圖嵌入向量受屬性、關係訓練數據的制約,獲得一個融合了屬性和關係信息的圖嵌入向量。

2.3 Metapath2Vec

知識圖譜一般涵蓋若干領域,尤爲是通用知識圖譜,其中節點的類型更是各式各樣。除了其中有實際意義的實體,也會有一些爲了屬性節點。(諸如國家)

不一樣類型的節點具備不一樣的特性:諸如國家可能會與一個電影有地域關係,也會與一個明星有國家歸屬關係,也會與一個景點有歸屬關係,也會與一個戰鬥機有產地關係。

因此不一樣類型的節點按照相同的規則進行隨機遊走也會存在一些固有的問題。

事實上,node2vec的隨機遊走確實會偏向度比較大的節點,另外咱們也須要根據業務場景對不一樣領域的節點進行不一樣程度的隔離。

Yuxiao Dong等提出MetaPath2Vec算法,算法中將經過類型序列控制隨機遊走只在特定的類型之間進行遊走,固然也能夠根據業務特色進行遊走機率降權。其主要過程以下:

3. 最後

知識是人類之於機器的優點。現今隨着深度學習的發展,AI在不少領域經過大量的監督數據可以高效、精準的完成各類具體的任務。

然而現今深度學習等各類模型尚不能像人類同樣進行普世知識積累、聯想、推理、想象,或許知識圖譜會是AI下一個飛躍的翅膀;事實上,圖嵌入、圖神經網絡領域的研究近幾年逐漸成爲AI頂會熱門話題。

本文是根據OPPO互聯網服務項目中實際業務背景,對圖嵌入相關技術進行了幾個介紹,但願能夠起到拋磚引玉的做用。

相關文章
相關標籤/搜索