簡介:推薦系統廣泛是基於用戶偏好的商品或者商品關係來建模學習,這些關係一般能夠用網絡結構表示,在淘寶這樣的複雜場景網絡經常是十億節點和上百億的邊,計算和推理複雜度高挑戰大,網絡嵌入方法(Network Embedding)可以學習網絡中節點的低維度潛在表示,能夠用所學表徵在低維空間實現相關推薦。本篇論文收錄於KDD2019,建議你們收藏閱讀哦。node
做者 | 趙軍、周洲、管子玉、趙偉、寧偉、仇光、何曉飛c++
在構圖中用戶和商品的交互行爲一般是最直接也是最有效的邊鏈接方式,是一種顯式的用戶偏好刻畫,並取得必定的推薦效果提高,該方案存在的最大問題是顯式交互數據存在較大的數據稀疏性。而在實際場景中是存在大量的異構信息能夠引入提高網絡表徵的豐富性,好比用戶的搜索詞、訪問店鋪、偏好品牌、偏好屬性等等,這些特徵能夠提高更豐富的語義表示和相關性刻畫,intentGC是本文提出的一種基於GCN的統一的網絡嵌入學習框架,融合顯式偏好關係以及豐富的用戶和商品異構關係信息,提高推薦系統的效果,算法中最爲核心的技術是圖卷積,咱們在經典圖卷積的基礎之上作了一些創新優化,以更好地解決咱們業務中存在的強異構性、大規模性等核心挑戰。算法
本文設計的模型融合多種信息的大規模圖卷積學習算法,採用二部異構圖建模,loss設計採用triplet目標,能夠有效的控制和側重學習用戶的顯示偏好和表達,整個學習過程是一個半監督的模式,有效利用了電商體系內大量的無標註信息提高學習目標精度。方案核心包括三部分,一是網絡翻譯,對原始網絡進行一次無損翻譯;二是快速卷積網絡,對異構信息進行高效卷積;三是對偶卷積,基於翻譯的HIN學習用戶和商品表徵。網絡
網絡翻譯框架
網絡引入多種異構節點帶來更豐富信息同時也帶來了語義不兼容的挑戰,區分節點類型計算對具備多種異構節點和邊的大規模網絡來講複雜度和計算量是一個巨大的挑戰,本文借鑑相關研究基於二階類似性將原始的網絡翻譯成用戶-用戶或者商品-商品關係,類似度計算是基於兩者相同附加信息個數,核心思想是若是u1和u2有相同的輔助信息鏈接的話,u1和u2之間也相關,這樣就能夠實現將網絡中異構節點的語義信息編碼成用戶-用戶關係或者商品-商品關係實現原始網絡信息翻譯。函數
快速卷積網絡IntentNet學習
原始的GCN在大規模的圖中計算時具備巨大的計算複雜度,由於會經過高階傳輸方式進行內容傳播,複雜度是指數級的。本文提出的快速卷積網絡intentNet經過如下兩點優化能夠有效的解決這個問題:第一,在卷積算子中,實際上並非全部神經元都是同等重要的,在激活過程當中,實際上只有最相關的神經元具備最大的效果,所以咱們將圖卷積設計爲稀疏的網絡激活,也能夠當作是信道共享的向量學習,經過向量化的卷積實現鄰居信息傳播;第二,咱們還發現,原始的高指數卷積複雜度主要來源於高階節點,可是這種訓練方式是能夠解耦的,能夠拆分紅graph view和node view兩種訓練模塊。基於這兩點觀察,咱們從新設計了圖卷積,經過全鏈接網絡實現特徵組合,實驗代表相比GraphSage具備更好的效率和效果。優化
a) 向量化卷積函數編碼
b) IntentNet
卷積訓練方式設計拆分紅graph view和node view兩種訓練模塊,而後經過二者聯合獲取圖卷積的功能,前者基於上述的向量化卷積函數,多卷積層堆疊可以有效的學習鄰居節點傳播關係,實現圖卷積的任務,後者接全鏈接層學習不一樣維度向量空間的特徵關係。spa
對偶卷積
爲了user和item的表徵和label信息刻畫精確,不一樣於傳統GCN,咱們設計了對偶性的GCN結構,在同一個框架中具體學習。具體的方案是user進行獨立的卷積,item和負採樣進行共享的卷積,而後在卷積層最後,經過dense網絡將三者投影到同一語義空間,最後,採起triplet loss的方法進行學習,這樣結構的好處是,能夠比經典GCN擁有更準確的異構表徵能力,同時實踐證實,這樣的方式也可讓兩個對偶卷積收斂,具備好的半監督效果。
IntentGC算法框架
intentGC算法框架主要包含三部分:1)網絡翻譯;2)訓練;3)推斷。在訓練後咱們能夠得到用戶和商品的向量表徵,而後經過k-近鄰的思路進行檢索推薦。
實驗結論
實驗咱們主要是驗證IntentGC和現有算法的效果對比,IntentNet在處理十億規模圖學習任務上和GraphSage效率對比,以及驗證增長異構信息的模型學習能力對比,咱們離線基於淘寶和亞馬遜的數據進行評估,分別對比DeepWalk、GraphSage、DSPR、Metapath2vec++、BiNE 等算法,在淘寶和亞馬遜數據集上離線評估結果以及在淘寶環境線上實驗均代表咱們算法的有效性。
閱讀原文看詳細總結:https://developer.aliyun.com/...