KDD 2019論文解讀:異構信息網絡上的對抗生成學習

前言

網絡表示學習是一種在低維空間中表示網絡數據的方法,在異構信息網絡分析中獲得了普遍的應用。現有的異構信息網絡表示學習方法雖然在必定程度上實現了性能的提升,但仍然存在一些主要的不足。最重要的是,它們一般採用負抽樣的方法從網絡中隨機選擇節點,而不學習底層的分佈以得到更魯棒的表示。網絡

受生成式對抗網絡 (GAN)的啓發,咱們開發了一個用於異構信息網絡表示學習的新框架HeGAN,它在一種極小極大的博弈中同時訓練判別器和生成器。與現有異構信息網絡表示學習方法相比,咱們的生成器能夠學習節點分佈,生成更好的負樣本。與同質網絡上的生成對抗網絡相比,咱們設計的判別器和生成器是關係感知的,以便在異構信息網絡上捕獲豐富的語義。此外,爲了提升採樣效率,咱們提出了一種廣義的生成器,它直接從連續分佈中對「潛在」節點進行採樣,而不像現有方法那樣侷限於原始網絡中的節點。最後,咱們在四個實際數據集進行了大量的實驗。結果代表,在全部數據集和任務中,咱們始終如一且顯著地優於當前的表示學習方法。框架

關於「異構信息網絡」和「對抗生成學習」

網絡結構在現實世界的應用中無處不在,從社會和生物網絡到交通和電信系統。所以,網絡分析對於解決社交網絡的個性化用戶推薦、生物網絡的基因識別困難等關鍵問題顯得愈來愈重要。這些問題每每表現爲對網絡數據進行節點聚類、節點分類和鏈路預測,因此這些問題從根本上依賴於一種有效的網絡表示形式。近年來,網絡表示學習已經成爲無監督學習節點表示的一個頗有前途的方向,其目的是將網絡節點投射到低維空間中,同時保持原網絡的結構特性。函數

異構信息網絡。雖然早期的網絡表示學習工做已經取得了至關大的成功,但它們只能處理所謂的同質網絡,即網絡中只包含一種類型的節點和邊。然而,在實際場景中,節點天然地由不一樣類型的實體構成,這些實體經過多種關係相互。這種網絡稱爲異構信息網絡,如圖(a)所示。該異構信息網絡由多種類型的節點(如author和paper)組成,節點之間經過各類類型的關係(如write/ writing relationship between author and paper, publish/published relationship between paper and conference)鏈接。性能

因爲其異構性, 異構信息網絡每每具備極其豐富和複雜的語義。所以,許多研究者開始研究異構信息網絡下的表示學習,最值得關注的工做有metapath2vec和HIN2vec。如圖1(b-1)所示,現有異構信息網絡網絡的表示學習方法從思想上能夠歸結爲兩個採樣器,分別從網絡中給定的「中心」節點(如paper p2)選擇「上下文」節點做爲正例(如author a2)和負例(如陰影圓圈)(注意,每一個節點均可以充當中心或上下文,相似於Skip-gram模型)。而後,在這些樣本上訓練一個損失函數來優化節點表示。雖然這些方法取得了必定的性能提高,但它們也存在嚴重的侷限性。首先,它們一般使用負抽樣來隨機選擇網絡中現有的節點做爲負抽樣。所以,它們的負樣本不只是任意的,並且侷限於原始網絡的宇宙。其次,它們主要關注於在異構信息網絡上捕獲豐富的語義信息,而不注意節點的底層分佈,所以對於一般稀疏且有噪聲的真實的網絡缺少魯棒性。第三,當前的許多異構信息網絡方法依賴於適當的元路徑來匹配所需的語義,這一般須要領域知識,而這些知識有時是主觀的,並且一般很難獲取。學習

對抗生成學習。生成對抗網絡(GAN)已被開發用於學習各類應用中魯棒的潛在表示。GANs依賴於對抗性學習的思想,判別器和生成器相互競爭,不只要訓練更好的判別模型,還要學習底層的數據分佈。後者使得模型對稀疏或有噪聲數據的魯棒性更強[13,24],也提供了更好的樣原本下降標註要求。鑑於這些優勢,基於GAN的網絡表示學習已經有了一些初步的嘗試。然而,這些研究只研究了同質網絡,沒有考慮節點和關係的異構性,致使在語義豐富的異構信息網絡上性能不理想。優化

HeGAN及其貢獻。爲了克服現有工做的侷限,咱們提出了一個新的框架HeGAN,基於GAN的異構信息網絡表示框架。具體地,咱們提出了一種新的判別器和生成器,如圖(b-2)所示。首先,咱們的判別器和生成器被設計成關係感知的,以便區分由不一樣關係鏈接的節點。也就是說,對於任何關係,判別器均可以分辨出一個節點對是真仍是假,而生成器能夠生成模仿真節點對的假節點對。特別是,只有節點對是(i)基於網絡拓撲結構的正對且(ii)在正確的關係下造成對時,才認爲該節點對是正例對;。其次,咱們設計了一個廣義生成器,它可以直接從連續分佈中抽取潛在節點,所以(i)不須要softmax的計算; (ii)假樣本不侷限於現有節點。總之,本文作出瞭如下貢獻。
(1)咱們是第一個將對抗性學習應用於異構信息網絡表示的,從而來利用異構信息網絡上的豐富的語義,同時保證學習到的表示的魯棒性。
(2)咱們提出了一種新型的HeGAN框架,該框架不只可以感知關係以獲取豐富的語義,並且還具備高效的生成負樣本的機制。
(3)咱們在四個公共數據集進行一系列下游任務的實驗。結果代表HeGAN具備明顯的優越性。加密

異構信息網絡上的對抗生成學習

生成對抗的網絡。咱們的工做受到GANs的啓發,GANs能夠被看做是兩個玩家之間的一個極小極大的博弈,即生成器G和鑑別器D。具體的優化形式以下所示:spa

HeGAN的整體框架。如圖(c)所示,咱們的框架主要由兩個相互競爭的模塊組成,即判別器和生成器。給定一個節點,生成器嘗試生成與給定節點相關聯的僞樣本,以提供給判別器,而判別器則嘗試改進其參數來將假樣本與實際鏈接到給定節點的真實樣本分離。在這個重複的過程當中,訓練好的判別器會迫使生產器產生更好的假樣本,而判別器則也會加強其判斷能力。在這樣的迭代過程當中,生成器和判別器都獲得了正強化。設計

現有的研究只是利用GAN來區分節點與給定節點在結構鏈接上是真仍是假,而沒有考慮到異構信息網絡的不一樣語義。例如,給定一篇論文p2,它們將節點a二、a4視爲真,節點a一、a3爲僞(根據圖(a)所示的網絡的拓撲結構),。可是,a2和a4鏈接到p2的緣由不一樣: a2寫了p2, a4讀了p2。所以,它們忽略了異構信息網絡所包含的有價值的語義,沒法區分a2和a4,由於它們扮演着不一樣的語義角色。在語義保持的表示學習方面,HeGAN引入了一個關係感知的判別器和生成器,以區分節點之間的各類類型的語義關係。在以上的異構信息網絡上,給定節點p2和一個關係,好比write/ write,咱們的判別器可以分辨出a2和a4,而咱們的生成器將嘗試生成更像a2而不是a4的假樣本。3d

其次,現有的研究在假樣本的生成的有效性和效率上有侷限性。他們一般對在原始網絡中的全部節點上使用某種形式的softmax來生成假樣本。在有效性方面,他們的假樣本受限於網絡中已經存在的節點,或許最具表明性的假樣本可能不存在於現有的可觀察到的節點。例如,給定一個節點p2,他們只能選擇來自空間V(V爲網絡中全部節點的集合)的樣本,好比a1和a3。然而,二者可能都不是與實際節點a2充分類似。爲了更好的樣本生成, 咱們引入一個廣義生成器,能夠生成例如a’之類的假樣本,其中,a’可能並不屬於V。咱們能夠只爲a’多是a一、a3的「平均」,更相似於真正的樣本a2。在計算效率方面,softmax函數的計算開銷較大,必須採用負採樣和圖softmax等近似方法。相反,咱們的生成器能夠直接從連續的空間中採樣假節點,而無需使用softmax。咱們的具體框架以下所示。

咱們在DBLP、Yelp、Aminer、Movielens四個數據集上進行了實驗,具體在節點聚類、節點分類、鏈路預測和推薦四個任務上驗證了有效性。實驗數據集以下所示。

首先,咱們依此來看下節點分類、鏈路預測、節點聚類、推薦四個任務下的實驗結果。

其次咱們來可視化一下節點表示的空間(Yelp數據集),

由圖可知,HeGAN的邊界更清晰,集羣更加密集。

咱們給出了Yelp上的HeGAN生成器器和判別器的學習曲線,從損失變化和聚類效果兩方面進行分析。在損失的初始波動以後,生成器和判別器開始了他們之間的極小極大的博弈,二者的損失逐漸減小。通過大約20個epoch的對抗性訓練,二者的損失趨於收斂,而勝者實現了更好的性能。注意,當訓練了更多的epoch時,因爲過分擬合,聚類性能降低。

以後,咱們在節點聚類和節點分類兩個任務上驗證異構信息和咱們提出的廣義的生成器的有效性,咱們能夠得出以下結論:(1) 在異構信息網絡中,不一樣類型的節點和關係應加以區分。(2) 咱們的廣義生成器確實能夠產生更有表明性的樣本。

最後,咱們來看一下HeGAN的效率。

從圖中咱們能夠看到HeGAN的訓練時間和節點數成線性關係,時間性能大大優於基於softmax的GraphGAN。

結語

本文涉及的技術主要爲異構信息網絡和對抗生成學習。實際中所涉及的網絡每每不會只包含單一類型的節點或者關係,網絡由愈來愈多的複雜關係構成是大勢所趨。因此如何更好利用和表示這種複雜的網絡來產生更多的價值一直研究的重點。其次,現有的網絡每每存在不少噪聲,或者抗噪能力薄弱,這激勵着咱們學習更加魯棒性的網絡表示。


原文連接 本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索