雲棲號資訊:【點擊查看更多行業資訊】
在這裏您能夠找到不一樣行業的第一手的上雲資訊,還在等什麼,快來!
算法
你有沒有這樣的一種感受,圖深度學習就是一堆啓發式的東西,有時會起做用,但沒有人知道爲何。在本文中,做者討論了圖同構問題,圖同構測試的 Weisfeiler-Lehman 啓發式,以及如何用它來分析圖神經網絡的表達能力。這是關於圖神經網絡表達能力的系列三篇文章中的第一篇。在第二部分中,他將討論如何脫離 Weisfeiler-Lehman 層次結構;在第三部分中,他將建議爲何重溫整個圖同構框架多是個好主意。express
前文回顧:《圖深度學習:成果、挑戰與將來》網絡
傳統的前饋網絡(多層感知器)是已知的通用逼近器:它們能夠將任何平滑函數近似到任何所需的精度。對於相對最近纔出現的圖神經網絡,其表示特性還不是很瞭解。人們在實驗中常常會觀察到,圖神經網絡在某些數據集上表現出色,但同時在其餘數據集上的表現卻使人失望。爲找到這種行爲的根源,咱們必須回答這樣一個問題:圖神經網絡有多強大?架構
其中挑戰之一是,應用程序中遇到的圖是亂序和離散結構(分別是節點和邊緣特徵以及連通性)的組合,所以,這個問題能夠用不一樣的方式提出。一種可能的表述是圖神經網絡是否可以區分不一樣類型的圖結構。這是圖論中的一個經典問題,稱爲圖同構問題,目的是肯定兩個圖在拓撲上是否等價【1】。兩個同構圖具備相同的連通性,不一樣之處只是它們節點的排列。app
使人驚訝的是,圖同構問題的精確複雜度類別是未知的。咱們不知道它在多項式時間內是可解的,也不知道它是 NP 徹底( NP-complete)的,有時被歸因於一種特殊的「 GI 類」【2】框架
Weisfeiler-Lehman 測試。 Boris Weisfeiler 和 Andrey Lehman 【3】在 1968 年發表的具備開創性意義的論文中提出了一種有效的啓發式方法,即 Weisfeiler-Lehman 測試。最初被認爲是圖同構問題的多項式時間解【4】。一年後發現了一個反例;然而,從機率意義上看,Weisfeiler-Lehman 測試彷佛適用於幾乎全部的圖【5】。dom
對兩個同構圖上執行 Weisfeiler-Lehman 測試的示例。花括號表示多組。算法在顏色不變後中止,並生成輸出(顏色直方圖)。這兩個圖的輸入相等代表它們多是同構的。機器學習
Weisfeiler-Lehman 測試基於迭代圖從新着色【6】(圖論中的「顏色」是指一個離散節點標籤),並從全部顏色相同的節點開始。在每一步中,該算法將節點及其鄰域的顏色聚合爲多集【7】,並將聚合的顏色多集散列爲惟一的新顏色。當達到穩定的着色時,算法即中止。若是在這一點上兩個圖的着色不一樣,則認爲這兩個圖是非同構的。可是,若是着色是相同的,這些圖可能(但不必定)是同構的。換句話說,Weisfeiler-Lehman 測試是圖同構的一個必要但不充分的條件。有一些非同構圖的 Weifeiler-Lehman 測試能夠產生相同的着色,所以認爲它們「多是同構的」;聽說在這種狀況下,測試失敗了。下圖就顯示了一個這樣的例子:分佈式
Weisfeiler-Lehman 圖同構測試失敗的兩個非同構圖,從它產生的相同着色能夠明顯看出。在化學中,這些圖表明兩種不一樣化合物的分子結構,十氫化萘(左)和雙環戊基(右)。圖摘自【14】。函數
圖同構網絡。Keyulu Xu【9】和 Christopher Morris【10】(至少在兩年前,Thomas Kipf 在他的博客中曾提到)注意到,Weisfeiler-Lehman 測試與圖消息傳遞神經網絡【8】有着驚人的類似之處,後者是一種對圖進行相似卷積運算的方式。在消息傳遞層中,經過聚合相鄰節點的特徵來更新每一個節點的特徵。聚合和更新操做的選擇相當重要:只有多集內射函數才能使其等同於 Weisfeiler-Lehman 算法。一些文獻中經常使用的聚合器選擇,例如,最大值或均值,實際上嚴格來講沒有 Weisfeiler-Lehman 強大,而且沒法區分很是簡單的圖結構:
圖結構的示例,不能用最大值來區分,但能夠用均值聚合器(第一和第二)來區分,而且既不能用最大值也不能用均值(第一和第三)來區分。緣由在於,以這種方式從黑色節點的鄰居聚合的特徵將是相同的。圖改編自【9】。
Xu 提出了一種聚合和更新函數的選擇,使消息傳遞神經網絡與 Weisfeiler-Lehman 算法等價,稱之爲圖同構網絡(Graph Isomorphism Networks,GIN)。這和標準的消息傳遞神經網絡同樣強大。可是,比起一個新的架構,主要的影響是在一個簡單的設置中系造成表達能力的問題,這可能與圖論中的一個景點問題有關。這一想法已經激發了許多後續研究。
Weisfeiler-Lehman 層次結構。對 Xu 和 Morris 的結果進行擴展的一個方向是使用更強大的圖同構測試。由 László Baba 提出的 k-WL 測試是 Weisfeiler-Lehman 算法的高階擴展,該算法適用於 k 元組而不是單個節點。除了等價的 1-WL 和 2-WL 測試以外,對於任何 k≥2,(k+1)-WL 嚴格強於 k-WL,即存在 k-WL 失敗而 (k+1)-WL 成功的圖的例子,但反之則否則。所以,k-WL 是一個層次結構或愈來愈強大的圖同構測試,有時被稱爲 Weisfeiler-Lehman 層次結構【10】。
設計遵循 k-WL 測試的圖神經網絡是可能的,所以嚴格來講,比消息傳遞架構更強大。其中一個這樣的第一個架構,k-GNN,是由 Morris【11】提出的。傳統消息傳遞神經網絡和高階 GNN 之間的關鍵區別在於它們是非局部的,由於 k-WL 算法是在節點的 k 元組上進行操做的。這對算法的實現及其計算和內存複雜性都有重要的影響:k-GNN 須要 𝒪(nᵏ) 內存。做爲一種下降複雜性的方法,Morris 設計了一種基於局部鄰域彙集的 k-GNN 局部版本,但它的表現能力不如 k-WL。
在 2019 年 9 月,我有幸參與了 Haggai Maron 在魏茨曼科學研究學院(Weizmann Institute) 的博士論文答辯,他提出了略有不一樣的高階圖架構。Maron 基於 k 階張量【12】定義了一類不變圖網絡(Invariant Graph Network,IGN),並證實了它們與 k-WL 同樣強大。IGN 源自 k-WL 的不一樣變體【10】,而且就其複雜性而言,與 k-GNN 相比更有優點。尤爲是,等價於 3-WL 的 IGN「只有」二次元的複雜度,這多是惟一一種實用的圖神經網絡架構,嚴格的說,它比消息傳遞更強大,但與前者的線性複雜度仍相去甚遠【16】。
從理論的角度來看,可證實功能強大的圖神經網絡提供了一個嚴格的數學框架,能夠幫助解釋和比較不一樣的算法。已經有不少後續工做使用圖論和分佈式局部算法的方法擴展了這些結果【14】。
然而,從實踐的角度來看,這些新的架構幾乎沒有什麼重大影響:例如,最新的基準測試【15】代表,最近被證實功能強大的算法實際上性能並不如舊的技術。這在機器學習中並很多見,由於理論和實踐之間每每存在很大差距。其中一個解釋多是基準自己的缺陷。但也許更爲深入的緣由是,更好的表達能力並不必定提供更好的泛化(有時偏偏相反),此外,圖同構模型可能沒法正確地捕捉特定應用程序中圖類似性的實際概念,我想在下一篇文章中討論這一點。能夠確定的是,這一領域的研究工做是卓有成效的,它爲其餘學科搭建了橋樑,並帶來了之前在圖深度學習領域未使用過的方法。
參考文獻
【1】 即在兩個圖的節點之間存在一個保邊雙射(edge-preserving bijection)。
【2】 所以,圖同構多是 NP- 中間複雜度類。對於一些特殊的圖族(如樹、平面圖或有界最大度圖),存在多項式時間算法。
【3】 《圖的標準型化簡及其代數》(The reduction of a graph to canonical form and the algebra which appears therein),B. Weisfeiler、A. Lehman,1968 年,Nauchno-Technicheskaya Informatsia 2(9):12–16。 英文版、俄文版:文中包含了一個雙關語,以一種不尋常的西裏爾字母(Операция „Ы「)的形式出現,指的是三年前前蘇聯的同名電影。另請參閱這篇博文中一個流行的論述。Lehman 有時也被拼寫成「Leman」,然而,鑑於這個姓氏的日耳曼起源,我更喜歡前者更準確的變體。
【4】 I. Ponomarenko, Weisfeiler Lehman 寫的原始論文。提供了這篇經典論文的歷史背景。他指出,這項研究的動機來自於化學應用。
【5】 《隨機圖同構》(Random graph isomorphism),L. Babai 等人,1980 年,SIAM J. Computing 9(3):628–635。
【6】 Weisfeiler 和 Lehman 的原始論文實際上描述了 2-WL 變體,但它等價於 1-WL,也被稱爲色彩細化算法。做爲一個歷史性的註釋,這樣的算法早在 20 世紀計算化學中就已爲人所知,參見 H.L.Morgan。《爲化學結構生成獨特的機器描述——化學文摘社(Chemical Abstracts Service,CAS)開發的一種技術》(The generation of a unique machine description for chemical structures — a technique developed at chemical abstracts service ),1965 年, J. Chem,Doc. 5(2):107–113,這是摩根分子指紋在化學中普遍應用的基礎。
【7】 多集是一個集合,其中,同一個元素可能出現屢次,但元素的順序並不重要。
【8】 《量子化學中的神經信息傳遞》(Neural message passing for quantum chemistry),Gilmer 等人,2017 年,Proc. ICML。
【9】 《圖神經網絡有多強大?》(How powerful are graph neural networks?),K. Xu 等人,2019 年,Proc. ICLR。
【10】 Weisfeiler-Lehman 測試存在多重變體,它們具備不一樣的計算和理論特性,並且屬於至關混亂:建議讀者清楚地理解不一樣做者對「k-WL」一詞的確切含義。有些做者,路 Sato 和 Maron,就區分了 WL 和「民俗」WL(FWL)測試,這兩種測試的主要不一樣之處在於色彩細化步驟。k-FWL 測試等價於 (k+1)-WL。Morris 使用的集合 k-WL 算法是另外一種變體,具備較低的內存複雜度,但嚴格弱於 k-WL 算法。
【11】 《 Weisfeiler 和 Leman Go 神經網絡:高階圖神經網絡》(Weisfeiler and Leman go neural: Higher-order graph neural networks),C. Morris 等人,2019 年,Proc. AAAI。
【12】 《不變圖網絡和等變圖網絡》(Invariant and equivariant graph networks),H. Maron,2019 年,Proc. ICLR.
【13】 《可證實功能強大的圖神經網絡》(Provably powerful graph neural networks),H. Maron 等人,Proc. NeurIPS。另請參閱做者的博文。
【14】 《圖神經網絡表達能力研究綜述》(A survey on the expressive power of graph neural networks),R. Sato,2020 年,arXiv: 2003.04078。提供了有關不一樣 Weisfeiler-Lehman 測試和等價圖神經網絡結構的一個很是全面的回顧,並提供了與分佈式計算算法的連接。
【15】 《基準圖神經網絡》(Benchmarking graph neural networks),V. P. Dwivedi 等人,2020 年,arXiv: 2003.00982。
【16】更準確地說,消息傳遞的複雜性與邊數呈線性關係,而不是與節點數呈線性關係。在稀疏圖中,狀況大體相同。在稠密圖中,邊數能夠是 𝒪(n²)。出於這一緣由,Maron 認爲他的架構能夠用於稠密圖。
【17】 從歷史上講,Weisfeiler-Lehman 的形式主義在機器學習社區中並不新鮮。《圖的快速子樹核》(Fast subtree kernels on graphs),N. Shervashidze 和 K. M. Borgwardt 合著的開創性論文,2009 年,Proc. NIPS,就我所知,在深度神經網絡的復甦以前,該論文是第一個使用這種架構的,比本文所討論的工做早了近十年。
做者介紹:
Michael Bronstein,倫敦帝國理工學院教授,Twitter 圖機器學習研究負責人,CETI 項目機器學習領導、Twitter 圖機器學習負責人、研究員、教師、企業家和投資者。
【雲棲號在線課堂】天天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/zhibo當即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK
原文發佈時間:2020-07-08
本文做者:Michael Bronstein
本文來自:「InfoQ」,瞭解相關信息能夠關注「InfoQ」