圖卷積神經網絡(Graph Convolutional Network, GCN)

從譜聚類說起

譜聚類(spectral clustering)是一種針對圖結構的聚類方法,它跟其他聚類算法的區別在於,他將每個點都看作是一個圖結構上的點,所以,判斷兩個點是否屬於同一類的依據就是,兩個點在圖結構上是否有邊相連,可以是直接相連也可以是間接相連。舉個例子,一個緊湊的子圖(如完全圖)一定比一個鬆散的子圖更容易聚成一類。
在這裏插入圖片描述
那譜聚類爲什麼叫譜而不是圖聚類呢?這個spectral是什麼東西?我們知道一個圖是可以用一個鄰接矩陣A來表示的。而矩陣的譜(spectral)就是指矩陣的特徵值,那麼這個特徵值跟圖的矩陣到底有什麼深刻的聯繫呢?
那麼首先,圖的聚類是什麼?我們可以將聚類問題簡化爲一個分割問題,如果圖的結點被分割成A,B這兩個集合,那麼我們自然是希望在集合中的結點的相互連接更加緊密比如團,而使得子圖之間更加儘可能鬆散。
爲了建立這個聯繫,我們構造一個laplace matrix:

L = D A L=D-A

D是一個對角矩陣,每個對角元素 D i i \displaystyle D_{ii} 表示第i個結點的度。A則是這個圖鄰接矩陣。爲什麼要這樣去構造一個矩陣呢?因爲研究圖的一些性質的時候,我們常常用到一個類似於下式的目標函數:

x T M x = { u , v } E ( x u x v ) 2 \mathbf{x^{T}} M\mathbf{x} =\sum _{\{u,v\} \in E}( x_{u} -x_{v})^{2}

這個目標函數可以定義圖上的很多問題,比如最小圖分割問題,就是要找到一個方法將圖分成兩塊的使得切割的邊最少(如果邊有權重那就是切割的權重最小)。如下圖,你不能找到一個比切兩條邊更少的分割方法了。
在這裏插入圖片描述

而這個優化問題其實等價於當 x { 0 , 1 } V \displaystyle x\in \{0,1\}^{V} 的時候:

min { u , v } E ( x u x v ) 2 = u A , v ̸ A ( 1 0 ) 2 + u A , v ̸ A ( 0 1 ) 2 = 2 c u t ( A , A ) \min\sum _{\{u,v\} \in E}( x_{u} -x_{v})^{2} =\sum _{u\in A,v\not{\in }\overline{A}}( 1-0)^{2} +\sum _{u\in A,v\not{\in }\overline{A}}( 0-1)^{2} =2cut\left( A,\overline{A}\right)

而這個方程不正是一個二次型嗎。爲了讓二次型得到這個結果。我們發現,當 M = d I A = D A \displaystyle M=dI-A=D-A 的時候就可以了。驗證一下:

x T ( d I A ) x = d x T x x T A x = v d x v 2 2 { u , v } E x u x v = { u , v } E ( x u x v ) 2 \mathbf{x}^{T}( dI-A)\mathbf{x} =d\mathbf{x}^{T}\mathbf{x} -\mathbf{x}^{T} A\mathbf{x} =\sum _{v} dx^{2}_{v} -2\sum _{\{u,v\} \in E} x_{u} x_{v} =\sum _{\{u,v\} \in E}( x_{u} -x_{v})^{2}

此外,當A不是鄰接矩陣而是權重矩陣W的時候,於是d就從度推廣到權重的求和,那麼這個公式還可以推廣爲:

x T L x = x T ( d I W ) x = i , j ω i j ( x u x v ) 2 x^{T} Lx\mathbf{=x}^{T}( dI-W)\mathbf{x} =\sum _{i,j} \omega _{ij}( x_{u} -x_{v})^{2}

RatioCut 切圖聚類

現在,我們可以嘗試將這個目標函數與Ratio切圖聚類的目標函數建立起聯繫,建立聯繫有什麼好處呢?好處就是如果我們發現切圖的目標函數是這個二次型,那麼我們只要優化這個二次型,不就可以用連續的方法來解決一個離散的問題嗎?
RatioCut考慮最小化 c u t ( A 1 , A 2 , . . . , A k ) \displaystyle cut( A_{1} ,A_{2} ,...,A_{k}) ,同時最大化每個子圖的個數即:

R a t i o C u t ( A 1 , A 2 , . . . A k ) = 1 2 i = 1 k c u t ( A i , A i ) A i RatioCut(A_{1} ,A_{2} ,...A_{k} )=\frac{1}{2}\sum\limits ^{k}_{i=1}\frac{cut(A_{i} ,\overline{A}_{i} )}{|A_{i} |}

其中 c u t ( A i , A i ) \displaystyle cut(A_{i} ,\overline{A}_{i} ) 表示兩個子圖之間的距離(兩個子圖結點之間距離的求和):

c u t ( A i , A i ) = i A , j A i w i j cut(A_{i} ,\overline{A}_{i} )=\sum\limits _{i\in A,j\in \overline{A}_{i}} w_{ij}

這裏公式裏的是A與A的補集的切圖權重(切的邊權重的求和),也就是說我們希望子圖A與其餘的圖分離的代價最小,比如我只要切掉一條微不足道的邊就能將兩個複雜的圖(比如兩個團)分離開,那麼就可以認爲這是一個好的切割。

現在我們仿照上面的x,將其推廣到多個簇,於是我們用一個指示函數(one-hot)來表達每個結點屬於哪個子圖,這樣就將切割問題跟二次型建立起了聯繫

我們引入指示向量 h j { h 1 , h 2 , . . h k }   j = 1 , 2 , . . . k h_{j} \in \{h_{1} ,h_{2} ,..h_{k} \}\ j=1,2,...k ,表示有k個子圖,對於任意一個向量 h j \displaystyle h_{j} , 它是一個|V|-維向量(|V|爲結點數,用來標記哪個結點屬於哪個子圖,類似於one-hot),我們定義 h i j \displaystyle h_{ij} 爲:
h i j = { 0 v j A i 1 A i v j A i h_{ij} =\begin{cases} 0 & v_{j} \notin A_{i}\\ \frac{1}{\sqrt{|A_{i} |}} & v_{j} \in A_{i} \end{cases}

那麼,對於每一個子圖都有:
h i T L h i = 1 2 m = 1 V n = 1 V w m n ( h i m h i n ) 2 = 1 2 ( m A i , n A i w m n ( 1 A i 0 ) 2 + m A i , n A i w m n ( 0 1 A i ) 2 = 1 2 ( m A i , n A i w m n 1 A i + m A i , n A i w m n 1 A i = 1 2 ( c u t ( A i , A i ) 1 A i + c u t ( A i , A i ) 1 A i ) = c u t ( A i , A i ) A i \begin{aligned} h^{T}_{i} Lh_{i} & =\frac{1}{2}\sum\limits ^{|V|}_{m=1}\sum\limits ^{|V|}_{n=1} w_{mn} (h_{im} -h_{in} )^{2}\\ & =\frac{1}{2} (\sum\limits _{m\in A_{i} ,n\notin A_{i}} w_{mn} (\frac{1}{\sqrt{|A_{i} |}} -0)^{2} +\sum\limits _{m\notin A_{i} ,n\in A_{i}} w_{mn} (0-\frac{1}{\sqrt{|A_{i} |}} )^{2}\\ & =\frac{1}{2} (\sum\limits _{m\in A_{i} ,n\notin A_{i}} w_{mn}\frac{1}{|A_{i} |} +\sum\limits _{m\notin A_{i} ,n\in A_{i}} w_{mn}\frac{1}{|A_{i} |}\\ & =\frac{1}{2} (cut(A_{i} ,\overline{A}_{i} )\frac{1}{|A_{i} |} +cut(\overline{A}_{i} ,A_{i} )\frac{1}{|A_{i} |} )\\ & =\frac{cut(A_{i} ,\overline{A}_{i} )}{|A_{i} |} \end{aligned}

其原理在於,因爲當 m A i , n A i \displaystyle m\in A_{i} ,n\notin A_{i} 時,因爲結點 v m \displaystyle v_{m} 屬於子圖i,結點 v n \displaystyle v_{n} 不屬於子圖i,於是 h i m h i n = 1 A i 0 \displaystyle h_{im} -h_{in} =\frac{1}{\sqrt{|A_{i} |}} -0 ,同理,當 v m \displaystyle v_{m} , v n \displaystyle v_{n} 都屬於子圖的時候 h i m h i n = 1 A i 1 A i = 0 \displaystyle h_{im} -h_{in} =\frac{1}{\sqrt{|A_{i} |}} -\frac{1}{\sqrt{|A_{i} |}} =0

上述是第i個子圖的式子,我們將k個子圖的h合併成一個H,於是式子變成:

R a t i o C u t ( A 1 , A 2 , . . . A k ) = i = 1 k h i T L h i = i = 1 k ( H T L H ) i i = t r ( H T L H ) s . t .   h i T h i = 1 ,   i = 1 , 2 , . . . , k RatioCut(A_{1} ,A_{2} ,...A_{k} )=\sum\limits ^{k}_{i=1} h^{T}_{i} Lh_{i} =\sum\limits ^{k}_{i=1} (H^{T} LH)_{ii} =tr(H^{T} LH)\\ s.t.\ h^{T}_{i} h_{i} =1,\ i=1,2,...,k

也就是說Ratiocut本質上就是在最小化 t r ( H T L H ) \displaystyle tr(H^{T} LH) 這個東西。那麼怎麼優化呢?注意到每個 h i \displaystyle h_{i} 都是相互正交的,因爲一個結點不能同時屬於多個類別,因此H是一個正交矩陣,又因爲L是一個對稱矩陣,那麼可以證明,H是L的特徵向量的時候,恰好是這個優化問題的解,我們需要要找到那麼特徵值比較小的特徵向量,就可以找到一種代價最小的切割方法。我們可以來證明一下,特徵向量恰好是他的極值:

h ( h T L h λ ( 1 h T h ) ) = h t r ( h T L h λ ( 1 h T h ) ) = h t r ( h T L h ) λ h t r ( h h T ) = u t r ( u u T L ) λ h t r ( h E h T E ) = u t r ( u E u T L ) λ h t r ( h E h T E ) = L u + L T u λ ( h + h ) = 2 L u 2 λ h = 0 L u = λ h \begin{aligned} \nabla _{h}\left( h^{T} Lh-\lambda \left( 1-h^{T} h\right)\right) & =\nabla _{h} tr\left( h^{T} Lh-\lambda \left( 1-h^{T} h\right)\right)\\ & =\nabla _{h} tr\left( h^{T} Lh\right) -\lambda \nabla _{h} tr\left( hh^{T}\right)\\ & =\nabla _{u} tr(uu^{T} L)-\lambda \nabla _{h} tr(hEh^{T} E)\\ & =\nabla _{u} tr(uEu^{T} L)-\lambda \nabla _{h} tr(hEh^{T} E)\\ & =Lu+L^{T} u-\lambda ( h+h)\\ & =2Lu-2\lambda h\\ & =0\\ & \Longrightarrow Lu=\lambda h \end{aligned}

這裏用到了一些最優化求導常用公式技巧,其實這個推導跟PCA是一樣的,只不過PCA找的是最大特徵值(PCA中L是協方差矩陣,目標是找到一個向量最大化方差),這裏是找最小特徵值,我們目標是找到一個向量最小化這個二次型矩陣。
最後,通過找到L的最小的k個特徵值,可以得到對應的k個特徵向量,這k個特徵向量組成一個nxk維度的矩陣,即爲我們的H。一般需要對H矩陣按行做標準化,即

h i j = h i j ( t = 1 k h i t 2 ) 1 / 2 h^{*}_{ij} =\frac{h_{ij}}{(\sum\limits ^{k}_{t=1} h^{2}_{it} )^{1/2}}

由於我們在使用維度規約的時候損失了少量信息,導致得到的優化後的指示向量h對應的H不能完全指示各樣本的歸屬(因爲是連續的優化,不可能恰到得到一個one-hot向量),因此一般在得到nxk維度的矩陣H後還需要對每一行進行一次傳統的聚類,比如使用K-Means聚類,從而得到一個真正的one-hot指示向量。

所以譜聚類的流程可以總結如下:

  1. 計算標準化後的lapace矩陣
  2. 求解標準化lapace矩陣的特徵值與特徵向量
  3. 取最小的k1個特徵向量
  4. 對這k1個特徵向量聚類,聚類數爲k2
  5. 得到k2個簇,就是對應k2個劃分。

GCN

圖卷積神經網絡,顧名思義就是在圖上使用卷積運算,然而圖上的卷積運算是什麼東西?爲了解決這個問題題,我們可以利用圖上的傅里葉變換,再使用卷積定理,這樣就可以通過兩個傅里葉變換的乘積來表示這個卷積的操作。那麼爲了介紹圖上的傅里葉變換,我接來下從最原始的傅里葉級數開始講起。

從傅里葉級數到傅里葉變換

此部分主要參考了馬同學的兩篇文章:

  1. 從傅立葉級數到傅立葉變換
  2. 如何理解傅立葉級數公式?

傅里葉級數的直觀意義

如下圖,傅里葉級數其實就是用一組sin,cos的函數來逼近一個周期函數,那麼每個sin,cos函數就是一組基,這組基上的係數就是頻域,你會發現隨着頻域越來越多(基越來越多),函數的擬合就越準確。
在這裏插入圖片描述

傅里葉變換推導

要講傅里葉變換的推導,我們要先從傅里葉級數講起,考慮一週期等於T,現定義於區間[-T/2,T/2]的周期函數f(x),傅里葉級數近似的表達式如下:

f ( x ) = C + n = 1 ( a n c o s ( 2 π n T x ) + b n s i n ( 2 π n T x ) ) , C R {\displaystyle f(x)=C+\sum ^{\infty }_{n=1}\left( a_{n} cos(\frac{2\pi n}{T} x)+b_{n} sin(\frac{2\pi n}{T} x)\right) ,C\in \mathbb{R}}

利用偶函數*奇函數=奇函數的性質可以計算出 a k \displaystyle a_{k} b k \displaystyle b_{k}

a n = T / 2 T / 2 f ( x ) c o s ( 2 π n T x ) d x T / 2 T / 2 c o s 2 ( 2 π n T x ) d x = 2 T T / 2 T / 2 f ( x ) c o s ( 2 π n T x ) d x b n = T / 2 T / 2 f ( x ) s i n ( 2 π n T x ) d x T / 2 T / 2 s i n 2 ( 2 π n T x ) d x = 2 T T / 2 T / 2 f ( x ) s i n ( 2 π n T x ) d x a_{n} =\frac{\int ^{T/2}_{-T/2} f(x)cos(\frac{2\pi n}{T} x)dx}{\int ^{T/2}_{-T/2} cos^{2} (\frac{2\pi n}{T} x)dx} =\frac{2}{T}\int ^{T/2}_{-T/2} f(x)cos(\frac{2\pi n}{T} x)dx\\ b_{n} =\frac{\int ^{T/2}_{-T/2} f(x)sin(\frac{2\pi n}{T} x)dx}{\int ^{T/2}_{-T/2} sin^{2} (\frac{2\pi n}{T} x)dx} =\frac{2}{T}\int ^{T/2}_{-T/2} f(x)sin(\frac{2\pi n}{T} x)dx

利用歐拉公式 e i x = cos x + i sin e^{ix} =\cos x+i\sin x,我們發現 cos x , sin x \displaystyle \cos x,\sin x 可表示成

cos x = e i x + e i x 2 , sin x = e i x e i x 2 i {\displaystyle \cos x=\frac{e^{ix} +e^{-ix}}{2} ,\sin x=\frac{e^{ix} -e^{-ix}}{2i} ,}

再將傅立葉級數f(x)中 cos ( 2 π n T x ) \cos (\frac{2\pi n}{T} x) sin ( 2 π n T x ) \sin (\frac{2\pi n}{T} x) 的線性組合式改寫如下:

a n cos ( 2 π n T x ) + b n sin ( 2 π n T x ) = a n ( e i 2 π n T x + e i 2 π n T x 2 ) + b k ( e i 2 π n T x e i 2 π n T x 2 i ) = ( a n i b n 2 ) e i 2 π n T x + ( a n + i b n 2 ) e i 2 π n T x = c n e i 2 π n T x + c n e i 2 π n T x \begin{aligned} a_{n}\cos (\frac{2\pi n}{T} x)+b_{n}\sin (\frac{2\pi n}{T} x) & =a_{n}\left(\frac{e^{i\frac{2\pi n}{T} x} +e^{-i\frac{2\pi n}{T} x}}{2}\right)+b_{k}\left(\frac{e^{i\frac{2\pi n}{T} x} -e^{-i\frac{2\pi n}{T} x}}{2i}\right)\\ & =\left(\frac{a_{n} -ib_{n}}{2}\right) e^{i\frac{2\pi n}{T} x} +\left(\frac{a_{n} +ib_{n}}{2}\right) e^{-i\frac{2\pi n}{T} x}\\ & =c_{n} e^{i\frac{2\pi n}{T} x} +c_{-n} e^{-i\frac{2\pi n}{T} x} \end{aligned}

可以驗證 c n = a n i b n 2 = a n + i b n 2 \displaystyle c_{-n} =\frac{a_{-n} -ib_{-n}}{2} =\frac{a_{n} +ib_{n}}{2} ,這是因爲an是一個偶函數,bn是一個奇函數。此外,若n=0,就有 c 0 = a 0 / 2 c_{0} =a_{0} /2 。將以上結果代回f(x)的傅立葉級數即得指數傅立葉級數:

f ( x ) = n = c n e i 2 π n x T {\displaystyle f(x)=\sum ^{\infty }_{n=-\infty }\underbrace{c_{n}}_{基的座標} \cdot \underbrace{e^{i\tfrac{2\pi nx}{T}}}_{正交基}}

現在我們知道 c n = a n i b n 2 \displaystyle c_{n} =\frac{a_{n} -ib_{n}}{2} ,將 a n , b n \displaystyle a_{n} ,b_{n} 的結果代進去可以得到:
c n = 1 T T / 2 T / 2 f ( x ) ( cos ( 2 π n T x ) i sin ( 2 π n T x ) ) d x = 1 T T / 2 T / 2 f ( x ) e i 2 π n T x d x c_{n} =\frac{1}{T}\int ^{T/2}_{-T/2} f(x)(\cos (\frac{2\pi n}{T} x)-i\sin (\frac{2\pi n}{T} x))dx=\frac{1}{T}\int ^{T/2}_{-T/2} f(x)e^{-i \frac{2\pi n}{T}} x dx

公式用頻率替換: Δ ω = 2 π T \displaystyle \Delta \omega =\frac{2\pi }{T} ,再令 ω n = ω n \displaystyle \omega _{n} =\omega n 現在我們可以寫出全新的傅里葉級數:

f ( x ) = n = Δ ω 2 π T / 2 T / 2 f ( x ) e i ω n x d x e i ω n x {\displaystyle f(x)=\sum ^{\infty }_{n=-\infty }\frac{\Delta \omega }{2\pi }\int ^{T/2}_{-T/2} f(x)e^{-i\omega _{n} x} dx\cdot } e^{i\omega _{n} x}

現在令 T Δ ω 0 \displaystyle T\rightarrow \infty ,\Delta \omega \rightarrow 0 ,並設 F ( ω ) = lim T T / 2 T / 2 f ( x ) e i ω x d x \displaystyle F{\displaystyle ( \omega ) =\lim _{T\rightarrow \infty }\int ^{T/2}_{-T/2} f(x)e^{-i\omega x} dx}
f ( x ) = n = Δ ω 2 π F ( ω n ) e i ω n x = 1 2 π n = F ( ω n ) e i ω n x Δ ω = 1 2 π + F ( ω ) e i ω x d ω \begin{aligned} {\displaystyle f(x)} & ={\displaystyle \sum ^{\infty }_{n=-\infty }\frac{\Delta \omega }{2\pi } F( \omega _{n}) \cdot } e^{i\omega _{n} x}\\ & ={\displaystyle \frac{1}{2\pi }\sum ^{\infty }_{n=-\infty } F( \omega _{n}) \cdot } e^{i\omega _{n} x} \Delta \omega \\ & ={\displaystyle \frac{1}{2\pi }\int ^{+\infty }_{-\infty } F( \omega ) \cdot } e^{i\omega x} d\omega \end{aligned}

於是得到了傅里葉變換就是

F ( ω ) = + f ( x ) e i ω x d x {\displaystyle F( \omega ) =\int ^{+\infty }_{-\infty } f(x)e^{-i\omega x} dx}

Signal Processing on Graph

在將圖的傅里葉變換之前,我們先介紹一下圖信號是什麼。我們在傳統概率圖中,考慮每個圖上的結點都是一個feature,對應數據的每一列,但是圖信號不一樣,這裏每個結點不是隨機變量,相反它是一個object。也就是說,他描繪概率圖下每個樣本之間的圖聯繫,可以理解爲刻畫了不滿足iid假設的一般情形。
在這裏插入圖片描述

圖上的傅里葉變換

那麼我們要怎麼將傳統的傅里葉變換推廣到圖結構中去?回憶一下,傳統對f作傅里葉變換的方法:

f ^ ( ξ ) : = < f , e 2 π i ξ t > = R f ( t ) e 2 π i ξ t d t \hat{f} (\xi ):=\left< f,e^{2\pi i\xi t}\right> =\int _{\mathbb{R}} f(t)e^{-2\pi i\xi t} dt

我們換了種寫法,其實我們發現這個傅里葉變換本質上是一個內積。這個 e 2 π i ξ t \displaystyle e^{-2\pi i\xi t} 其實是lapace算子的一個特徵函數,可以理解爲一種特殊形式的特徵向量:

Δ ( e 2 π i ξ t ) = 2 t 2 e 2 π i ξ t = ( 2 π ξ ) 2 e 2 π i ξ t -\Delta \left( e^{2\pi i\xi t}\right) =-\frac{\partial ^{2}}{\partial t^{2}} e^{2\pi i\xi t} =(2\pi \xi )^{2} e^{2\pi i\xi t}

注意,這裏導數本質上是一個線性變換,因爲它滿足線性算子的兩個性質,T(x+y)=T(x)+T(y), cT(x)=T(cx)。可以看到 e 2 π i ξ t \displaystyle e^{2\pi i\xi t} 是laplace算子的特徵向量,而 ( 2 π ξ ) 2 \displaystyle (2\pi \xi )^{2} 則是lapace算子的特徵值。那麼在圖上我們的laplace矩陣就是離散化的lapace算子,而這個算子在圖上的基顯然就是特徵向量了!

因此,只要意識到傳統的傅里葉變換本質上求的是與正交基的內積(比如基 e 2 π i ξ t \displaystyle e^{2\pi i\xi t} )上的係數,而推廣到圖上的正交基很顯然就是laplace矩陣的特徵值,於是對於laplace矩陣的傅里葉變換就可以表達爲:

f ^ ( λ l ) : = < f , u l > = i = 1 N f ( i ) u l ( i ) \hat{f}( \lambda _{l}) :=< \mathbf{f} ,\mathbf{u}_{l}> =\sum ^{N}_{i=1} f(i)u^{*}_{l} (i)

顯然這個變換就是在求解特徵向量的係數,也就是特徵值,因此,可以理解爲圖上的經過傅里葉變換後的函數 f ^ \displaystyle \hat{f} 就是一個計算特徵值的函數。

更一般的,圖上的傅里葉變換可以寫成以下內積的形式,其中U是laplace矩陣的特徵向量矩陣:
傅里葉變換:

x ^ = U T x \hat{x} =U^{T} x

傅里葉逆變換:

x = U x ^ x=U\hat{x}

因此,我們就可以定義圖上的卷積,因爲它就是簡單的兩個變換的乘積而已:
比如,x,y的卷積,就是他們傅里葉變換相乘

y x = U T y U x y\star x=U^{T} yU^{\top } x

如果我們將y參數化,設 g θ = diag ( θ ) \displaystyle g_{\theta } =\operatorname{diag} (\theta ) ,就可以訓練一個卷積核:

g θ x = U g θ U x g_{\theta } \star x=Ug_{\theta } U^{\top } x

然而計算U的代價太高了,因此要想辦法去近似它,有人提出,

g θ ( Λ ) k = 0 K θ k T k ( Λ ~ ) g_{\theta ^{\prime }} (\Lambda )\approx \sum ^{K}_{k=0} \theta ^{\prime }_{k} T_{k} (\tilde{\Lambda } )

g θ x = U g θ U x g_{\theta } \star x=Ug_{\theta } U^{\top } x

然而計算U的代價太高了,因此要想辦法去近似它,有人提出,

g θ ( Λ ) k = 0 K θ k T k ( Λ ~ ) g_{\theta ^{\prime }} (\Lambda )\approx \sum ^{K}_{k=0} \theta ^{\prime }_{k} T_{k} (\tilde{\Lambda } )
其中 Λ ~ = 2 λ max Λ I N \displaystyle \tilde{\Lambda } =\frac{2}{\lambda _{\max}} \Lambda -I_{N} ,現在假設 λ max 2 \displaystyle \lambda _{\max} \approx 2

g θ x θ 0 x + θ 1 ( L I N ) x = θ 0 x θ 1 D 1 2 A D 1 2 x g_{\theta ^{\prime }} \star x\approx \theta ^{\prime }_{0} x+\theta ^{\prime }_{1}( L-I_{N}) x=\theta ^{\prime }_{0} x-\theta ^{\prime }_{1} D^{-\frac{1}{2}} AD^{-\frac{1}{2}} x

最後再假設這兩個參數是共享的,可以得到:

g θ x θ ( I N /span> x

最後再假設這兩個參數是共享的,可以得到:

g θ x θ ( I N + D 1 2 A D 1 2 ) x g_{\theta } \star x\approx \theta \left( I_{N} +D^{-\frac{1}{2}} AD^{-\frac{1}{2}}\right) x

相關文章
相關標籤/搜索