《Predict Anchor Links across Social Networks via an Embedding Approach》閱讀筆記

時間 2019-12-14

標籤 predict anchor links social networks embedding approach 閱讀筆記简体版

原文原文鏈接

基本信息

文獻：Predict Anchor Links across Social Networks via an Embedding Approachhtml

時間：2016跨域

期刊：IJCAI網絡

引言

預測跨社交網絡的錨連接對於一系列應用具備重要意義，包括跨網絡信息擴散和跨域推薦。一個具備挑戰性的問題是：若是隻有網絡的結構信息可用，咱們是否可以以及在多大程度上解決錨鏈預測問題。dom

有關錨連接的信息一般在實際狀況下不可用，由於大多數用戶沒有動機或不肯意在不一樣的在線社交網絡中明確關聯他們的身份。這就引出了錨連接預測的問題，即，識別跨不一樣社交網絡的隱藏錨連接。利用網絡結構進行錨鏈預測的現有方法分爲兩大類：函數

第一類方法是以無監督的方法來解決，所以不須要任何關於跨網絡的顯式對應的信息。這些方法將錨連接預測問題看做一個網絡結構對齊問題，經過在網絡中找到節點之間的某些結構類似性來進行解決，但這種方法一般是 NP-Hard 的組合優化問題。所以，這些方法要麼限於具備中等規模的網絡，要麼僅適用於稀疏假設下的大規模網絡。學習

第二類方法是採用監督的方法，即經過已知的錨連接的監督來解決錨連接預測問題。大多數現有的監督方法直接採用社交網絡的結構特徵，例如度，聚類係數，涉及的三角形的數量，共同的鄰居等。在沒有捕獲社交網絡的內在結構規律的狀況下，這些方法對網絡結構特別敏感，所以網絡結構的輕微變化或噪聲可能致使顯着不一樣的結果。優化

爲了彌補這些差距，做者提出了一個新的監督方法，稱爲 PALE（Predicting Anchor Links via Embedding）來解決錨連接預測問題。該模型包含兩個錨連接感知階段，即嵌入和匹配。人工智能

嵌入（Embedding）：該階段主要是將每一個網絡嵌入到一個低維向量空間來學習每一個節點的有效表示。經過這種方式，能夠很好地捕獲網絡的主要結構規律，同時濾除可有可無的一些細節。同時，利用觀察到的錨鏈做爲監督信息，網絡嵌入也保留了特定的結構規律，該方法使咱們的模型對網絡結構的微小變化具備魯棒性。spa

匹配（Matching）：該階段主要是將節點的低維表示做爲特徵，並以已經觀察到的錨連接做爲監督信息，從而學習兩個低維空間之間的映射函數。爲了使得兩個潛在空間能夠靈活地進行非線性相關，做者採用了多層感知器（MLP）來學習映射函數。最後，對於一個網絡中的每一個節點，咱們根據學習的映射函數識別另外一個網絡中最可能的對應節點。3d

除了魯棒性以外，做者提出的模型的另外一個重要優勢是網絡結構的低維表示能夠容易地與內容和人口統計特徵相結合，以進一步提升錨鏈預測的準確性。

Predict Anchor Links via Embedding

令 \(G=\lbrace V,E \rbrace\) 表示一個社交網絡，\(V\) 表示節點集合，\(E\subset (V\times V)\) 表示邊集合。在生活中，存在一些用戶同時涉及到兩個不一樣的社交網絡中，從而兩個社交網絡間的錨連接。爲了避免失通常性，將其中一個網絡做爲源網絡，另外一個網絡做爲目標網絡，分別用 \(G^s\) 和 \(G^t\) 表示。對於源網絡的每個節點，咱們的目的是在目標網絡中識別其對應的節點（若是存在的話）。這能夠正式表述爲如下錨連接預測問題。

Anchor link prediction：

給定兩個社交網絡 \(G^s=\lbrace V^s,E^s \rbrace\) 和 \(G^t=\lbrace V^t,E^t \rbrace\) ，和一個已經觀察到的錨連接集合 \(T=\lbrace (v,u)|v\in V^s, u\in V^t \rbrace\)，該問題旨在識別 \(G^s\) 和 \(G^t\) 間的其它隱藏錨連接。

做者經過將兩個社交網絡分別表示爲兩個低維空間 \(Z^s\) 和 \(Z^t\) ，而後再學習兩個嵌入空間的映射函數： \(\phi:Z^s \to Z^t\)。所以，PALE 模型的目的就是經過最小化下列目標函數來找到最佳的 \(Z^s\)， \(Z^t\) 和 \(\phi\) 。

其中，\(L_e(G^s,Z^s,G^t,Z^t,T)\) 表示將源網絡 \(G^s\) 和目標網絡 \(G^t\) 分別轉化爲低維空間 \(Z^s\) 和 \(Z^t\) 的損失，而 \(L_m(\phi, Z^s,Z^t,T)\) 是匹配時的損失函數，反映了匹配函數 \(\phi\) 是否將在 \(T\) 中已知的錨連接正確預測。

然而，因爲 \(Z^s\)， \(Z^t\) 和 \(\phi\) 之間的相互依賴，上述的目標函數很可貴到有效地最優解。所以，做者採用了兩階段的嵌入和匹配的方法來轉而去找到一個近似解。以下圖所示：

嵌入階段

該階段將每個網絡都嵌入到一個低維潛在空間，每一個節點 \(v_i\) 被表示爲一個低維向量 \(z_i\)。該問題的關鍵是對社交網絡中那些未觀察到的邊的處理，即那些還未明確創建地或者沒有爬取成功的社交關係。當將網絡嵌入潛在空間時，這些缺失的邊可能致使不可靠的表示。

跨網絡擴展

所以，做者提出了一個基於已經觀察到的錨連接和其它網絡的社交結構來識別隱藏的邊的策略。若是兩個節點在一個社交網絡中沒有關聯關係，可是他們在另外一個社交網絡中的對應節點間存在關聯關係，則應該在當前網絡中增長這兩個節點間的邊，如 Figure 2 所示：

即，對於給定的兩個社交網絡 \(G^s\) 和 \(G^t\)，以及它們之間的已觀察到的錨連接集合 \(T\)。源網絡 \(G^s\) 的擴展網絡 \(\tilde{G}^s\) 能夠表示爲：

注意，在該模型中，擴網絡擴展並非強制要求的。該步驟只是爲了更好地進行網絡表示。

網絡嵌入

因爲是獨立地將兩個網絡嵌入到兩個向量空間，因此該部分對於源網絡和目標網絡使用不加上標的統一表示。對於一對節點 \(v_i\) 和 \(v_j\)，給定他們的 \(d\) 維表示 \(z_i\) 和 \(z_j\)，則它們之間觀察到邊的機率爲：

爲了學習網絡的潛在表示，做者採用極大似然估計的方法，即根據給定的網絡結構來反推出最有可能出現該結構的節點表示，即最大化如下目標函數：

\[L=\prod_{(i,j)\in \tilde{E}}{p(v_i,v_j)}\]
將其轉化爲對數似然函數：

\[\sum_{(i,j)\in \tilde{E}}{\log p(v_i,v_j)}=\sum_{(i,j)\in \tilde{E}}{\log \sigma(z_i^T\cdot z_j)}\]

做者進一步引入了負採樣機制，可是這部分的原理本人沒有弄懂：

直接使用極大似然估計會存在什麼問題？

負採樣的原理和機制是怎麼樣的？

負採樣的推理過程？

其中，第一項對已觀察的邊進行建模，第二個指望項從一個空模型中採樣負邊（negative edges），每一個節點以機率 \(P_n(v)\sim d_v^{3/4}\)，\(K\) 爲採樣的負邊的數目，\(d_v\) 爲節點的度。經過分別對兩個社交網絡中全部邊按照公式（5）求和並進行最大化就能獲得兩個社交網絡的潛在表示，最大化的過程能夠將其轉化爲最小化而使用隨機梯度降低的方法。

負採樣

本文提到的負採樣機制參考了 skip-gram 模型，具體內容能夠參看文獻一和基於 Negative Sampling 的模型。

該思想是採用了噪音對比估計（Noise Contrastive Estimation, NCE），該方法認爲一個好的模型應該可以經過邏輯迴歸將數據與噪聲區分開來。因爲 Skipgram 模型僅關注學習高質量的向量表示，所以只要向量表示保持其質量，咱們就能夠自由地簡化 NCE 。採用公式（4）的方式定義負採樣來替換 Skip-gram 目標函數中的每個 \(\log P(w_O|w_I)\) 項。所以，任務是使用邏輯迴歸將目標詞 \(w_O\) 與從噪聲分佈 \(P_n(w)\) 抽樣的詞區分開，其中對於每一個數據樣本存在 k 個負樣本。負採樣和 NCE 之間的主要區別在於 NCE 須要樣本和噪聲分佈的數值機率，而負採樣僅使用樣本。

匹配階段

在匹配階段，基於學習到的兩個網絡的潛在表示，其目的是利用已知的錨連接 \((v_l^s,u_n^t)\in T\) 以及對應的潛在表示 \(z_l^s\) 和 \(z_n^t\) 來學習一個映射函數 \(\phi\)。映射函數的目的是使得在源網絡 \(Z^s\) 中的節點表示 \(z_l^s\) ，通過映射函數 \(\phi\) 後，其與在目標網絡 \(Z^t\) 中對應節點的距離應該最小。令 \(\Theta\) 表示映射函數的全部參數，則損失函數能夠以下定義：

\[L_m(\phi,Z^s,Z^t,T)=\sum_{(v_l^s,u_n^t)\in T}{||\phi(z_l^s;\Theta)-z_n^t||_F}\]

對於映射函數，做者分別考慮了線性和非線性函數。

對於線性映射函數，\(\Theta\) 是一個 \(d\times d\) 維的矩陣，即：

\[\phi(z_l^s;\Theta)=\Theta \times z_l^s\]
其目的是找到一個最好的矩陣 \(\Theta\) ，使得對於全部標記的錨連接對 \((v_l^s,u_n^t)\in T\) 都有 \(\Theta \times v_l^s\) 很是近似於 \(v_n^t\) 。

對於非線性映射函數，做者採用了多層感知器（MLP）來捕獲源空間和目標空間的非線性關係。以這種方式，在網絡嵌入階段中得到的兩個空間不須要線性對齊，這爲嵌入階段提供了更大的靈活性以捕獲網絡的結構規律。

錨連接預測

預測階段，對於源網絡中的任意一個節點 \(v_l^s\)，首先獲取其嵌入表示 \(z_l^s\)；而後根據學習到的映射函數 \(\phi(z_l^s; \Theta)\) 將其映射到目標向量空間；最後經過識別與 \(\phi(z_l^s; \Theta)\) 最接近的對應節點 \(u_n^t\) 來預測錨連接，對應節點能夠經過如下方式查找：

\[\min_n||\phi(z_l^s; \Theta)-z_n^t||_F\]

對於源網絡的每一個節點，均可以經過上述方式提供目標網絡中的一個候選節點列表。從而用 hits 指標評估。

時間複雜度

在嵌入階段，一個網絡 \(G\) 的總時間複雜度爲 \(O(kd|E|)\)，其中 \(k\) 爲迭代次數，\(d\) 是嵌入向量的維度，\(|E|\) 是網絡中邊的數目。

在潛在空間匹配階段，線性映射函數和非線性映射函數有不一樣的時間複雜度。線性映射函數的時間複雜度爲 \(O(|T|d^3)\)；而使用 MLP 做爲非線性映射函數，其時間複雜度爲 \(O(kd|T|)\)。

在預測階段，對於任意一個節點，識別其在目標網絡中的對應節點的時間複雜度爲 \(O(|V|d^2)\)。

實驗

實驗採用兩個數據集，一個是基於 Facebook 採樣的兩個子網絡，另外一個則是不一樣研究領域的兩個共同做者網絡。對比方案分別爲：

Degree-Based Alignment：即依據節點的度來進行匹配，做爲一個基線方法；
Matching Across Domains（MAD）：它經過奇異值分解來匹配同構網絡上的共享節點，採用無監督方法；
Multi-Network Anchoring（MNA）：它從部分對齊的社交網絡中提取成對的社交特徵，而後將錨連接預測問題解決爲分類問題；
Collective Random Walk（CRW）：在具備錨連接的網絡上進行隨機遊走以識別另外一網絡中的每一個節點的對應物；
PALE（LIN）：PALE 模型加上線性映射函數；
PALE（MLP）：PALE 模型加上 MLP 做爲非線性映射函數。

評估指標採用 F1-measure 和 MAP@30。

基於 Facebook 的實驗

第一個數據集爲 Facebook 數據集，做者首先過濾了那些度小於 5 的節點，最終保留了 40710 個用戶和 766519 條邊。接着做者基於過濾的數據採樣獲得兩個子網絡，每一個網絡都保留了原始網絡中的全部節點。而對於每一條邊，利用 [0, 1] 均勻分佈來生成一個隨機值。若是 \(p\leq 1-2\alpha_s+\alpha_s\alpha_c\)，直接丟棄這條邊；若是 \(1-2\alpha_s+\alpha_s\alpha_c < p \leq 1-\alpha_s\)，則將其只保留在第一個子網絡中；若是 \(1-\alpha_s< p \leq 1-\alpha_s\alpha_c\) ，則將其只保留在第二個子網絡中；不然，將該條邊同時保留在兩個子網絡中。經過上述方式，兩個子網絡都平均保留了原始網絡中的 \(\alpha_s\) 比例的邊。參數 \(\alpha_c\) 代表了兩個子網絡中有多少比例的邊是共享的。

因爲兩個子網絡都保留了原始網絡中的全部節點，因此源網絡和目標網絡中的每對對應的節點都是能夠做爲 ground truth 的錨連接，實驗選擇其中的 \(\alpha_t\) 做爲監督錨連接集合 \(T\)，並分別在不一樣的稀疏級別 \(\alpha_s\) 和不一樣的覆蓋級別 \(\alpha_c\) 上進行實驗。

基於共同做者網絡的實驗

第二個數據集是由人工智能（AI）和數據挖掘（DM）領域的會議論文組成的共同做者網絡，表示爲 AI-DM。該數據集來源於 MAG ，這是一個異構圖，包含出版物的數目信息，出版物之間的引文關係，以及做者和機構的信息。做者分別選擇了 AI 和 DM 領域的 10 個會議，而後在這兩組論文上創建了兩個共同做者網絡，而且過濾掉少於 3 個共同做者關係的做者。這兩個網絡間有 1154 個共同做者，造成了錨連接的 ground truth。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。