深度學習新星：圖卷積神經網絡GCN

時間 2021-05-28

標籤 html node python git github 網絡數據結構 app 框架機器學習欄目 HTML 简体版

原文原文鏈接

深度學習新星：圖卷積神經網絡GCN

做者：金鬆html

引言

深度學習一直都是被幾大經典模型給統治着，如CNN、RNN等等，它們不管再CV仍是NLP領域都取得了優異的效果，那這個GCN是怎麼跑出來的？是由於咱們發現了不少CNN、RNN沒法解決或者效果很差的問題——圖結構的數據。node

圖片或者語言，都屬於歐式空間的數據，所以纔有維度的概念，歐式空間的數據的特色就是結構很規則。可是現實生活中，其實有不少不少不規則的數據結構，典型的就是圖結構，或稱拓撲結構，如社交網絡、化學分子結構、知識圖譜等等；即便是語言，實際上其內部也是複雜的樹形結構，也是一種圖結構；而像圖片，在作目標識別的時候，咱們關注的實際上只是二維圖片上的部分關鍵點，這些點組成的也是一個圖的結構。python

圖的結構通常來講是十分不規則的，能夠認爲是無限維的一種數據，因此它沒有平移不變性。每個節點的周圍結構可能都是獨一無二的，這種結構的數據，就讓傳統的CNN、RNN瞬間失效。因此不少學者從上個世紀就開始研究怎麼處理這類數據了。這裏涌現出了不少方法，例如GNN、DeepWalk、node2vec等等，GCN只是其中一種，這裏只講GCN，其餘的後面有空再討論。git

GCN，圖卷積神經網絡，實際上跟CNN的做用同樣，就是一個特徵提取器，只不過它的對象是圖數據。GCN精妙地設計了一種從圖數據中提取特徵的方法，從而讓咱們可使用這些特徵去對圖數據進行節點分類（node classification）、圖分類（graph classification）、邊預測（link prediction），還能夠順便獲得圖的嵌入表示（graph embedding），可見用途普遍。所以如今人們腦洞大開，讓GCN到各個領域中發光發熱。
本文會用最簡單的GCN在拳擊俱樂部社交網絡上作分類任務，讓沒接觸過的童鞋較快理解。github

0. 問題描述

首先，簡單介紹一下數據集。網絡

Zachary's Karate Club是一個描述大學空手道俱樂部成員社交關係的網絡，由Wayne W. Zachary在論文《An Information Flow Model for Conflict and Fission in Small Groups》中提出，是一個經常使用的社交網絡示例。這個空手道俱樂部包含34名成員，管理員 John A 和教官 Mr. Hi 之間的一次衝突致使這個俱樂部一分爲二，一半的成員圍繞着 Mr. Hi 成立了一個新俱樂部，另外一半成員要麼找到了新的教練，要麼放棄了空手道。所以，在對應的社交網絡中，節點也被劃分爲兩個組，一組屬於Mr. Hi (Instructor) ，另外一組屬於John A (Administrator)，其中節點0表明Mr. Hi，節點33表明John A。數據結構

咱們能夠利用networkx直接獲取Zachary's Karate Club數據，此時管理員 John A 被稱爲Officer。任務是預測每一個節點會加入哪一邊（0or33）。對該社交網絡的可視化以下：
app

1. 建立一張graph

首先建立關於拳擊俱樂部的網絡框架

import dgl
import numpy as np

def build_karate_club_graph():
    # All 78 edges are stored in two numpy arrays. One for source endpoints
    # while the other for destination endpoints.
    src = np.array([1, 2, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 7, 7, 7, 8, 8, 9, 10, 10,
        10, 11, 12, 12, 13, 13, 13, 13, 16, 16, 17, 17, 19, 19, 21, 21,
        25, 25, 27, 27, 27, 28, 29, 29, 30, 30, 31, 31, 31, 31, 32, 32,
        32, 32, 32, 32, 32, 32, 32, 32, 32, 33, 33, 33, 33, 33, 33, 33,
        33, 33, 33, 33, 33, 33, 33, 33, 33, 33])
    dst = np.array([0, 0, 1, 0, 1, 2, 0, 0, 0, 4, 5, 0, 1, 2, 3, 0, 2, 2, 0, 4,
        5, 0, 0, 3, 0, 1, 2, 3, 5, 6, 0, 1, 0, 1, 0, 1, 23, 24, 2, 23,
        24, 2, 23, 26, 1, 8, 0, 24, 25, 28, 2, 8, 14, 15, 18, 20, 22, 23,
        29, 30, 31, 8, 9, 13, 14, 15, 18, 19, 20, 22, 23, 26, 27, 28, 29, 30,
        31, 32])
    # Edges are directional in DGL; Make them bi-directional.
    u = np.concatenate([src, dst])
    v = np.concatenate([dst, src])
    # Construct a DGLGraph
    return dgl.DGLGraph((u, v))

打印出新定義 Graph 的節點和邊機器學習

G = build_karate_club_graph()
print('We have %d nodes.' % G.number_of_nodes())
print('We have %d edges.' % G.number_of_edges())

用 networkx 可視化新的graph

import networkx as nx
# Since the actual graph is undirected, we convert it for visualization
# purpose.
nx_G = G.to_networkx().to_undirected()
# Kamada-Kawaii layout usually looks pretty for arbitrary graphs
pos = nx.kamada_kawai_layout(nx_G)
nx.draw(nx_G, pos, with_labels=True, node_color=[[.7, .7, .7]])

2. 給邊和節點賦予特徵

圖神經網絡會聯合節點和邊的特徵作訓練。

在這個例子中，由於沒有節點的特徵，就用one-hot的embedding方法獲得維度爲5的特徵

import torch
import torch.nn as nn
import torch.nn.functional as F

embed = nn.Embedding(34, 5)  # 34 nodes with embedding dim equal to 5
G.ndata['feat'] = embed.weight

打印出節點的特徵來驗證下

# print out node 2's input feature
print(G.ndata['feat'][2])

# print out node 10 and 11's input features
print(G.ndata['feat'][[10, 11]])

3. 定義一個圖卷積網絡

簡單的定義一個圖卷積神經網絡框架。

在第 $l $ 層，每一個節點 $v_i^l$ 用一個節點向量 $h_i^l$ 表示；
GCN的每一層的目的是聚合每個節點 $v_i^{l}$ 的鄰居節點們 $u_i$ 用來生成下一層的向量表示 $v_i^{l+1}$ ,而後接一個非線性的激活函數。

上面整個步驟能夠看做一個message-passing的範式：每一個節點會接受鄰居節點的信息從而更新自身的節點表示。一個圖形化的例子就是：

DGL庫提供了 GCN 層的實現

from dgl.nn.pytorch import GraphConv

定義了包含了兩個GCN層的GCN模型

class GCN(nn.Module):
    def __init__(self, in_feats, hidden_size, num_classes):
        super(GCN, self).__init__()
        self.conv1 = GraphConv(in_feats, hidden_size)
        self.conv2 = GraphConv(hidden_size, num_classes)

    def forward(self, g, inputs):
        h = self.conv1(g, inputs)
        h = torch.relu(h)
        h = self.conv2(g, h)
        return h

# The first layer transforms input features of size of 5 to a hidden size of 5.
# The second layer transforms the hidden layer and produces output features of
# size 2, corresponding to the two groups of the karate club.
net = GCN(5, 5, 2)

4. 準備數據 & 初始化

使用one-hot向量初始化節點。由於是一個半監督的設定，僅有指導員（節點0）和俱樂部主席（節點33）被分配了label，實現以下：

inputs = embed.weight
labeled_nodes = torch.tensor([0, 33])  # only the instructor and the president nodes are labeled
labels = torch.tensor([0, 1])  # their labels are different

5. 訓練 & 可視化展現

訓練的步驟和PyTorch模型同樣

建立優化器，
輸入input數據，
計算loss，
使用反向傳播優化模型

import itertools

optimizer = torch.optim.Adam(itertools.chain(net.parameters(), embed.parameters()), lr=0.01)
all_logits = []
for epoch in range(50):
    logits = net(G, inputs)
    # we save the logits for visualization later
    all_logits.append(logits.detach())
    logp = F.log_softmax(logits, 1)
    # we only compute loss for labeled nodes
    loss = F.nll_loss(logp[labeled_nodes], labels)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    print('Epoch %d | Loss: %.4f' % (epoch, loss.item()))

這是一個很是簡單的小例子，甚至沒有劃分驗證集和測試集。所以，由於模型最後輸出了每一個節點的二維向量，咱們能夠輕易的在2D的空間將這個過程可視化出來，下面的代碼動態的展現了訓練過程當中從開始的狀態到到最後全部節點都線性可分的過程。

import matplotlib.animation as animation
import matplotlib.pyplot as plt

def draw(i):
    cls1color = '#00FFFF'
    cls2color = '#FF00FF'
    pos = {}
    colors = []
    for v in range(34):
        pos[v] = all_logits[i][v].numpy()
        cls = pos[v].argmax()
        colors.append(cls1color if cls else cls2color)
    ax.cla()
    ax.axis('off')
    ax.set_title('Epoch: %d' % i)
    nx.draw_networkx(nx_G.to_undirected(), pos, node_color=colors,
            with_labels=True, node_size=300, ax=ax)

fig = plt.figure(dpi=150)
fig.clf()
ax = fig.subplots()
draw(0)  # draw the prediction of the first epoch
plt.close()

下面的動態過程展現了模型通過一段訓練以後可以準確預測節點屬於哪一個羣組。

ani = animation.FuncAnimation(fig, draw, frames=len(all_logits), interval=200)

項目實戰連接：https://momodel.cn/workspace/5e8b3a29142d1d72944d121f/app

參考文獻：

關於咱們

Mo（網址：https://momodel.cn）是一個支持 Python的人工智能在線建模平臺，能幫助你快速開發、訓練並部署模型。

近期 Mo 也在持續進行機器學習相關的入門課程和論文分享活動，歡迎你們關注咱們的公衆號獲取最新資訊！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。