7篇ICLR論文，遍覽聯邦學習最新研究進展 - 知乎

本篇提早看重點關注 ICLR 2020 中關於聯邦學習（Federated Learning）的最新研究進展。

機器之心分析師網絡，做者：仵冀穎，編輯：H4O。git

2020 年的 ICLR 會議原計劃於4 月 26 日至 4 月 30 日在埃塞俄比亞首都亞的斯亞貝巴舉行，這本是首次在非洲舉辦的頂級人工智能國際會議，但受到疫情影響，ICLR 2020 被迫取消線下會議改成線上虛擬會議。今年的 ICLR 論文接受狀況以下：共計接收 679 片文章，其中：poster-paper 共 523 篇、Spotlight-paper（焦點論文）共 107 篇、演講 Talk 共 48 篇，另有被拒論文（reject-paper）共計 1907 篇，接受率爲 26.48%。算法

本篇提早看重點關注 ICLR 2020 中關於聯邦學習（Federated Learning）的最新研究進展。聯邦學習是一種在分佈式網絡中實現的客戶端本地存儲數據並訓練局部模型、中央服務器匯聚各客戶端上載數據後訓練構建全局模型的分佈式機器學習處理框架。聯邦學習可以有效解決分佈式網絡中兩方或多方數據使用實體（客戶端）在不貢獻出數據的狀況下的數據共同使用問題，同時保證全局模型可以得到與數據集中式存儲相同的建模效果。關於聯邦學習，機器之心也有過相關的進展分析報道。數據庫

在 ICLR 2020 的接受論文中，共有 7 篇文章與聯邦學習相關，其中 2 篇爲演講 Talk的文章，5 篇爲poster-paper。本文從中選擇 3 篇進行分析，分別聚焦的是聯邦學習的整體優化目標設置、全局模型構建方法以及數據特徵對齊問題，具體爲：跨域

Poster Paper安全

Fair Resource Allocation in Federated Learning
Differentially Private Meta-Learning
DBA: Distributed Backdoor Attacks against Federated Learning
Generative Models for Effective ML on Private, Decentralized Datasets
Federated Adversarial Domain Adaptation

Talk服務器

On the Convergence of FedAvg on Non-IID Data
Federated Learning with Matched Averaging

1、Fair Resource Allocation in Federated Learning網絡

論文連接：https://arxiv.org/pdf/1905.10497v1.pdf架構

聯邦學習的目標是經過最小化經驗風險函數，使得模型可以擬合由若干網絡設備中收集到的數據。一般狀況下，聯邦學習網絡中的設備數量很大，從數百個到數百萬個不等。這種簡單直接的擬合操做可能會形成最終擬合的模型適合於一些設備，而在另一些設備中不適用的問題。此外，不一樣設備中的數據存在大小不一樣、分佈特徵不一樣等異質性問題。這篇文章所要探討的問題就是：是否能夠設計一種優化方法來確保聯邦學習模型的性能（如準確度）公平地分佈在各個設備之間？框架

受無線網絡公平資源分配工做的啓發，本文提出了一種解決聯邦學習中公平問題的優化目標算法 q-FFL（q-Fair Federated Learning）。q-FFL 經過引入 q 參數化的權重，實現了對不一樣設備損耗的從新加權計算，使得損耗較高的設備具備較高的相對權重，從而減少準確度分佈方差，實現準確度更公平的分佈。q-FFL 無需手工調整公平性約束，它構建的是一個靈活的框架，在該框架中能夠根據所需的公平性自動調整目標。此外，本文提出了一種輕量級且可擴展的分佈式 q-FFL 解決方法：q-FedAvg，該方法考慮了聯邦學習架構的重要特徵，例如通訊效率和設備的低參與性等。dom

方法描述

經典聯邦學習一般是最小化如下目標函數：

其中，m 表示設備數量，F_k 是各個客戶端的局部目標函數，p_k 爲客戶端對應的權重。局部目標函數的優化處理過程爲：

其中，n_k 爲第 k 個客戶端局部樣本數據數量，能夠令 p_k=n_k/n，n 爲整個聯邦學習網絡的數據集中符合經驗最小化目標的樣本總數。傳統方法經過如下方式實現全局目標最優化：每一輪選擇機率與 n_k 成正比的設備子集執行這些本地更新方法經過在每一個設備上本地運行可變數量的迭代的優化器（例如 SGD）來實現靈活高效的通訊。經典聯邦學習（FedAvg）的優化流程以下：

FedAvg 的優化過程會引入不一樣設備之間的不公平性。例如，所學習的模型可能偏向具備數據量大的設備，或者偏向於（一般是對設備加權）常用的一組設備等等。爲了討論如何解決聯邦學習框架的不公平性問題，做者首先定義了什麼是聯邦學習中的公平性。

公平性定義：能夠經過下面的方法衡量兩個模型 w 和 w~的公平性，若是模型 w 在 m 個設備上的性能方差 {a_1，...，a_m} 小於模型 w~在 m 個設備上的性能方差，則認爲模型 w 更公平，即

從公平性定義的角度出發，解決 FedAvg 中存在的不公平性的問題的一個很直觀的辦法就是從新對目標進行加權，即將較高的權重分配給性能較差的設備，以減少模型的準確度分佈方差。此外，從新加權的處理必須是動態完成的，由於設備的性能取決於所訓練的模型，這是沒法進行先驗評估的。給定非負代價函數 F_k 和參數 q>0，定義 q-FFL 目標以下：

其中 (F_k).^(q+1) 表示 F_k 的 q+1 次冪，q 爲調整所但願施加的公平性的權重參數。根據公平性定義，較大的 q 意味着 q-FFL 的目標強調（賦予較大權重）具備較高局部經驗損失的設備 F_k(w)，從而減小訓練準確度分佈的方差以及保證公平性。當 q 足夠大時，F_q(w) 就退化爲經典的 min-max 問題，此時，性能最差（最大損耗）的設備將會控制主導目標。

本文做者首先提出了一種公平但效率較低的方法 q-FedSGD，以說明在解決 q-FFL 問題時使用的主要技術，以後，經過考慮聯邦學習的關鍵屬性（例如本地更新方案），做者提供了一種更有效的解決方法 q-FedAvg。首先，q-FedSGD 是對經典的聯合小批量 SGD（FedSGD）方法的擴展，其中使用動態步長替代了 FedSGD 中使用的常規固定步長。在 q-FedSGD 的每一個步驟中，選擇設備的一個子集，對於該子集中的每一個設備 k，在當前迭代中計算其∇F_k 和 F_k 並將其傳送到中央服務器，此信息用於調整權重，以收集整合來自每一個設備的更新。具體算法以下：

在經典聯邦學習方法中，在設備本地使用局部隨機解算器（而不是批處理）可以改進本地計算與通訊方面的靈活性，例如最著名的 FedAvg。然而，簡單地在使用 q-FFL 目標的 q-FedSGD 中引入局部隨機結算器是不成立的。這是因爲當 q>0 時，不能使用局部 SGD 計算 (F_k)^(q+1)。做者提出將 q-FedSGD 步驟中的局部函數的梯度∇F_k 替換爲經過在設備 k 上本地運行 SGD 得到的局部更新矢量，從而實現基於 q-FFL 目標的 FedAvg，即 q-FedAvg。做者的詳細分析以下：優化 F_k 和優化 (F_k)^(q+1) 是等價的。若是經過簡單的平均來組合這些更新，相似於 FedAvg，它將優化（1）而不是（2）。相似於 q-FedSGD，本文使用由下式推導獲得的權重組合本地更新。若是非負函數 f 具備常數 L 的 Lipchitz 梯度，則對於任意 q≥0 和任意點 w，可獲得：

左式計算獲得的權重是 w 點位置處梯度的局部 Lipchitz 常數的上界

在 q-FedAvg 的每一個步驟中，選擇設備的一個子集，對於該子集中的每一個設備 k，在當前迭代中計算其局部更新向量並將局部更新向量傳送到中央服務器，此信息用於調整權重，以收集整合來自每一個設備的更新。具體算法以下：

實驗分析

本文基於經典聯邦學習的合成數據庫和非合成數據庫進行實驗，實驗中同時使用凸模型和非凸模型，在 TensorFlow 中實現全部代碼，以一個服務器和 m 個設備模擬一個聯邦學習網絡。

圖 1 給出了在每一個數據集的 5 個隨機抽取的數據中平均的兩個目標（q = 0 和 q> 0 的調整值）的最終測試準確度分佈。雖然平均測試準確度保持一致，但 q> 0 的目標可以產生更集中（即更公平）的測試準確度分佈，且方差較小。特別的，在保持大體相同的平均準確度的同時，q-FFL 將全部設備上的準確度方差平均下降了 45％。

圖 1. q-FFL 使得測試準確度分佈更加公平

使用本文提出的聯邦學習框架須要解決一個問題：如何在 q-FFL 目標中調整 q，從而容許框架靈活選擇 q 以實現減少準確度分佈方差和提升平均準確度之間的權衡。一般，能夠根據可得到的數據/應用程序和所需的公平性來調整此值。特別地，在實踐中，一種合理的方法是並行運行具備多個 q 的算法（詳見 q-FedAvg 的算法流程），以得到多個最終全局模型，而後經過驗證數據性能（例如準確度）從中進行選擇。在這個過程當中，聯邦學習網絡中的每一個設備不只能夠今後過程當中選擇一個最佳 q，還能夠根據其驗證數據選擇特定於設備的模型。表 1 中顯示了這種針對特定設備的策略的性能改進。在表 1 中給出的實驗的訓練過程當中，會獨立維護多個全局模型（對應於不一樣的 q）。儘管這增長了額外的本地計算和每輪的通訊負載，但使用這種特定於設備的策略同時提高了最差 10% 準確度（Worst 10%）和最佳準確度（Best 10%）的設備準確度。圖 2 給出 q-FFL 與均勻採樣方案的準確度比較，在測試準確性方面 q-FFL 給出了更公平的解決方案。

表 1. 同時運行多個 q 的 q-FFL 的效果

圖 2. q-FFL（q&gt; 0）與均勻採樣的準確度比較

最後，做者對比了 q-FedSGD 和 q-FedAvg 的效率。在每一個通訊回合中，q-FedAvg 在每一個所選設備上運行一個 epoch 的本地更新，而 q-FedSGD 則是基於本地訓練數據運行梯度降低（SGD）。圖 3 的結果顯示，在大多數狀況下使用 q-FedAvg 的本地更新方案收斂速度比 q-FedSGD 快。與 q-FedSGD 相比，在合成數據集上 q-FedAvg 收斂速度較慢，做者分析這多是因爲當存儲在各個設備中的本地數據分佈高度異構時，本地更新方案可能會形成本地模型與初始全局模型相距太遠，進而影響收斂。

圖 3. 對於固定目標（即相同的 q），q-FedAvg（Algorithm 3），q-FedSGD（Algorithm 2）和 FedSGD 的收斂性

文章小結

在無線網絡中公平資源分配策略的啓發下，本文提出了一種聯邦學習的優化目標 q-FFL，目的是鼓勵在聯邦學習中實現更公平的準確度分配，此外本文還提出了一種高效且可擴展的方法 q-FedAvg，q-FedAvg 適用於使用新優化目標的聯邦學習優化框架。

2、Federated Adversarial Domain Adaptation

論文連接：https://arxiv.org/abs/1911.02054

聯邦學習是一種分散學習方法，它使多個客戶機可以協做學習一個機器學習模型，同時將訓練數據和模型參數保存在本地設備上。聯邦學習提升了在分佈式設備（如移動電話、物聯網和可穿戴設備等）網絡中進行機器學習的數據隱私性和效率。自提出聯邦學習框架以來，研究人員陸續提出了不少模型/方法，包括更新機器學習模型的安全聚合方案、支持多客戶端聯邦學習的隱私保護協同訓練模型等，可是這些方法大都忽略瞭如下事實：每一個設備節點上的數據都是以非獨立同分布（non-i.i.d）的方式收集的，所以節點之間存在域遷移的問題。例如，一臺設備可能主要在室內拍攝照片，而另外一臺設備主要在室外拍攝照片。這種域遷移（domain shift）問題，形成使用聯邦學習訓練獲得的模型很難推廣到新設備。爲了解決聯邦學習中的 Non-IID 問題，一些方法引入聯邦多任務學習，它爲每一個節點學習一個單獨的模型，或者是提出隱私保護環境下的半監督聯邦轉移學習算法。這些算法通常採用的都是有監督/半監督的方式。

無監督域適應（Unsupervised Domain Adaptation，UDA）的目的是將從標記的源域學習到的知識遷移到未標記的目標域中。經典 UDA 方法包括：基於差別的方法（discrepancy-based methods）、基於重構的 UDA 模型、基於對抗的方法等，例如能夠經過對抗性訓練，在源域和目標域之間調整基於 CNN 的特徵提取/分類器。在聯邦學習架構中，數據存儲在各個客戶端本地而不能共享，這就致使經典的 UDA 方法都不適用，由於這些方法須要訪問標記的源數據和未標記的目標數據。本文主要解決的問題是，在聯邦學習架構下，在沒有用戶監督的狀況下，將知識從分散節點轉移到具備不一樣數據域的新節點的問題，做者將該問題定義爲：無監督聯邦域適應（Unsupervised Federated Domain Adaptation，UFDA）。

本文提出了一種解決 UFDA 問題的方法---聯邦對抗域適應（Federated Adversarial Domain Adaptation，FADA）方法，該方法可以實如今不一樣的設備節點中學習到的表示與目標節點的數據分佈相一致。FADA 是指：在聯邦學習的架構中使用對抗性適應技術，經過在每一個源節點上訓練一個模型並經過源梯度（source gradients）的聚合來更新目標模型，同時保護數據隱私、減小域遷移。此外，本文還設計了一個動態注意力模型來應對聯邦學習中不斷變化的收斂速度，具體見圖 1。

圖 1.（a）本文針對 UFDA 問題提出了 FADA，在 FADA 中，不一樣域之間的數據不可共享，分別在每一個源域上訓練模型，並使用動態注意力機制彙總它們的梯度以更新目標模型；（b）FADA 使用對抗域對齊（紅線）和特徵分離器（藍線）來提取域不變特徵。

圖 1（b）中提到 FADA 使用對抗域對齊和特徵分離器來提取域不變特徵。關於提取域不變特徵的問題，主要是指深度神經網絡可以在多個隱藏因素高度糾纏的狀況下提取特徵。學習分離表示有助於去除不相關和特定領域的特徵，從而只對數據變化的相關因素建模。爲此，最近的研究探索了利用生成性對抗網絡（GANs）和變分自編碼（VAEs）學習可解釋表示以及領域不變特徵。在 FADA 中引入了一種利用對抗性訓練過程從領域特徵中分離領域不變特徵的方法。此外，經過引入最小化域不變特徵和域特定特徵之間的相互信息，以加強特徵分離。

方法介紹

令 D_S 和 D_T 分別表示輸入空間 X 上的源和目標分佈，以及真實的標記函數 g：X→{0,1}。假設函數 h：X→{0,1}，其偏差爲實地標記函數 g，h 在 D_s 上的風險記爲：

兩個分佈 D 和 D』之間的 H-散度定義爲：

其中 H 是輸入空間 X 的假設類，A_H 表示 X 的子集的集合，這些子集是 H 中某些假設的支持。對稱差空間 H∆H 定義爲:

⊕表示 XOR 操做。將在源和目標上實現最小風險的最優假設表示爲：

以及 h*的偏差爲：

令 H 爲 VC 維 d 的假設空間，D_S^和 D_T^爲由 DS 和 DT 提取的大小爲 m 的樣本的經驗分佈。對於每一個 h∈H，在樣本選擇上的機率至少爲 1-δ：

定義 UFDA 中源域和目標域分別爲

在聯邦學習的域自適應系統中，D_S 分佈在 N 個節點上，而且數據在訓練過程當中不可共享。經典的域自適應算法旨在最大程度地下降目標風險

可是，在 UFDA 系統中，出於安全和隱私的緣由，一個模型沒法直接訪問存儲在不一樣節點上的數據。爲了解決這個問題，本文提出爲每一個分佈式源域學習單獨的模型 h_S= {h_Si}，目標假設 h_T 是 h_S 參數的集合。而後，能夠得出如下偏差範圍：

其中λ_i 是 D_Si 和 T 的混合物的最優假設風險，而 S〜則是大小爲 Nm 的源樣本的混合物。

該偏差範圍證實了權重α和差別 d H∆H（D_S，D_T）在 UFDA 中的重要性，受此啓發，本文提出了動態注意力模型來學習權重α和聯合對抗性對齊，以最大程度地減小源域和目標域之間的差別。

一、動態注意力機制

在聯邦學習的域自適應系統中，不一樣節點上的模型具備不一樣的收斂速度。此外，源域和目標域之間的域遷移是不一樣的，從而致使某些節點可能對目標域沒有貢獻甚至是負遷移。本文提出動態注意力機制，其原理是增長那些梯度對目標域有益的節點的權重，並限制那些梯度對目標域有害的節點的權重，利用差距統計數據來評估目標特徵 f^t 在無監督聚類算法（K-Means）中的聚類程度，具體的，差距統計計算爲：

其中，C1，C2，...，Ck 爲聚類，其中 Cr 表示聚類 r 中的觀測指標，而 nr = | Cr |。直觀上，較小的差距統計值表示要素分佈具備較小的類內方差。經過兩次連續迭代之間的差距統計量增益來測量每一個源域的貢獻：

其中，p 表示訓練步驟。該公式表示在創建目標模型以前和以後能夠改進多少聚類。來自源域的梯度上的掩碼定義爲：

二、聯合對抗對齊

在聯邦學習框架中存在多個源域，而且數據以隱私保護的方式存儲在本地，這意味着沒法訓練能夠同時訪問源域和目標域的單個模型。爲了解決此問題，本文提出了聯合對抗對齊，聯合對抗對齊將優化分爲兩個獨立的步驟：特定於域的局部特徵提取器和全局鑑別器。（1）針對每一個域，對應於 Di 訓練一個本地特徵提取器 Gi，以及針對 Dt 訓練獲得 Gt；（2）對於每一個源－目標域對（Di，Dt），訓練一個對抗性域標識符 DI 來以對抗性的方式對齊分佈：首先訓練 DI 以肯定特徵來自哪一個域，而後訓練生成器（Gi，Gt）來混淆 DI。須要注意的是，D 僅可訪問 Gi 和 Gt 的輸出向量，而不會違反 UFDA 設置。給定第 i 個源域數據 X^Si，目標數據 X^T，DI_s 的目標定義以下：

在第二步中，L_advD 保持不變，可是 L_advG 更新如下目標：

三、表徵分離

本文采用對抗性分離（Adversarial Disentanglement）來提取域不變特徵。如圖 1（b）所示，分離器 Di 將提取的特徵分爲兩個分支。首先分別基於 f_di 和 f_ds 特徵訓練 K 路分類器 Ci 和 K 路類別標識符 CI_i 正確地預測具備交叉熵損失的標籤。目標爲：

其中 f_di 和 f_ds 分別表示域不變和域特定特徵。在下一步中，凍結類標識符 CI_i，僅訓練特徵分解器經過生成特定於域的特徵 f_ds 來混淆類標識符 CI_i，如圖 1 所示。這能夠經過最小化預測類別分佈的負熵損失來實現。目的以下：

特徵分離能夠經過保留 f_di、消除 f_ds 來促進知識遷移。爲了加強分離，最小化域不變特徵和域特定特徵之間的相互信息：

儘管互信息是跨不一樣分佈的關鍵度量，但互信息僅適用於離散變量。本文采用互信息神經估計器（Mutual Information Neural Estimator，MINE）利用神經網絡來估計連續變量的互信息：

爲了不計算積分，本文利用蒙特卡洛積分來計算估計值

其中（p，q）從聯合分佈中採樣，q』從邊際分佈中採樣，T（p，q，θ）是由θ參數化的神經網絡，用於估計 P 和 Q 之間的互信息。域不變和域特定的特徵被轉發給具備 L2 損失的重構器以重構原始特徵，同時保持表徵的完整性，如圖 1（b）所示。能夠經過調整 L2 丟失和互信息丟失的超參數來實現 L2 重建和互信息的平衡。

四、優化

本文模型以端到端的方式訓練。使用隨機梯度降低訓練聯邦對齊和表徵分離組件。聯合對抗性對準損失和表徵分離損失與任務損失一塊兒被最小化。詳細的訓練過程在算法 1 中給出：

實驗分析

爲了更好地探索模型中不一樣組成部分的有效性，本文提出了三種不一樣的剝離方法，包括：模型 I，具備動態關注度；模型 II，I +對抗性對齊；模型 III，II +表徵分離。

本文首先基於 Digit-Five 數據庫進行實驗。Digit-Five 是由五個數字識別基準數據庫組成的集合，這五個數據庫分別是：MNIST，合成數字，MNIST-M，SVHN 和 USPS。在本文實驗中，輪流將一個域（來自於其中一個數據庫）設置爲目標域，將其他域設置爲分佈式源域，從而生成五項遷移任務。本文將 FADA 與流行的域適應基準模型進行比較，包括：域對抗神經網絡（DANN），深度適應網絡（DAN），自動域對齊層（AutoDIAL）和自適應批歸一化（AdaBN）等。具體而言，DANN 經過梯度反轉層將源域和目標域之間的域差別最小化。DAN 應用多內核 MMD 損失以在「再生核希爾伯特空間」中將源域與目標域對齊。AutoDIAL 在深層模型中引入了域對齊層，以將源特徵分佈和目標特徵分佈與參考分佈進行匹配。AdaBN 應用批處理規範化層來促進源域和目標域之間的知識遷移。在進行基準實驗時，本文分別使用原模型的做者提供的代碼並修改原始設置以適合聯邦域對抗域適應設置（即每一個域都有本身的模型），用 f-DAN 和 f-DANN 表示。此外，爲了說明 UFDA 難以經過單一模型訪問全部源數據的困難，本文還執行了相應的多源域適應實驗（共享源數據）。實驗結果列於表 1。從表 1 的結果能夠得出如下結論：（1）模型 III 的平均準確度達到 73.6％，明顯優於基線模型；（2）模型 I 和模型 II 的結果證實了動態注意力和對抗性對準的有效性；（3）聯合域適應顯示的結果比多源域適應弱得多。

表 1.「Digit-Five」數據庫的準確度（％）

爲了進一步瞭解 FADA 的特徵表示性能，圖 2 給出了不一樣模型獲得的特徵表示的 t-SNE 嵌入。與 f-DANN 和 f-DAN 相比，FADA 獲得的特徵嵌入具備較小的類內方差和較大的類間方差，這代表 FADA 可以生成所需的特徵嵌入並可以提取跨域的不變特徵。

圖 2. 特徵可視化：僅源特徵的 t-SNE 圖

表 2 中給出了在 Office-Caltech10 數據集上的實驗結果，該數據集包含 Office31 和 Caltech-256 數據集共享的 10 個常見類別，以及包含四個域：Caltech（C），這是從 Caltech-256 數據集採樣的；Amazon（A），這是從 http://amazon.com 收集的圖像；Webcam（W）和 DSLR（D），這是由網絡攝像頭以及辦公環境下的數碼單反相機拍攝的圖像。由表 2 能夠得出如下觀察結論：（1）本文提出的 FADA 模型使用 AlexNet 能夠達到 86.5％的準確度，使用 ResNet 能夠達到 87.1％的準確度，優於基線模型。（2）當選擇 C，D，W 做爲目標域時，全部模型的性能都類似，可是當選擇 A 做爲目標域時，各個模型的性能都較差。這多是由較大的域差別引發的，由於 A 中的圖像是從 http://amazon.com 收集的，而且包含白色背景。

表 2. Office-Caltech10 數據庫的準確度（％）

亞馬遜評論（Amazon Review）數據集是專門應用於文本跨域情感分析的測試數據庫，即肯定評論的情緒是正面仍是負面。該數據集包含來自 http://amazon.com 用戶的針對四個流行商品類別的評論：書籍（B），DVD（D），電子產品（E）和廚房用具（K）。本文利用 400 維詞袋錶示法及徹底鏈接的深度神經網絡進行實驗，實驗結果見表 3。從表 3 結果中能夠得出兩個主要觀察結論：（1）FADA 模型不只對視覺任務有效，將其應用於語言任務也表現出了較好的性能。（2）從模型 I 和 II 的結果能夠觀察到動態注意力和聯邦對抗的對齊方式對提升性能頗有幫助。

表 3.「Amazon Review」數據庫的準確度（％）

最後爲了證實動態注意力的有效性，本文給出了消融（ablation）研究分析。表 4 給出了 Digit-Five，Office-Caltech10 和 Amazon Review 基準測試的結果。在沒有應用動態注意力模型的狀況下，大多數實驗的性能都會降低，所以動態注意力模塊對於 FADA 是很是重要的。使用動態注意力模型可以有效應對聯邦學習中不斷變化的收斂速度，即不一樣的源域具備本身的收斂速度的問題。另外，當特定域和目標域之間的域遷移較小時，它將增長特定域的權重，相反，則下降權重。

表 4. 消融研究結果

文章小結

在本文中，做者定義了無監督聯邦域適應（UFDA）問題，並給出了對 UFDA 的理論推廣。此外，本文提出了一種稱爲-聯邦對抗域適應（FADA）的聯邦學習模型，經過動態注意力模式可以有效地將從分佈式源域學到的知識遷移到未標記的目標域。

3、Federated Learning with Matched Averaging

論文連接：http://arxiv.org/abs/2002.06440

聯邦學習容許邊緣設備協做學習共享模型，同時將訓練數據保留在本地設備中，從而實現將模型訓練與數據存儲在雲中的需求分離開來。本文針對卷積神經網絡（CNN）和長短時間記憶網絡（LSTM）等現代神經網絡結構的聯邦學習問題，提出了一種聯邦匹配平均（Federated Matched Averaging，FedMA）算法。FedMA 經過匹配和平均具備類似特徵提取特徵的隱藏元素（即卷積層的通道；LSTM 的隱藏狀態；徹底鏈接層的神經元等）以層的方式構建共享全局模型。

經典聯邦學習 FedAvg 的一個缺點是直接對模型參數進行加權平均，可能會對模型性能產生嚴重的不利影響，並顯著增長通訊負擔，而這一問題主要是因爲神經網絡（NN）參數的置換不變性而致使的。好比，模型訓練後的有些參數會在不一樣的變體中處於不一樣的位置，所以，直接對模型進行基於參數位置的加權平都可能使得某些參數失效。本文所提出的 FedMA 引入貝葉斯非參數方法以解決數據中的異質性問題。

方法介紹

本文首先討論神經網絡（NN）架構的置換不變性，並在 NNs 的參數空間中創建平均的概念。首先從最簡單的單層隱藏層全鏈接 NN 開始介紹，以後針對深度架構、卷積和循環架構進行分析。

一、全鏈接架構的置換不變性

基本的全鏈接（FC）NN 能夠表示爲

在不失通常性的前提下，上式省略了誤差以簡化表示，σ是非線性的（entry-wise）。擴展上式，獲得

其中 i·和·i 分別表示第 i 行和第 i 列，L 是隱藏單元的數目。進一步，將 FC 的置換不變性寫做：

置換矩陣是一個正交矩陣，當應用於左側時，它做用於行，而應用於右側時，則做用於列。假設 {W1，W2} 是最佳權重，那麼從兩個同質數據集 X_j，X_j』訓練得到的權重分別爲 {W_1Π_j，(Π_j)^TW_2} 和 {W_1Π_j』，(Π_j』)^TW_2}。如今能夠很容易地看出爲何在參數空間中進行簡單的直接平均處理是不合適的。

令 w_jl 表示數據庫 j 中學習獲得的第 l 個神經元（W(1)Π_j 中的第 l 列）。θi 表示全局模型中的第 i 個神經元，c(·,·) 表示一對神經元之間的類似函數。如下優化問題的解決方案是所需的置換：

給定 J 個客戶端提供的權重 {W_j,1，W_j,2}，計算獲得聯邦神經網絡權重：

基於上式與最大二分匹配問題之間的關係，本文將此方法稱爲匹配平均（matched averaging）。若是 c（·，·）是歐式距離的平方，則能夠獲得相似於 k-means 聚類的目標函數，固然，該目標函數對「聚類分配」π 附加有額外的約束，以確保它們可以造成置換矩陣。

二、關鍵（深度、卷積、循環）架構的置換不變性

在介紹卷積和遞歸架構以前，首先討論深度 FC 中的置換不變性和相應的匹配平均方法。

在 FC 置換不變性的基礎上擴展，獲得遞歸定義的深度 FC 網絡

其中，n=1,...,N 表示層索引，π_0 是按照輸入特徵 x=x_0 排序的無歧義表徵，π_N 表示輸出類中對應的表徵。σ(·) 爲身份表徵函數（或者是 softmax 函數，若是想要的是機率而不是邏輯值）。當 N=2 時，恢復獲得一個與 FC 置換不變性同樣的單隱藏層變量。爲了對從 J 個客戶機得到的深層 FCs 進行匹配平均，須要爲每一個客戶端的每一層找到置換。然而任何連續的中間層對內的置換都是耦合的，這是一個 NP-hard 的組合優化問題。本文考慮遞歸（層內）匹配平均方法：假設有 {∏_(j,n-1)}，將 {(∏_(j,n-1))^T W_j,n} 插入上式中，從而找到 {∏_(j,n)} 並移動到下一層。

與神經元不一樣，卷積 NN（CNNs）的不變性體如今通道（channel）不變性上。令 Conv（x，W）表示輸入 x 的卷積運算，W 爲權重。對權重的輸出維度應用任何置換，以及對後續層的輸入通道維度應用相同的置換，都不會改變相應的 CNN 的前向反饋。CNNs 的元素表示爲：

上式容許在通道內進行池操做。爲了對第 n 個 CNN 層應用匹配平均，按照公式（2）轉換輸入形式爲：

其中 D 是 (∏_(j,n-1))^T W_j,n 的展平後的維度數。相似於 FCs，能夠遞歸地在深度 CNNs 上執行匹配平均。

遞歸結構（RNN）中的置換不變性與隱藏狀態的順序有關。遞歸結構與 FC 結構類似，主要區別在於隱藏層到隱藏層的權重 H∈ R^(L×L) 排列不變性，其中，L 是隱藏狀態的數目。隱藏狀態的排列同時影響 H 的行和列。對於一個經典 RNN h_t= σ(h_t−1 H + x_t W)，其中 W 是隱藏權重的輸入。爲了解釋隱藏態的置換不變性，對於任何 t，h_t 的全部維度都應該以相同的方式進行置換，即

爲了匹配 RNN，須要將歐氏距離類似的兩個客戶端的隱藏權重與隱藏權重對齊。本文的匹配平均 RNN 解是利用公式在輸入到隱藏層的權重 {W_j} 中來找到 {∏_j}，隱藏層權重輸入的計算方式與以前一致，聯邦隱藏層到隱藏層的權重 H 計算爲

LSTMs 有多個單元格狀態，每一個狀態都有其各自的隱藏到隱藏的和輸入到隱藏的權重。在外匹配平均過程當中，當計算置換矩陣時，將輸入到隱藏權重的信息疊加到 S D×L 權重矩陣（S 是單元狀態數，D 是輸入維數，L 是隱藏狀態數）中，而後如前所述平均全部權重。LSTMs 一般也有一個嵌入層，將這一層看成一個 FC 層來處理。最後，以相似於深度 FCs 的遞歸方式處理深度 LSTMs。

三、FedMA 的完整算法流程

首先，數據中心（中央服務器）只從客戶端收集第一層的權重，並執行前面描述的單層匹配以得到聯邦模型的第一層權重。而後數據中心（中央服務器）將這些權重廣播給客戶端，客戶端繼續訓練其數據集上的全部連續層，同時保持已經匹配的聯邦層凍結。而後，將此過程重複到最後一層，根據每一個客戶端數據的類比例對其進行加權平均。FedMA 方法要求通訊輪數等於網絡中的層數。具體流程見算法 1：

實驗分析

圖 1 展現了層匹配 FedMA 在更深的 VGG-9CNN 和 LSTM 上的性能。在異構環境中，FedMA 優於 FedAvg、FedProx（LeNet 和 LSTM 爲 4，VGG-9 爲 9）和其餘基線模型（即客戶端我的 CNN 及其集成）訓練獲得的 FedProx。

圖 1. 基於 MNIST 的 LeNet；基於 CIFAR-10 數據集的 VGG-9；基於 Shakespeare 數據集的 LSTM 上有限通訊量的各類聯邦學習方法的比較：（a）同構數據劃分（b）異構數據劃分

FedMA 的優勢之一是它比 FedAvg 更有效地利用了通訊輪次，即 FedMA 不是直接按元素平均權重，而是識別匹配的卷積濾波器組，而後將它們平均到全局卷積濾波器中。圖 2 給出了可視化的一對匹配的本地濾波器、聚合的全局濾波器和 FedAvg 方法在相同輸入圖像上返回的濾波器所生成的表示。匹配濾波器和用 FedMA 生成的全局濾波器可以提取輸入圖像的相同特徵，即客戶端 1 的濾波器 0 和客戶端 2 的濾波器 23 提取馬腿的位置，而相應的匹配全局濾波器 0 也提取馬腿的位置。對於 FedAvg，全局濾波器 0 是客戶端 1 的濾波器 0 和客戶端 2 的濾波器 0 的平均值，這明顯篡改了客戶端 1 的濾波器 0 的腿部提取結果。

圖 2. 由局部訓練模型、FedMA 全局模型和 FedAvg 全局模型的第一卷積層生成的表示

最後，做者研究了 FedMA 的通訊性能。經過將 FedMA 與 FedAvg、FedProx 進行比較，在數據中心（中央服務器）和客戶端之間交換的總消息大小（以千兆字節爲單位）和全局模型實現良好效果所需的通訊輪數（完成一次 FedMA 過程須要的輪數等於本地模型中的層數）測試數據的性能。此外，還比較了集成方法（Assemble）的性能。本文在 VGG-9 本地模型的 J=16 客戶端的 CIFAR-10 數據庫和 1 層 LSTM 的 J=66 客戶端的 Shakespeare 數據庫上評估了異構聯邦學習場景下的全部方法。實驗肯定了 FedMA、FedAvg 和 FedProx 容許的總通訊輪數，即 FedMA 爲 11 輪，FedAvg 和 FedProx 分別爲 99/33 輪，用於 VGG-9/LSTM 實驗。FedMA 在全部狀況下都優於 FedAvg 和 FedProx（圖 3），當在圖 3（a）和圖 3（c）中將收斂性做爲消息大小的函數進行評估時，它的優點尤爲明顯。

圖 2. 兩種聯合學習場景下各類方法的收斂速度：在 CIFAR-10 上訓練 VGG-9，J=16 個客戶端；在 Shakespeare 上訓練 LSTM，J=66 個客戶端

文章小結

本文提出了 FedMA----一種爲現代 CNNs 和 LSTMs 體系結構設計的分層聯邦學習算法，它考慮了神經元的排列不變性，並實現了全局模型大小的自適應變化。本文證實了 FedMA 能夠有效地利用訓練後的局部模型，這也是聯邦學習算法和架構主要考慮的問題。在後續工做中，做者考慮利用近似二次分配解（Approximate Quadratic Assignment Solutions）的方法引入額外的深度學習構建塊，例如剩餘鏈接和批處理規範化層，從而進一步改進 LSTMs 的聯邦學習效果。此外，做者提出，探索 FedMA 的容錯性並研究其在更大數據庫上的性能很是重要，特別是針對那些即便在數據能夠聚合的狀況下也沒法進行有效訓練的數據庫。

做者介紹：仵冀穎，工學博士，畢業於北京交通大學，曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理，現從事電子政務領域信息化新技術研究工做。主要研究方向爲模式識別、計算機視覺，愛好科研，但願能保持學習、不斷進步。

關於機器之心全球分析師網絡 Synced Global Analyst Network

機器之心全球分析師網絡是由機器之心發起的全球性人工智能專業知識共享網絡。在過去的四年裏，已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家，利用本身的學業工做之餘的閒暇時間，經過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享本身的研究思路、工程經驗及行業洞察等專業知識，並從中得到了自身的能力成長、經驗積累及職業發展。

感興趣加入機器之心全球分析師網絡？提交申請：http://jiqizhixin.mikecrm.com/rg2RY52