ICML 2018 | 騰訊AI Lab提出偏差補償式量化SGD:顯著下降分佈式機器學習的通訊成本

選自arXiv,做者:Jiaxiang Wu、Weidong Huang、Junzhou Huang、Tong Zhang,機器之心編譯。算法

在量子在分佈式機器學習應用中,各個節點之間的通訊效率每每會成爲總體性能的關鍵制約因素,目前的常看法決方法是對節點之間的通訊信息進行壓縮,但這會引入量化偏差。爲了解決這一問題,騰訊 AI Lab 提出了一種偏差補償式量化隨機梯度降低(ECQ-SGD)方法。該論文已被將於當地時間 7 月 10-15 日在瑞典斯德哥爾摩舉辦的 ICML 2018 接收,這次實驗室共有 16 篇論文被收錄。

在 ICML 2018 與 IJCAI 2018 大會期間(今年都在斯德哥爾摩),騰訊將舉辦 Tencent Academic and Industrial Conference (TAIC),誠邀全球頂尖 AI 學者、青年研究員與騰訊七大事業羣專家團隊探討最前沿 AI 研究與應用。

因爲數據近年來的爆炸式增加,不少不一樣領域都已經愈來愈關注大規模機器學習了,好比計算機視覺和語音識別領域。在這些應用中,訓練數據的量每每過於龐大,以致於難以經過單個計算節點實現有效的處理,因此分佈式優化方法是這些應用中的一個核心構建模塊。框架

數據並行化是一種經常使用的分佈式學習框架,其中整個數據集會被分割和存儲在一個集羣中的多個節點上。每一個節點都會計算各自的局部梯度並與其它節點交流梯度以更新模型參數。對於這樣的學習系統,消耗的時間可大體歸類爲計算時間和通訊時間。其中通訊每每會成爲性能的瓶頸,尤爲是對於具備大量參數的大型集羣和/或模型。機器學習

目前已有一些試圖經過下降通訊成原本提高分佈式學習的效率的研究工做。某些方法關注的是將梯度量化爲定點數(Zhou et al., 2016; Alistarh et al., 2017),這樣須要傳輸的比特數就會少不少。還有一些研究探索過更爲激進的量化方法,好比二元或三元表徵(Seide et al., 2014; Strom, 2015; Wen et al., 2017)。還有方法是在通訊過程當中在梯度上施加稀疏性,這樣每輪迭代中就僅有一小部分梯度在節點之間交換(Wangni et al., 2017; Lin et al., 2018)。分佈式

這些方法的基本思想基本都是將梯度壓縮成某種特定的形式,讓其中每一項都能使用遠少於原來的 32 位浮點數的比特數表示。這樣的壓縮會在優化過程當中引入額外的隨機噪聲,即量化偏差,這會減緩收斂速度,甚至致使發散。1Bit-SGD(Seide et al., 2014)採用了偏差反饋方案,即便用上一輪迭代的量化偏差來補償當前的局部梯度,以後再將其輸入量化函數。儘管該方法的提出者表示這有助於改善收斂行爲,但卻沒有給出理論分析來證實其有效性。ide

在本論文中,咱們提出了偏差補償式量化隨機梯度降低(ECQ-SGD)方法。咱們的算法也使用了偏差反饋方案,但咱們會累積全部以前的量化偏差,而不是像 1Bit-SGD 同樣只使用上一輪迭代的量化偏差。儘管實驗評估代表這種修改能實現比不少基準方法更快更穩定的收斂,但爲這種現象提供理論保證卻並不簡單。函數

Alistarh et al., 2017 已經證實,對於他們提出的 QSGD 算法,達到特定次優間隙(sub-optimality gap)所需的迭代數量正比於隨機量化梯度的方差界限。可是,這不能解釋咱們的方法的收斂行爲,由於咱們的量化梯度是對原始梯度的有偏估計,這與 QSGD 的狀況不一樣。實際上,因爲使用的是累積的量化偏差,咱們的量化梯度的方差界限甚至比 QSGD 的還大。爲了解決這一問題,咱們從另外一個角度給出了收斂性分析,而且證實了在合適的超參選擇下,咱們的算法比 QSGD 具備更緊緻的最壞狀況偏差界限(worst-case error bound)。事實證實,咱們提出的偏差反饋方案能夠很好地抑制量化偏差對偏差界限的貢獻;正如咱們在實驗中觀察到的那樣,這能實現比 QSGD 更小的次優間隙。性能

算法 1:偏差補償式量化 SGD

在量化完成以後,整體通訊成本會降至 32+dr 比特(r ≪ 32),遠少於原來的 32 位全精度梯度所需的 32d 比特;其中 d 是原向量的維度;學習

,其中 s 是非零量化級別的數量:s 越大,則量化越細粒度,通訊成本也就越高。測試

圖 2:損失函數值與當前迭代解到最優解距離的比較(左圖:Syn-256;中圖:Syn-512;右圖:Syn-1024)
圖 3:在 Syn-20K 數據集上各階段所消耗的時間以及測試損失(括號中)的比較。QSGD 和 ECQ-SGD 的數字後綴表示非零量化級別的數量 s。這裏的總時間是 1000 次迭代所消耗的時間
圖 6:在 ILSVRC-12 數據集上訓練 ResNet-50 模型時,使用不一樣數量的 GPU 的吞吐量比較。

論文:偏差補償式量化 SGD 及其在大規模分佈式優化中的應用(Error Compensated Quantized SGD and its Applications to Large-scale Distributed Optimization)優化

論文地址:arxiv.org/abs/1806.08…

摘要:大規模分佈式優化對不少不一樣應用而言都很重要。對於基於數據並行的分佈式學習,節點之間的梯度通訊每每會成爲性能的瓶頸。咱們在本論文中提出了可提高訓練效率的偏差補償式量化隨機梯度降低算法。該方法經過量化局部梯度來下降通訊開銷,而且使用累積的量化偏差來加快收斂速度。此外,咱們還提供了對其收斂行爲的理論分析,並展現了其相對於其它競爭方法的優點。咱們進行了大量實驗,結果代表咱們的算法在不下降表現水平的狀況下能將梯度壓縮高達兩個數量級。

相關文章
相關標籤/搜索