「反向傳播」被替代!深度學習可使用「離散優化」方法實現

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

圖:pixabay


原文來源:arxiv

作者:Abram L. Friesen 、Pedro Domingos

「雷克世界」編譯:嗯~阿童木呀、多啦A亮


0?wx_fmt=png隨着神經網絡往更深層次的發展及其更爲廣泛的應用,對於網絡量化(即可以大大減少時間和能量需求)和深度網絡大型集成系統(即可能具有不可微的組件,並且必須避免梯度消失和爆炸以進行高效學習)的創建來說,具有硬閾值**(hard-threshold activations)的學習網絡變得日益重要。然而,由於梯度下降並不適用於硬閾值函數,所以不清楚如何以一種原則式的方式來對其進行學習。通過觀察硬閾值隱藏單元的設置目標,以最大限度地減少損失,這是一個離散優化(discrete optimization)問題,而用它是可以解決上述問題的。離散優化的目的是找到一組target,使得每個單元(包括輸出)都有一個線性可分離的問題要解決。鑑於這些target,網絡分解成多個單一的感知器,然後可以用標準的凸方法(convex approaches)進行學習。基於此,我們開發了一種用於學習深度硬閾值網絡的遞歸小批量算法,其中包括用流行但不太合理的直通評估器(straight-through estimator,STE)作爲特例。經驗證明,相較於直通評估器,我們的算法改進了許多設置中的分類精確度,包括ImageNet中的AlexNet和ResNet-18。


0?wx_fmt=png


介紹


最初的神經分類方法是學習具有硬閾值**函數的單層模型,就像感知器(Rosenblatt於1958年提出)。然而事實證明,將這些方法擴展到多層是很困難的,因爲硬閾值單元幾乎處處都是零階導數,並且在原點處不連續,因此無法通過梯度下降進行訓練。於是,社區轉向具有soft**函數的多層網絡,例如sigmoid**函數,以及最近常用的ReLU**函數,其中通過反向傳播可以有效地計算其梯度(Rumelhart等人於1986年提出)。


這種方法取得了顯著的成功,使得研究人員能夠對數百層的網絡進行訓練,並能夠在一系列任務中以相較於以往任何方法都要高的準確度對模型進行學習。但是,隨着網絡的深度越來越深,寬泛度越來越廣,使用硬閾值**函數進行量化逐漸變成一種趨勢,它們能夠實現二進制或低精度推理(例如,Hubara等人、 Rastegari等人、Zhou 等人、Lin和Talathi於2016年、Zhu 等人於2017年皆有所提及)和訓練(如Lin等人於2016年、 Li等人、 Tang 等人、Micikevicius等人於2017年皆有所提及),它可以大大降低現代深度網絡所需的能量和計算時間。除了量化,硬閾值單元的輸出規模與其輸入規模無關(或不敏感),這可以緩解梯度消失和梯度爆炸的問題,並且應該有助於避免在用反向傳播進行低精度訓練期間發生的一些病理性問題(Li et等人於2017年提出)。儘量避免出現這些問題對於開發大型深度網絡系統至關重要,特別是這些系統可用於執行更爲複雜的任務。


基於這些原因的考慮,我們非常興趣開發出一種有效的技術,用以學習具有硬閾值單元的深度神經網絡。在這項工作中,我們提出了一個學習深度硬閾值網絡的框架,該框架源於對硬閾值單元輸出離散值的觀察結果,這表明組合優化可能爲訓練這些網絡提供了一種原則性方法。通過爲每個隱藏層**指定一組離散目標,該網絡可以分解成許多單一的感知器,且其中的每一個都可以在給定其輸入和目標的情況下很容易地得以訓練。因此,學習深度硬閾值網絡的困難之處在於設定目標,使得每個已訓練的感知器(包括輸出單元)具有一個要解決的線性可分離問題,從而實現其目標。我們展示了一個網絡,其中使用我們的混合凸組合優化框架可以對其進行學習。


在此框架的基礎上,我們開發了一種遞歸算法——可行性目標傳播(feasible target propagatio,FTPROP),用於學習深度硬閾值網絡。由於這是一個離散優化問題,我們基於每層損失函數開發了用於設定目標的啓發式方法。可以使用小批量版本的FTPROP來對所使用的直通評估器進行解釋和證明(Hinton於2012年提出、Bengio等人於2013年提出),現在,可以將其看作是對於每層有損失函數和目標啓發式具有特定選擇的FTPROP的實例。最後,我們開發出一種新穎的位於每層上的損失函數,可以改進對深度硬閾值網絡的學習。經驗證明,在將其應用到ImageNet 中 的AlexNet和ResNet-18上時,相較於直通評估器,我們的算法得到了許多改進。


相關工作


學習深度硬閾值網絡的最常見方法是使用具有直通評估器(STE)的反向傳播,它簡單地用恆等函數代替每個硬閾值單元的導數。STE在量化網絡文獻中使用,通過量化**傳播梯度,並用於平面**的訓練。後來的研究泛化了STE,以用恆等函數替代每個硬閾值單元的導數,包括恆等函數(identity function)的優化版本。然而,雖然STE在實踐中往往工作得很好,但我們並沒有對其工作原理或該如何選擇替代性導數進行嚴格的辯護或分析。除了在這方面不滿意,我們對STE還不太瞭解,並隨着層數的增加,而可能導致梯度不匹配的錯誤。我們在這裏展示了(優化)STE是我們框架的一個特例,因此爲其提供了原則性的理由,併爲探索和理解替代方案奠定了基礎。

 

使用硬閾值單元進行訓練的另一個常見方法是通過隨機神經元或概率訓練方法。這兩者都是爲了軟化硬閾值單元。相反的是,我們的目標是學習具有確定性硬閾值單元的網絡。

 

 最後,目標傳播是一種明確將target與網絡中每個**輸出相關聯的方法,然後更新每個層的權重,使其**更加接近target。我們的框架可以被視爲使用組合優化來設置離散目標的目標傳播的實例,而先前的方法採用連續優化。MADALINE Rule II(MRII)算法也可以看作是我們的框架和目標傳播的一個特例,其中一次只設置一個目標。

 

結論


在這項工作中,我們提出了一個新的混合凸組合優化框架,用於學習具有硬閾值單元的深度神經網絡。組合優化用於爲硬閾值隱藏單元設置離散目標,使得每個單元僅具有一個要解決的線性可分離問題。然後,網絡分解成單個感知器,給定這些目標可以用標準的凸方法學習。基於此,我們開發了一種用於學習深度硬閾值網絡的遞歸算法,我們稱之爲可行目標傳播(FTPROP)和一種高效的小批量版本(FTPROP-MB)。我們表明,通常使用但不合理的直通評估器(STE)是FTPROP-MB的特殊情況,這是由於在每層使用優化合頁損失(hinge loss)和我們的目標啓發式引起的。最後,我們定義了軟合頁損失(soft hinge loss),並表明,與STE相比,在每個層上,具有軟合頁損失的FTPROP-MB提高了CIFAR-10和ImageNet上多個模型的分類精度。

 

在未來的工作中,我們計劃通過研究框架、約束滿足度和可滿足性之間的聯繫來開發新的目標啓發式和層損失函數。我們還打算進一步探索具有硬閾值單元的深度網絡的優勢。特別是,雖然最近的研究清楚地表明瞭它們減少計算和能源需求的能力,但它們也需要減少梯度消失和爆炸所帶來的影響,以及協方差轉變(covariate shift)和對抗樣本所帶來的影響。


回覆「轉載」獲得授權,微信搜索「ROBO_AI」關注公衆號


中國人工智能產業創新聯盟於2017年6月21日成立,超200家成員共推AI發展,相關動態:

中新網:中國人工智能產業創新聯盟成立

ChinaDaily:China forms 1st AI alliance

證券時報:中國人工智能產業創新聯盟成立 啓動四大工程搭建產業生態「樑柱」

工信部網站:中國人工智能產業創新聯盟與貴陽市政府、英特爾簽署戰略合作備忘錄


640.png點擊下圖加入聯盟

0.png


下載中國人工智能產業創新聯盟入盟申請表


0?wx_fmt=gif

關注「雷克世界」後不要忘記置頂

我們還在搜狐新聞、雷克世界官網、騰訊新聞、網易新聞、一點資訊、天天快報、今日頭條、雪球財經……

↓↓↓點擊閱讀原文查看中國人工智能產業創新聯盟手冊