最強深度學習優化器Ranger開源：RAdam+LookAhead強強結合，性能更優速度更快

時間 2021-04-02

標籤 git github 算法安全網絡 app less ide 函數性能欄目系統性能简体版

原文原文鏈接

爲 Ranger 優化器的組成部分，Lookahead 由 Geoffrey Hinton 在 2019 年 7 月的《LookAhead 優化器：前進 k 步，後退一步（LookAhead optimizer: k steps forward, 1 step back）》論文中首次提出。Lookahead 的靈感來自對神經網絡損失面的最新理解進展，其提出了一種穩定深度學習訓練與收斂速度的全新方法。基於 RAdam（Rectified Adam）實現的深度學習方差管理的突破，我發現將 RAdam 與 Lookahead 結合在一塊兒，Ranger 足以成爲一支充滿活力的「夢之隊」，甚至比 RAdam 自身的優化水平更高。git

我已經將兩者結合成單一 Ranger 優化器代碼庫，旨在下降使用難度並整合至 FastAI 當中。目前，你們能夠當即獲取 Ranger 源代碼。github

Vanilla Adam、SGD 以及 Look Ahead + Adam/SGD 在 LSTM 上的對比結果（來自 LookAhead 論文）算法

RAdam 與 LookAhead 爲何可以實現互補

RAdam 能夠說是優化器在開始訓練時的最佳基礎。RAdam 利用動態整流器根據方差調整 Adam 的自適應動量，並有效提供可以根據當前數據集定製的自動預熱機制，可以確保訓練以紮實的基礎順利邁出第一步。安全

LookAhead 則受到深度神經網絡損失面的最新理解進展啓發，可以在整個訓練期間提供健壯且穩定的突破。網絡

引用 LookAhead 團隊的說法——LookAhead「減小了對普遍超參數調整的需求」，同時實現了「以最小計算開銷確保不一樣深度學習任務實現更快收斂速度。」app

所以，兩者都在深度學習優化的不一樣方面帶來了突破，並且這種組合具備高度協同性，有望爲你們的深度學習結果提供兩項最佳改進。如此一來，經過將兩項最新突破 (RAdam + LookAhead) 加以結合，Ranger 的整合成果有望爲深度學習帶來新的發展驅動力，幫助咱們進一步追求更穩定且強大的優化方法。less

Hinton 等人曾表示：「咱們憑經驗證實，Lookahead 可以顯著提升 SGD 與 Adam 的性能，包括在 ImageNet、CIFAR-10/100、神經機器翻譯以及 Penn Treebank 上的默認超參數設置場景之下。」ide

Lookahead 在實際應用中與 SGD 的前瞻性對比——Lookahead 憑藉其雙重探索設置成功給出更緊密的最小值結果。（來自 Lookahead 論文）函數

本文將基於以前的 RAdam 介紹，解釋 Lookahead 到底是什麼，又是如何經過將 RAdam 與 Lookahead 結合至單一優化器 Ranger 當中，從而得到更高準確率的。這裏先簡單總結一下，我運行了 20 輪測試，我的獲得了更高的準確率百分比，比目前 FastAI 排行榜記錄高 1%：性能

Ranger 首次測試的準確率爲 93%

FastAI 排行榜的 20 輪測試準確率爲 92%

更重要的是，任何人均可以利用源代碼與相關信息使用 Ranger，並檢測其是否可以在穩定性與準確率方面爲你的深度學習成果帶來改善！

下面，咱們將深刻研究驅動 Ranger 的兩大組件——RAdam 與 Lookahead：

RAdam (Rectified Adam) 是什麼

簡單對 RAdam 做個總結：該項目的研究人員調查了自適應動量優化器（Adam、RMSProp 等）的機制，發現全部項目都須要進行預熱，不然每每會在訓練開始時帶來糟糕的局部優化狀態。

當優化器沒有足夠的數據來作出準確的自適應動量決策時，咱們就會看到這些在訓練初始階段出現的糟糕表現。所以，預熱有助於下降訓練起步階段時的差別……但即便已經肯定了預熱量需求，咱們仍然須要手動調整並根據具體數據集的不一樣進行微調。

所以，Rectified Adam 應運而生，旨在利用基於所遇到的實際方差的整流函數肯定「預熱啓發式」。整流器會以動態形式對自適應動量進行關閉及「壓實」，確保其不會全速跳躍，直到數據的方差穩定下來。

經過這種方式，咱們就順利擺脫了手動預熱的需求並可以使訓練過程自動實現穩定。

一旦方差穩定下來，RAdam 在餘下的訓練過程當中基本上充當着 Adam 甚至是 SGD 的做用。所以，能夠看到 RAdam 的貢獻主要在於訓練的開始階段。

讀者朋友可能會在結果部分注意到，雖然 RAdam 在很長一段時間內的表現優於 Adam……但 SGD 最終仍會迎頭遇上，並在準確率方面成功超越 RAdam 與 Adam。

在這方面，是時候請出 LookAhead 了，咱們將其整合至一種新的探索機制當中，最終可以在超高輪數（甚至上千輪）的狀況下繼續保持對 SGD 的準確率優點。

Lookahead：探索損失面的輔助系統，帶來更快且更穩定的探索與收斂效果

根據 Lookahead 的研究人員們所言，目前大多數成功的優化器都創建在 SGD 基礎之上，同時加入：自適應動量（Adam、AdaGrad）或者一種加速形式（Nesterov 動量或者 Polyak Heavy Ball）以改善探索與訓練過程，並最終收斂。

可是，Lookahead 是一種新型開發成果，其會保留兩組權重然後在兩者之間進行插值，從而推進更快權重集的「前瞻」或者探索，同時讓較慢的權重集留在後面以維持長期穩定性。

結果就是，訓練期間的方差有所下降，對次優超參數的敏感性降低，同時減小了對普遍超參數調整的需求。這種做法可以在多種深度學習任務之上實現更快收斂。換言之，這爲咱們帶來了使人印象深入的重大突破。

經過簡單的類比，相信你們可以更好地理解 Lookahead 的做用。想象一下，咱們身處山脈的頂端，而周邊的峯巒則各有高低。其中一座最終延至山腳下構成了成功的通道，但其它則只是繞來繞去，沒法幫助咱們走到山腳。

親自進行探索固然很是困難，由於咱們在選定一條路線的同時，總會同時放棄其它路線，直到最終找到正確的通路。

可是，咱們在山頂或者靠近山頂的位置留下一位夥伴，其會在狀況看起來不妙時及時把咱們喚回。這能幫助咱們在尋找出路的時候快速取得進展，由於所有地形的探索速度將更快，並且被卡在死路中的可能性也更低。

Lookahead 的意義基本上就是這樣。它會保留一個額外的權重副本，然後讓內化得「更快」的優化器（在 Ragner 中，即 RAdam）進行 5 或 6 輪探索。輪處理間隔經過 k 參數進行指定。

LookAhead 隨後，一旦 k 間隔觸發，Lookahead 就會在其保存的權重與 RAdam 的最新權重之間進行差值相乘，並在每 k 個輪次乘以 alpha 參數（默認狀況下爲.5），同時更新 RAdam 的權重。

Ranger 代碼顯示，Lookahead 會更新 RAdam 的參數

結果實際上來自內部優化器（在本示例中爲 RAdam）的快速移動平均值以及經過 Lookahead 的慢速移動平均值。快速平均值進行探索，慢速平均值則做爲回撤或者穩定機制——通常來講，慢速平均值負責墊後，但有時候也會將快速平均值「壓實」爲正確機率更高的結果。

憑藉 Lookahead 提供的安全性保障，優化器可以充分探索下山路徑，而再也不須要擔憂卡在死衚衕中進退兩難。

這種方法與目前的兩種主流機制徹底不一樣——即自適應動量以及「重球（heavy ball）」Nesterov 型動量。

所以，因爲訓練穩定性提到顯著提升，Lookahead 可以更快結束探索並實現「壓實」，最終得到超越 SGD 的準確率結果。

Ranger：一套利用 RAdam 與 Lookahead 的單一優化器整合代碼庫

Lookahead 可以與任意優化器共同運行以獲取「快速」權重——論文當中使用的是第一版 Adam，由於 RAdam 在一個月前纔剛剛誕生。

LookAhead 的 PyTorch 集成 (lonePatient實現：https://github.com/lonePatient/lookahead_pytorch)

然而，爲了便於同 FastAI 進行代碼集成並實現更爲普遍的應用，我進一步將兩者合併爲一款名爲 Ranger 的單一優化器（Ranger 中的 RA 是爲了致敬 Rectified Adam；而之因此選擇 Ranger，是由於 LookAhead 的做用就像是在迷途時探索出路，如同「遊俠」通常）。

上圖爲我我的在 ImageNette 上獲得的 20 輪測試最高分數——這實際上也是我第一次使用 Ranger。（目前的排行榜爲 92%。）另外須要注意，訓練過程的穩定性也有所改善。

立刻使用 Ranger！

目前 GitHub 上已經有多種 Lookahead 實現，我從 LonePatient 開始，由於我喜歡它簡潔的代碼風格，並以此爲基礎進行構建。至於 Radam，固然使用了來自官方的 RAdam GitHub 代碼庫。Ranger 的源文件以下：

https://github.com/lessw2020/Ranger-Deep-Learning-Optimizer

使用指南：

1 — 將 ranger.py 複製至你的項目目錄。

2 — 導入 Ranger:

導入 Ranger 便可使用。

3 — 在 FastAI 當中建立一個分區以供 Ranger 使用，然後將學習方的 opt_func 指定該分區。

4 — 開始測試！

LookAhead 參數：

k parameter :— 用於控制在合併 Lookahead 權重以前須要運行的輪次數。常見的默認值爲 5 或 6，我認爲論文當中可能使用了 20 輪。
alpha = 用於控制更新所使用的 Lookahead 方差的百分比。默認值爲.5。Hinton 等人對.5 的合理性作出了強證實，但可能還須要進行簡單測試。

論文中還提到了後續的猜想，便可能能夠根據訓練進展的程度將 k 或 alpha 歸入調整範疇。

根據此前 RAdam 文章的反饋，我打算儘快發佈一份 notebook，幫助你們快速將 Ranger 與 ImageNet 或者其它數據集配合使用，從而進一步下降 Ranger/RAdam/Lookahead 的使用門檻。

總結

兩支彼此獨立的研究團隊，爲實現深度學習的快速穩定優化算法作出了新的突破性貢獻。我發現經過將 RAdam 與 Lookaheaad 加以結合，可以打造出協同優化器 Ranger，並最終在 ImageNet 的 20 輪測試中取得新的最高分。

後續，我還須要進一步測試以優化 Lookahead 與 RAdam 的 k 參數與學習率。不過即便着眼於當下，Lookahead 與 RAdam 已經足以減小手動超參數調整量，所以應該可以爲你們提供新的訓練結果優化途徑。

Ranger 源代碼目前已經正式發佈，你們能夠點擊此處體驗 RAdam 加 Lookahead 這個新組合可否進一步提高你的深度學習效果！

進一步測試代表，使用 Ranger 加上新的 Mish 激活函數（而非 ReLU）可以產生更好的結果。關於 Mish 的細節信息請參閱：

https://medium.com/@lessw/meet-mish-new-state-of-the-art-ai-activation-function-the-successor-to-relu-846a6d93471f