ECCV 2020 | 小米提出 Fair DARTS :公平的可微分神經網絡搜索


本文深度解讀小米 AI 實驗室 AutoML 團隊(做者:初祥祥、周天寶、張勃、李吉祥)在可微分神經網絡搜索(DARTS)方向的最新成果 Fair DARTS,該工做已被ECCV 2020 接收。git


該論文從公平性角度思考DARTS現存的問題並提出了有效的解決方案,另外本文設計了一種輔助損失函數,解決了離散化誤差的難題。
github


01.微信

創新點和貢獻網絡


1. 揭示可微分搜索中 DARTS 出現跳接操做(Skip Connections, SC)大量彙集的緣由,即 DARTS 方法存在 skip 操做具備明顯的不公平競爭優點,以及 softmax 操做潛在的排外競爭方式(兩個結點之間只選擇一個操做)。所以消除兩者之一能夠解決這個問題,本文方法採起了打破競爭(公平)的方法,即用 sigmoid 替代 softmax 來容許選擇多個操做。架構


2. DARTS 是離散問題進行連續鬆散的解決方法,最後根據連續的結構權重編碼來決定選擇更具優點的 op,一般連續值和 0 和 1  之間有很大的差距,從而致使選擇過程容易出現誤差。本文提出在公平條件下使用 0-1 損失將結構權重推向 0-1 兩端,從而減少連續編碼轉成 one-hot 時存在的誤差。app


3. 本文從公平性框架內從新解讀現有解決 SC 彙集問題的方法,並指出現有方法的合理性。框架


02.

研究動機dom


1. DARTS 搜索結果容易出現大量的 SC,這種模型的性能一般不佳。關於爲何會出現 SC 彙集,目前還不清楚根本緣由。本文經過不一樣的隨機數種子重複 4 次實驗,把每一個節點中 softmax(α) 最高的兩個操做選出來進行統計,證明 SC 急劇增多廣泛存在(Fig2)。機器學習





2. 在 ImageNet 上進行 DARTS 搜索實驗,SC(磚紅色)彙集更加明顯(Fig.1)。編輯器




3. 根據實驗現象分析 SC 彙集致使性能崩塌的緣由: 競爭環境,存在不公平優點,兩者同時做用致使 SC 彙集,進而帶來性能崩塌。

1)SC 相似 ResNet 的 residual 模塊,對訓練是有益(Fig3),因此它的 α 權重提高快,對模型準確率沒有獲得相應程度的提高。

2)softmax 提供了一個潛在的排他性競爭,即在 softmax 的機制下,他強我弱,當 SC 初現苗頭時,會加重這種趨勢。



4. 分析連續編碼離散化時的差別:

連續值和離散值時存在較大差距(即連續 softmax(α) 權重最終須要轉爲 one-hot 編碼來肯定最終 op)。實驗發現搜索階段得出的 softmax(α) 值都是很接近的(4次重複試驗發現 softmax(α) 值總在 0.1 到 0.3 之間,離指望的 1 很遠),致使最終轉化爲 one-hot 編碼時常常須要作出模糊的決策(例如兩個不一樣操做的 softmax(α) 值是 0.176 和 0.174,很難判斷哪一個更優),因此連續編碼離散化存在必定的差別。如 Fig4 中,softmax (α) 值都十分接近。



03.

方法


1. 提出使用 sigmoid 替代 softmax 處理結構權重,在這種狀況下,多個 op 之間不會相互抑制,從而打破的 SC 能夠發揮做用的競爭環境。具體地,將下式



變爲


2. 提出添加輔助的 0-1 損失來縮小連續編碼離散化的差距:在公平條件下,咱們得以將不一樣操做的權重參數推向 0 或 1,擴大相對差別,即要麼靠近 0 要麼靠近 1



04.

實驗


1. 模型在 CIFAR-10 數據集上對比,在使用了更低的乘加數和params後,精度可達 97.46%:



2. 模型在 ImageNet 數據集上的對比:



3. 模型結構



4. 消融實驗

1)文中認爲 SC 有明顯的不公平優點,那去掉 SC,在競爭環境的搜索過程會公平一些嗎?該文發現去掉 SC 後沒有出現某個 op 集聚的問題(Fig 7)。



2)去掉輔助 0-1損失後,結構權重分佈很寬(0-0.6),加上後能讓結構權重分佈趨向兩極(0 或 1),從而很好地解決連續編碼離散化的差別問題(Fig 8)



05.

思考


從文中認爲的 SC 集聚的緣由出發,能夠發現,現有對於這個問題的有效改進的方法,均可以獲得合理的解釋。


1. PDARTS 在 SC 操做後添加 dropout,相似於抑制 SC 的優點,能夠減弱其帶來的影響。


2. RobustDARTS 中全部的操做都添加 dropout 一樣能下降不公平的優點,但和 PDARTS同樣, dropout rate 比較難於選擇。


3. DARTS+ 中經過早停機制來限定 SC 的數量,在爲干預大量 SC 出現,限制了不公平優點,但限制多少合適是一個問題。


4. 直接限定 SC 的數量是很強的人爲先驗,這樣的模型一般都是比較優秀的模型。隨機採樣(Random M=2)知足該限制條件的模型進行完整訓練,平均精度都高於 97% ,並且無需DARTS 搜索 (Table 3)



5. 根據前述分析可知,對 SC 輸出加隨機噪聲也能干擾 SC 的不公平競爭優點,Table 3 中添加餘弦遞減的高斯噪聲後,其搜索模型的平均精度較高 97.12%。


6. 至因而去掉不公平優點仍是改變排他性競爭環境,FairDARTS 選擇了後者(即更換 softmax 爲 sigmoid,從而變競爭爲合做),這樣作更加簡單且有效,同時還爲消除連續編碼離散化差別提供了鋪墊(使用輔助0-1損失的前提條件是非排他環境)。


論文: 《Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search》

地址:https://arxiv.org/abs/1911.12126

開源地址:https://github.com/xiaomi-automl/FairDARTS


AutoML 團隊招聘:AutoML/NAS 方向,全職/實習生

簡歷發送至 zhangbo11@xiaomi.com


備註:NAS

AutoML&NAS交流羣

自動機器學習、神經架構搜索等技術,

若已爲CV君其餘帳號好友請直接私信。

我愛計算機視覺

微信號:aicvml

QQ羣:805388940

微博知乎:@我愛計算機視覺

投稿:amos@52cv.net

網站:www.52cv.net

在看,讓更多人看到  

本文分享自微信公衆號 - 我愛計算機視覺(aicvml)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索