DARTS: Differentiable Architecture Search
2019-03-19 10:04:26
accepted by ICLR 2019node
Paper:https://arxiv.org/pdf/1806.09055.pdf git
Code:https://github.com/quark0/darts github
1. Motivation and Background: 算法
前人的網絡搜索方法,要麼是基於 RL 的,要麼是基於進化算法的,都是很是耗時的,最近的幾個算法表示他們的計算時間可能須要:1800 GPU days 以及 3150 GPU days。雖然如今也有人對其進行加速處理(Speed Up),例如:網絡
imposing a particular structure of the search space (Liu et al., 2017b,a),app
weights or performance prediction for each individual architecture (Brock et al., 2017; Baker et al., 2018)dom
weight sharing across multiple architectures (Pham et al., 2018b; Cai et al., 2018), 函數
可是 scalability 根本性的挑戰並無獲得很好的解決。而致使這種低效率的緣由在於:他們將結構搜索這個任務當作是一個 離散領域的黑盒優化問題(Block-box optimization problem over a discrete domain),從而致使須要評價大量的結構。性能
在本文中,做者從不一樣的角度來解決這個問題,而且提出一種稱爲 DARTS(Differentiable ARchiTecture Search) 的方法來進行有效的結構搜索。並不是在候選結構的離散集合中進行搜索,而是將搜索空間鬆弛到連續的領域,從而能夠經過梯度降低的方式,用驗證集效果的高低,來進行優化。基於梯度優化的數據效率,與低效率的 block-box 搜索方式相比較,能夠獲得更加至關的精度,而且能夠少用至關多的計算資源。同時,也比現有的改進方法要好,ENAS。能夠同時進行卷積和循環結構的搜索。學習
在連續領域中利用結構搜索並非很新,可是仍然有幾個重大的區別:
首先,前人的工做嘗試微調特定方面的結構,如 filter shapes 或者 分支模式,而 DARTS 能夠發現複雜的圖拓撲,實現高性能的結構;
其次,並不受限於特定結構,能夠同時發掘 卷積 和 循環網絡。
2. Differentiable Architecture Search:
2.1 Search Space:
跟隨前人的工做,咱們搜索一個計算單元(computation cell)做爲最終結構的構建模塊(building block)。該學習的單元能夠堆疊成 convolutional network 或者 循環連接獲得一個 recurrent network。
一個 cell 是一個 directed acyclic graph,是一個由 N 個 nodes 組成的有序的序列。每個節點 $x^{(i)}$ 是一個隱藏表達(即,feature map),有向邊 (i, j) 是用一些操做 $o^{(i, j)}$ 用於轉換 $x^{(i)}$。咱們假設該 cell 是由兩個輸入節點,以及單個輸出節點。對於 convolutional cells,輸入節點是由前兩層的 cell 輸出定義獲得的。對於 recurrent layer,這些被定義爲當前時刻的輸入,以及從前一個時刻的狀態(states)。cell 的輸出是經過對全部的即刻節點(intermediate nodes) concatenation 獲得的。
每個即刻節點都是經過以下的方式進行計算的:
一個特殊的 zero operation 也被引入,來表示兩個節點之間不存在連接。因此,cell 的學習被簡化爲:learning the operations on its edges。
2.2 Continuous Relaxation and Optimization:
假設 O 表示候選操做的集合(即,convolution, max pooling, zero),其中,每個操做符表明一些函數 o(*) 做用於 $x^{(i)}$。爲了使得搜索空間變的連續,咱們將特定操做的種類選擇鬆弛爲:全部可能操做的 softmax 函數:
其中,一對節點(i, j)的操做混合權重,是由向量 $\alpha^{(i, j)}$ 進行參數化表示的。在鬆弛以後,該結構搜索任務就變成了:學習一組連續變量 $\alpha = {\alpha^{(i, j)}}$,如圖 1 所示。在搜索結束以後,咱們經過將最像的操做來替換掉每一個混合操做符,就得到了一個離散的結構,即:
在接下來,咱們將 $\alpha$ 表示爲結構的編碼。
在鬆弛以後,咱們的目標是:聯合的學習結構化參數 $\alpha$ 和 權重 $w$ 。與強化學習 或者 進化算法相似,咱們將驗證集的性能看作是最終的獎勵或者擬合程度,DARTS 的目標就是優化該驗證集損失,可是用的是 gradient descent。
咱們用 $L_{train}$ and $L_{val}$ 表示 訓練和驗證集的損失。這兩個損失不但由結構 $\alpha$ ,也與網絡的權重 $w$ 相關。結構化搜索的目標是:找到一個最優的參數 $\alpha*$ 使其能夠最小化驗證集的損失函數 $L_{val} (w*, \alpha*)$,而且與結構相關的模型權重 $w*$ 也緊跟着經過最小化 訓練集損失而獲得,即:$w* = arg min_w L_{train} (w, \alpha^*)$。
這是一個 bilevel optimization problem,其中 $\alpha$ 是 upper-level variable,$w$ 是 lower-level variable:
這個嵌套的表達也在 gradient-based hyperparameter optimization 中被提出,雖然其維度較高,且更難被優化。
2.3 Approximation:
求解上述雙向優化問題,計算量是很是大的,由於一旦上層的 $\alpha$ 變掉了,那麼,裏面模型的權重 $w*(\alpha)$ 就必須從新計算。咱們因此提出一種近似的迭代優化策略:將 w 和 $\alpha$ 用梯度降低步驟來相互優化,如算法 1 所示。
在 step k,給定當前的結構 $\alpha_{k-1}$,咱們經過朝向下降訓練損失的方向去移動 $w_{k-1}$ 來獲得 $w_k$。而後,保持權重 $w_k$ 不變,去更新網絡結構,使其能夠最小化驗證集損失(在執行一次梯度降低以後):
其中, 是該虛擬梯度步驟的學習率。公式 5 的動機是:we would like to find an architecture which has a low validation loss when its weights are optimized by (a single step of) gradient descent, where the one-step unrolled weights serve as the surrogate for w∗(α).
一個相關的方法也被用於 meta-learning 來進行模型遷移。須要注意的是,做者所提出的這種動態迭代算法,定義了一種 $\alpha$'s optimizer (leader) 和 $w$'s optimizer (follower) 之間的 Stackelberg game ,爲了達到平衡,這一般要求 the leader 參與到 follower 的下一步移動。咱們當前沒有注意到收斂性保證,實際上,適當的調整學習率,是能夠確保收斂的。咱們也注意到:對於權重優化,當動量能夠確保時,one-step forward learning objective(5)也被隨之而改變,因此咱們的分析,都是適用的。
經過微分公式 5,咱們能夠獲得結構梯度,即 $\alpha$:
其中,表明一個 one-step forward model 的權重。公式 6 的第二項包含了一個 matrix-vector product,其計算代價昂貴。幸虧,finite difference approximation 能夠用於下降其複雜性。用
表示一個小的 scalar,那麼咱們有:
而後,咱們能夠獲得:
評估該 finite difference 僅須要兩次前向傳播便可獲得 weights,兩次反向傳播,就能夠獲得 $\alpha$,運算複雜度大大的下降了:
First-order Approximation:
當學習率 爲 0,公式 6 中的二階衍生物就消失了。在這種狀況下,結構梯度就是:
。
2.4 Deriving Discrete Architectures:
在獲得連續結構編碼 $\alpha$ 以後,離散的結構能夠經過以下的結構獲得:
1). Retaining k strongest predecessors for each intermediate node, where the strength of an edge is defined as:
2). Replacing every mixed operation as the most likely operation by taking the argmax.
3. Experiments and Results:
做者在 CIFAR-10 和 PTB 上面作了實驗,分爲兩個階段:architecture search 和 architecture evaluation。
在第一個階段,做者搜索 the cell architectures,而後根據其 驗證集的性能,肯定最優的 cell。
在第二個階段,咱們利用這些 cell 來構建大型的結構,而後 train from scratch,而且在測試集上查看最終性能。
最終,做者探索了 the best cells 的遷移能力,而且在 ImageNet 和 WikiText-2 (WT2)數據集上進行了性能測試。
劃重點:
效果對比:
==