論文筆記：DARTS: Differentiable Architecture Search

時間 2019-11-12

標籤論文筆記 darts differentiable architecture search 简体版

原文原文鏈接

DARTS: Differentiable Architecture Search
2019-03-19 10:04:26
accepted by ICLR 2019node

Paper：https://arxiv.org/pdf/1806.09055.pdf git

Code：https://github.com/quark0/darts github

1. Motivation and Background: 算法

前人的網絡搜索方法，要麼是基於 RL 的，要麼是基於進化算法的，都是很是耗時的，最近的幾個算法表示他們的計算時間可能須要：1800 GPU days 以及 3150 GPU days。雖然如今也有人對其進行加速處理（Speed Up），例如：網絡

imposing a particular structure of the search space (Liu et al., 2017b,a),app

weights or performance prediction for each individual architecture (Brock et al., 2017; Baker et al., 2018)dom

weight sharing across multiple architectures (Pham et al., 2018b; Cai et al., 2018), 函數

可是 scalability 根本性的挑戰並無獲得很好的解決。而致使這種低效率的緣由在於：他們將結構搜索這個任務當作是一個離散領域的黑盒優化問題（Block-box optimization problem over a discrete domain），從而致使須要評價大量的結構。性能

在本文中，做者從不一樣的角度來解決這個問題，而且提出一種稱爲 DARTS（Differentiable ARchiTecture Search）的方法來進行有效的結構搜索。並不是在候選結構的離散集合中進行搜索，而是將搜索空間鬆弛到連續的領域，從而能夠經過梯度降低的方式，用驗證集效果的高低，來進行優化。基於梯度優化的數據效率，與低效率的 block-box 搜索方式相比較，能夠獲得更加至關的精度，而且能夠少用至關多的計算資源。同時，也比現有的改進方法要好，ENAS。能夠同時進行卷積和循環結構的搜索。學習

在連續領域中利用結構搜索並非很新，可是仍然有幾個重大的區別：

首先，前人的工做嘗試微調特定方面的結構，如 filter shapes 或者分支模式，而 DARTS 能夠發現複雜的圖拓撲，實現高性能的結構；

其次，並不受限於特定結構，能夠同時發掘卷積和循環網絡。

2. Differentiable Architecture Search:

2.1　Search Space：

跟隨前人的工做，咱們搜索一個計算單元（computation cell）做爲最終結構的構建模塊（building block）。該學習的單元能夠堆疊成 convolutional network 或者循環連接獲得一個 recurrent network。

一個 cell 是一個 directed acyclic graph，是一個由 N 個 nodes 組成的有序的序列。每個節點 $x^{(i)}$ 是一個隱藏表達（即，feature map），有向邊 (i, j) 是用一些操做 $o^{(i, j)}$ 用於轉換 $x^{(i)}$。咱們假設該 cell 是由兩個輸入節點，以及單個輸出節點。對於 convolutional cells，輸入節點是由前兩層的 cell 輸出定義獲得的。對於 recurrent layer，這些被定義爲當前時刻的輸入，以及從前一個時刻的狀態（states）。cell 的輸出是經過對全部的即刻節點（intermediate nodes） concatenation 獲得的。

每個即刻節點都是經過以下的方式進行計算的：

一個特殊的 zero operation 也被引入，來表示兩個節點之間不存在連接。因此，cell 的學習被簡化爲：learning the operations on its edges。

2.2　Continuous Relaxation and Optimization:

假設 O 表示候選操做的集合（即，convolution, max pooling, zero），其中，每個操做符表明一些函數 o(*) 做用於 $x^{(i)}$。爲了使得搜索空間變的連續，咱們將特定操做的種類選擇鬆弛爲：全部可能操做的 softmax 函數：

其中，一對節點（i, j）的操做混合權重，是由向量 $\alpha^{(i, j)}$ 進行參數化表示的。在鬆弛以後，該結構搜索任務就變成了：學習一組連續變量 $\alpha = {\alpha^{(i, j)}}$，如圖 1 所示。在搜索結束以後，咱們經過將最像的操做來替換掉每一個混合操做符，就得到了一個離散的結構，即：

在接下來，咱們將 $\alpha$ 表示爲結構的編碼。

在鬆弛以後，咱們的目標是：聯合的學習結構化參數 $\alpha$ 和權重 $w$ 。與強化學習或者進化算法相似，咱們將驗證集的性能看作是最終的獎勵或者擬合程度，DARTS 的目標就是優化該驗證集損失，可是用的是 gradient descent。

咱們用 $L_{train}$ and $L_{val}$ 表示訓練和驗證集的損失。這兩個損失不但由結構 $\alpha$ ，也與網絡的權重 $w$ 相關。結構化搜索的目標是：找到一個最優的參數 $\alpha*$ 使其能夠最小化驗證集的損失函數 $L_{val} (w*, \alpha*)$，而且與結構相關的模型權重 $w*$ 也緊跟着經過最小化訓練集損失而獲得，即：$w* = arg min_w L_{train} (w, \alpha^*)$。

這是一個 bilevel optimization problem，其中 $\alpha$ 是 upper-level variable，$w$ 是 lower-level variable：

這個嵌套的表達也在 gradient-based hyperparameter optimization 中被提出，雖然其維度較高，且更難被優化。

2.3 Approximation：

求解上述雙向優化問題，計算量是很是大的，由於一旦上層的 $\alpha$ 變掉了，那麼，裏面模型的權重 $w*(\alpha)$ 就必須從新計算。咱們因此提出一種近似的迭代優化策略：將 w 和 $\alpha$ 用梯度降低步驟來相互優化，如算法 1 所示。

在 step k，給定當前的結構 $\alpha_{k-1}$，咱們經過朝向下降訓練損失的方向去移動 $w_{k-1}$ 來獲得 $w_k$。而後，保持權重 $w_k$ 不變，去更新網絡結構，使其能夠最小化驗證集損失（在執行一次梯度降低以後）：

其中，是該虛擬梯度步驟的學習率。公式 5 的動機是：we would like to find an architecture which has a low validation loss when its weights are optimized by (a single step of) gradient descent, where the one-step unrolled weights serve as the surrogate for w∗(α).

一個相關的方法也被用於 meta-learning 來進行模型遷移。須要注意的是，做者所提出的這種動態迭代算法，定義了一種 $\alpha$'s optimizer (leader) 和 $w$'s optimizer (follower) 之間的 Stackelberg game ，爲了達到平衡，這一般要求 the leader 參與到 follower 的下一步移動。咱們當前沒有注意到收斂性保證，實際上，適當的調整學習率，是能夠確保收斂的。咱們也注意到：對於權重優化，當動量能夠確保時，one-step forward learning objective（5）也被隨之而改變，因此咱們的分析，都是適用的。

經過微分公式 5，咱們能夠獲得結構梯度，即 $\alpha$：

其中，表明一個 one-step forward model 的權重。公式 6 的第二項包含了一個 matrix-vector product，其計算代價昂貴。幸虧，finite difference approximation 能夠用於下降其複雜性。用表示一個小的 scalar，那麼咱們有：

而後，咱們能夠獲得：

評估該 finite difference 僅須要兩次前向傳播便可獲得 weights，兩次反向傳播，就能夠獲得 $\alpha$，運算複雜度大大的下降了：

First-order Approximation:

當學習率爲 0，公式 6 中的二階衍生物就消失了。在這種狀況下，結構梯度就是：。

2.4 Deriving Discrete Architectures:

在獲得連續結構編碼 $\alpha$ 以後，離散的結構能夠經過以下的結構獲得：

1). Retaining k strongest predecessors for each intermediate node, where the strength of an edge is defined as:

2). Replacing every mixed operation as the most likely operation by taking the argmax.

3. Experiments and Results:

做者在 CIFAR-10 和 PTB 上面作了實驗，分爲兩個階段：architecture search 和 architecture evaluation。