AmoebaNet：經費在燃燒，谷歌提出基於aging evolution的神經網絡搜索 | AAAI 2019

時間 2021-01-20

標籤算法微信網絡架構 ide 學習優化 spa 設計 3d 欄目 Chrome 简体版

原文原文鏈接

論文提出aging evolution，一個錦標賽選擇的變種來優化進化算法，在NASNet搜索空間上，對比強化學習和隨機搜索，該算法足夠簡潔，並且可以更快地搜索到更高質量的模型，論文搜索出的AmoebaNet-A在ImageNet上能達到SOTA

來源：【曉飛的算法工程筆記】公衆號算法

論文: Regularized Evolution for Image Classifier Architecture Search微信

論文地址：https://arxiv.org/abs/1802.01548

Introduction

神經網絡結構搜索的網絡已經可以超越人工設計的網絡，可是基於進化算法(evolutionary algorithms)和基因規劃(genetic programming)尚未達到人工設計的網絡的精度。爲此，論文在標準的進化過程基礎上進行兩個改進：網絡

提出改進錦標賽選擇(tournament selection)的進化算法，命名aging evolution或regularized evolution。在錦標賽選擇中，表現最好的基因會保留，而新方法將每一個基因關聯一個年齡，偏向於選擇年輕的基因
在NASNet的搜索空間上採用最簡單的變異集合進行進化，NasNet的搜索空間用小的有向圖來表示卷積神經網絡，節點表示隱藏層，帶標籤的邊表示常見的網絡操做，變異的規則僅容許隨機將邊鏈接到新的節點和修改邊的標籤

在NASNet空間進行搜索，可以直接地將論文提出的方法和原來的強化學習方法進行對比。論文提出的方法不只簡單，並且搜索速度更快，結果更優，搜索獲得的AmoebaNet-A能達到83.9% top-1 error rate架構

Methods

Search Space

NASNet搜索空間定義的網絡架構是固定的，如圖1左，經過堆疊單元(cell)來組成網絡，每一個單元接受前兩個單元的輸出做爲輸入，有normal cell和reduction cell，分別主要用於特徵提取以及池化。單元的搜索就是定義裏面每一個塊的輸入、算子以及合併輸出方式，細節能夠看NASNet的論文，也能夠看我以前的NASNet解讀ide

Evolutionary Algorithm

進化算法始終保持population(種羣)的大小爲$P$個模型，使用隨機網絡進行population初始化，而後進行$C$輪進化來優化種羣。每輪以均勻的機率隨機選取S個模型，將選取的模型中準確率最高的做爲parent，而後將parent進行mutation(變異)獲得新網絡child，在訓練和驗證後將child加入到history和population的右側中，最後刪除population最左邊的模型，算法能夠經過分發「$while |history|$」來進行並行計算
須要注意，在錦標賽選擇中，經過去掉S-sample中最差的模型來保持最初種羣數始終爲$P$，這能夠認爲是non-aging evolution。相反的，論文的新方法每次直接去掉種羣中最老的模型，這樣能爲搜索帶來更多的可能性，而非只關注高準確率模型，稱爲aging evolution
直觀的，變異可認爲是提供探索，而參數$S$則能夠認爲是提供榨取(獲取最優模型的可能)。不一樣的參數$S$控制榨取的侵略性，$S=1$等於隨機搜索，$2\le S\le P$則表明不一樣的貪婪程度學習

變異有三種形式，每次只能進行一種變異，兩種主要的爲hidden state mutation和op mutation，另一種爲不變異。hidden state mutation首先選擇變異的是normal cell仍是reduction cell，而後選擇單元的5個block中的一個，最好在block的兩個輸入中選擇一個進行變異，隨機選擇另一個單元內的hidden state做爲輸入，前提不能產生環。op mutation則進行相似的選擇，先單元類型，而後block，再選兩個操做中的一個進行變異，替換成另外一個隨機操做優化

Baseline Algorithms

論文的主要對比算法爲強化學習(RL)和隨機搜索(RS)spa

Experimental Setup

在CIFAR-10上進行小模型(N和F都很小)搜索，直到驗證了20k模型，以後將搜索到的最優結構應用到full-size的模型中(提升N和F)，而後使用更長的訓練時間來得到CIFAR-10和ImageNet上的準確率設計

Methods Details

op的選擇與NASNet有點不一樣，包含：none (identity); 3x3, 5x5 and 7x7 separable (sep.) convolutions (convs.); 3x3 average (avg.) pool; 3x3 max pool;
3x3 dilated (dil.) sep. conv.; 1x7 then 7x1 conv，$P=100$，$S=25$，在搜索階段每一個模型訓練25 epoch，$N=3/F=24$，在450張K40上訓練7天，identity mutation的機率固定爲0.05，其它的兩種機率一致，搜索到的最優20個模型進行最終的訓練3d