Going deeper with convolutions——Googlenet論文翻譯

時間 2020-04-01

標籤 going deeper convolutions googlenet 論文翻譯简体版

原文原文鏈接

Going deeper with convolutions

摘要

在ImageNet大規模視覺識別挑戰賽2014（ILSVRC14）上咱們提出了一種代號爲 " Inception " 的深度卷積神經網絡結構，且圖像分類和檢測上取得了新的最好結果。該體系結構的主要特色是提升了網絡內的計算資源利用率。這是經過精心設計實現的，該設計容許在保持計算預算不變的同時增長網絡的深度和寬度。爲了網絡的優化質量，架構設計基於Hebbian原則和多尺度處理直覺的基礎。咱們在爲ILSVRC14 提交的模型文件中使用的一種特殊形式稱爲 " googlenet " ，它是一個22層深的網絡，其質量將在分類和檢測的背景下進行評估。算法

1 介紹

過去的三年中，主要因爲深刻學習和卷積網絡的發展[10]，圖像識別和目標檢測的能力正之前所未有的速度向前發展。一個使人鼓舞的消息是，這一進步的大部分不只僅是更強大的硬件、更大的數據集和更大的模型的結果，而主要是新的想法、算法和網絡結構的改進的結果。例如，ILSVRC 2014競賽中最靠前的輸入除了用於檢測目的的分類數據集以外，沒有使用新的數據資源。咱們的GoogleNet提交給ILSVRC 2014的報告其實是兩年前Krizhevsky等人[9]的獲獎架構使用的參數的1/12，並且要更加準確。在目標檢測方面，最大的收穫不是來自於單獨利用深度網絡或更大的模型，而是來自於深層架構和經典計算機視覺的協同做用，好比Girshick等人[6]的R-CNN算法。緩存

另外一個顯著的因素是，隨着移動計算和嵌入式計算的不斷髮展，咱們算法的效率變得愈來愈重要——尤爲是它們對於的能力和內存的使用。值得注意的是，正是包含了此因素的考慮才得出了本文中的深度架構設計，而不是簡單的爲了提升準確率。對於大多數實驗，這些模型的設計是爲了保持在推理時15億乘加的計算預算，於是它們最終不是成爲純粹的學術好奇心，而是能夠在合理的成本內投入現實世界的使用，即便是在大型數據集上也是如此。安全

本文將重點研究一種高效的計算機視覺深層神經網絡體系結構，代號爲 " Inception " ，它的名稱來源於Lin等人[12]的網絡論文中的網絡，以及著名的「咱們須要更深層次的」網絡模因[1]。在咱們的例子中，" 深度 " 一詞有兩種不一樣的含義：首先，咱們以「Inception模塊」的形式引入了一個新的組織層次，而且在更直接的意義上增長了網絡深度。通常來講，人們能夠把初始模型看做是論文[12]的邏輯頂點，同時從Arora等人的理論工做中得到靈感和引導[2]。該架構的優勢在ILSVRC 2014分類和檢測挑戰上獲得了實驗驗證，在這方面，它的性能明顯優於目前的先進水平。網絡

2 相關工做

從LeNet-5[10]開始，卷積神經網絡(CNN)一般有一個標準的結構-堆疊的卷積層(後面可選擇添加對比度歸一化和最大池)後面是一個或多個全鏈接層。這種基本設計的變體在圖像分類文獻中尤其流行，並在mnist、CIFAR和ImageNet分類挑戰[9，21]上取得了迄今爲止最好的結果。對於大型數據集，如ImageNet，最近的趨勢是增長層數[12]和層大小[21，14]，同時使用Dropout[7]來解決過分擬合的問題。數據結構

儘管人們擔憂最大池化層會致使精確的空間信息丟失，但與[9]相同的卷積網絡結構也被成功地用於定位[9，14]，目標檢測[6，14，18，5]和人體姿態估計[19]。架構

從靈長類視覺皮層神經科學模型獲得啓發，Serre等人[15]使用了一系列固定的不一樣大小的Gabor濾波器來處理多尺度。咱們使用了一個相相似的結構。然而，與[15]中固定的2層深度模型相反，在 Inception 初始模型中的全部濾波器都是學習的。此外，Inception層重複了屢次，在GoogLeNet模型中獲得了一個22層的深度模型。app

Network-in-Network是Lin等人[12]爲了增長神經網絡表現能力而提出的一種方法。當應用於卷積層時，該方法能夠看做是額外的1×1卷積層，而後是典型的校訂線性激活[9]。這使得它可以很容易地集成到目前的CNN管道中。咱們在架構中大量使用這種方法。然而，在咱們的設置中，1×1卷積具備雙重用途：最關鍵的是，它們主要用做降維模塊，以消除卷積計算的瓶頸，不然這將會限制咱們的網絡規模。這不只容許增長網絡的深度，並且還容許咱們網絡寬度增長而不會有顯著的性能上損失。機器學習

目前主要的目標檢測方法是Girshick等人提出的基於區域的卷積神經網絡方法(R-CNN)[6]。R-CNN將整個檢測問題分解爲兩個子問題：首先，經過一種類別無關的方式，利用顏色和超像素一致性等低層特徵來產生潛在的目標位置候選區域，而後使用CNN分類器識別這些位置上的對象類別。這樣一種兩個階段的方法利用了低層特徵分割邊界框的準確性，也利用了當前CNN很是強大的分類能力。咱們提交的檢測報告中採用了相似的方法，但在這兩個階段都進行了改進，例如對於更高的目標邊界框召回使用多盒[5]預測，以及更好地對邊界框提案進行分類的集成方法。異步

3 動機和深層考慮

改善深層神經網絡性能最直接的方法是增長它們的大小。這包括增長網絡的深度(層數)及其寬度：每層的單元數。這是一種簡單而安全的方法來訓練高質量的模型，特別是考慮到大量的標記訓練數據的可用性。然而，這個簡單的解決方案有兩個主要缺點。分佈式

更大的規模一般意味着更多的參數，這使得擴大後的網絡更容易過分擬合，特別是在訓練集中標記示例的數量有限的狀況下。這可能成爲一個主要的瓶頸，由於建立高質量的培訓集多是棘手和昂貴的，特別是若是須要專家評估人員來區分像ImageNet(甚至在1000類ILSVRC子集中)這樣的細粒度視覺類別，如圖1所示。

圖1: ILSVRC 2014分類挑戰賽的1000類中兩個不一樣的類別。區分這些類別須要領域知識。

網絡大小均勻增長的另外一個缺點是計算資源的使用急劇增長。例如，在深度視覺網絡中，若是將兩個卷積層連接起來，它們的濾波器數目的任何均勻增長都會致使計算的二次增加。若是增長的容量沒有獲得有效的使用(例如，若是大多數權重最終接近於零)，那麼大量的計算就會被浪費掉。因爲計算預算在實踐中老是有限的，所以更傾向於有效分配計算資源，而不是任意增長規模，即便主要目標是提升結果的質量。

解決這兩個問題的一個基本的方式就是將全鏈接層替換爲稀疏的全鏈接層，甚至在卷積層內部。除了模仿生物系統以外，因爲Arora等人的開創性工做，這也將具備更堅實的理論基礎的優點[2]。它們的主要結果是，若是數據集的機率分佈能夠用一個大的、很是稀疏的深層神經網絡來表示，則最優的網絡拓撲結構能夠經過分析前一層激活的相關性統計和聚類高度相關的神經元來一層層的構建。儘管嚴格的數學證實須要很強的條件，但這一說法與衆所周知的Hebbian原理產生了共鳴-神經元一塊兒激發、一塊兒鏈接-這代表，即便在實際中，在不太嚴格的條件下，這種基本思想也是適用的。

缺點是，今天的計算架構對於非均勻稀疏數據結構的數值計算效率很低。即便算術運算的數量減小了100倍，查找和緩存丟失的開銷仍然占主導地位，所以切換到稀疏矩陣是不會有好處的。隨着穩定提高和高度調整的數值庫的應用，差距仍在進一步擴大，這些數值庫容許極度快速密集的矩陣乘法，利用底層的CPU或GPU硬件[16, 9]的微小細節。此外，非均勻的稀疏模型須要更復雜的工程和計算基礎設施。目前大多數面向視覺的機器學習系統都是利用空間域的稀疏性來實現的。可是，卷積是做爲與前一層中的補丁的密集鏈接的集合來實現的。自[11]以來，爲了打破對稱性和提升學習能力，卷積網習慣上上在特徵維中使用隨機和稀疏鏈接表，以更好地優化並行計算，這種趨勢又回到了與[9]徹底鏈接的狀態。結構的均勻性和大量的過濾器和更大的批量容許使用高效的密集計算。

這就提出了一個問題：是否有但願實現下一個中間步驟：一種利用額外稀疏性的體系結構，即便是濾波器級，但正如理論所建議的那樣，能經過利用密集矩陣上的計算來利用咱們當前的硬件。關於稀疏矩陣計算的大量文獻(例如[3])代表，將稀疏矩陣聚類成相對稠密的子矩陣，每每會給稀疏矩陣乘法提供最早進的實際性能。彷佛不難想象，在不久的未來，相似的方法將被用於非均勻的深度學習體系結構的自動化構建。

Inception架構開始是做爲案例研究，用於評估一個複雜網絡拓撲構建算法的假設輸出，該算法試圖近似[2]中所示的視覺網絡的稀疏結構，並經過密集的、容易得到的組件來覆蓋假設結果。儘管這是一項高度投機性的工做，但只有在對拓撲的精確選擇進行了兩次迭代以後，咱們已經能夠看到與基於[12]的參考架構相比所取得的一些進展。在進一步調整學習率、超參數和改進的訓練方法以後，咱們肯定了該Inception結構對於[6]和[5]的基本網絡在定位和目標檢測方面是特別有用的。有趣的是，雖然大多數最初的架構選擇都通過了完全的質疑和測試，但最終它們至少在本地是最優的。

然而必須謹慎：儘管Inception架構在計算機上領域取得成功，但這是否能夠歸因於構建其架構的指導原則還是有疑問的。要確保這一點須要更完全的分析和驗證：例如，若是基於如下原則的自動化工具會發現相似的、但更好的視覺網絡拓撲結構。最使人信服的證據是，自動化系統是否會建立網絡拓撲，從而在其餘領域使用相同的算法，但具備很是不一樣的全局架構，從而得到相似的收益。至少，Inception架構的最初成功爲在這個方向上激動人心的將來工做提供了堅決的動力。

4 架構細節

Inception架構的主要思想是找出卷積視覺網絡中最優的局部稀疏結構是如何被容易得到的密集份量所近似與覆蓋的。請注意，假定轉換不變性意味着咱們的網絡將由卷積積木構建。請注意，假定平移不變性意味着咱們的網絡將由卷積積木構建。Arora等人[2]提出一種逐層結構，對上一層的相關統計量進行分析，並將其聚成一組具備高度相關性的單元。這些聚類造成了下一層的單元並與前一層的單元鏈接。咱們假設來自前一層的每一個單元對應於輸入圖像的某個區域，而且這些單元被分組爲濾波器組。在較低層(接近輸入層)，相關單元集中在局部區域。這意味着，咱們最終會有大量的團簇集中在一個單一的區域，它們能夠在下一層被1×1的卷積覆蓋，就像[12]中所建議的那樣。然而也能夠預期，將存在更小數目的在更大空間上擴展的聚類，其能夠被更大塊上的卷積覆蓋，在愈來愈大的區域上塊的數量將會降低。爲了不塊校訂的問題，目前Inception架構形式的濾波器的尺寸僅限於1×一、3×三、5×5，這個決定更多的是基於便易性而不是必要性。這還意味着所建議的體系結構是全部這些層的組合，它們的輸出濾波器組鏈接成一個單一的輸出矢量，造成下一階段的輸入。此外，因爲池操做對於當前最早進的卷積網絡的成功相當重要，它建議在每一個這樣的階段增長一條可供選擇的並行池路徑，這也應具備額外的有益效果(見圖2(A)。

因爲這些「Inception模塊」是層疊在一塊兒的，它們的輸出相關統計量必然會有所不一樣：因爲較高的抽象特徵被較高的層所捕捉，它們的空間濃度預計會下降，這意味着3×3和5×5卷積的比率應該隨着咱們移動到更高的層而增長。

上述模塊的一個大問題是在具備大量濾波器的卷積層之上，即便適量的5×5卷積也多是很是昂貴的，至少在這種樸素形式中有這個問題。一旦將池單元添加到混合中，這個問題就會更加明顯：它們的輸出過濾器的數量等於上一階段的過濾器的數量。將池層的輸出與卷積層的輸出合併將不可避免地致使從一個階段到另外一個階段的輸出數量的增長。即便這個體系結構可能覆蓋最優的稀疏結構，它也會很是低效率地完成它，在幾個階段內致使計算崩潰。

這致使了Inception架構的第二個想法：在計算要求會增長太多的地方，明智地減小維度和映射。這是基於嵌入式的成功：即便是低維嵌入也可能包含大量關於相對較大的圖像修補程序的信息。然而，嵌入以密集、壓縮的形式表示信息，壓縮後的信息更難建模。咱們但願在大多數地方保持咱們的表示稀疏(根據[2]的要求)，而且只有當信號必須彙集在一塊兒時纔對它們進行壓縮。也就是說，在昂貴的3×3和5×5卷積以前，使用1×1卷積來進行計算約簡。除了用做減小（參數）外，它們還包括使用經校訂的線性激活，使它們具備雙重用途。最後的結果如圖2(B)所示。

通常來講，Inception網絡是由上述類型的模塊相互疊加而成的網絡，偶爾會有跨越2的最大池層，以將網格的分辨率減半。因爲技術緣由(訓練期間的內存效率)，彷佛只在較高層開始使用初始模塊，而以傳統的卷積方式保持較低層的使用是有益的。這不是絕對必要的，只是反映了咱們目前實現中的一些基礎結構效率低下。

這個體系結構的主要好處之一是，它容許在每一個階段顯着地增長單元數量，而不會在後面的階段出現計算複雜度不受控制的爆炸。維數約簡的廣泛使用使得在上一階段的大量輸入濾波器被屏蔽到下一層，首先減少它們的維數，而後再將它們與大的塊大小集合在一塊兒。該設計的另外一個實際有用的方面是，它與直覺保持一致，即視覺信息應該在不一樣的尺度上進行處理，而後進行聚合，以便下一階段可以同時從不一樣的尺度中提取特徵。

經過改進計算資源的使用，能夠增長每一個階段的寬度和階段數，而不會陷入計算困難。另外一種利用初始架構的方法是建立稍微低劣的，但計算成本較低的版本。咱們已經發現，全部包含的旋鈕和槓桿都容許對計算資源進行控制平衡，從而使網絡比具備非初始架構的相似執行網絡快2−3×，可是這須要在此時進行仔細的手工設計。

5 GoogLeNet

咱們在ilsvrc 14競賽中選擇GoogLeNet做爲咱們的團隊名稱。這個名字是對亞恩萊昂開拓性的 LeNet 55網絡[10]的一種敬意。咱們還使用GoogleNet來做爲咱們提交的競賽中所使用的Inception架構的特例。咱們還使用了一個更深更廣的初始網絡，其質量稍差，但將其添加到集合中彷佛能夠稍微提升效果。咱們忽略了網絡的細節，由於咱們的實驗代表，精確的架構參數的影響相對較小。在這裏，爲了演示目的，表1描述了最成功的特定實例(名爲GoogLeNet)。在咱們集成的7種模型中，有6種採用了徹底相同的拓撲結構(用不一樣的採樣方法訓練)。

全部的卷積都使用了修正線性激活，包括Inception模塊內部的卷積。在咱們的網絡中感覺野是在均值爲0的RGB顏色空間中，大小是224×224。「#3×3 reduce」和「#5×5 reduce」表示在3×3和5×5卷積以前，降維層使用的1×1濾波器的數量。在pool proj列能夠看到內置的最大池化以後，投影層中1×1濾波器的數量。全部的這些降維/投影層也都使用了線性修正激活。

該網絡的設計考慮了計算效率和實用性，所以能夠在單個設備上運行，包括那些計算資源有限的設備，尤爲是內存佔用較少的設備。當只計算帶有參數的層時，網絡有22層深度(若是計算pooling 池，則爲27層)。用於建造網絡的層(獨立構建塊)的總數約爲100層。然而，這個數字取決於所使用的機器學習基礎設施系統。在分類器以前使用平均池是基於[12]的，儘管咱們的實現不一樣之處在於咱們使用了額外的線性層。線性層使咱們的網絡能很容易地適應其它的標籤集，但它主要是方便，咱們不指望它有一個重大的影響。咱們發現從全鏈接層變爲平均池化，提升了大約top-1 %0.6的準確率，然而即便在移除了全鏈接層以後，Dropout的使用仍是必不可少的。

考慮到網絡的相對較大的深度，以有效的方式將梯度傳播回全部層的能力是一個值得關注的問題。一個有趣的觀點是，相對較淺的網絡在這項任務上的強大性能代表，網絡中間層產生的特性應該是很是有區別的。經過增長與這些中間層相鏈接的輔助分類器，咱們指望在分類器的較低階段加強識別，增長傳播回來的梯度信號，並提供額外的正則化。這些分類器採用設置在初始(4a)和(4d)模塊的輸出之上的較小卷積網絡的形式。在訓練過程當中，它們的損失以折扣權重加到網絡的總損失中(輔助分類器的損失加權0.3)。在推理時，這些輔助網絡被丟棄。

包括輔助分類器在內的附加網絡的具體結構以下：

一個濾波器大小5×5，步長爲3的平均池化層，致使(4a)階段的輸出爲4×4×512，(4d)的輸出爲4×4×528。
具備128個濾波器的1×1卷積，用於降維和修正線性激活。
一個全鏈接層，具備1024個單元和修正線性激活。
丟棄70%輸出的丟棄層。
使用帶有softmax損失的線性層做爲分類器（做爲主分類器預測一樣的1000類，但在推斷時移除）。

6 訓練方法

咱們的網絡使用分佈式機器學習系統對網絡進行了訓練，使用了少許的模型和數據並行性。儘管咱們僅使用一個基於CPU的實現，但粗略的估計代表GoogLeNet網絡能夠用更少的高端GPU在一週以內訓練到收斂，主要的限制是內存使用。咱們的訓練採用異步隨機梯度降低的0.9動量[17]，固定的學習速率時間表(下降4%的學習率每8個時代)。利用Polyak平均[13]創建了推理時使用的最終模型。

圖像採樣方法在過去幾個月的競賽中發生了重大變化，而且已收斂的模型（能夠）在其餘選項上進行了訓練，有時還結合着超參數的改變，例如丟棄和學習率，所以，很難對培訓這些網絡的最有效的單一方式給予明確的指導。使問題更加複雜的是，一些模型主要是在較小的相對裁剪（crop）上進行訓練，另外一些是在[8]的啓發下訓練更大的crop。不過，有一種處方在比賽後獲得了很好的驗證，它的尺寸均勻分佈在圖像區域的8%—100%之間，並在3/4和4/3之間隨機選擇其長寬比的各類大小的圖像塊進行採樣。此外，咱們還發現，AndrewHoward[8]的光度畸變在必定程度上有助於防止過分擬合。此外，咱們還開始使用隨機插值方法(雙線性、面積、最近鄰和立方，機率相等)來比較晚地調整大小，並結合其餘超參數變化，所以沒法肯定最終結果是否受到其使用的積極影響。

7 ILSVRC 2014分類挑戰設置和結果

ILSVRC 2014分類挑戰涉及將圖像分類爲ImageNet層次結構中的1000個葉節點類別之一的任務。大約有120萬張圖像用於培訓，5萬張用於驗證，10萬張用於測試。每幅圖像都與一個地面真相分類器相關聯，而且性能是基於最高得分分類器預測來衡量的。一般報告兩個數字：top-1準確率，比較實際類別和第一個預測類別，top-5錯誤率，比較實際類別與前5個預測類別：若是圖像實際類別在top-5中，則認爲圖像分類正確，無論它在top-5中的排名。挑戰賽使用top-5錯誤率來進行排名。

咱們參加了此次挑戰，沒有使用外部數據進行培訓。除了本文中提到的訓練技術以外，咱們還在測試中採用了一套技術來得到更高的性能，咱們將在下面對此進行詳細的闡述。

咱們獨立地培訓了7個版本的相同的谷歌網模型(包括一個更普遍的版本)，並與他們一塊兒進行了集成預測。這些模型通過相同的初始化(甚至具備相同的初始權重(主要是因爲疏忽)和學習速率策略的訓練，它們只在採樣方法和看到輸入圖像的隨機順序上有所不一樣。
在測試中，咱們採用比Krizhevsky等人[9]更積極的裁剪方法。具體來講，咱們將圖像歸一化爲四個尺度，其中較短維度（高度或寬度）分別爲256，288，320和352，取這些歸一化的圖像的左，中，右方塊（在肖像圖片中，咱們採用頂部，中心和底部方塊）。對於每一個方塊，咱們將採用4個角以及中心224×224裁剪圖像以及方塊尺寸歸一化爲224×224，以及它們的鏡像版本。這致使每張圖像會獲得4×3×6×2 = 144的裁剪圖像。前一年的輸入中，Andrew Howard[8]採用了相似的方法，通過咱們實證驗證，其方法略差於咱們提出的方案。咱們注意到，在實際應用中，這種積極裁剪多是沒必要要的，由於存在合理數量的裁剪圖像後，更多裁剪圖像的好處會變得很微小（正如咱們後面展現的那樣）。
在多個做物和全部分類器上，對Softmax機率進行平均，以得到最終的預測結果。在咱們的實驗中，咱們分析了驗證數據的替代方法，例如對裁剪的最大池和對分類器的平均，但它們致使的性能不如簡單平均。

在本文的其他部分，咱們分析了影響最終提交的整體性能的多種因素。

咱們在挑戰中的最後提交在驗證和測試數據上都得到了6.67%的前5位錯誤，在其餘參與者中排名第一。這與2012年的監督方法相比，相對減小了56.5%，與前一年的最佳方法(Clarifai)相比，相對減小了40%，這兩種方法都使用外部數據來培訓分類器。下表顯示了一些性能最好的方法的統計數據。

咱們還經過改變模型的數量和在下表中預測圖像時使用的做物數量來分析和報告多種測試選擇的性能。當咱們使用一個模型時，咱們選擇了一個在驗證數據上具備最低前1錯誤率的模型。全部數字都報告在驗證數據集中，以免與測試數據統計數據過度匹配。

8 ILSVRC 2014檢測挑戰設置和結果

ILSVRC檢測任務是在200個可能的類中，圍繞圖像中的對象生成包圍框。若是檢測到的對象與地面真相類相匹配，而且它們的邊界框至少重疊50%(使用Jaccard索引)，則它們就算做正確的對象。多餘的檢測被視爲假陽性並受到懲罰。與分類任務相反，每幅圖像可能包含多個對象，也可能沒有對象，它們的比例可能從大到小。報告的結果使用平均精度均值（mAP）。

Google網所採用的檢測方法與r-CNN的方法相似[6]，但做爲區域分類器的起始模型獲得了擴展。此外，經過將選擇性搜索[20]方法與多框[5]預測相結合，改進了區域建議步驟，從而提升了目標包圍盒召回率。爲了減小假陽性的數量，增長了2倍的超像素大小。這將選擇性搜索算法中的提議減半。咱們總共補充了200個來自多盒結果的區域生成，大約60%的區域生成用於[6]，同時將覆蓋率從92%提升到93%。減小區域生成的數量，增長覆蓋率的總體影響是對於單個模型的狀況平均精度均值增長了1%。最後，等分類單個區域時，咱們使用了6個GoogLeNets的組合。這致使準確率從40%提升到43.9%。注意，與R-CNN相反，因爲缺乏時間咱們沒有使用邊界框迴歸。

咱們首先報告頂級檢測結果，並顯示自初版檢測任務以來的進展狀況。與2013年的結果相比，準確率幾乎翻了一番。表現最好的團隊都使用卷積網絡。咱們報告表4中的官方分數和每一個團隊的共同策略：使用外部數據、集成模型或上下文模型。外部數據一般是用於預訓練的ilsvrc 12分類數據，該模型隨後對檢測數據進行細化。一些團隊還提到了本地化數據的使用。因爲定位任務邊界框的很大一部分不包含在檢測數據集中，所以可使用該數據對一個通用的邊界盒迴歸器進行預訓練，就像在預訓練中使用分類同樣。

在表5中，咱們僅比較了單個模型的結果。最好性能模型是Deep Insight的，使人驚訝的是3個模型的集合僅提升了0.3個點，而GoogLeNet在模型集成時明顯得到了更好的結果。

9 總結

咱們的結果彷佛提供了一個確鑿的證據，證實用現有的密集積木來逼近預期的最優稀疏結構是改進計算機視覺神經網絡的一種可行方法。該方法的主要優勢是與較淺和較小的網絡相比，在計算需求略有增長的狀況下得到了顯著的質量增益。還要注意的是，咱們的檢測工做是有競爭力的，儘管既沒有使用上下文，也沒有執行邊界框迴歸，這一事實爲初始架構的強度提供了進一步的證據。雖然咱們的方法能夠經過更昂貴的、深度和寬度類似的網絡來實現相似的結果質量，可是咱們的方法提供了確鑿的證據，證實移動到稀疏的體系結構在通常狀況下是可行的和有用的。這代表將來有但願在[2]的基礎上，以自動化的方式創造更稀疏、更精細的結構。

10 致謝

咱們要感謝Sanjeev Arora和Aditya Bhas卡拉就[2]進行的富有成果的討論。咱們還要感謝迪貝利夫[4]隊的支持，特別是對拉賈特·蒙加、喬恩·希透鏡、亞歷克斯·克里澤夫斯基、傑夫·迪安、伊利亞·薩茨卡特和安德里亞·弗洛姆的支持。咱們還要感謝湯姆·杜裏格和寧·葉在光度畸變方面的幫助。此外，若是沒有查克、羅森博格和哈特尼格·亞當的支持，咱們的工做就不可能完成。

參考文獻

[1] Know your meme: We need to go deeper. http://knowyourmeme.com/memes/we-need-to-go-deeper. Accessed: 2014-09-15.

[2] S. Arora, A. Bhaskara, R. Ge, and T. Ma. Provable bounds for learning some deep representations. CoRR, abs/1310.6343, 2013.

[3] U. V. C ̧atalyu ̈rek, C. Aykanat, and B. Uc ̧ar. On two-dimensional sparse matrix partitioning: Models, methods, and a recipe. SIAM J. Sci. Comput., 32(2):656–683, Feb. 2010.

[4] J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, M. Mao, M. Ranzato, A. Senior, P. Tucker, K. Yang, Q. V. Le, and A. Y. Ng. Large scale distributed deep networks. In P. Bartlett, F. Pereira, C. Burges, L. Bottou, and K. Weinberger, editors, NIPS, pages 1232–1240. 2012.

[5] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In CVPR, 2014.

[6] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition, 2014. CVPR 2014. IEEE Conference on, 2014.

[7] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. CoRR, abs/1207.0580, 2012.

[8] A. G. Howard. Some improvements on deep convolutional neural network based image classification. CoRR, abs/1312.5402, 2013.

[9] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106–1114, 2012.

[10] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comput., 1(4):541–551, Dec. 1989.

[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.

[12] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.

[13] B. T. Polyak and A. B. Juditsky. Acceleration of stochastic approximation by averaging. SIAM J. Control Optim., 30(4):838–855, July 1992.

[14] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/1312.6229, 2013.

[15] T. Serre, L. Wolf, S. M. Bileschi, M. Riesenhuber, and T. Poggio. Robust object recognition with cortex-like mechanisms. IEEE Trans. Pattern Anal. Mach. Intell., 29(3):411–426, 2007.

[16] F. Song and J. Dongarra. Scaling up matrix computations on shared-memory manycore systems with 1000 cpu cores. In Proceedings of the 28th ACM Interna- tional Conference on Supercomputing, ICS ’14, pages 333–342, New York, NY, USA, 2014. ACM.

[17] I. Sutskever, J. Martens, G. E. Dahl, and G. E. Hinton. On the importance of initialization and momentum in deep learning. In ICML, volume 28 of JMLR Proceed- ings, pages 1139–1147. JMLR.org, 2013.

[18] C.Szegedy,A.Toshev,andD.Erhan.Deep neural networks for object detection. In C. J. C. Burges, L. Bottou, Z. Ghahramani, and K. Q. Weinberger, editors, NIPS, pages 2553–2561, 2013.

[19] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. CoRR, abs/1312.4659, 2013.

[20] K. E. A. van de Sande, J. R. R. Uijlings, T. Gevers, and A. W. M. Smeulders. Segmentation as selective search for object recognition. In Proceedings of the 2011 International Conference on Computer Vision, ICCV ’11, pages 1879–1886, Washington, DC, USA, 2011. IEEE Computer Society.

[21] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In D. J. Fleet, T. Pajdla, B. Schiele, and T. Tuytelaars, editors, ECCV, volume 8689 of Lecture Notes in Computer Science, pages 818–833. Springer, 2014.

聲明：本文翻譯論文目的只是爲了學習，如有侵權之處，請聯繫做者刪除博文，感謝！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。