ILSVRC-ImageNet歷年競賽冠軍

ImageNet

是一個超過15 million的圖像數據集,大約有22,000類。
是由李飛飛團隊從2007年開始,耗費大量人力,經過各類方式(網絡抓取,人工標註,亞馬遜衆包平臺)收集製做而成,它做爲論文在CVPR-2009發佈。當時人們還很懷疑經過更多數據就能改進算法的見解。
深度學習發展起來有幾個關鍵的因素,一個就是龐大的數據(好比說ImageNet),一個是GPU的出現。(還有更優的深度模型,更好的優化算法,能夠說數據和GPU推進了這些的產生,這些產生繼續推進深度學習的發展)。

算法

ILSVRC

是一個比賽,全稱是ImageNet Large-Scale Visual Recognition Challenge,日常說的ImageNet比賽指的是這個比賽。
使用的數據集是ImageNet數據集的一個子集,通常說的ImageNet(數據集)實際上指的是ImageNet的這個子集,總共有1000類,每類大約有1000張圖像。具體地,有大約1.2 million的訓練集,5萬驗證集,15萬測試集。
網絡

ILSVRC從2010年開始舉辦,到2017年是最後一屆(在算法層面已經刷過擬合了,再比下去意義不是很大了)。ILSVRC-2012的數據集被用在2012-2014年的挑戰賽中(VGG論文中提到)。ILSVRC-2010是惟一提供了test set的一年。
ImageNet多是指整個數據集(15 million),也可能指比賽用的那個子集(1000類,大約每類1000張),也可能指ILSVRC這個比賽。須要根據語境自行判斷。
12-15年期間在ImageNet比賽上提出了一些經典網絡,好比AlexNet,ZFNet,OverFeat,VGG,Inception,ResNet。
16年以後也有一些經典網絡,好比WideResNet,FractalNet,DenseNet,ResNeXt,DPN,SENet。


架構

2012年

AlexNet是2012年ImageNet競賽冠軍得到者Hinton和他的學生Alex Krizhevsky設計的。也是在那年以後,更多的更深的神經網絡被提出,好比優秀的vgg,GoogLeNet。AlexNet中包含了幾個比較新的技術點,也首次在CNN中成功應用了ReLU、Dropout和LRN等Trick。框架

2013年

OverFeat:OverFeat是早期經典的one-stage Object Detection的方法,基於AlexNet,實現了識別、定位、檢測共用同一個網絡框架;得到了2013年ILSVRC定位比賽的冠軍。ide

OverFeat方法的主要創新點是 multiscale 、sliding window、offset pooling,以及基於AlexNet的識別、定位和檢測方法的融合。函數

2014年

GoogLeNet 冠軍:從Inception v1到v4。引入稀疏特性和將全鏈接層轉換成稀疏鏈接。在inception結構中,大量採用了1x1的矩陣,主要是兩點做用:1)對數據進行降維;2)引入更多的非線性,提升泛化能力,由於卷積後要通過ReLU激活函數。性能

VGG(亞軍):VGG模型在多個遷移學習任務中的表現要優於googLeNet。並且,從圖像中提取CNN特徵,VGG模型是首選算法。它的缺點在於,參數量有140M之多,須要更大的存儲空間。學習

VGG的特色:
小卷積核。做者將卷積核所有替換爲3x3(極少用了1x1);
小池化核。相比AlexNet的3x3的池化核,VGG所有爲2x2的池化核;
層數更深特徵圖更寬。基於前兩點外,因爲卷積核專一於擴大通道數、池化專一於縮小寬和高,使得模型架構上更深更寬的同時,計算量的增長放緩;
全鏈接轉卷積。網絡測試階段將訓練階段的三個全鏈接替換爲三個卷積,測試重用訓練時的參數,使得測試獲得的全卷積網絡由於沒有全鏈接的限制,於是能夠接收任意寬或高爲的輸入。



測試

2015年

ResNet:
殘差網絡的特色是容易優化,而且可以經過增長至關的深度來提升準確率。其內部的殘差塊使用了跳躍鏈接,緩解了在深度神經網絡中增長深度帶來的梯度消失問題 。
優化

生成了ResNet-50,ResNet-101,ResNet-152. 隨着深度增長,由於解決了退化問題,性能不斷提高。做者最後在Cifar-10上嘗試了1202層的網絡,結果在訓練偏差上與一個較淺的110層的相近,可是測試偏差要比110層大1.5%。做者認爲是採用了太深的網絡,發生了過擬合

2016年

Trimps-Soushen冠軍

ResNeXt(亞軍):
ResNeXt是ResNet[2]和Inception[3]的結合體,不一樣於Inception v4[4]的是,ResNext不須要人工設計複雜的Inception結構細節,而是每個分支都採用相同的拓撲結構。ResNeXt的本質是分組卷積(Group Convolution)[5],經過變量基數(Cardinality)來控制組的數量。組卷機是普通卷積和深度可分離卷積的一個折中方案,即每一個分支產生的Feature Map的通道數爲 [公式]

2017年

SENet
SENet是ImageNet 2017(ImageNet收官賽)的冠軍模型,和ResNet的出現相似,都在很大程度上減少了以前模型的錯誤率),而且複雜度低,新增參數和計算量小。下面就來具體介紹一些SENet的神奇之處。

SENet的全稱是Squeeze-and-Excitation Networks,中文能夠翻譯爲壓縮和激勵網絡。主要由兩部分組成:

  1. Squeeze部分。即爲壓縮部分,原始feature map的維度爲HWC,其中H是高度(Height),W是寬度(width),C是通道數(channel)。Squeeze作的事情是把HWC壓縮爲11C,至關於把HW壓縮成一維了,實際中通常是用global average pooling實現的。HW壓縮成一維後,至關於這一維參數得到了以前H*W全局的視野,感覺區域更廣。

  2. Excitation部分。獲得Squeeze的11C的表示後,加入一個FC全鏈接層(Fully Connected),對每一個通道的重要性進行預測,獲得不一樣channel的重要性大小後再做用(激勵)到以前的feature map的對應channel上,再進行後續操做。

相關文章
相關標籤/搜索