一篇圖像識別的科普文

時間 2019-11-20

標籤一篇圖像識別科普简体版

原文原文鏈接

引自：http://www.sohu.com/a/151663692_697750git

圖像識別是當今深度學習的主流應用，而Keras是入門最容易、使用最便捷的深度學習框架，因此搞圖像識別，你也得強調速度，不能磨嘰。本文讓你在最短期內突破五個流行網絡結構，迅速達到圖像識別技術前沿。github

做者| Adrian Rosebrock算法

幾個月前，我寫了一篇關於如何使用已經訓練好的卷積（預訓練）神經網絡模型（特別是VGG16）對圖像進行分類的教程，這些已訓練好的模型是用Python和Keras深度學習庫對ImageNet數據集進行訓練獲得的。數據庫

這些已集成到（先前是和Keras分開的）Keras中的預訓練模型可以識別1000種類別對象（例如咱們在平常生活中見到的小狗、小貓等），準確率很是高。後端

先前預訓練的ImageNet模型和Keras庫是分開的，須要咱們克隆一個單獨github repo，而後加到項目裏。使用單獨的github repo來維護就好了。數組

不過，在預訓練的模型（VGG1六、VGG1九、ResNet50、Inception V3 與 Xception）徹底集成到Keras庫以前(不須要克隆單獨的備份)，個人教程已經發布了，經過下面連接能夠查看集成後的模型地址。我打算寫一個新的教程，演示怎麼使用這些最早進的模型。緩存

https://github.com/fchollet/keras/blob/master/keras/applications/vgg16.py網絡

具體來講，是先寫一個Python腳本，能加載使用這些網絡模型，後端使用TensorFlow或Theano，而後預測你的測試集。架構

Keras上的VGGNet、ResNet、Inception與Xceptionapp

在本教程前半部分，咱們簡單說說Keras庫中包含的VGG、ResNet、Inception和Xception模型架構。

而後，使用Keras來寫一個Python腳本，能夠從磁盤加載這些預訓練的網絡模型，而後預測測試集。

最後，在幾個示例圖像上查看這些分類的結果。

Keras上最好的深度學習圖像分類器

下面五個卷積神經網絡模型已經在Keras庫中，開箱即用：

VGG16
VGG19
ResNet50
Inception V3
Xception

咱們從ImageNet數據集的概述開始，以後簡要討論每一個模型架構。

ImageNet是個什麼東東

ImageNet是一個手動標註好類別的圖片數據庫(爲了機器視覺研究)，目前已有22,000個類別。

然而，當咱們在深度學習和卷積神經網絡的背景下聽到「ImageNet」一詞時，咱們可能會提到ImageNet視覺識別比賽，稱爲ILSVRC。

這個圖片分類比賽是訓練一個模型，可以將輸入圖片正確分類到1000個類別中的某個類別。訓練集120萬，驗證集5萬，測試集10萬。

這1,000個圖片類別是咱們在平常生活中遇到的，例如狗，貓，各類家居物品，車輛類型等等。ILSVRC比賽中圖片類別的完整列表以下：

http://image-net.org/challenges/LSVRC/2014/browse-synsets

在圖像分類方面，ImageNet比賽準確率已經做爲計算機視覺分類算法的基準。自2012年以來，卷積神經網絡和深度學習技術主導了這一比賽的排行榜。

在過去幾年的ImageNet比賽中，Keras有幾個表現最好的CNN（卷積神經網絡）模型。這些模型經過遷移學習技術（特徵提取,微調(fine-tuning)），對ImaegNet之外的數據集有很強的泛化能力。

VGG16 與 VGG19

在2014年，VGG模型架構由Simonyan和Zisserman提出，在「極深的大規模圖像識別卷積網絡」（Very Deep Convolutional Networks for Large Scale Image Recognition）這篇論文中有介紹。

論文地址：https://arxiv.org/abs/1409.1556

VGG模型結構簡單有效，前幾層僅使用3×3卷積核來增長網絡深度，經過max pooling（最大池化）依次減小每層的神經元數量，最後三層分別是2個有4096個神經元的全鏈接層和一個softmax層。

「16」和「19」表示網絡中的須要更新須要weight（要學習的參數）的網絡層數（下面的圖2中的列D和E）,包括卷積層，全鏈接層，softmax層：

極深的大規模圖像識別卷積網絡論文的圖表1, Simonyan & Zisserman (2014)

在2014年，16層和19層的網絡被認爲已經很深了，但和如今的ResNet架構比起來已不算什麼了，ResNet能夠在ImageNet上作到50-200層的深度，而對於CIFAR-10了來講能夠作到1000+的深度。

Simonyan和Zisserman發現訓練VGG16和VGG19有些難點（尤爲是深層網絡的收斂問題）。所以爲了能更容易進行訓練，他們減小了須要更新weight的層數（圖2中A列和C列）來訓練較小的模型。

較小的網絡收斂後，用較小網絡學到的weight初始化更深網絡的weight，這就是預訓練。這樣作看起沒有問題，不過預訓練模型在能被使用以前，須要長時間訓練。

在大多數狀況下，咱們能夠不用預訓練模型初始化，而是更傾向於採用Xaiver/Glorot初始化或MSRA初始化。讀All you need is a good init這篇論文能夠更深瞭解weight初始化和深層神經網絡收斂的重要性。

MSRA初始化：https://arxiv.org/abs/1502.01852

All you need is a good init:https://arxiv.org/abs/1511.06422

不幸的是，VGG有兩個很大的缺點：

網絡架構weight數量至關大，很消耗磁盤空間。

訓練很是慢

因爲其全鏈接節點的數量較多，再加上網絡比較深，VGG16有533MB+，VGG19有574MB。這使得部署VGG比較耗時。咱們仍然在不少深度學習的圖像分類問題中使用VGG，然而，較小的網絡架構一般更爲理想（例如SqueezeNet、GoogLeNet等）。

ResNet（殘差網絡）

與傳統的順序網絡架構（如AlexNet、OverFeat和VGG）不一樣，其加入了y=x層(恆等映射層),可讓網絡在深度增長狀況下卻不退化。下圖展現了一個構建塊(build block)，輸入通過兩個weight層，最後和輸入相加，造成一個微架構模塊。ResNet最終由許多微架構模塊組成。

在2015年的「Deep Residual Learning for Image Recognition」論文中，He等人首先提出ResNet，ResNet架構已經成爲一項有意義的模型，其能夠經過使用殘差模塊和常規SGD（須要合理的初始化weight）來訓練很是深的網絡：

論文地址：https://arxiv.org/abs/1512.03385

其在2016年後發表的文章「Identity Mappings in Deep Residual Networks」中代表，經過使用identity mapping（恆等映射）來更新殘差模塊，能夠得到很高的準確性。

論文地址：https://arxiv.org/abs/1603.05027

（左）初始殘差模型（右）升級後的殘差模型

須要注意的是，Keras庫中的ResNet50（50個weight層）的實現是基於2015年前的論文。

即便是RESNET比VGG16和VGG19更深，模型的大小其實是至關小的，用global average pooling（全局平均水平池）代替全鏈接層能下降模型的大小到102MB。

Inception V3

「Inception」微架構由Szegedy等人在2014年論文"Going Deeper with Convolutions"中首次提出。

論文地址：https://arxiv.org/abs/1409.4842

GoogLeNet中所用的原始Inception模型

Inception模塊的目的是充當「多級特徵提取器」，使用1×一、3×3和5×5的卷積核，最後把這些卷積輸出鏈接起來，當作下一層的輸入。

這種架構先前叫GoogLeNet，如今簡單地被稱爲Inception vN，其中N指的是由Google定的版本號。Keras庫中的Inception V3架構實現基於Szegedy等人後來寫的論文"Rethinking the Inception Architecture for Computer Vision"，其中提出了對Inception模塊的更新，進一步提升了ImageNet分類效果。Inception V3的weight數量小於VGG和ResNet，大小爲96MB。

論文地址：https://arxiv.org/abs/1512.00567

Xception

Xception架構

Xception是由François Chollet本人（Keras維護者）提出的。Xception是Inception架構的擴展，它用深度可分離的卷積代替了標準的Inception模塊。

原始論文「Xception: Deep Learning with Depthwise Separable Convolutions」在這裏：

論文地址：https://arxiv.org/abs/1610.02357

Xception的weight數量最少，只有91MB。

至於說SqueezeNet?

SqueezeNet的「火」模型

SqueezeNet架構經過使用squeeze卷積層和擴展層（1x1和3X3卷積核混合而成）組成的fire moule得到了AlexNet級精度,且模型大小僅4.9MB。

雖然SqueezeNet模型很是小，但其訓練須要技巧。在我即將出版的書「深度學習計算機視覺與Python」中，詳細說明了怎麼在ImageNet數據集上從頭開始訓練SqueezeNet。

用Python和上述Keras庫來給圖像分類

讓咱們學習如何使用Keras庫中預訓練的卷積神經網絡模型進行圖像分類吧。

新建一個文件，命名爲classify_image.py，並輸入以下代碼：

第2-13行的做用是導入所需Python包，其中大多數包都屬於Keras庫。

具體來講，第2-6行分別導入ResNet50，Inception V3，Xception，VGG16和VGG19。

須要注意，Xception網絡只能用TensorFlow後端（若是使用Theano後端,該類會拋出錯誤）。

第7行，使用imagenet_utils模塊，其有一些函數能夠很方便的進行輸入圖像預處理和解碼輸出分類。

除此以外，還導入的其餘輔助函數，其次是NumPy進行數值處理，cv2進行圖像編輯。

接下來，解析命令行參數：

咱們只須要一個命令行參數--image，這是要分類的輸入圖像的路徑。

還能夠接受一個可選的命令行參數--model，指定想要使用的預訓練模型，默認使用vgg16。

經過命令行參數獲得指定預訓練模型的名字，咱們須要定義一個Python字典，將模型名稱(字符串)映射到其真實的Keras類。

第25-31行定義了MODELS字典，它將模型名稱字符串映射到相應的類。

若是在MODELS中找不到--model名稱，將拋出Asserti（第34-36行）。

卷積神經網絡將圖像做爲輸入，而後返回與類標籤相對應的一組機率做爲輸出。

經典的CNN輸入圖像的尺寸，是224×22四、227×22七、256×256和299×299，但也能夠是其餘尺寸。

VGG16，VGG19和ResNet均接受224×224輸入圖像，而Inception V3和Xception須要299×299像素輸入，以下面的代碼塊所示：

將inputShape初始化爲224×224像素。咱們還使用函數preprocess_input執行平均減法。

然而，若是使用Inception或Xception，咱們須要把inputShape設爲299×299像素，接着preprocess_input使用separate pre-processing function，圖片能夠進行不一樣類型的縮放。

下一步是從磁盤加載預訓練的模型weight(權重)並實例化模型:

第58行，從--model命令行參數獲得model的名字，經過MODELS詞典映射到相應的類。

第59行，而後使用預訓練的ImageNet權重實例化卷積神經網絡。

注意：VGG16和VGG19的權重文件大於500MB。ResNet爲〜100MB，而Inception和Xception在90-100MB之間。若是是第一次運行此腳本，這些權重文件自動下載並緩存到本地磁盤。根據您的網絡速度，這可能須要一些時間。然而，一旦權重文件被下載下來，他們將不須要從新下載，再次運行classify_image.py會很是快。

模型如今已經加載並準備好進行圖像分類 - 咱們只須要準備圖像進行分類：

第65行，從磁盤加載輸入圖像，inputShape調整圖像的寬度和高度。

第66行，將圖像從PIL/Pillow實例轉換爲NumPy數組。

輸入圖像如今表示爲(inputShape[0],inputShape[1],3)的NumPy數組。

第72行，咱們一般會使用卷積神經網絡分批對圖像進行訓練/分類，所以咱們須要經過np.expand_dims向矩陣添加一個額外的維度(顏色通道)。

通過np.expand_dims處理，image具備的形狀(1,inputShape[0],inputShape[1],3)。如沒有添加這個額外的維度，調用.predict會致使錯誤。

最後，第76行調用相應的預處理功能來執行數據歸一化。

通過模型預測後，並得到輸出分類：

第80行，調用CNN中.predict獲得預測結果。根據這些預測結果，將它們傳遞給ImageNet輔助函數decode_predictions，會獲得ImageNet類標籤名字(id轉換成名字，可讀性高)以及與標籤相對應的機率。

而後，第85行和第86行將前5個預測(即具備最大機率的標籤)輸出到終端。

在咱們結束示例以前，咱們將在此處執行的最後一件事情，經過OpenCV從磁盤加載咱們的輸入圖像，在圖像上繪製＃1預測，最後將圖像顯示在咱們的屏幕上：

查看預訓練模型的實際運行，請看下節。

VGGNet、ResNet、Inception與Xception的分類結果

這篇博文中的全部示例都使用Keras>=2.0和TensorFlow後端。若是使用TensorFlow，請確保使用版本>=1.0，不然將遇到錯誤。我也用Theano後端測試了這個腳本，並確承認以使用Theano。

安裝TensorFlow/Theano和Keras後，點擊底部的源代碼+示例圖像連接就可下載。

如今咱們能夠用VGG16對圖像進行分類：

咱們能夠看到VGG16正確地將圖像分類爲「足球」，機率爲93.43％。

要使用VGG19，咱們只須要更改--network命令行參數：

VGG19可以以91.76％的機率將輸入圖像正確地分類爲「convertible」。看看其餘top-5預測：「跑車」的機率爲4.98％（實際上是轎車），「豪華轎車」爲1.06％（雖然不正確但看着合理），「車輪」爲0.75％（從模型角度來講也是正確的,由於圖像中有車輪）。

在如下示例中，咱們使用預訓練ResNet架構，能夠看下top-5機率值：

ResNet正確地將ClintEastwood持槍圖像分類爲「左輪手槍」，機率爲69.79％。在top-5中還有，「步槍」爲7.74％，「衝鋒槍」爲5.63％。因爲"左輪手槍"的視角，槍管較長，CNN很容易認爲是步槍，因此獲得的步槍也較高。

下一個例子用ResNet對狗的圖像進行分類：

狗的品種被正確識別爲「比格犬」，具備94.48％的機率。

而後，我嘗試從這個圖像中分出《加勒比海盜》演員約翰尼・德普：

雖然ImageNet中確實有一個「船」類，但有趣的是，Inception網絡可以正確地將場景識別爲「（船）殘骸」，且有具備96.29％機率的。全部其餘預測標籤，包括「海濱」，「獨木舟」，「槳」和「防波堤」都是相關的，在某些狀況下也是絕對正確的。

對於Inception網絡的另外一個例子，我給辦公室的沙發拍攝了照片：

Inception正確地預測出圖像中有一個「桌燈」，機率爲69.68％。其餘top-5預測也是徹底正確的，包括「工做室沙發」、「窗簾」（圖像的最右邊，幾乎不顯眼）「燈罩」和「枕頭」。

Inception雖然沒有被用做對象檢測器，但仍然可以預測圖像中的前5個對象。卷積神經網絡能夠作到完美的對物體進行識別！

再來看下Xception：

這裏咱們有一個蘇格蘭桶的圖像，尤爲是我最喜歡的蘇格蘭威士忌，拉加維林。Xception將此圖像正確地分類爲「桶」。

最後一個例子是使用VGG16進行分類：

幾個月前，當我打完《巫師 III》（The Wild Hunt）這局遊戲以後，我給顯示器照了這個照片。VGG16的第一個預測是「家庭影院」，這是一個合理的預測，由於top-5預測中還有一個「電視/監視器」。

從本文章的示例能夠看出，在ImageNet數據集上預訓練的模型可以識別各類常見的平常對象。你能夠在你本身的項目中使用這個代碼！

總結

簡單回顧一下，在今天的博文中，咱們介紹了在Keras中五個卷積神經網絡模型：

VGG16
VGG19
ResNet50
Inception V3
Xception

此後，我演示瞭如何使用這些神經網絡模型來分類圖像。但願本文對你有幫助。

原文地址：

http://www.pyimagesearch.com/2017/03/20/imagenet-vggnet-resnet-inception-xception-keras/

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。