美團雲GPU雲主機在圖像識別領域的應用實踐

時間 2019-11-16

標籤 gpu 主機圖像識別領域應用實踐简体版

原文原文鏈接

前言

近幾年人工智能迎來發展高峯，愈來愈多的人開始意識到，機器能夠經過學習擁有智能，進而取代一部分人類工做，這促成了人工智能的技術研究達到空前的熱度。深度學習即是目前主流的研究領域，並被認爲是最具研究前景和發展潛力的方向。算法

深度學習的研究動機是創建可模仿人腦進行學習的神經網絡，分爲有監督學習和無監督學習兩種，目前主流的深度學習框架包括：TensorFlow、Caffe、Theano、MXNet、Marvin、Torch等等。下面選擇其中4種框架進行對比，分別爲TensorFlow、Caffe、Theano和MXNet，並介紹基於深度學習的圖像識別在美團酒旅業務中的應用實踐以及美團雲GPU雲主機在其中發揮的做用。
網絡

不一樣深度學習框架的對比

TensorFlow是谷歌開源的一款深度學習框架，目前應用最爲普遍，支持圖像、文字、語音的識別，天然語言處理等功能，能夠說是一種通用型學習框架；Theano支持手寫字識別、圖像分類、天然語言處理等功能，可是比TensorFlow速度要快；Caffe在計算機視覺領域表現突出；MXNet是上述幾種框架中擴展性最好的，支持CNN（卷積神經網絡）、RNN（遞歸神經網絡）、LSTM（長短時間記憶網絡），而且也可以支持多種功能，亞馬遜就選擇了MXNet做爲其深度學習框架。框架

下面經過語言、速度、靈活性、適用模型、上手難度等方面對比四種框架。
性能

（表1）
學習

（圖1）優化

從表1中的綜合對比來看，這四種框架各有優劣，MXNet綜合能力更全面。從圖1中能夠看出單卡GPU處理下，MXNet的loss是這四種框架中最低的，所用時間也最短。人工智能

TensorFlow在性能上和其餘框架相比劣勢比較明顯，但靈活性很高，支持各類複雜的網絡模型，方便配置新的算法和環境而且支持可視化； spa

Caffe在圖片處理上的速度很快，用K40 GPU處理圖片能夠達到2ms/張的速度，而且在學術及工業領域有不少能夠借鑑的項目； 3d

Theano支持語言較少，其餘方面表現都還不錯，是一種適合學術研究的學習框架。在美團酒旅業務場景中，美團雲提供預裝了TensorFlow框架的GPU雲主機來進行圖像識別訓練。cdn

基於深度學習的圖像識別在酒旅業務中的應用

深度學習須要大規模數據的運算來訓練模型，其性能主要受GPU浮點運算能力的影響，因此選擇合適的GPU是提高訓練效率的重中之重。

選擇GPU主要考慮三方面因素：浮點運算能力、功耗和成本。通常狀況下，GPU的浮點計算能力與其功耗成正比，另外如今GPU的更新換代速度比較快，因此大規模堆置高性能機器可能會形成必定程度的資源浪費。

美團雲提供的GPU雲主機搭載了NVIDIA Tesla M60 GPU，預裝了TensorFlow 1.1-GPU框架和Keras 2.0.4框架。M60可提供最高4096個並行處理核心，16GB的GDDR5顯存及9.7TFlops 的單精度峯值性能。選擇M60也是綜合考量了性能、功耗以及成本三個方面的結果，美團酒旅圖像識別的算法訓練所選用的就是預裝了TensorFlow 1.1-GPU框架的M60 GPU雲主機。

在酒旅的業務場景中，身份信息驗證、機票驗證、在線值機、驗證碼驗證等均可以利用圖像識別尤爲是OCR識別技術來支持系統自動識別用戶信息，簡化用戶操做流程，並提升信息錄入的速度和準確度。

驗證識別中的主要流程包括：去噪點、去色、切片、模板對比、輸出5個環節，所以在基於深度學習的OCR識別中，美團酒旅團隊選擇了CNN（Convolutional Neural Network）+LSTM（Long Short-Term Memory）+CTC（Connectionist temporal classification）的組合算法方案：