近幾年人工智能迎來發展高峯,愈來愈多的人開始意識到,機器能夠經過學習擁有智能,進而取代一部分人類工做,這促成了人工智能的技術研究達到空前的熱度。深度學習即是目前主流的研究領域,並被認爲是最具研究前景和發展潛力的方向。 算法
深度學習的研究動機是創建可模仿人腦進行學習的神經網絡,分爲有監督學習和無監督學習兩種,目前主流的深度學習框架包括:TensorFlow、Caffe、Theano、MXNet、Marvin、Torch等等。下面選擇其中4種框架進行對比,分別爲TensorFlow、Caffe、Theano和MXNet,並介紹基於深度學習的圖像識別在美團酒旅業務中的應用實踐以及美團雲GPU雲主機在其中發揮的做用。
網絡
TensorFlow是谷歌開源的一款深度學習框架,目前應用最爲普遍,支持圖像、文字、語音的識別,天然語言處理等功能,能夠說是一種通用型學習框架;Theano支持手寫字識別、圖像分類、天然語言處理等功能,可是比TensorFlow速度要快;Caffe在計算機視覺領域表現突出;MXNet是上述幾種框架中擴展性最好的,支持CNN(卷積神經網絡)、RNN(遞歸神經網絡)、LSTM(長短時間記憶網絡),而且也可以支持多種功能,亞馬遜就選擇了MXNet做爲其深度學習框架。 框架
下面經過語言、速度、靈活性、適用模型、上手難度等方面對比四種框架。
性能
(表1)
學習
(圖1) 優化
從表1中的綜合對比來看,這四種框架各有優劣,MXNet綜合能力更全面。從圖1中能夠看出單卡GPU處理下,MXNet的loss是這四種框架中最低的,所用時間也最短。 人工智能
TensorFlow在性能上和其餘框架相比劣勢比較明顯,但靈活性很高,支持各類複雜的網絡模型,方便配置新的算法和環境而且支持可視化; spa
Caffe在圖片處理上的速度很快,用K40 GPU處理圖片能夠達到2ms/張的速度,而且在學術及工業領域有不少能夠借鑑的項目; 3d
Theano支持語言較少,其餘方面表現都還不錯,是一種適合學術研究的學習框架。 在美團酒旅業務場景中,美團雲提供預裝了TensorFlow框架的GPU雲主機來進行圖像識別訓練。cdn
深度學習須要大規模數據的運算來訓練模型,其性能主要受GPU浮點運算能力的影響,因此選擇合適的GPU是提高訓練效率的重中之重。
選擇GPU主要考慮三方面因素:浮點運算能力、功耗和成本。通常狀況下,GPU的浮點計算能力與其功耗成正比,另外如今GPU的更新換代速度比較快,因此大規模堆置高性能機器可能會形成必定程度的資源浪費。
美團雲提供的GPU雲主機搭載了NVIDIA Tesla M60 GPU,預裝了TensorFlow 1.1-GPU框架和Keras 2.0.4框架。M60可提供最高4096個並行處理核心,16GB的GDDR5顯存及9.7TFlops 的單精度峯值性能。選擇M60也是綜合考量了性能、功耗以及成本三個方面的結果,美團酒旅圖像識別的算法訓練所選用的就是預裝了TensorFlow 1.1-GPU框架的M60 GPU雲主機。
在酒旅的業務場景中,身份信息驗證、機票驗證、在線值機、驗證碼驗證等均可以利用圖像識別尤爲是OCR識別技術來支持系統自動識別用戶信息,簡化用戶操做流程,並提升信息錄入的速度和準確度。
驗證識別中的主要流程包括:去噪點、去色、切片、模板對比、輸出5個環節,所以在基於深度學習的OCR識別中,美團酒旅團隊選擇了CNN(Convolutional Neural Network)+LSTM(Long Short-Term Memory)+CTC(Connectionist temporal classification)的組合算法方案:
(圖2:算法模型)
基於此混合算法的模型訓練,識別精度目前能夠達到單次識別準確率90%以上,5次識別準確率99%以上,對於宋體、楷書等文字識別的準確率能夠達到80%以上。隨着模型和算法的優化,準確率還將不斷提高。
除了在酒旅業務場景中應用圖像識別以外,美團點評在天然語言處理、人臉識別等多個領域都有所探索,美團雲GPU雲主機爲上述領域的研究提供了訓練支撐,幫助加速訓練過程,完善算法。
目前,美團雲主要提供單機單卡的GPU雲主機,將來還將研究單機單卡、單機多卡與多機多卡等方式之間的性能及成本差別,提供更符合用戶需求的GPU計算服務。
此外,美團雲於近日上線了深度學習平臺,並開放了人臉識別、OCR識別等AI應用,提供一站式AI服務。
-----------------------------------------
加入美團雲開發者交流QQ羣,與更多的開發大牛共同窗習。 QQ羣號:469243579