深度學習具備極高的計算需求, 要對深度學習應用進行開發並商業化,就須要找到合適的硬件配置。目前,在開發用於深度學習應用的高效硬件平臺這一領域,競爭十分激烈。這裏將介紹具體的硬件要求,並討論將來對深度學習硬件的展望。程序員
深度學習在這十年,甚至是將來幾十年內都有多是最熱門的話題。雖然深度學習已經是廣爲人知了,但它並不只僅包含數學、建模、學習和優化。算法必須在優化後的硬件上運行,由於學習成千上萬的數據可能須要長達幾周的時間。所以,深度學習網絡亟需更快、更高效的硬件。面試
衆所周知,並不是全部進程都能在CPU上高效運行。遊戲和視頻處理須要專門的硬件——圖形處理器(GPU),信號處理則須要像數字信號處理器(DSP)等其它獨立的架構。人們一直在設計用於學習(learning)的專用硬件,例如,2016年3月與李世石對陣的AlphaGo計算機使用了由1920個CPU和280個GPU組成的分佈式計算模塊。而隨着英偉達發佈新一代的Pascal GPU,人們也開始對深度學習的軟件和硬件有了同等的關注。接下來,讓咱們重點來看深度學習的硬件架構。算法
對深度學習硬件平臺的要求編程
要想明白咱們須要怎樣的硬件,必須瞭解深度學習的工做原理。首先在表層上,咱們有一個巨大的數據集,並選定了一種深度學習模型。每一個模型都有一些內部參數須要調整,以便學習數據。而這種參數調整實際上能夠歸結爲優化問題,在調整這些參數時,就至關於在優化特定的約束條件。網絡
深度學習硬件(圖片:英偉達)多線程
百度的硅谷人工智能實驗室(SVAIL)已經爲深度學習硬件提出了DeepBench基準,這一基準着重衡量的是基本計算的硬件性能,而不是學習模型的表現。這種方法旨在找到使計算變慢或低效的瓶頸。 所以,重點在於設計一個對於深層神經網絡訓練的基本操做執行效果最佳的架構。那麼基本操做有哪些呢?如今的深度學習算法主要包括卷積神經網絡(CNN)和循環神經網絡(RNN)。基於這些算法,DeepBench提出如下四種基本運算:架構
矩陣相乘(Matrix Multiplication)——幾乎全部的深度學習模型都包含這一運算,它的計算十分密集。框架
卷積(Convolution)——這是另外一個經常使用的運算,佔用了模型中大部分的每秒浮點運算(浮點/秒)。分佈式
循環層(Recurrent Layers )——模型中的反饋層,而且基本上是前兩個運算的組合。性能
All Reduce——這是一個在優化前對學習到的參數進行傳遞或解析的運算序列。在跨硬件分佈的深度學習網絡上執行同步優化時(如AlphaGo的例子),這一操做尤爲有效。
除此以外,深度學習的硬件加速器須要具有數據級別和流程化的並行性、多線程和高內存帶寬等特性。 另外,因爲數據的訓練時間很長,因此硬件架構必須低功耗。 所以,效能功耗比(Performance per Watt)是硬件架構的評估標準之一。
當前趨勢與將來走向
英偉達的GPU在深度學習硬件市場上一直處於領先地位(圖片:英偉達)
英偉達以其大規模的並行GPU和專用GPU編程框架CUDA主導着當前的深度學習市場。可是愈來愈多的公司開發出了用於深度學習的加速硬件,好比谷歌的張量處理單元(TPU/Tensor Processing Unit)、英特爾的Xeon Phi Knight's Landing,以及高通的神經網絡處理器(NNU/Neural Network Processor)。像Teradeep這樣的公司如今開始使用FPGA(現場可編程門陣列),由於它們的能效比GPU的高出10倍。 FPGA更靈活、可擴展、而且效能功耗比更高。 可是對FPGA編程須要特定的硬件知識,所以近來也有對軟件層面的FPGA編程模型的開發。此外,一直以來廣爲人所接受的理念是,適合全部模型的統一架構是不存在的,由於不一樣的模型須要不一樣的硬件處理架構。 而研究人員正在努力,但願FPGA的普遍使用可以推翻這一說法。
大多數深度學習軟件框架(如TensorFlow、Torch、Theano、CNTK)是開源的,而Facebook最近也開放其 Big Sur 深度學習硬件平臺,所以在不久的未來,咱們應該會看到更多深度學習的開源硬件架構 。
結語
感謝您的觀看,若有不足之處,歡迎批評指正。
若是有對大數據感興趣的小夥伴或者是從事大數據的老司機能夠加羣:
658558542 (☛點擊便可加入羣聊)
裏面整理了一大份學習資料,全都是些乾貨,包括大數據技術入門,海量數據高級分析語言,海量數據存儲分佈式存儲,以及海量數據分析分佈式計算等部分,送給每一位大數據小夥伴,這裏不止是小白彙集地,還有大牛在線解答!歡迎初學和進階中的小夥伴一塊兒進羣學習交流,共同進步!
最後祝福全部遇到瓶頸的大數據程序員們突破本身,祝福你們在日後的工做與面試中一切順利。