5700刀打造3卡1080Ti深度學習機器

人工智豪 AI科技大本營


做者 | 人工智豪(ID:Aihows)
整理 | AI科技大本營(rgznai100)


最近爲公司搭建了一臺實驗用的深度學習主機,在網絡上參考了大量的資料,給出了目前最好的配置。本文首先會介紹全部硬件的選擇分析,而後介紹深度學習環境搭建流程,最後給出一些簡單的性能對比測試。

本文方案定位:適用於預算在5萬內,用於深度學習模型研究、開發,須要快速建模驗證調參的企業或實驗室用戶。

目錄
  • Chapter 1:配置方案選擇 
  • Chapter 2:深度學習環境搭建 
  • Chapter 3:簡單性能對比測試

Chapter 1 配置方案選擇 首先先上完整的配置清單:



GPU 因爲預算所限,就沒必要考慮NVIDIA Tesla那種專業計算卡了,一張基本的K80卡都要5萬以上起步,並且K80的性能還沒1080Ti的好,因此咱們直接考慮英偉達消費級的卡,GeForce 10系列。 選購GPU以前先參考一下WIKI上有關Nvidia 10系列的顯卡參數對比,原網址請點擊這裏:Nvidia GeForce 10 Series (https://en.wikipedia.org/wiki/GeForce_10_series)

GPU參數 來自維基百科
html


最重要的三個參數爲:時鐘頻率(Clock speeds)、內存(Memory)和帶寬(Bandwidth)。從上圖能夠看到,1080Ti是消費級性價比最高的GPU,擁有480GB/s的帶寬,單精度運算能力達到10.6TFPS,內存11GB,僅次於最新的GTX Titan Xp,並且價格低,性價比最高。固然,若是你不差錢,選擇Titan Xp也是極好的。



微星 AERO 1080Ti 公版 11G 這裏選擇使用3張1080Ti SLI,之因此不選擇4卡,與主板和電源有關,後面會解釋。使用多卡SLI,最明顯的優點是當你進行神經網絡調參的時候,能夠同時使用多卡進行多個參數調整,也就是說每個不一樣參數的模型對應使用一個GPU來訓練。

以往咱們每調一次參數,就只能等模型徹底訓練完以後,才能再調參數進行下一次訓練,這樣等待的時間太長,不利於研究人員的思考。我曾經用AWS的P2實例(K80 GPU)復現李飛飛組的《Perceptual losses for real-time style transfer and super-resolution》一文,跑一輪須要3小時,跑出來以後發現結果很差,須要調整一些參數,又要等3小時才能出結果,這是在太慢了……若是能有多卡,時間就起碼縮短了3倍! 建議:若是不考慮成本問題,儘可能用帶水冷的顯卡,由於在滿載運行的時候,顯卡溫度會上升到86度左右,並且默認的英偉達顯卡風扇速度設置最高不能超過70%,固然能夠經過調節風扇速度來降溫,詳細教程請看我另外一篇文章:深度學習訓練時GPU溫度太高?幾個命令,爲你的GPU迅速降溫。

PS: 最近因爲比特幣價格上漲,礦工不斷搜刮市面上的顯卡,致使顯卡價格不斷攀升,在上月給供應商發配置單時,公版1080Ti最低價只要RMB 5800,但過了幾周實際下單時,價格已經上漲到RMB 7000,並且不必定有貨,因此在購買GPU以前要問清你的供貨商有沒有貨。

主板 網絡上不少文章都建議使用Z170主板或X99系列的主板,Z170主板通常是我的用戶使用,價格較低,並且通常用於單卡。這裏要使用3卡,所以選擇X99系列的高端主板,支持多卡SLI。一開始選擇的是微星 X99A SLI PLUS主板,此款主板支持3 x PCIe x16,價格在2000左右。但後來發現了華碩X99-EWS這款主板,這簡直就是爲深度學習所設計的,先看看參數:

華碩X99-EWS 來源:華碩官網
算法


我最看重的有三點:第一是支持4 x PCI-E x16,GPU若能工做在x16帶寬下工做,就能最大限度地發揮性能,雖然此款主板理論上支持4路x16,但實際上當插滿4卡時,實際帶寬會工做在x16/x8/x8/x8帶寬中,因此實際上沒有徹底發揮4卡性能,所以本方案只選擇3卡,讓其工做在x16帶寬中(我沒找到能同時工做在4個x16帶寬的主板)。第二是其支持40 Lane的CPU,CPU核心多、線程多,這對於數據預處理很是有用!第三是能插8條內存,支持128GB內存,對於後面升級都是很是有利的。

華碩X99-EWS 來源:華碩官網
ubuntu


這款主板是爲工做站而生,沒有花俏的外觀,只有強大的性能,並且主板的結構大小適合同時插滿4張大顯卡,1080Ti這個尺寸的顯卡沒問題,要知道市面上有些說支持4路的主板是不必定有足夠位置插滿大顯卡的,可能只支持尺寸小一點的顯卡,你們在選購時要注意。

CPU

CPU對於深度學習的任務來講,重要性並無GPU那麼高,因此通常我的用戶就選擇i5或e5-1620v4這類性價比較高的處理器。但爲了避免讓CPU成爲性能提高的瓶頸,我把目光放在了i7和e5身上,選擇CPU我的認爲須要考慮的是:核心架構、核心數線程數、主頻和PCIE通道數(lanes)。 主板限定了CPU必須爲2011-v3或酷睿I7系列的處理器,其它就沒必要考慮了。重點提PCIE通道數,在深度學習的任務處理中,PCIE通道數lanes越高,數據處理得越快,能夠理解爲一個40車道的高速公路確定比16車道的快!因此咱們優先考慮Lanes爲40的CPU,那麼能夠縮小範圍到如下幾款:(數據引用自維基百科)

i7處理器參數 來源:維基百科
服務器


注意上圖除了i7-6800K是28 lanes以外,其餘都是40 lanes。Lanes數爲40的除了上面幾款i7處理器以外,至強E5-1620v4一樣也是40 lanes的CPU,並且你能以千元價位買到,所以是我的用戶性價比首選! 考慮價格,6900k和6950x貴的有點離譜,6850K主頻高(雖然沒4.0GHz但咱們又不用來玩遊戲),6核12線程,應該可以知足處理imagenet這類大數據集了吧,所以最終敲定i7-6850K!

SSD



SSD選擇的是三星960EVO 500G,這型號的SSD是最新的NVME M.2固態,NVME M.2是下一代主流固態硬盤標準,用一個字歸納就是:「快!」比傳統SSD還快,感覺如何?請點擊這個連接感覺下:使用PCI-E NVMe的SSD是什麼樣的體驗?知乎 (https://www.zhihu.com/question/49419208)


機箱 特別說一下機箱,機箱也是特別重要的部件,主要是由於要裝3張顯卡,除了主板的尺寸有要求以外,機箱也要儘量大,這樣纔有利於散熱。另一個緣由是假如後期想加裝分體式水冷,也有足夠的空間去安裝。 網絡上呼聲最高的當屬nvidia2014年推出的Deep learning Box同款機箱,美商海盜船 AIR540,某東連接:美商海盜船 AIR540 USB3.0 中塔側透 (https://item.jd.com/12987943138.html)



但要注意的是此款機箱是中塔尺寸,因此通常我的用戶來講就足夠了,但因爲要多卡,因此最好使用全塔式機箱。找了好久,肯定用這款:美商海盜船780T,某東連接點這裏 (https://item.jd.com/1209635.html)



這款機箱的特色就是: 大!比大更大!



送過來的時候要兩我的一塊兒搬才搬得方便,打開包裝放在地上,幾乎就頂到桌子了,高度達67.3釐米。



能夠看到內部空間還有不少空餘的地方,若是要加裝水冷仍是能夠的。



重量達幾十斤,能夠對比一下旁邊個人工做用電腦,這體型差距實在是太大了!整體來講仍是挺滿意的,並且顏值也高,所以我給它取名爲:「DeepShark大白鯊」。

其它部件

機械硬盤來個1到2TB左右的就好,通常一線大廠差異都不大,選了希捷2TB。散熱器選了九州風神大霜塔,能壓住I7-6850K,體型還挺大的,不過對個人主板來講尺寸剛恰好,不會擋住顯卡。電源的功率必定要夠,粗略算了一下3張顯卡每張功率峯值250w,CPU150w左右,加起來不會超過1000w,因此選了個1250w的電源(另外供貨商也找不到現貨更大的電源了)。內存最低也要64GB,因此選了4個2400MHz/16GB的海盜船復仇者,注意主板和CPU支持你的內存頻率就最好,否則會被降頻使用。

Chapter 2:深度學習環境搭建

此部分因爲篇幅太長,我已經寫在了另一篇文章,上面有很是詳細的環境搭建過程,適用ubuntu16.04系統、1080Ti顯卡、華碩X99-E WS高端主板,搭建過程當中因爲是新顯卡新主板,遇到很多的坑,所以想寫出來分享給你們,以避免你們走彎路,連接在此:Ubuntu16.04 + 1080Ti深度學習環境配置教程 (http://www.jianshu.com/p/5b708817f5d8)

Chapter 3:簡單性能對比測試

因爲手上正在復現李飛飛組的fast neural-style,所以就用這個項目來對AWS P2.xlarge實例和GTX 1080Ti進行性能對比,更多的性能對比能夠參考medium上slav ivaniov的裝機及性能對比評測,他的性能對比更加全面,連接點這裏: 數據集有兩個,分別是209MB的低分辨率圖片集和3GB的高分辨率圖片集,均是使用部分imagenet 的數據集ILSVRC2012處理而成,網絡模型徹底根據Johnson, Justin Alahi, Alexandre,Fei-Fei, Li et al的《Perceptual losses for real-time style transfer and super-resolution》,網絡模型以下圖:

圖片來源:《Perceptual losses for real-time style transfer and super-resolution》
網絡


GPU參數對比:



使用K80進行模型訓練,訓練一輪須要3小時:



使用1080TI進行模型訓練,每輪只需15分鐘:



足足快了15倍!不得不說,跨了幾代架構的顯卡性能不在同一個量級,其實不能拿來做比較,最好仍是在同一個Pascal架構下做對比,但因爲大多數人在沒有GPU的時候都是使用AWS的GPU服務器,做這個對比也可讓你們分析下後面還要不要用AWS,租用AWS每小時0.9美圓,可是速度慢,使用時間就更長,每月的帳單因人而異,許多網友表示把這些帳單加起來都能買好一點的GPU了,本人在3個月使用裏面花了差很少1000塊人民幣,的確長期來講仍是本身買機器的實惠。

總結

組建GPU機器時,首先考慮的是定位,究竟是企業、實驗室用仍是我的用,究竟是實驗用仍是工業用,定好位後就要考慮各硬件參數,儘可能把性能最大化。多卡永遠比單卡要方便,由於能同時運行多個模型,對研究人員的分析很是有利,成本容許的狀況下儘可能買當前性能最好的卡,後面還能持續使用幾年,這樣成本也就分攤開了。

原文地址
http://www.jianshu.com/p/ca2e003bf77e


熱文推薦
環境搭建 | 深度學習愛好者如何配置帶GPU電腦環境
多圖|入門必看:萬字長文帶你輕鬆瞭解LSTM全貌
最實用的機器學習算法優缺點分析,沒有比這篇說得更好了
Chatbot大牛推薦:AI、機器學習、深度學習必看9大入門視頻
一文讀懂Attention:臉書曾拿CNN秒殺谷歌,現在谷歌拿它秒殺全部人





活動預告:中國國內級別最高、規模最大的人工智能大會——中國人工智能大會(CCAI)將於7.22-7.23在杭州舉行,趕快點擊下方連接火速搶票吧。

連接:http://mp.weixinbridge.com/mp/wapredirect?url=http%3A%2F%2Fhuiyi.csdn.net%2Factivity%2Fproduct%2Fgoods_list%3Fproject_id%3D3487%3Fref%3Dgeek架構

關於CCAI 中國人工智能大會(CCAI),由中國人工智能學會發起,目前已成功舉辦兩屆,是中國國內級別最高、規模最大的人工智能大會。秉承前兩屆大會宗旨,由中國人工智能學會、阿里巴巴集團 & 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的第三屆中國人工智能大會(CCAI 2017)將於 7 月 22-23 日在杭州召開。 做爲中國國內高規格、規模空前的人工智能大會,本次大會由中國科學院院士、中國人工智能學會副理事長譚鐵牛,阿里巴巴技術委員會主席王堅,香港科技大學計算機系主任、AAAI Fellow 楊強,螞蟻金服副總裁、首席數據科學家漆遠,南京大學教授、AAAI Fellow 周志華共同甄選出在人工智能領域本年度海內外最值得關注的學術與研發進展,匯聚了超過 40 位頂級人工智能專家,帶來 9 場權威主題報告,以及「語言智能與應用論壇」、「智能金融論壇」、「人工智能科學與藝術論壇」、「人工智能青年論壇」4 大專題論壇,屆時將有超過 2000 位人工智能專業人士參與。
相關文章
相關標籤/搜索