NVIDIA各個領域芯片現階段的性能和適應範圍

       NVIDIA做爲老牌顯卡廠商,在AI領域深耕多年。功夫不負有心人,一朝AI火,NVIDIA大爆發,NVIDIA每一年送給科研院所和高校的大量顯卡,大力推廣Physix和CUDA,終於釣了產業的大魚。css

       由弱到強理一下NVIDIA的現有產品線,在AMD銳龍發力以後,NVIDIA已經取代Intel,稱爲新的牙膏廠。html

       在與人工智能與機器人有關的平臺上,NVIDAI產品線性能由低到高依次爲Tegra X系列、GeForce 系列、DRIVER系列、Titan 系列、TESLA系列。
ubuntu

       參考:NVIDIA-GPU的浮點計算能力
網絡

       Linux系統是普遍應用的OS,能夠以各類形態存在,甚至能夠裁剪到麼有MU的微型計算機上。現有支持較爲完備的流行的計算機OS主要爲CentOS和ubuntu,Fedora在消費級商業化上作的仍是差了一點。
架構


1、SHIELD掌機系統ide

     

完整規格  SHIELD掌機系統 是基於TX1-CPU的集成平臺
處理器    NVIDIA® Tegra® X1 處理器,搭載 256 核 GPU 和 3 GB RAM
視頻功能  支持 4K HDR
以 60 FPS 的幀速率播放分辨率高達 4K 的 HDR 內容 (H.265/HEVC)
以 60 FPS 的幀速率播放分辨率高達 4K 的內容(VP八、VP九、H.26四、MPEG1/2)
以 60 FPS 的幀速率播放分辨率高達 1080p 的內容(H.26三、MJPEG、MPEG四、WMV9/VC1)
經過 HDMI 提供 Dolby Atmos 和 DTS-X 環繞立體聲透傳音效
經過 HDMI 和 USB 播放高達 24 位/192 kHz 的高清音頻內容
經過 USB 播放高達 24 位/192 kHz 的高清音頻內容
操做系統 Android 7.0
軟件更新 直接由 NVIDIA 提供 SHIELD 軟件更新
      

2、嵌入式平臺的Jetson   
性能

         現有的平臺爲TX2和TX1,提供 開發套件....學習

         參考CPU兩倍於820處理器編碼

         基於TX1和TX2,NVIDIA爲移動機器人系統提供了不一樣層級的混搭,面對開發者的開發板、和集成視覺系統的工業套件。
人工智能

模塊技術規格

 
  Jetson TX2 Jetson TX1
GPU NVIDIA Pascal™、256 顆 CUDA 核心 NVIDIA Maxwell™、256 顆 CUDA 核心
CPU HMP Dual Denver 2/2 MB L2 +
Quad ARM® A57/2 MB L2
Quad ARM® A57/2 MB L2
視頻 4K x 2K 60 Hz 編碼 (HEVC)
4K x 2K 60 Hz 解碼(12 位支持)
4K x 2K 30 Hz 編碼 (HEVC)
4K x 2K 60 Hz 解碼(10 位支持)
內存 8 GB 128 位 LPDDR4
58.3 GB/s
4 GB 64 位 LPDDR4
25.6 GB/s
顯示器 2 個 DSI 接口、2 個 DP 1.2 接口/HDMI 2.0 接口/eDP 1.4 接口 2 個 DSI 接口、1 個 eDP 1.4 接口/DP 1.2 接口/HDMI 接口
CSI 超級多 6 個攝像頭(2 通道
CSI2 D-PHY 1.2(每一個通道 2.5 Gbps)
超級多 6 個攝像頭(2 通道)
CSI2 D-PHY 1.1(每一個通道 1.5 Gbps)
PCIE Gen 2 | 1x4 + 1x1 或 2x1 + 1x2 Gen 2 | 1x4 + 1x1
數據存儲 32 GB eMMC、SDIO、SATA 16 GB eMMC、SDIO、SATA
其餘 CAN、UART、SPI、I2C、I2S、GPIO UART、SPI、I2C、I2S、GPIO
USB USB 3.0 + USB 2.0
鏈接 1 千兆以太網、802.11ac WLAN、藍牙
機械 50 毫米 x 87 毫米(400 針兼容板對板鏈接器)

支持平臺:

         基於TX2 的平臺可運行ubuntu系統。

         NVIDIA爲此計算平臺貢獻了軟件開發套件:https://developer.nvidia.com/embedded/downloads#?tx=$software,l4t-tk1。

性能:

         FLOPS:TX1上,配置是Tegra X1+4G LPDDR4,GPU是256個CUDA的Maxwell,TX2則升級爲Tegra Parker處理器,也就是16nm 6核CPU(2x丹佛+4xA57),因此GPU部分也升級爲Pascal架構,一樣256個CUDA,浮點性能1.5 TeraFLOPS,也就是提升了50%。

        Jetson TX2 延續了tegra系列體積小巧、高度集成的特性,大小僅至關於一張信用卡。與前一代Jetson TX1相比,TX2能提供兩倍的功效。GPU、CPU都進行了升級,其中GPU變成了Pascal 架構(16 nm工藝)。這意味着Jetson 系列進入了 Pascal 架構時代。內存、存儲都增長了一倍,提供了 8G 內存、32G 固態存儲器。支持802.11ac WLAN和藍牙。

      功耗TDP:15W

購買:

【注1】你想申請TX2,你須要擁有有效且公認的大學電子郵件地址就能夠了。筆者就不在這具體購買流程請諮詢代購商。
【注2】TX2在某寶上也能購買,固然筆者走的是教育優惠。

      

3、消費級計算平臺的GeForce 

           面向專業圖形工做站應用的Quadro系列,硬件核心和GeForce是相同的。

         GeForce平臺爲消費級顯卡,主要用途依然是3D渲染。消費用途主要是玩遊戲和PS,工業用途作2維和三維圖像處理。NVIDAI把Physix和CUDA普及到GeForce平臺,GeForce平臺也開始了另外一新的功能,兼職作科學計算。

          GeForce平臺產品眼花繚亂,玩遊戲的人羣比作機器人的人羣覆蓋面更廣,需求也更多樣化。以現有最新的帕斯卡構架的消費級顯卡來講,從低端的GT1030 到高端的GTX1080TI,參數性能價格已有天壤之別。

         GeForce GT 1030顯卡基於GP108-300核心,擁有384個CUDA處理器,基礎核心頻率1227MHz,boost頻率1468MHz。使用2GB GDDR5顯存,顯存位寬64-bit,帶寬48GB/s。支持最新的DX12,OpenGL4.5等特性,TDP僅30W。價格最低不到500塊。

         GeForceGTX1080擁有2560個CUDA處理器,核心頻率1607MHz,boost頻率1733MHz,等效顯存頻率10GHz。顯卡位寬爲256bit,帶寬320GB/s。公版顯卡最高溫度94℃,採用單8pin供電,TDP180w。

         GeForceGTX1080強於GeForceGTX980SLI,甚至比GeForceGTXTitanX還要強,大概超過TitanX2成。單卡浮點運算次數上,GTX1080Ti(顯存8GB)達到11.5T FLOPs。兵荒馬亂的年月,GTX1080Ti已經漲到了6000+。

         由於CUDA的存在,大量的科研計算使用GeForce卡作並行計算,如今AI最流行CUDA作深度學習。

         TDP:30W-300W。移動計算機平臺TDP低至15w。


4、爲自動駕駛開發的Tesla系列

         NVIDIA Driver系列爲自動駕駛提供一整套計算解決方案想,現有平臺有 NVIDIA DRIVER PX、NVIDIA DXG一、NVIDIA DRIVER IX。

         Driver PX : https://www.nvidia.com/zh-cn/self-driving-cars/drive-px/

       可擴展架構適用於各類配置。從功率爲 10 瓦的被動冷卻型移動處理器,到雙移動處理器加雙獨立 GPU 的多芯片配置(可提供每秒 24 萬億次的深度學習運算),都在此架構的支持範圍內。您可並行使用多個 DRIVE PX 平臺來實現徹底自動駕駛。

       DRIVER PX Pegasus AI 計算機擁有高達 320 TOPS的深度學習計算能力。「Pegasus」之運算能力達到320 TOPS(Trillion Operations Per Second),超越其前代平臺「Drive PX 2」之運算能力高達10倍。 此運算能力主要來自於4顆處理器-2顆爲以目前最新GPU架構「Volta」爲核心的SoC「Xavier」、以及另外2顆爲車用機械視覺與深度學習所準備的專用GPU。

       DRIVE PX Xavier 可以提供 20 TOPS 的高性能,而功耗僅有20 瓦。單個 Xavier AI 處理器中就包含了 70 億個晶體管,可以取代目前配備多個移動 SoC 和兩個獨立 GPU 的 DRIVE PX,且功耗大幅降低。Xavier爲低功耗自動駕駛平臺。

       NVIDIA DRIVER IX 系列在硬件基礎上集成了一些與自動駕駛有關的軟件功能,如基於深度學習的面部識別、視線追蹤、和對話功能。

      CES2018展會上,百度的「阿波羅」(Apollo)自動駕駛項目將使用英偉達的Drive Xavier自動駕駛計算平臺。百度的阿波羅項目致力於經過與一系列汽車製造商、供應商以及科技公司合做,爲自動駕駛汽車打造一個開放平臺。

5、GPU加速計算的Tesla系列

         Tesla本是第一代產品的架構名稱,後來演變成了這個系列產品的名稱了。在NVIDIA的產品列表上,被定義爲數據中心產品,產品線爲TESLA、DXG、DXG-Station、HGX。

        如今NVIDIA官方顯示的產品有TESLA-P40和TESLA-P6。P40浮點運算爲47T FLOPS。TESLA-P40的成品價格爲4W+(顯存24GB)。

       

        黃仁勳在GTC2017 上發佈了TESLA V100和他的 VoltaGPU。仔細讀一下文章,有很多知識:英偉達Volta架構:爲深度學習而生的Tensor Core。固然,TESLA的價格嗎,15萬$,100萬呢....

        Tesla V100 能夠提供業界領先的浮點和整型計算性能。峯值計算速度(基於 GPU Boost 時鐘頻率):

雙精度浮點(FP64)運算性能:7.5 TFLOP/s;

單精度(FP32)運算性能:15 TFLOP/s;

混合精度矩陣乘法和累加:120 Tensor TFLOP/s。

        新的 Tensor Core 是 Volta GV100 最重要的特徵,有助於提升訓練神經網絡所需的性能。Tesla V100 的 Tensor Core 可以爲訓練、推理應用的提供 120 Tensor TFLOPS

Tensor核

..................

     

         NVIDIA TITAN,英偉達聯合創始人兼CEO黃仁勳在NIPS2017全球神經信息處理系統大會上忽然發佈了全新的TITAN顯卡,NVIDIA TITAN V!新顯卡基於新一代的Volta架構打造,完整的GV100核心,峯值浮點性能高達110TFlops,至關於TITAN Xp 12Tflops的9倍。Titan也能夠面對消費者,相對於TESLA V100,便宜了很多,只要3000$,也要2萬塊

         消費級旗艦顯卡基於12nm GV100核心,內建5120顆CUDA核心,640顆Tensor核心(用於AI專門計算和加速),核心主頻1200MHz,加速頻率1455MHz。搭配12GB HBM2顯存,位寬3072bit,總帶寬653GB/s。性能方面,單精度浮點15 TFLOPS,此前公佈時給出的110T僅僅是用於深度學習的Tensor內核性能,因此這樣話,比TITAN Xp提升了24%左右。

         TITAN V使用Volta構架,使用了Tensor核,和適合微型的企業和研究機構作深度學習。https://www.nvidia.com/zh-cn/titan/titan-v/

         DGX-1 定位爲我的計算中心,價格爲5萬$。參考:https://www.nvidia.com/zh-cn/data-center/dgx-systems/,系統CPU使用的是8塊TESLA V100,128GB顯存。提供960 TFLOPS(GPU FP16)性能 。

...................


         差很少結束了,固然聽說百度谷歌都有一次性集成兩萬張TESLA顯卡的習慣。

相關文章
相關標籤/搜索