NVIDIA做爲老牌顯卡廠商,在AI領域深耕多年。功夫不負有心人,一朝AI火,NVIDIA大爆發,NVIDIA每一年送給科研院所和高校的大量顯卡,大力推廣Physix和CUDA,終於釣了產業的大魚。css
由弱到強理一下NVIDIA的現有產品線,在AMD銳龍發力以後,NVIDIA已經取代Intel,稱爲新的牙膏廠。html
在與人工智能與機器人有關的平臺上,NVIDAI產品線性能由低到高依次爲Tegra X系列、GeForce 系列、DRIVER系列、Titan 系列、TESLA系列。
ubuntu
參考:NVIDIA-GPU的浮點計算能力
網絡
Linux系統是普遍應用的OS,能夠以各類形態存在,甚至能夠裁剪到麼有MU的微型計算機上。現有支持較爲完備的流行的計算機OS主要爲CentOS和ubuntu,Fedora在消費級商業化上作的仍是差了一點。
架構
1、SHIELD掌機系統ide
2、嵌入式平臺的Jetson
性能
現有的平臺爲TX2和TX1,提供 開發套件....學習
參考CPU兩倍於820處理器編碼
基於TX1和TX2,NVIDIA爲移動機器人系統提供了不一樣層級的混搭,面對開發者的開發板、和集成視覺系統的工業套件。
人工智能
Jetson TX2 | Jetson TX1 | |
GPU | NVIDIA Pascal™、256 顆 CUDA 核心 | NVIDIA Maxwell™、256 顆 CUDA 核心 |
CPU | HMP Dual Denver 2/2 MB L2 + Quad ARM® A57/2 MB L2 |
Quad ARM® A57/2 MB L2 |
視頻 | 4K x 2K 60 Hz 編碼 (HEVC) 4K x 2K 60 Hz 解碼(12 位支持) |
4K x 2K 30 Hz 編碼 (HEVC) 4K x 2K 60 Hz 解碼(10 位支持) |
內存 | 8 GB 128 位 LPDDR4 58.3 GB/s |
4 GB 64 位 LPDDR4 25.6 GB/s |
顯示器 | 2 個 DSI 接口、2 個 DP 1.2 接口/HDMI 2.0 接口/eDP 1.4 接口 | 2 個 DSI 接口、1 個 eDP 1.4 接口/DP 1.2 接口/HDMI 接口 |
CSI | 超級多 6 個攝像頭(2 通道 CSI2 D-PHY 1.2(每一個通道 2.5 Gbps) |
超級多 6 個攝像頭(2 通道) CSI2 D-PHY 1.1(每一個通道 1.5 Gbps) |
PCIE | Gen 2 | 1x4 + 1x1 或 2x1 + 1x2 | Gen 2 | 1x4 + 1x1 |
數據存儲 | 32 GB eMMC、SDIO、SATA | 16 GB eMMC、SDIO、SATA |
其餘 | CAN、UART、SPI、I2C、I2S、GPIO | UART、SPI、I2C、I2S、GPIO |
USB | USB 3.0 + USB 2.0 | |
鏈接 | 1 千兆以太網、802.11ac WLAN、藍牙 | |
機械 | 50 毫米 x 87 毫米(400 針兼容板對板鏈接器) |
支持平臺:
基於TX2 的平臺可運行ubuntu系統。
NVIDIA爲此計算平臺貢獻了軟件開發套件:https://developer.nvidia.com/embedded/downloads#?tx=$software,l4t-tk1。
性能:
FLOPS:TX1上,配置是Tegra X1+4G LPDDR4,GPU是256個CUDA的Maxwell,TX2則升級爲Tegra Parker處理器,也就是16nm 6核CPU(2x丹佛+4xA57),因此GPU部分也升級爲Pascal架構,一樣256個CUDA,浮點性能1.5 TeraFLOPS,也就是提升了50%。
Jetson TX2 延續了tegra系列體積小巧、高度集成的特性,大小僅至關於一張信用卡。與前一代Jetson TX1相比,TX2能提供兩倍的功效。GPU、CPU都進行了升級,其中GPU變成了Pascal 架構(16 nm工藝)。這意味着Jetson 系列進入了 Pascal 架構時代。內存、存儲都增長了一倍,提供了 8G 內存、32G 固態存儲器。支持802.11ac WLAN和藍牙。
功耗TDP:15W
購買:
【注1】你想申請TX2,你須要擁有有效且公認的大學電子郵件地址就能夠了。筆者就不在這具體購買流程請諮詢代購商。
【注2】TX2在某寶上也能購買,固然筆者走的是教育優惠。
3、消費級計算平臺的GeForce
面向專業圖形工做站應用的Quadro系列,硬件核心和GeForce是相同的。
GeForce平臺爲消費級顯卡,主要用途依然是3D渲染。消費用途主要是玩遊戲和PS,工業用途作2維和三維圖像處理。NVIDAI把Physix和CUDA普及到GeForce平臺,GeForce平臺也開始了另外一新的功能,兼職作科學計算。
GeForce平臺產品眼花繚亂,玩遊戲的人羣比作機器人的人羣覆蓋面更廣,需求也更多樣化。以現有最新的帕斯卡構架的消費級顯卡來講,從低端的GT1030 到高端的GTX1080TI,參數性能價格已有天壤之別。
GeForce GT 1030顯卡基於GP108-300核心,擁有384個CUDA處理器,基礎核心頻率1227MHz,boost頻率1468MHz。使用2GB GDDR5顯存,顯存位寬64-bit,帶寬48GB/s。支持最新的DX12,OpenGL4.5等特性,TDP僅30W。價格最低不到500塊。
GeForceGTX1080擁有2560個CUDA處理器,核心頻率1607MHz,boost頻率1733MHz,等效顯存頻率10GHz。顯卡位寬爲256bit,帶寬320GB/s。公版顯卡最高溫度94℃,採用單8pin供電,TDP180w。
GeForceGTX1080強於GeForceGTX980SLI,甚至比GeForceGTXTitanX還要強,大概超過TitanX2成。單卡浮點運算次數上,GTX1080Ti(顯存8GB)達到11.5T FLOPs。兵荒馬亂的年月,GTX1080Ti已經漲到了6000+。
由於CUDA的存在,大量的科研計算使用GeForce卡作並行計算,如今AI最流行CUDA作深度學習。
TDP:30W-300W。移動計算機平臺TDP低至15w。
4、爲自動駕駛開發的Tesla系列
NVIDIA Driver系列爲自動駕駛提供一整套計算解決方案想,現有平臺有 NVIDIA DRIVER PX、NVIDIA DXG一、NVIDIA DRIVER IX。
Driver PX : https://www.nvidia.com/zh-cn/self-driving-cars/drive-px/
可擴展架構適用於各類配置。從功率爲 10 瓦的被動冷卻型移動處理器,到雙移動處理器加雙獨立 GPU 的多芯片配置(可提供每秒 24 萬億次的深度學習運算),都在此架構的支持範圍內。您可並行使用多個 DRIVE PX 平臺來實現徹底自動駕駛。
DRIVER PX Pegasus AI 計算機擁有高達 320 TOPS的深度學習計算能力。「Pegasus」之運算能力達到320 TOPS(Trillion Operations Per Second),超越其前代平臺「Drive PX 2」之運算能力高達10倍。 此運算能力主要來自於4顆處理器-2顆爲以NVIDIA目前最新GPU架構「Volta」爲核心的SoC「Xavier」、以及另外2顆爲車用機械視覺與深度學習所準備的專用GPU。
DRIVE PX Xavier 可以提供 20 TOPS 的高性能,而功耗僅有20 瓦。單個 Xavier AI 處理器中就包含了 70 億個晶體管,可以取代目前配備多個移動 SoC 和兩個獨立 GPU 的 DRIVE PX,且功耗大幅降低。Xavier爲低功耗自動駕駛平臺。
NVIDIA DRIVER IX 系列在硬件基礎上集成了一些與自動駕駛有關的軟件功能,如基於深度學習的面部識別、視線追蹤、和對話功能。
5、GPU加速計算的Tesla系列
Tesla本是第一代產品的架構名稱,後來演變成了這個系列產品的名稱了。在NVIDIA的產品列表上,被定義爲數據中心產品,產品線爲TESLA、DXG、DXG-Station、HGX。
如今NVIDIA官方顯示的產品有TESLA-P40和TESLA-P6。P40浮點運算爲47T FLOPS。TESLA-P40的成品價格爲4W+(顯存24GB)。
黃仁勳在GTC2017 上發佈了TESLA V100和他的 VoltaGPU。仔細讀一下文章,有很多知識:英偉達Volta架構:爲深度學習而生的Tensor Core。固然,TESLA的價格嗎,15萬$,100萬呢....
Tesla V100 能夠提供業界領先的浮點和整型計算性能。峯值計算速度(基於 GPU Boost 時鐘頻率):
雙精度浮點(FP64)運算性能:7.5 TFLOP/s;
單精度(FP32)運算性能:15 TFLOP/s;
混合精度矩陣乘法和累加:120 Tensor TFLOP/s。
新的 Tensor Core 是 Volta GV100 最重要的特徵,有助於提升訓練神經網絡所需的性能。Tesla V100 的 Tensor Core 可以爲訓練、推理應用的提供 120 Tensor TFLOPS。Tensor核
..................
NVIDIA TITAN,英偉達聯合創始人兼CEO黃仁勳在NIPS2017全球神經信息處理系統大會上忽然發佈了全新的TITAN顯卡,NVIDIA TITAN V!新顯卡基於新一代的Volta架構打造,完整的GV100核心,峯值浮點性能高達110TFlops,至關於TITAN Xp 12Tflops的9倍。Titan也能夠面對消費者,相對於TESLA V100,便宜了很多,只要3000$,也要2萬塊。
消費級旗艦顯卡基於12nm GV100核心,內建5120顆CUDA核心,640顆Tensor核心(用於AI專門計算和加速),核心主頻1200MHz,加速頻率1455MHz。搭配12GB HBM2顯存,位寬3072bit,總帶寬653GB/s。性能方面,單精度浮點15 TFLOPS,此前公佈時給出的110T僅僅是用於深度學習的Tensor內核性能,因此這樣話,比TITAN Xp提升了24%左右。
TITAN V使用Volta構架,使用了Tensor核,和適合微型的企業和研究機構作深度學習。https://www.nvidia.com/zh-cn/titan/titan-v/。
DGX-1 定位爲我的計算中心,價格爲5萬$。參考:https://www.nvidia.com/zh-cn/data-center/dgx-systems/,系統CPU使用的是8塊TESLA V100,128GB顯存。提供960 TFLOPS(GPU FP16)性能 。
...................
差很少結束了,固然聽說百度谷歌都有一次性集成兩萬張TESLA顯卡的習慣。