NVIDIA各個領域芯片現階段的性能和適應範圍

時間 2019-12-06

標籤 nvidia 各個領域芯片現階段性能適應範圍欄目系統性能简体版

原文原文鏈接

NVIDIA做爲老牌顯卡廠商，在AI領域深耕多年。功夫不負有心人，一朝AI火，NVIDIA大爆發，NVIDIA每一年送給科研院所和高校的大量顯卡，大力推廣Physix和CUDA，終於釣了產業的大魚。css

由弱到強理一下NVIDIA的現有產品線，在AMD銳龍發力以後，NVIDIA已經取代Intel，稱爲新的牙膏廠。html

在與人工智能與機器人有關的平臺上，NVIDAI產品線性能由低到高依次爲Tegra X系列、GeForce 系列、DRIVER系列、Titan 系列、TESLA系列。
ubuntu

參考：NVIDIA-GPU的浮點計算能力
網絡

Linux系統是普遍應用的OS，能夠以各類形態存在，甚至能夠裁剪到麼有MU的微型計算機上。現有支持較爲完備的流行的計算機OS主要爲CentOS和ubuntu，Fedora在消費級商業化上作的仍是差了一點。
架構

1、SHIELD掌機系統ide

完整規格 SHIELD掌機系統 是基於TX1-CPU的集成平臺

處理器 NVIDIA® Tegra® X1 處理器，搭載 256 核 GPU 和 3 GB RAM

視頻功能支持 4K HDR
以 60 FPS 的幀速率播放分辨率高達 4K 的 HDR 內容 (H.265/HEVC)
以 60 FPS 的幀速率播放分辨率高達 4K 的內容（VP八、VP九、H.26四、MPEG1/2）
以 60 FPS 的幀速率播放分辨率高達 1080p 的內容（H.26三、MJPEG、MPEG四、WMV9/VC1）

經過 HDMI 提供 Dolby Atmos 和 DTS-X 環繞立體聲透傳音效
經過 HDMI 和 USB 播放高達 24 位/192 kHz 的高清音頻內容
經過 USB 播放高達 24 位/192 kHz 的高清音頻內容

操做系統 Android 7.0

軟件更新直接由 NVIDIA 提供 SHIELD 軟件更新

2、嵌入式平臺的Jetson
性能

現有的平臺爲TX2和TX1，提供開發套件....學習

參考CPU兩倍於820處理器編碼

基於TX1和TX2，NVIDIA爲移動機器人系統提供了不一樣層級的混搭，面對開發者的開發板、和集成視覺系統的工業套件。
人工智能

模塊技術規格

	Jetson TX2	Jetson TX1
GPU	NVIDIA Pascal™、256 顆 CUDA 核心	NVIDIA Maxwell™、256 顆 CUDA 核心
CPU	HMP Dual Denver 2/2 MB L2 + Quad ARM® A57/2 MB L2	Quad ARM® A57/2 MB L2
視頻	4K x 2K 60 Hz 編碼 (HEVC) 4K x 2K 60 Hz 解碼（12 位支持）	4K x 2K 30 Hz 編碼 (HEVC) 4K x 2K 60 Hz 解碼（10 位支持）
內存	8 GB 128 位 LPDDR4 58.3 GB/s	4 GB 64 位 LPDDR4 25.6 GB/s
顯示器	2 個 DSI 接口、2 個 DP 1.2 接口/HDMI 2.0 接口/eDP 1.4 接口	2 個 DSI 接口、1 個 eDP 1.4 接口/DP 1.2 接口/HDMI 接口
CSI	超級多 6 個攝像頭（2 通道 CSI2 D-PHY 1.2（每一個通道 2.5 Gbps）	超級多 6 個攝像頭（2 通道） CSI2 D-PHY 1.1（每一個通道 1.5 Gbps）
PCIE	Gen 2 \| 1x4 + 1x1 或 2x1 + 1x2	Gen 2 \| 1x4 + 1x1
數據存儲	32 GB eMMC、SDIO、SATA	16 GB eMMC、SDIO、SATA
其餘	CAN、UART、SPI、I2C、I2S、GPIO	UART、SPI、I2C、I2S、GPIO
USB	USB 3.0 + USB 2.0
鏈接	1 千兆以太網、802.11ac WLAN、藍牙
機械	50 毫米 x 87 毫米（400 針兼容板對板鏈接器）

支持平臺：

基於TX2 的平臺可運行ubuntu系統。

NVIDIA爲此計算平臺貢獻了軟件開發套件：https://developer.nvidia.com/embedded/downloads#?tx=$software,l4t-tk1。

性能：

FLOPS：TX1上，配置是Tegra X1+4G LPDDR4，GPU是256個CUDA的Maxwell，TX2則升級爲Tegra Parker處理器，也就是16nm 6核CPU（2x丹佛+4xA57），因此GPU部分也升級爲Pascal架構，一樣256個CUDA，浮點性能1.5 TeraFLOPS，也就是提升了50%。

Jetson TX2 延續了tegra系列體積小巧、高度集成的特性，大小僅至關於一張信用卡。與前一代Jetson TX1相比，TX2能提供兩倍的功效。GPU、CPU都進行了升級，其中GPU變成了Pascal 架構（16 nm工藝）。這意味着Jetson 系列進入了 Pascal 架構時代。內存、存儲都增長了一倍，提供了 8G 內存、32G 固態存儲器。支持802.11ac WLAN和藍牙。

功耗TDP：15W

購買：

【注1】你想申請TX2，你須要擁有有效且公認的大學電子郵件地址就能夠了。筆者就不在這具體購買流程請諮詢代購商。
【注2】TX2在某寶上也能購買，固然筆者走的是教育優惠。

3、消費級計算平臺的GeForce

面向專業圖形工做站應用的Quadro系列，硬件核心和GeForce是相同的。

GeForce平臺爲消費級顯卡，主要用途依然是3D渲染。消費用途主要是玩遊戲和PS，工業用途作2維和三維圖像處理。NVIDAI把Physix和CUDA普及到GeForce平臺，GeForce平臺也開始了另外一新的功能，兼職作科學計算。

GeForce平臺產品眼花繚亂，玩遊戲的人羣比作機器人的人羣覆蓋面更廣，需求也更多樣化。以現有最新的帕斯卡構架的消費級顯卡來講，從低端的GT1030 到高端的GTX1080TI，參數性能價格已有天壤之別。

GeForce GT 1030顯卡基於GP108-300核心，擁有384個CUDA處理器，基礎核心頻率1227MHz，boost頻率1468MHz。使用2GB GDDR5顯存，顯存位寬64-bit，帶寬48GB/s。支持最新的DX12，OpenGL4.5等特性，TDP僅30W。價格最低不到500塊。

GeForceGTX1080擁有2560個CUDA處理器，核心頻率1607MHz，boost頻率1733MHz，等效顯存頻率10GHz。顯卡位寬爲256bit，帶寬320GB/s。公版顯卡最高溫度94℃，採用單8pin供電，TDP180w。

GeForceGTX1080強於GeForceGTX980SLI，甚至比GeForceGTXTitanX還要強，大概超過TitanX2成。單卡浮點運算次數上,GTX1080Ti（顯存8GB）達到11.5T FLOPs。兵荒馬亂的年月，GTX1080Ti已經漲到了6000+。

由於CUDA的存在，大量的科研計算使用GeForce卡作並行計算，如今AI最流行CUDA作深度學習。

TDP：30W-300W。移動計算機平臺TDP低至15w。

4、爲自動駕駛開發的Tesla系列

NVIDIA Driver系列爲自動駕駛提供一整套計算解決方案想，現有平臺有 NVIDIA DRIVER PX、NVIDIA DXG一、NVIDIA DRIVER IX。

Driver PX : https://www.nvidia.com/zh-cn/self-driving-cars/drive-px/

可擴展架構適用於各類配置。從功率爲 10 瓦的被動冷卻型移動處理器，到雙移動處理器加雙獨立 GPU 的多芯片配置（可提供每秒 24 萬億次的深度學習運算），都在此架構的支持範圍內。您可並行使用多個 DRIVE PX 平臺來實現徹底自動駕駛。

DRIVER PX Pegasus AI 計算機擁有高達 320 TOPS的深度學習計算能力。「Pegasus」之運算能力達到320 TOPS(Trillion Operations Per Second)，超越其前代平臺「Drive PX 2」之運算能力高達10倍。此運算能力主要來自於4顆處理器-2顆爲以NVIDIA目前最新GPU架構「Volta」爲核心的SoC「Xavier」、以及另外2顆爲車用機械視覺與深度學習所準備的專用GPU。

DRIVE PX Xavier 可以提供 20 TOPS 的高性能，而功耗僅有20 瓦。單個 Xavier AI 處理器中就包含了 70 億個晶體管，可以取代目前配備多個移動 SoC 和兩個獨立 GPU 的 DRIVE PX，且功耗大幅降低。Xavier爲低功耗自動駕駛平臺。

NVIDIA DRIVER IX 系列在硬件基礎上集成了一些與自動駕駛有關的軟件功能，如基於深度學習的面部識別、視線追蹤、和對話功能。

CES2018展會上，百度的「阿波羅」(Apollo)自動駕駛項目將使用英偉達的Drive Xavier自動駕駛計算平臺。百度的阿波羅項目致力於經過與一系列汽車製造商、供應商以及科技公司合做，爲自動駕駛汽車打造一個開放平臺。

5、GPU加速計算的Tesla系列

Tesla本是第一代產品的架構名稱，後來演變成了這個系列產品的名稱了。在NVIDIA的產品列表上，被定義爲數據中心產品，產品線爲TESLA、DXG、DXG-Station、HGX。

如今NVIDIA官方顯示的產品有TESLA-P40和TESLA-P6。P40浮點運算爲47T FLOPS。TESLA-P40的成品價格爲4W+（顯存24GB）。

黃仁勳在GTC2017 上發佈了TESLA V100和他的 VoltaGPU。仔細讀一下文章，有很多知識：英偉達Volta架構：爲深度學習而生的Tensor Core。固然，TESLA的價格嗎，15萬$，100萬呢....

Tesla V100 能夠提供業界領先的浮點和整型計算性能。峯值計算速度（基於 GPU Boost 時鐘頻率）：

雙精度浮點（FP64）運算性能：7.5 TFLOP/s；

單精度（FP32）運算性能：15 TFLOP/s;

混合精度矩陣乘法和累加：120 Tensor TFLOP/s。

新的 Tensor Core 是 Volta GV100 最重要的特徵，有助於提升訓練神經網絡所需的性能。Tesla V100 的 Tensor Core 可以爲訓練、推理應用的提供 120 Tensor TFLOPS。

Tensor核

..................

NVIDIA TITAN，英偉達聯合創始人兼CEO黃仁勳在NIPS2017全球神經信息處理系統大會上忽然發佈了全新的TITAN顯卡，NVIDIA TITAN V！新顯卡基於新一代的Volta架構打造，完整的GV100核心，峯值浮點性能高達110TFlops，至關於TITAN Xp 12Tflops的9倍。Titan也能夠面對消費者，相對於TESLA V100，便宜了很多，只要3000$，也要2萬塊。

消費級旗艦顯卡基於12nm GV100核心，內建5120顆CUDA核心，640顆Tensor核心（用於AI專門計算和加速），核心主頻1200MHz，加速頻率1455MHz。搭配12GB HBM2顯存，位寬3072bit，總帶寬653GB/s。性能方面，單精度浮點15 TFLOPS，此前公佈時給出的110T僅僅是用於深度學習的Tensor內核性能，因此這樣話，比TITAN Xp提升了24%左右。

TITAN V使用Volta構架，使用了Tensor核，和適合微型的企業和研究機構作深度學習。https://www.nvidia.com/zh-cn/titan/titan-v/。

DGX-1 定位爲我的計算中心，價格爲5萬$。參考：https://www.nvidia.com/zh-cn/data-center/dgx-systems/，系統CPU使用的是8塊TESLA V100，128GB顯存。提供960 TFLOPS（GPU FP16）性能。

...................

差很少結束了，固然聽說百度谷歌都有一次性集成兩萬張TESLA顯卡的習慣。