英偉達秀全球最大GPU,黃仁勳從烤箱裏拿出的產品果真「爆了」

image.png

技術編輯:芒果果丨發自 思否編輯部
SegmentFault 思否報道丨公衆號:SegmentFault算法


是他,仍是那個男人,那個熟悉的皮夾克。segmentfault

5 月 14 日 晚,黃仁勳在廚房召開了英偉達 GTC 2020 線上發佈會。因爲新冠病毒疫情影響,英偉達原計劃的現場活動被迫取消,定於 3 月 24 日經過媒體發佈的新聞稿也未見蹤跡。千呼萬喚中,黃仁勳終於在烤箱前和你們見面了。安全

本屆 GTC 從預熱開始就不走尋常路,黃仁勳在大會前一天曬出了本身從烤箱裏拿出了全新的安培(Ampere)架構 GPU NVIDIA A100。服務器

英偉達1.gif

這個「全球最大」果真沒有騙人

使人頗感意外的是,雖然沒法舉辦線下活動,英偉達居然連線上直播都懶得辦,直接播放了黃仁勳在自家廚房裏錄製的視頻完成了新品發佈。果真是手裏有「硬貨」就不在意形式了。架構

英偉達的首款安培架構 GPU 能夠算「史上最強」了,基於 7nm 工藝製程,擁有 540 億晶體管,面積爲826mm²,與 Volta 架構相比性能提高了 20 倍,既能夠作訓練也能夠作推理。框架

image.png

NVIDIA A100 具備 TF32的第三代 Tensor Core 核心,能在不更改任何代碼的狀況下將 FP32 精度下的 AI 性能提升 20倍,達到19.5萬億次/秒。佈局

多實例 GPU-MG 可將單個 A100 GPU 分割爲 7 個獨立的 GPU,根據任務不一樣提供不一樣的計算力,實現最佳利用率和投資回報率的最大化。性能

NVIDIA A100 新的效率技術利用了AI數學固有的稀疏性,優化以後性能提高了一倍。優化

image.png

英偉達將 NVIDIA A100 的特性總結爲如下 5 點:阿里雲

1.超過 540 億個晶體管,使其成爲世界上最大的 7 納米處理器;

2.帶有 TF32 的第三代 Tensor Core 核心,這是一種新的數值格式,可加速開箱即用的單精度AI訓練。NVIDIA 普遍使用的 Tensor Core 如今更加靈活,快速,且更易於使用;

3.結構稀疏性(Structural sparsity)加速,這是一種新的高效技術,能夠利用AI數學固有的稀疏性來得到更高的性能;

4.多實例  GPU(Multi-instance GPU或MIG),容許將一個 A100 分割爲多達七個獨立的 GPU,每一個 GPU 都有本身的資源;

5.第三代 NVLink 技術,使 GPU 之間的高速聯接能力加倍,從而可使多個 A100 服務器充當一個巨型 GPU。

image.png

黃仁勳說:「Ampere架構的突破性設計爲英偉達第八代GPU提供了迄今爲止最大的性能飛躍,集 AI 訓練和推理於一身,而且其性能相比於前代產品提高了高達 20 倍。這是有史以來首次,能夠在一個平臺上實現對橫向擴展以及縱向擴展的負載的加速。A100 將在提升吞吐量的同時,下降數據中心的成本。」

NVIDIA A100 是第一個基於 NVIDIA 安培架構的 GPU,提供了在 NVIDIA 八代 GPU 裏最大的性能提高,它還可用於數據分析,科學計算和雲圖形,並已全面投產並交付給全球客戶。

全球 18 家領先的服務提供商和系統構建商正在將 NVIDIA A100 整合到他們的服務和產品中,其中包括阿里雲、AWS、百度雲、思科、Dell Technologies、Google Cloud、HPE、Microsoft Azure和甲骨文。

image.png

單節點 AI 算力達 5 PFLOPS,140 臺DGXA100 組成 DGXSuper POD

黃仁勳還介紹了基於 NVIDIA A100 的第三代 AI 系統 DGX-A100 AI。DGX-A100 AI 是世界上第一臺單節點 AI 算力達到 5 PFLOPS 的服務器,每臺 DGX A100 能夠分割爲多達 56 個獨立運行的實例,還集合了 8 個 NVIDIA A100 GPU,每一個 GPU 均支持 12 路 NVLink 互連總線。

image.png

據瞭解,與其餘高端 CPU 服務器相比,DGXA100 的 AI 計算性能高 150 倍、內存帶寬高 40 倍、IO 帶寬高 40 倍。

黃仁勳說:「AI已經被應用到雲計算、汽車、零售、醫療等衆多領域,AI算法也正變得愈來愈複雜和多樣。ResNet模型的算力需求從2016年到如今已經增長了3000倍,咱們須要更好的解決方案。」

如此強大的 DGX-A100 AI 售價天然也不便宜,標價 19.9 萬美圓,約合人民幣 141 萬元。

此外,黃仁勳還提到了英偉達新一代 DGXSuper POD 集羣,由 140 臺DGXA100系統組成,AI算力達 700 Petaflops,至關於數千臺服務器的性能。

image.png

據瞭解,首批 DGXSuper POD 將部署在美國能源部阿貢國家實驗室,用於新冠病毒疫情相關的研究。

五大軟硬件齊上陣,自動駕駛平臺合做已敲定

除了以上兩款重磅產品,黃仁勳還宣佈推出了 NVIDIA Merlin,這是一個用於構建下一代推薦系統的端到端框架,該系統正迅速成爲更加個性化互聯網的引擎。Merlin將建立一個 100 TB 數據集推薦系統所需的時間從四天減小到 20 分鐘。

英偉達這次還推出了衆多 AI 領域相關產品,包括 以太網智能網卡 Mellanox ConnectX-6 Lx SmartNIC、EGX 邊緣 AI 平臺和一系列軟件更新擴展。

1.以太網智能網卡 Mellanox ConnectX-6 Lx SmartNIC

ConnectX-6 Lx 是業界首個爲 25Gb/s 優化的安全智能網卡,可提供兩個 25Gb/s 端口或一個 50Gb/s 端口。

2.EGX 邊緣 AI 平臺

EGX Edge AI 平臺是首款基於 NVIDIA 安培架構的邊緣 AI 產品,可接收高達 200Gbps 的數據,並將其直接發送到 GPU 內存進行 AI 或 5G 信號處理。

image.png

3.Spark 3.0

英偉達還宣佈在 Spark 3.0 上支持 NVIDIA GPU 加速,基於 RAPIDS 的 Spark 3.0,打破了提取,轉換和加載數據的性能基準。它已經幫助 Adobe Intelligent Services 將計算成本下降了90%。

4.NVIDIA Jarvis

黃仁勳在發佈會中詳細介紹了 NVIDIA Jarvis,這是一個新的端到端平臺,能夠充分發揮英偉達 AI 平臺的強大功能,建立實時多模態對話式 AI。

image.png

5.Misty 交互 AI

現場演示中,一個名爲 Misty 的 AI系統展現了實時理解並回答一系列有關天氣的複雜問題的交互過程。

image.png

自動駕駛方面,英偉達也將安培架構嵌入了新的 NVIDIA DRIVE 平臺。據瞭解,小馬智行、法拉第將來等自動駕駛企業已宣佈採用 NVIDIA DRIVE AGX 計算平臺。

英偉達的 NVIDIA Isaac 軟件定義的機器人平臺還將用於寶馬集團工廠。英偉達機器人技術全球生態系統涵蓋配送、零售、自主移動機器人、農業、服務業、物流、製造和醫療保健各個行業。

image.png

英偉達 AI 生態全佈局,中國 AI 芯片研發與發達國家差距正在縮短

英偉達這場時隔 3 年的發佈會可謂誠意滿滿,首次推出的安培架構給足了驚喜,性能提高 20 倍的 NVIDIA A100 GPU 可謂性能飛躍。

雖然發佈會並非現場直播,但依舊爆點十足。一臺就比千臺強的 DGX-A100 AI 也印證了黃仁勳那就經典名言「買的越多,賺的越多」。英偉達的 AI 解決方案已經覆蓋了各行各業,強大的 AI  生態正在造成。

中國工程院院士倪光南曾表示:「芯片設計門檻極高,只有極少數企業可以承受中高端芯片研發成本,這也制約了芯片領域創新。」

英偉達在本屆 GTC 上推出的安培架構和基於此的一系列 AI 平臺無一部顯示了一個 AI 芯片巨頭的實力,又一次樹立了性能標杆。

根據 Gartner 的預測數據 ,將來 5 年內全球人工智能芯片市場規模將呈飆升趨勢 ,自 2018 年的 42.7 億美圓 ,升高至 343 億美圓 ,增加已超過 7 倍,可見 AI 芯片市場有較大增加空間。

儘管與西方發達國家相比,中國的 AI 芯片研發還存在必定差距,但過去兩年中,中國 AI 芯片初創企業已得到了數億美圓的資金。華爲等公司也開發了使人印象深入的芯片設計。

但芯片開發極具複雜性,中國人才的短缺以及缺少多家全球銷售排名前 15 位的中國半導體公司的狀況代表,中國仍須要取得重大進展,才能在半導體領域與美國匹敵。

clipboard.png

相關文章
相關標籤/搜索