英偉達A100可達V100的3.5倍?

點擊上方視學算法」,選擇加"星標"或「置頂算法

重磅乾貨,第一時間送達微信

子豪 發自 凹非寺
量子位 報道 | 公衆號 QbitAI

英偉達最新發布的基於新架構的A100加速計算卡,其官網宣傳:網絡

自動混合精度和FP16,能夠爲A100帶來2倍的性能提高;架構

並且,在不更改代碼的狀況下,具備TF32的A100與英偉達Volta相比,性能可以高出20倍。app

那麼,A100與V100相比,究竟如何?最近Lambda網站真的把它倆的訓練速度對比了一番。svg

硬件參數對比

英偉達A100 GPU性能

相比V100,A100的單精度浮點計算能力,從15.7TFLOPS提高至19.5TFLOPS;而雙精度浮點運算從7.8TFLOPS提高至9.7TFLOPS。學習

在英偉達的公開信息中,列出了A100與V100的參數對比:測試

在BERT深度學習訓練中,兩者的速度對比:flex

在其餘訓練模型下,A100是否能有一樣出色的表現?

測試結果如何?

兩者均選擇適用於NVLink的產品進行測試,在32位精度下,採用PyTorch訓練。

對於A100,32位是指FP32+TF32;對於V100,指的是FP32。

測試分爲兩部分:卷積神經網絡訓練速度、語言模型訓練速度。

卷積神經網絡訓練速度

測試者將一塊V100的32位的訓練速度歸一化,對比了不一樣數量GPU的訓練速度。

將結果在SSD、ResNet-50和Mask RCNN上取平均值。(原始數據可經過文末連接查看)

獲得結果:

例如:

  • 1塊A100 VS 1塊V100,進行32位訓練:前者速度是後者的2.17倍;

  • 4塊V100 VS 1塊V100,進行32位訓練:前者速度是後者的3.88倍;

  • 8塊A100的混合精度訓練 VS 1塊V100的32位訓練:前者速度是後者的20.35倍。

語言模型訓練速度

與上面的對比方法相同。

將結果在Transformer-XL base、Transformer-XL large、Tacotron 2和ERT-base SQuAD上取平均值。(原始數據可經過文末連接查看)

獲得結果:

例如:

  • 1塊A100 VS 1塊V100,進行32位訓練:前者速度是後者的3.39倍;

  • 4塊V100的混合精度訓練 VS 1塊V100的32位訓練:前者速度是後者的7.97倍;

  • 8塊A100的混合精度訓練 VS 1塊V100的32位訓練:前者速度是後者的42.60倍。

結論

  • 在卷積神經網絡訓練中:

1塊A100的訓練速度是1塊V100的2.2倍;

使用混合精度時,前者則是後者的1.6倍。

  • 在語言模型訓練中:

1塊A100的訓練速度是1一塊V100的3.4倍;

使用混合精度時,前者則是後者的2.6倍。

其中,分別用8塊A100與8塊V100,進行32位訓練:前者速度可以達到後者的3.5倍;

看來,針對不一樣模式下的深度學習訓練,英偉達A100都有着至關不錯的效率。

「史無前例的規模」以及「驚人的性能」,所言不虛。

原文連接:
https://lambdalabs.com/blog/NVIDIA-a100-vs-v100-benchmarks/

測試原始數據:
https://lambdalabs.com/gpu-benchmarks

本文系網易新聞•網易號特點內容激勵計劃簽約帳號【量子位】原創內容,未經帳號受權,禁止隨意轉載。


點個在看 paper不斷!

本文分享自微信公衆號 - 視學算法(visualAlgorithm)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索