點擊上方「視學算法」,選擇加"星標"或「置頂」算法
重磅乾貨,第一時間送達微信
子豪 發自 凹非寺
量子位 報道 | 公衆號 QbitAI
英偉達最新發布的基於新架構的A100加速計算卡,其官網宣傳:網絡
自動混合精度和FP16,能夠爲A100帶來2倍的性能提高;架構
並且,在不更改代碼的狀況下,具備TF32的A100與英偉達Volta相比,性能可以高出20倍。app
那麼,A100與V100相比,究竟如何?最近Lambda網站真的把它倆的訓練速度對比了一番。svg
硬件參數對比
△ 英偉達A100 GPU性能
相比V100,A100的單精度浮點計算能力,從15.7TFLOPS提高至19.5TFLOPS;而雙精度浮點運算從7.8TFLOPS提高至9.7TFLOPS。學習
在英偉達的公開信息中,列出了A100與V100的參數對比:測試
在BERT深度學習訓練中,兩者的速度對比:flex
在其餘訓練模型下,A100是否能有一樣出色的表現?
測試結果如何?
兩者均選擇適用於NVLink的產品進行測試,在32位精度下,採用PyTorch訓練。
對於A100,32位是指FP32+TF32;對於V100,指的是FP32。
測試分爲兩部分:卷積神經網絡訓練速度、語言模型訓練速度。
卷積神經網絡訓練速度
測試者將一塊V100的32位的訓練速度歸一化,對比了不一樣數量GPU的訓練速度。
將結果在SSD、ResNet-50和Mask RCNN上取平均值。(原始數據可經過文末連接查看)
獲得結果:
例如:
1塊A100 VS 1塊V100,進行32位訓練:前者速度是後者的2.17倍;
4塊V100 VS 1塊V100,進行32位訓練:前者速度是後者的3.88倍;
8塊A100的混合精度訓練 VS 1塊V100的32位訓練:前者速度是後者的20.35倍。
語言模型訓練速度
與上面的對比方法相同。
將結果在Transformer-XL base、Transformer-XL large、Tacotron 2和ERT-base SQuAD上取平均值。(原始數據可經過文末連接查看)
獲得結果:
例如:
1塊A100 VS 1塊V100,進行32位訓練:前者速度是後者的3.39倍;
4塊V100的混合精度訓練 VS 1塊V100的32位訓練:前者速度是後者的7.97倍;
8塊A100的混合精度訓練 VS 1塊V100的32位訓練:前者速度是後者的42.60倍。
結論
在卷積神經網絡訓練中:
1塊A100的訓練速度是1塊V100的2.2倍;
使用混合精度時,前者則是後者的1.6倍。
在語言模型訓練中:
1塊A100的訓練速度是1一塊V100的3.4倍;
使用混合精度時,前者則是後者的2.6倍。
其中,分別用8塊A100與8塊V100,進行32位訓練:前者速度可以達到後者的3.5倍;
看來,針對不一樣模式下的深度學習訓練,英偉達A100都有着至關不錯的效率。
「史無前例的規模」以及「驚人的性能」,所言不虛。
原文連接:
https://lambdalabs.com/blog/NVIDIA-a100-vs-v100-benchmarks/
測試原始數據:
https://lambdalabs.com/gpu-benchmarks
— 完 —
本文系網易新聞•網易號特點內容激勵計劃簽約帳號【量子位】原創內容,未經帳號受權,禁止隨意轉載。
![](http://static.javashuo.com/static/loading.gif)
點個在看 paper不斷!
本文分享自微信公衆號 - 視學算法(visualAlgorithm)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。