GPU架構中的半精度fp16與單精度fp32計算

時間 2020-02-12

原文原文鏈接

GPU架構中的半精度與單精度計算因爲項目緣由，咱們須要對darknet中卷積層進行優化，然而對於像caffe或者darknet這類深度學習框架來講，都已經將卷積運算轉換成了矩陣乘法，從而能夠方便調用cublas 庫函數和cudnn裏tiling 過的矩陣乘。html CUDA在推出7.5的時候提出了能夠計算16位浮點數據的新特性。定義了兩種新的數據類型half和half2. 以前有師弟

>>阅读原文<<