ISSCC 2017論文導讀 Session 14:A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Pro

A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector算法

單位:KAIST(韓國科學技術院)——ISSCC上大神級的機構···markdown

DNN的加速器,面向不一樣的應用有着不一樣的能效需求:0.1W~1W,1W~5W等,不一樣的應用場景須要不一樣的架構。可是在0.1w如下的空間,目前成熟的工做還很少。本篇是一款面向Always-on 和IoT的0.62mW的人臉識別系統,面向IoT等極低功耗需求的計算場景。分爲兩個部分:人臉檢測和人臉識別。下面主要講一講人臉識別部分的CNN引擎。網絡

下圖想說的是用分佈式內存架構比集中式的會更好:session

這裏寫圖片描述

在卷積中,採用一個2D轉兩次1D的trick,好比5*5的卷積,先作一次5 *1再作一次1 *5卷積,能夠獲得同樣大小的輸出;結果是計算參數減小了,更重要的是計算量顯著減小。(這個trick在算法中很容易想,可是在硬件中直接作效率不必定高,因此也就有了後面的T-SRAM的設計,能夠一次取出一列的數據)架構

這裏寫圖片描述

這裏寫圖片描述

雖然計算減小了,可是精度損失比較少:分佈式

這裏寫圖片描述

對於SF-CONV的訪存:垂直方向的圖像濾波效率很低,同時增長了4.7x的翻轉率。基於此,提出了T-SRAM。T-SRAM支持兩種訪問方式:V-WD和V-SA是倒序訪存,輸出的是垂直方向的1D向量;而H-WD和H-SA是順序訪存,輸出的是水平方向的1D向量。ide

這裏寫圖片描述

這裏寫圖片描述

用了TSRAM之後:
這裏寫圖片描述設計

具體電路設計細節能夠參考paper,我也是外行。圖片

芯片版圖:65nm工藝下,FD部分的CIS處理單元爲3.3mmx3.36mm(320×240的陣列,支持哈爾檢測的芯片,採用模擬存儲);FR部分的CNNP單元爲4mmx4mm(4×4的PE陣列,使用T-SRAM做爲本地存儲)。內存

這裏寫圖片描述

V和F的調整狀況:

這裏寫圖片描述

SF-CONV的精度損失在1%之內,總體精確度達到97%(CNN網絡,LFW數據)

這裏寫圖片描述

總結:面向Always-on 和IoT的0.62mW的人臉識別系統[1]

一、超級功耗的人臉識別SoC(採用CIS和CNN實現)

二、數模混合的哈爾特徵人臉檢測電路

三、卷積分離的近似計算技術

四、支持水平、垂直數據讀取的新結構T-SRAM

五、採用電壓、頻率可調的NVT實現

參考資料

[1] https://reconfigdeeplearning.com/2017/02/09/isscc-2017-session-14-slides14-6/ [2] A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector

相關文章
相關標籤/搜索