A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector算法
單位:KAIST(韓國科學技術院)——ISSCC上大神級的機構···markdown
DNN的加速器,面向不一樣的應用有着不一樣的能效需求:0.1W~1W,1W~5W等,不一樣的應用場景須要不一樣的架構。可是在0.1w如下的空間,目前成熟的工做還很少。本篇是一款面向Always-on 和IoT的0.62mW的人臉識別系統,面向IoT等極低功耗需求的計算場景。分爲兩個部分:人臉檢測和人臉識別。下面主要講一講人臉識別部分的CNN引擎。網絡
下圖想說的是用分佈式內存架構比集中式的會更好:session
在卷積中,採用一個2D轉兩次1D的trick,好比5*5的卷積,先作一次5 *1再作一次1 *5卷積,能夠獲得同樣大小的輸出;結果是計算參數減小了,更重要的是計算量顯著減小。(這個trick在算法中很容易想,可是在硬件中直接作效率不必定高,因此也就有了後面的T-SRAM的設計,能夠一次取出一列的數據)架構
雖然計算減小了,可是精度損失比較少:分佈式
對於SF-CONV的訪存:垂直方向的圖像濾波效率很低,同時增長了4.7x的翻轉率。基於此,提出了T-SRAM。T-SRAM支持兩種訪問方式:V-WD和V-SA是倒序訪存,輸出的是垂直方向的1D向量;而H-WD和H-SA是順序訪存,輸出的是水平方向的1D向量。ide
用了TSRAM之後:
設計
具體電路設計細節能夠參考paper,我也是外行。圖片
芯片版圖:65nm工藝下,FD部分的CIS處理單元爲3.3mmx3.36mm(320×240的陣列,支持哈爾檢測的芯片,採用模擬存儲);FR部分的CNNP單元爲4mmx4mm(4×4的PE陣列,使用T-SRAM做爲本地存儲)。內存
V和F的調整狀況:
SF-CONV的精度損失在1%之內,總體精確度達到97%(CNN網絡,LFW數據)
總結:面向Always-on 和IoT的0.62mW的人臉識別系統[1]
一、超級功耗的人臉識別SoC(採用CIS和CNN實現)
二、數模混合的哈爾特徵人臉檢測電路
三、卷積分離的近似計算技術
四、支持水平、垂直數據讀取的新結構T-SRAM
五、採用電壓、頻率可調的NVT實現
[1] https://reconfigdeeplearning.com/2017/02/09/isscc-2017-session-14-slides14-6/ [2] A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector