ISSCC 2017論文導讀 Session 14:A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Pro

時間 2019-12-05

標籤 isscc 論文導讀 session 0.62mw ultra low power convolutional neural network face recognition pro 欄目網站開發简体版

原文原文鏈接

A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector算法

單位：KAIST（韓國科學技術院）——ISSCC上大神級的機構···markdown

DNN的加速器，面向不一樣的應用有着不一樣的能效需求：0.1W~1W，1W~5W等，不一樣的應用場景須要不一樣的架構。可是在0.1w如下的空間，目前成熟的工做還很少。本篇是一款面向Always-on 和IoT的0.62mW的人臉識別系統，面向IoT等極低功耗需求的計算場景。分爲兩個部分：人臉檢測和人臉識別。下面主要講一講人臉識別部分的CNN引擎。網絡

下圖想說的是用分佈式內存架構比集中式的會更好：session

在卷積中，採用一個2D轉兩次1D的trick，好比5*5的卷積，先作一次5 *1再作一次1 *5卷積，能夠獲得同樣大小的輸出；結果是計算參數減小了，更重要的是計算量顯著減小。(這個trick在算法中很容易想，可是在硬件中直接作效率不必定高，因此也就有了後面的T-SRAM的設計，能夠一次取出一列的數據)架構

雖然計算減小了，可是精度損失比較少:分佈式

對於SF-CONV的訪存：垂直方向的圖像濾波效率很低，同時增長了4.7x的翻轉率。基於此，提出了T-SRAM。T-SRAM支持兩種訪問方式：V-WD和V-SA是倒序訪存，輸出的是垂直方向的1D向量；而H-WD和H-SA是順序訪存，輸出的是水平方向的1D向量。ide

用了TSRAM之後：
設計

具體電路設計細節能夠參考paper，我也是外行。圖片

芯片版圖：65nm工藝下，FD部分的CIS處理單元爲3.3mmx3.36mm(320×240的陣列，支持哈爾檢測的芯片，採用模擬存儲)；FR部分的CNNP單元爲4mmx4mm(4×4的PE陣列，使用T-SRAM做爲本地存儲)。內存

V和F的調整狀況：

SF-CONV的精度損失在1%之內，總體精確度達到97%（CNN網絡，LFW數據）

總結：面向Always-on 和IoT的0.62mW的人臉識別系統[1]

一、超級功耗的人臉識別SoC（採用CIS和CNN實現）

二、數模混合的哈爾特徵人臉檢測電路

三、卷積分離的近似計算技術

四、支持水平、垂直數據讀取的新結構T-SRAM

五、採用電壓、頻率可調的NVT實現

參考資料

[1] https://reconfigdeeplearning.com/2017/02/09/isscc-2017-session-14-slides14-6/ [2] A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。