目前主要的處理器架構有:算法
X86架構(The X86 architecture)是微處理器執行的計算機語言指令集,指一個intel通用計算機系列的標準編號縮寫,也標識一套通用的計算機指令集合。服務器
ARM(Advanced RISC Machines)一個32位元精簡指令集(RISC)處理器架構,ARM處理器普遍地使用在許多嵌入式系統設計。ARM處理器的特色有指令長度固定,執行效率高,低成本等。網絡
ARM 架構是開放性的商業 IP 受權,x86 是封閉架構,美國 Intel 和 AMD 對知識產權處於壟斷地位(PS:如今華爲等國內公司研發多以ARM架構爲主)
所謂的AI芯片,通常是指針對AI算法的ASIC(專用芯片)。傳統的CPU、GPU均可以拿來執行AI算法,可是速度慢,性能低,沒法實際商用。架構
華爲很早就開始佈局AI芯片。2017年9月德國IFA電子消費展上,華爲就率先推出了內置NPU(獨立神經網絡處理單元)的全球首款AI芯片麒麟970。機器學習
AI處理器的發展和設計目標分佈式
目前在圖像識別、語音識別、天然語言處理等領域,精度最高的算法就是基於深度學習的,傳統的機器學習的計算精度已經被超越,目前應用最廣的算法,估計非深度學習莫屬,並且,傳統機器學習的計算量與 深度學習比起來少不少,因此,我討論AI芯片時就針對計算量特別大的深度學習而言。畢竟,計算量小的算法,說實話,CPU已經很快了。並且,CPU適合執行調度複雜的算法,這一點是GPU與AI芯片都作不到的,因此他們三者只是針對不一樣的應用場景而已,都有各自的主場。佈局
GPU原本是從CPU中分離出來專門處理圖像計算的,也就是說,GPU是專門處理圖像計算的。包括各類特效的顯示。這也是GPU的天生的缺陷,GPU更加針對圖像的渲染等計算算法。可是,這些算法,與深度學習的算法仍是有比較大的區別,而個人回答裏提到的AI芯片,好比TPU,這個是專門針對CNN等典型深度學習算法而開發的。另外,寒武紀的NPU,也是專門針對神經網絡的,與TPU相似。
谷歌的TPU,寒武紀的DianNao,這些AI芯片剛出道的時候,就是用CPU/GPU來對比的。性能
AI芯片,好比大名鼎鼎的谷歌的TPU1。學習
TPU1,大約700M Hz,有256X256尺寸的脈動陣列,以下圖所示。一共256X256=64K個乘加單元,每一個單元一次可執行一個乘法和一個加法。那就是128K個操做。(乘法算一個,加法再算一個)大數據