在計算機體系中,數據並行有兩種實現路徑:MIMD(Multiple Instruction Multiple Data,多指令流多數據流)和SIMD(Single Instruction Multiple Data,單指令流多數據流)。其中MIMD的表現形式主要有多發射、多線程、多核心,在當代設計的以處理能力爲目標驅動的處理器中,均能看到它們的身影。同時,隨着多媒體、大數據、人工智能等應用的興起,爲處理器賦予SIMD處理能力變得愈發重要,由於這些應用存在大量細粒度、同質、獨立的數據操做,而SIMD天生就適合處理這些操做。算法
SIMD結構有三種變體:向量體系結構、多媒體SIMD指令集擴展和圖形處理單元。本文集中圍繞多媒體SIMD指令集擴展進行描述。編程
多媒體SIMD指令集擴展性能優化
1. 簡介微信
上世紀90年代,隨着互聯網的普及,音頻、圖片、視頻等多媒體應用迅速崛起,爲應對多媒體密集的計算需求,Intel於1996年率先將多媒體SIMD擴展指令集引入通用處理器,在其奔騰處理器上集成了 SIMD 擴展部件 MMX。多線程
多媒體應用中一般存在大量同質、獨立的訪存和計算操做,且使用的數據類型通常都很窄(如圖形系統使用8位表示三基色的每一種顏色,使用8位表示透明度;音頻採樣位寬一般爲8位或16位)。SIMD擴展指令集具備獨立的長位寬向量寄存器(64/128/256/512/1024......),容許將原來須要屢次裝載的連續內存地址數據一次性裝載到向量寄存器中,並使用分裂模式將長的向量寄存器看成多個獨立的窄位寬元素,經過一條SIMD擴展指令實現對SIMD向量寄存器中全部數據元素的並行處理。這種執行方式很是適合於處理計算密集、數據相關性少的音視頻解碼等多媒體程序。函數
SIMD擴展部件僅須要在原來標量部件的基礎上覆制幾份一樣的處理單元,不須要增長太多的額外硬件,就能對多媒體等特定應用帶來顯著的性能提高,且不增長通訊以及cache和內存的開銷,所以即便在多核時代,SIMD擴展部件仍然是程序加速的重要手段之一。性能
2. 實現形式大數據
寄存器分裂:將長向量寄存器的比特位均勻「分裂」成多個窄位寬(8/16/32/64)元素,看成獨立數據進行操做。通常的多媒體SIMD擴展指令集均支持定點的有符號和無符號數據操做,部分處理器支持單、雙精度的浮點操做。優化
下圖舉了一個128位寬寄存器的例子:人工智能
圖1 將128位寬的寄存器分裂成4個32位單精度浮點寄存器或16個8位寬有符號定點寄存器
並行車道:SIMD擴展部件負責訪存、計算等操做的功能單元均支持多個並行子單元的同時處理,所以一條SIMD擴展指令可一次性操做多個元素。
下圖顯示了一個功能單元以四車道並行執行的例子:
圖2 SIMD多媒體擴展指令執行示意圖
3. 主要特徵
SIMD擴展指令在實現機制上與普通的標量指令沒有太多差異。在SIMD擴展指令集上都可以實現標量指令集支持的各類操做,如存取操做、算數運算、邏輯運算、比特操做,以及經常使用的飽和處理、四捨五入、條件執行等功能。
SIMD擴展指令特殊之處在於並行元素的處理。除部分計算子單元支持條件執行外,各子單元的訪存和計算操做都將嚴格同步執行,一方面迫使使用它的程序須要具有可並行化的特徵,另外一方面帶來訪存上的一些問題。
當須要並行處理的元素個數小於一條SIMD擴展指令所能支持的並行操做個數,或是面臨非連續訪存的並行處理需求時,強行使用SIMD擴展指令可能會帶來內存越界的問題。早期的SIMD向量存取指令只能訪問在內存中連續對齊的數據,所以當程序中存在不對齊或不連續內存引用時,須要經過移位或者重組等輔助指令才能組成向量。在向量重組指令能力較弱或者根本不支持向量重組指令時,強制將不連續的訪存數據組成向量可能帶來大的開銷,甚至致使向量化沒有收益。
但隨着處理器技術的發展,目前已有處理器已經能支持非對齊的訪存操做,並添加了大量用於數據重組的指令,部分處理器還支持集散(gather-scatter)內存訪問,這給SIMD向量化發掘提供了堅實的基礎。
SIMD擴展指令集支持的計算功能也在不斷豐富,現在不少處理器支持的SIMD擴展指令達上百條之多。不少指令的設計初衷早已跨越多媒體應用處理範疇,延伸到信號處理、科學計算等須要高性能計算能力的領域。
在各處理器上的應用狀況
Intel對多媒體SIMD擴展指令集的應用很具表明性。1996 年,Intel 在其奔騰處理器上集成了 SIMD 擴展部件 MMX,其向量寄存器爲64位寬。後來又相繼推出了 SSE(128位寬),AVX(256位寬),IMCI 和 AVX-512(512位寬)。
圖3 Intel x86處理器的多媒體SIMD擴展指令集演進歷程
其餘 SIMD 擴展部件還包括摩托羅拉 PowerPC 處理器的 AltiVec、Sun 公司 SPARC 處理器中的 VIS、HP 公司 PA-RISC 處理器中的 MAX、DEC 公司 Alpha 處理器中的 MVI-二、MIPS公司 V 處理器中的 MDMX、AMD處理器中的3DNow!、ARM內核中的NEON、CEVA公司的VCU 等。
SIMD 擴展部件最初僅用於多媒體領域和數字信號處理器中,後來,研究人員將SIMD 擴展部件應用到高性能計算機中,如,IBM 的超級計算機 BlueGene/L 和國產的神威藍光超級計算機中都集成短向量擴展部件。國產處理器中,龍芯、邁創以及魂芯一號都含有 SIMD 擴展部件。
圖4 帶有SIMD擴展部件的處理器
不少通用指令集也支持SIMD形式的訪存和計算操做,但它們支持的寄存器位寬有限,經過將通用寄存器(32/16位寬)分裂成16/8位的更小單元進行獨立的並行操做,如ARM指令集、TIC64X指令集,等。這種SIMD指令在實現機制上和多媒體SIMD擴展指令並沒有多少區別,不過考慮到多媒體SIMD擴展指令集針對特殊應用場景而「擴展」的用意,仍是暫不把他們歸爲多媒體SIMD擴展指令。
如何發揮SIMD擴展指令集的效能
多媒體SIMD擴展指令集必需要有軟件的支持。與標量部件相比,SIMD擴展部件的收益來自於向量運算和向量訪存。所以將程序儘量向量化成SIMD指令可執行的形式,是提升SIMD總體效益的關鍵。
對於軟件開發者而言,有大概5種方式來利用多媒體SIMD擴展指令集的並行加速功能:
使用匯編語言編寫代碼。包括在彙編源文件中書寫彙編指令,或是在高級語言中嵌入擴展彙編;
使用內嵌指令函數。通常SIMD擴展指令集設計商都會提供各彙編指令的封裝函數,編程者只需調用這些函數就能實現彙編指令的插入,將複雜的寄存器分配的任務交給編譯器來完成;
使用C++類庫擴展。這種高級語言提供的類庫將偏處理器底層的信息封裝起來,留給編程者更接近行爲體驗的語法和函數接口;
使用庫函數。SIMD擴展指令集設計商每每會公開一些典型應用的庫函數,這些庫函數通常充分挖掘了指令集的特性,效率很高;
使用編譯製導語句輔助編譯器優化。現今的主流編譯器集成有自動向量化算法,可以在編譯期間分析代碼的可並行性,並生成SIMD擴展彙編指令。不過因爲編譯器可以從代碼中提取的信息有限,對一些複雜的處理過程,即便存在並行開發的可能,編譯器也可能沒法成功向量化。編譯製導語句能夠從開發者的角度提供給編譯器更多編譯期間沒法提取的信息,提升編譯器將代碼向量化的機率。如OpenMP和OpenACC就支持經過添加編譯指示的方式發掘程序的SIMD並行性.
另外,因爲不少SIMD擴展指令通常都是在一個週期內發出,可是執行結果可能若干個週期纔能有效。在作循環的優化中,若是能結合循環展開方式開發軟件流水線代碼,能夠減小因爲先後指令相關形成的延遲等待時間,儘量地挖掘處理器的峯值效率。
處理非整數倍並行長度的應用
在開發中,很容易碰到這樣的狀況:要對一段具備N並行度的代碼進行向量化,已知SIMD擴展指令一次可處理8個這樣的元素,但N在編譯時未知。這時,應該如何經過手動向量化的方法來編寫代碼呢?
一種方法就是人爲將N擴展爲8的整數倍,如N = (N+7)/8,而後進行向量化。這樣編寫起來很方便,帶來的問題就是須要預留足夠的內存空間,不然容易引發內存越界。
這裏主要介紹一種不須要人爲擴展內存邊界的方法。假設咱們要處理的代碼是:
for(i=0; i<N; i++)
{
a[i] = b[i] + c[i];
}
能夠這樣編寫SIMD擴展指令向量化的代碼:
v_len = N/8;
for(i=0; i<v_len; i++)
{
v_b = vload(&b[8*i]);
v_c = vload(&c[8*i]);
v_a = vadd(v_b, v_c);
vstore(&a[8*i]);
}
/***收尾處理***/
v_b = vload(&b[N-8]);
v_c = vload(&c[N-8]);
v_a = vadd(v_b, v_c);
vstore(&a[N-8]);
這種方式經過將尾部不足向量長度的元素與前幾個元素拼湊成一組整的向量,實現收尾處理,將不會帶來內存越界的問題。不過這種方式也有不足之處,就是代碼體積將增大一倍左右,且不能處理N小於向量長度的狀況。
參考資料
【1】高偉, 趙榮彩, 韓林, 龐建民, 丁銳. SIMD自動向量化編譯優化概述[J].軟件學報,2015, 26(6): 1265-1284.
【2】John L. Hennessy,David A. Patterson . 計算機體系結構:量化研究方法:第5版[M].北京:人民郵電出版社,2013. (原名《Computer Architecture:A Quantitative Approach》)
【3】David A. Patterson,John L. Hennessy . 計算機組成與設計:硬件/軟件接口:第5版[M].北京:機械工業出版社,2015. (原名《Computer Organization and Design:The Hardware/Software Interface》)
·END·
你可能還感興趣:
歡迎來個人微信公衆號作客:信號君
專一於信號處理知識、高性能計算、現代處理器&計算機體系
技術成長 | 讀書筆記 | 認知升級
幸會~