1、前言html
FPGA以擅長高速並行數據處理而聞名,從有線/無線通訊到圖像處理中各類DSP算法,再到現今火爆的AI應用,都離不開卷積、濾波、變換等基本的數學運算。但因爲FPGA的硬件結構和開發特性使得其對不少算法不友好,以前本人零散地總結和轉載了些基本的數學運算在FPGA中的實現方式,今天作一個系統的總結概括。算法
2、FPGA中的加減乘除ide
1.硬件資源函數
Xilinx 7系列的FPGA中有DSP Slice ,叫作「DSP48E1」這一專用硬件資源,這是一個功能強大的計算單元,單就用於基本運算的部分有加減單元和乘法器。詳見參考文獻1.優化
所以能夠直接用HDL語言中的加、減、乘符號實現變量與常量間運算操做以及變量與變量間操做。而四則運算中的除法沒有基本的邏輯計算單元能夠對應,所以計算除法須要調用除法器IP核。ui
2.確認數據的表示範圍spa
有符號數:(補碼)-2^(N-1) ~ 2^(N-1)-1 如N = 8,則表示範圍是:-128 ~ 127.設計
無符號數:0~2^N-1 如N = 8,則表示範圍是:0~255.code
定點數:2Q13 範圍是:-4~4-2^(-13) 精度是:2^(-13)htm
3.結果有效位寬
首先討論結果位寬問題。在FPGA中每每採用定點運算替代浮點運算來下降硬件資源佔用率和計算延遲,其中的精髓就是精度與資源的權衡。若按照保留計算結果的所有精度,N bit數與Mbit數相加結果須要N+1bit(N>M)。N bit數與M bit數相乘之積須要N+M bit。而減法能夠轉化爲加法,除法則轉換爲乘法和加減法的組合。若是操做數是定點小數,則在知足以上準則的前提下,A與B相加(A小數點位數>B小數點位數),結果小數點位數與A相同;A與B相乘(小數點位數分別爲p和q),結果小數點位數是p+q。
4.定點運算步驟
然而(話鋒一轉),在大多數場合下,不須要以上這麼多位來保留計算結果,由於咱們在進行數學運算時,已經知道輸入數據的大體範圍,一個數除以1000和除以1結果數據所需最小位寬能同樣麼?加減運算的操做步驟是先對齊小數點位數,後加減。而乘法是先計算後取小數點。這實際上與十進制運算一致,咱們看看具體的計算步驟:
整數之間加減以及乘法的統一步驟:預估結果位寬N --> 按照結果位寬擴展操做數符號位以防止溢出 --> 運算取低N位。
定點小數加減運算步驟:預估結果位寬N --> 獲得結果小數點後位數 --> 對齊操做數整數位和小數位,肯定擴展位寬M(M≥N) --> 加減運算取低M位。
定點小數乘法運算步驟:預估結果位寬N --> 獲得結果小數點後位數 --> 擴展操做數位寬 --> 相乘取低N位
5. 變量與常量運算化簡
以上討論的均是兩變量之間的運算規則,固然結果位寬及格式準則是適用的。變量與常量的運算的優點在於,能夠將乘除法轉換成加減以及移位運算實現,從而下降計算複雜度和延遲。當常數項C爲2的整數次冪(C = 2^p),則乘C等於變量左移p位,除以C等於變量右移p位。幾個在書中看到的幾個簡單示例:A*16 = A <<4 A*20 = A<<4 + A<<2. A除以2 = A >>1 A除以3 = A*(0.25+0.0625+0.0156) = A>>2+A>>4+A>>6 A除以5 = A*(0.125+0.0625+0.0156) = A>>3 + A>>4 + A>>6.其中乘法徹底等價對應的移位相加操做,而除法的移位代替會損失精度。
3、如何計算特殊函數
FPGA內部的DSP Slice能夠直接進行最基本的加法和乘法運算,可是對於其餘好比對數、指數、三角函數、開根號等特殊函數就無能爲力了。這時須要藉助算法對這些特殊函數進行變換和簡化。FPGA實現複雜函數的經常使用手段一個是級數展開,再一個就是CORDIC算法。關於CORDIC的理論知識和具體內容詳見參考文獻2,這裏主要闡述CORDIC的IP核調用以及應用示例。CORDIC算法就是經過必定的手段,將不少複雜的特殊函數變爲相加移位運算,這一點對於硬件芯片實現來講很是友好。CORDIC分爲旋轉模式和矢量模式,配合圓周座標、線性座標和雙曲線座標會有六種組合,具體見下表:
從表中發現,基本的乘除法、三角函數、反三角函數、雙曲函數、反雙曲函數、開根號都可以直接求得,那其餘函數怎麼辦?
常見的函數計算需求基本都能知足,雖上述變換式對自變量定義域有限制,但一樣能夠分析輸入數據的取值範圍並利用簡單的數學變換獲得想要的結果。Xilinx同時提供了浮點IP核以及CORDIC IP核,前者調用簡單但佔用資源大,延遲高,所以利用CORDIC算法計算函數是個較好的選擇。
4、CORDIC計算e^x Demo
1. 算法仿真分析
要計算e^x數值須要讓CORDIC工做在雙曲座標的旋轉模式下,經過e^x = sinhx+coshx關係式間接求得。首先看下sinh和cosh函數的曲線,有個直觀認識。
咱們用MATLAB絕不費力地驗證一下公式正確性:
在設計後也一樣要藉助MATLAB進行仿真驗證。
2. CORDIC IP核
如今經過查看user guide得知CORDIC IP核的接口及主要特性。
接口包括輸入笛卡爾數據輸入通道、相位輸入通道、全局信號以及數據輸出通道。該IP核有兩種結構:串行和並行,可根據數據吞吐量需求選擇,並行結構能夠每一個時鐘輸出一個計算結果。若是計算sinh和cosh,要向phase通道輸入相位信息,X_OUT是cosh(phase),Y_OUT是sinh(phase).輸入phase必須知足數據範圍,不然出現不可預計結果。輸出幀結構及數據範圍以下:
其中輸入數據格式爲2QN,輸出則是1QN。因爲均是有符號數,也就是輸入整數部分3bit,輸出整數部分2bit。接下來對IP核進行配置,重點是第一頁,此處將其配置爲計算sinh和cosh模式,採用並行優化的流水線結構。相位以角度爲單位,輸入輸出位寬設置成16bit。
3.HDL代碼設計及仿真驗證
設計代碼:
1 `timescale 1ns / 1ps 2 3 module cordic_ex#(parameter DIN_W = 16, 4 DOUT_W = 16) 5 ( 6 input clk, 7 input [DIN_W-1:0] din,//2Q13 8 input din_vld, 9 10 output reg [DOUT_W+1-1:0] dout = 0,//2Q14 11 output reg dout_vld = 0 12 ); 13 14 15 wire [DOUT_W*2-1 : 0] m_axis_dout_tdata; 16 wire m_axis_dout_tvalid; 17 wire signed [DOUT_W-1:0] sinh,cosh; 18 19 // ex = sinhx + coshx <1Q14+1Q14 = 2Q14> 20 always @(posedge clk)begin 21 dout <= sinh + cosh; 22 end 23 24 assign sinh = m_axis_dout_tdata[DOUT_W*2-1 -:DOUT_W]; 25 assign cosh = m_axis_dout_tdata[DOUT_W-1 -:DOUT_W]; 26 27 always @(posedge clk)begin 28 if(m_axis_dout_tvalid)begin 29 dout_vld <= 1'b1; 30 end 31 else 32 dout_vld <= 0; 33 end 34 35 cordic_0 cordic_cosh_sinh ( 36 .aclk(clk), // input wire aclk 37 .s_axis_phase_tvalid(din_vld), // input wire s_axis_phase_tvalid 38 .s_axis_phase_tdata(din), // input wire [15 : 0] s_axis_phase_tdata 39 .m_axis_dout_tvalid(m_axis_dout_tvalid), // output wire m_axis_dout_tvalid 40 .m_axis_dout_tdata(m_axis_dout_tdata) // output wire [31 : 0] m_axis_dout_tdata 41 ); 42 43 endmodule
用MATLAB產生兩組數據,並將角度值定點化後做爲設計模塊數據激勵:
testbench:
1 `timescale 1ns / 1ps 2 3 module cordic_ex_tb(); 4 5 parameter CYC = 20; 6 7 reg clk; 8 reg [16-1:0] din; 9 reg din_vld; 10 11 wire signed [17-1:0] dout; 12 wire dout_vld; 13 14 cordic_ex#(.DIN_W(16), 15 .DOUT_W(16)) 16 uut( 17 .clk (clk) , 18 .din (din) ,//2Q13 19 .din_vld (din_vld) , 20 .dout (dout) ,//2Q14 21 .dout_vld (dout_vld) 22 ); 23 24 initial begin 25 clk = 1; 26 forever #(CYC/2) clk = ~clk; 27 end 28 29 initial begin 30 #1; 31 din = 0; 32 din_vld = 0; 33 #(CYC*10); 34 35 din_vld = 1; 36 din = 16'b0001010000011011;//pi * 1/5 37 #(CYC*1); 38 din = 16'b1110011011011110;//-pi * 1/4 39 #5; 40 $stop; 41 end 42 43 endmodule
仿真結果:
仿真波形代表,計算結果與MATLAB浮點運算相近,知足通常計算需求。若想提升精度,能夠增長CORDIC輸出數據位寬。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
參考文獻:
1 ug479 7 Series DSP48E1 Slice User Guide.
2 Xilinx CORDIC算法(很是經典)_圖文_百度文庫 https://wenku.baidu.com/view/6c623aa8910ef12d2bf9e732.html