詳解大端模式和小端模式

1、大端模式和小端模式的起源

        關於大端小端名詞的由來,有一個有趣的故事,來自於Jonathan Swift的《格利佛遊記》:Lilliput和Blefuscu這兩個強國在過去的36個月中一直在苦戰。戰爭的緣由:你們都知道,吃雞蛋的時候,原始的方法是打破雞蛋較大的一端,能夠那時的皇帝的祖父因爲小時侯吃雞蛋,按這種方法把手指弄破了,所以他的父親,就下令,命令全部的子民吃雞蛋的時候,必須先打破雞蛋較小的一端,違令者重罰。而後老百姓對此法令極爲反感,期間發生了屢次叛亂,其中一個皇帝所以送命,另外一個丟了王位,產生叛亂的緣由就是另外一個國家Blefuscu的國王大臣煽動起來的,叛亂平息後,就逃到這個帝國避難。據估計,前後幾回有11000餘人情願死也不願去打破雞蛋較小的端吃雞蛋。這個其實諷刺當時英國和法國之間持續的衝突。Danny Cohen一位網絡協議的開創者,第一次使用這兩個術語指代字節順序,後來就被你們普遍接受。
 
編程

2、什麼是大端和小端

        Big-Endian和Little-Endian的定義以下:
1) Little-Endian就是低位字節排放在內存的低地址端,高位字節排放在內存的高地址端。
2) Big-Endian就是高位字節排放在內存的低地址端,低位字節排放在內存的高地址端。
舉一個例子,好比數字0x12 34 56 78在內存中的表示形式爲:
數組

1)大端模式:網絡

低地址 -----------------> 高地址
0x12  |  0x34  |  0x56  |  0x78
函數

2)小端模式:測試

低地址 ------------------> 高地址
0x78  |  0x56  |  0x34  |  0x12
優化

可見,大端模式和字符串的存儲模式相似。ui

3)下面是兩個具體例子:編碼

 

16bit寬的數0x1234在Little-endian模式(以及Big-endian模式)CPU內存中的存放方式(假設從地址0x4000開始存放)爲:
 

 

內存地址 小端模式存放內容 大端模式存放內容
0x4000 0x34 0x12
0x4001 0x12 0x34

32bit寬的數0x12345678在Little-endian模式以及Big-endian模式)CPU內存中的存放方式(假設從地址0x4000開始存放)爲:spa

內存地址 小端模式存放內容 大端模式存放內容
0x4000 0x78 0x12
0x4001 0x56 0x34
0x4002 0x34 0x56
0x4003 0x12 0x78
 

 4)大端小端沒有誰優誰劣,各自優點即是對方劣勢:操作系統

小端模式 :強制轉換數據不須要調整字節內容,一、二、4字節的存儲方式同樣。
大端模式 :符號位的斷定固定爲第一個字節,容易判斷正負。

 

3、數組在大端小端狀況下的存儲:

  以unsigned int value = 0x12345678爲例,分別看看在兩種字節序下其存儲狀況,咱們能夠用unsigned char buf[4]來表示value:
  Big-Endian: 低地址存放高位,以下:
高地址
        ---------------
        buf[3] (0x78) -- 低位
        buf[2] (0x56)
        buf[1] (0x34)
        buf[0] (0x12) -- 高位
        ---------------
        低地址
Little-Endian: 低地址存放低位,以下:
高地址
        ---------------
        buf[3] (0x12) -- 高位
        buf[2] (0x34)
        buf[1] (0x56)
        buf[0] (0x78) -- 低位
        --------------
低地址

 

 

4、爲何會有大小端模式之分呢?

      這是由於在計算機系統中,咱們是以字節爲單位的,每一個地址單元都對應着一個字節,一個字節爲8bit。可是在C語言中除了8bit的char以外,還有16bit的short型,32bit的long型(要看具體的編譯器),另外,對於位數大於8位的處理器,例如16位或者32位的處理器,因爲寄存器寬度大於一個字節,那麼必然存在着一個若是將多個字節安排的問題。所以就致使了大端存儲模式和小端存儲模式。例如一個16bit的short型x,在內存中的地址爲0x0010,x的值爲0x1122,那麼0x11爲高字節,0x22爲低字節。對於大端模式,就將0x11放在低地址中,即0x0010中,0x22放在高地址中,即0x0011中。小端模式,恰好相反。咱們經常使用的X86結構是小端模式,而KEIL C51則爲大端模式。不少的ARM,DSP都爲小端模式。有些ARM處理器還能夠由硬件來選擇是大端模式仍是小端模式。

 

5、如何判斷機器的字節序

能夠編寫一個小的測試程序來判斷機器的字節序:

[cpp]  view plain copy
 
  1. BOOL IsBigEndian()  
  2. {  
  3.     int a = 0x1234;  
  4.     char b =  *(char *)&a;  //經過將int強制類型轉換成char單字節,經過判斷起始存儲位置。即等於 取b等於a的低地址部分  
  5.     if( b == 0x12)  
  6.     {  
  7.         return TRUE;  
  8.     }  
  9.     return FALSE;  
  10. }<span style="font-family: Arial, Verdana, sans-serif; white-space: normal; background-color: rgb(255, 255, 255); "> </span>  

聯合體union的存放順序是全部成員都從低地址開始存放,利用該特性能夠輕鬆地得到了CPU對內存採用Little-endian仍是Big-endian模式讀寫:

[cpp]  view plain copy
 
  1. BOOL IsBigEndian()  
  2. {  
  3.     union NUM  
  4.     {  
  5.         int a;  
  6.         char b;  
  7.     }num;  
  8.     num.a = 0x1234;  
  9.     if( num.b == 0x12 )  
  10.     {  
  11.         return TRUE;  
  12.     }  
  13.     return FALSE;  
  14. }<span style="font-family: Arial, Verdana, sans-serif; white-space: normal; background-color: rgb(255, 255, 255); "> </span>  

6、常見的字節序

通常操做系統都是小端,而通信協議是大端的。

4.1 常見CPU的字節序

Big Endian : PowerPC、IBM、Sun
Little Endian : x8六、DEC
ARM既能夠工做在大端模式,也能夠工做在小端模式。
 

4.2 常見文件的字節序

Adobe PS – Big Endian
BMP – Little Endian
DXF(AutoCAD) – Variable
GIF – Little Endian
JPEG – Big Endian
MacPaint – Big Endian
RTF – Little Endian
 
另外,Java和全部的網絡通信協議都是使用Big-Endian的編碼。
 

7、如何進行轉換

對於字數據(16位):

[cpp]  view plain copy
 
  1. #define BigtoLittle16(A)   (( ((uint16)(A) & 0xff00) >> 8)    | \  
  2.                                        (( (uint16)(A) & 0x00ff) << 8))  

對於雙字數據(32位):

 

[cpp]  view plain copy
 
  1. #define BigtoLittle32(A)   ((( (uint32)(A) & 0xff000000) >> 24) | \  
  2.                                        (( (uint32)(A) & 0x00ff0000) >> 8)   | \  
  3.                                        (( (uint32)(A) & 0x0000ff00) << 8)   | \  
  4.                                        (( (uint32)(A) & 0x000000ff) << 24))  

 

8、從軟件的角度理解端模式

        從軟件的角度上,不一樣端模式的處理器進行數據傳遞時必需要考慮端模式的不一樣。如進行網絡數據傳遞時,必需要考慮端模式的轉換。在Socket接口編程中,如下幾個函數用於大小端字節序的轉換。

[cpp]  view plain copy
 
  1. #define ntohs(n)     //16位數據類型網絡字節順序到主機字節順序的轉換  
  2. #define htons(n)     //16位數據類型主機字節順序到網絡字節順序的轉換  
  3. #define ntohl(n)      //32位數據類型網絡字節順序到主機字節順序的轉換  
  4. #define htonl(n)      //32位數據類型主機字節順序到網絡字節順序的轉換  


其中互聯網使用的網絡字節順序採用大端模式進行編址,而主機字節順序根據處理器的不一樣而不一樣,如PowerPC處理器使用大端模式,而Pentuim處理器使用小端模式。
       大端模式處理器的字節序到網絡字節序不須要轉換,此時ntohs(n)=n,ntohl = n;而小端模式處理器的字節序到網絡字節必需要進行轉換,此時ntohs(n) = __swab16(n),ntohl = __swab32(n)。__swab16與__swab32函數定義以下所示。

[cpp]  view plain copy
 
  1. #define ___swab16(x)  
  2. {  
  3.             __u16 __x = (x);  
  4.             ((__u16)(  
  5.                         (((__u16)(__x) & (__u16)0x00ffU) << 8) |  
  6.                         (((__u16)(__x) & (__u16)0xff00U) >> 8) ));  
  7. }  
  8.   
  9.   
  10. #define ___swab32(x)  
  11. {  
  12.             __u32 __x = (x);  
  13.             ((__u32)(  
  14.                         (((__u32)(__x) & (__u32)0x000000ffUL) << 24) |  
  15.                         (((__u32)(__x) & (__u32)0x0000ff00UL) << 8) |  
  16.                         (((__u32)(__x) & (__u32)0x00ff0000UL) >> 8) |  
  17.                         (((__u32)(__x) & (__u32)0xff000000UL) >> 24) ));  
  18. }  


        PowerPC處理器提供了lwbrx,lhbrx,stwbrx,sthbrx四條指令用於處理字節序的轉換以優化__swab16和__swap32這類函數。此外PowerPC處理器中的rlwimi指令也能夠用來實現__swab16和__swap32這類函數。

       在對普通文件進行處理也須要考慮端模式問題。在大端模式的處理器下對文件的32,16位讀寫操做所獲得的結果與小端模式的處理器不一樣。單純從軟件的角度理解上遠遠不能真正理解大小端模式的區別。事實上,真正的理解大小端模式的區別,必需要從系統的角度,從指令集,寄存器和數據總線上深刻理解,大小端模式的區別。

 

9、從系統的角度理解端模式

先補充兩個關鍵詞,MSB和LSB:
  MSB:MoST Significant Bit ------- 最高有效位
        LSB:Least Significant Bit ------- 最低有效位
 

        處理器在硬件上因爲端模式問題在設計中有所不一樣。從系統的角度上看,端模式問題對軟件和硬件的設計帶來了不一樣的影響,當一個處理器系統中大小端模式同時存在時,必需要對這些不一樣端模式的訪問進行特殊的處理。
       PowerPC處理器主導網絡市場,能夠說絕大多數的通訊設備都使用PowerPC處理器進行協議處理和其餘控制信息的處理,這也可能也是在網絡上的絕大多數協議都採用大端編址方式的緣由。所以在有關網絡協議的軟件設計中,使用小端方式的處理器須要在軟件中處理端模式的轉變。而Pentium主導我的機市場,所以多數用於我的機的外設都採用小端模式,包括一些在網絡設備中使用的PCI總線,Flash等設備,這也要求在硬件設計中注意端模式的轉換。
       本文提到的小端外設是指這種外設中的寄存器以小端方式進行存儲,如PCI設備的配置空間,NOR FLASH中的寄存器等等。對於有些設備,如DDR顆粒,沒有以小端方式存儲的寄存器,所以從邏輯上講並不須要對端模式進行轉換。在設計中,只須要將雙方數據總線進行一一對應的互連,而不須要進行數據總線的轉換。
       若是從實際應用的角度說,採用小端模式的處理器須要在軟件中處理端模式的轉換,由於採用小端模式的處理器在與小端外設互連時,不須要任何轉換。而採用大端模式的處理器須要在硬件設計時處理端模式的轉換。大端模式處理器須要在寄存器,指令集,數據總線及數據總線與小端外設的鏈接等等多個方面進行處理,以解決與小端外設鏈接時的端模式轉換問題。在寄存器和數據總線的位序定義上,基於大小端模式的處理器有所不一樣。
       一個採用大端模式的32位處理器,如基於E500內核的MPC8541,將其寄存器的最高位msb(most significant bit)定義爲0,最低位lsb(lease significant bit)定義爲31;而小端模式的32位處理器,將其寄存器的最高位定義爲31,低位地址定義爲0。與此向對應,採用大端模式的32位處理器數據總線的最高位爲0,最高位爲31;採用小端模式的32位處理器的數據總線的最高位爲31,最低位爲0。         
       大小端模式處理器外部總線的位序也遵循着一樣的規律,根據所採用的數據總線是32位,16位和8位,大小端處理器外部總線的位序有所不一樣。大端模式下32位數據總線的msb是第0位,MSB是數據總線的第0~7的字段;而lsb是第31位,LSB是第24~31字段。小端模式下32位總線的msb是第31位,MSB是數據總線的第31~24位,lsb是第0位,LSB是7~0字段。大端模式下16位數據總線的msb是第0位,MSB是數據總線的第0~7的字段;而lsb是第15位,LSB是第8~15字段。小端模式下16位總線的msb是第15位,MSB是數據總線的第15~7位,lsb是第0位,LSB是7~0字段。大端模式下8位數據總線的msb是第0位,MSB是數據總線的第0~7的字段;而lsb是第7位,LSB是第0~7字段。小端模式下8位總線的msb是第7位,MSB是數據總線的第7~0位,lsb是第0位,LSB是7~0字段。
         由上分析,咱們能夠得知對於8位,16位和32位寬度的數據總線,採用大端模式時數據總線的msb和MSB的位置都不會發生變化,而採用小端模式時數據總線的lsb和LSB位置也不會發生變化。
         爲此,大端模式的處理器對8位,16位和32位的內存訪問(包括外設的訪問)通常都包含第0~7字段,即MSB。小端模式的處理器對8位,16位和32位的內存訪問都包含第7~0位,小端方式的第7~0字段,即LSB。因爲大小端處理器的數據總線其8位,16位和32位寬度的數據總線的定義不一樣,所以須要分別進行討論在系統級別上如何處理端模式轉換。在一個大端處理器系統中,須要處理大端處理器對小端外設的訪問。

 

10、實際中的例子

       雖然不少時候,字節序的工做已由編譯器完成了,可是在一些小的細節上,仍然須要去仔細揣摩考慮,尤爲是在以太網通信、MODBUS通信、軟件移植性方面。這裏,舉一個MODBUS通信的例子。在MODBUS中,數據須要組織成數據報文,該報文中的數據都是大端模式,即低地址存高位,高地址存低位。假設有一16位緩衝區m_RegMW[256],由於是在x86平臺上,因此內存中的數據爲小端模式:m_RegMW[0].low、m_RegMW[0].high、m_RegMW[1].low、m_RegMW[1].high……
爲了方便討論,假設m_RegMW[0] = 0x3456; 在內存中爲0x5六、0x34。
       現要將該數據發出,若是不進行數據轉換直接發送,此時發送的數據爲0x56,0x34。而Modbus是大端的,會將該數據解釋爲0x5634而非原數據0x3456,此時就會發生災難性的錯誤。
因此,在此以前,須要將小端數據轉換成大端的,即進行高字節和低字節的交換,此時能夠調用步驟五中的函數BigtoLittle16(m_RegMW[0]),以後再進行發送才能夠獲得正確的數據。

相關文章
相關標籤/搜索