大端小端(Big- Endian和Little-Endian)

字節序(Endian),大端(Big-Endian),小端(Little-Endian) 圖文並茂html

http://www.cppblog.com/tx7do/archive/2009/01/06/71276.html編程

 

在各類計算機體系結構中,對於字節、字等的存儲機制有所不一樣,於是引起了計算機通訊領 域中一個很重要的問題,即通訊雙方交流的信息單元(比特、字節、字、雙字等等)應該以什麼樣的順序進行傳送。若是不達成一致的規則,通訊雙方將沒法進行正 確的編/譯碼從而致使通訊失敗。目前在各類體系的計算機中一般採用的字節存儲機制主要有兩種:Big-Endian和Little-Endian,下面先 從字節序提及。數組

 

1、什麼是字節序網絡

字節序,顧名思義字節的順序,再多說兩句就是大於一個字節類型的數據在內存中的存放順序(一個字節的數據固然就無需談順序的問題了)其實大部分人在實際的開 發中都不多會直接和字節序打交道。惟有在跨平臺以及網絡程序中字節序纔是一個應該被考慮的問題。函數

在全部的介紹字節序的文章中都會提到字 節序分爲兩類:Big-Endian和Little-Endian,引用標準的Big-Endian和Little-Endian的定義以下:
a) Little-Endian就是低位字節排放在內存的低地址端,高位字節排放在內存的高地址端
b) Big-Endian就是高位字節排放在內存的低地址端,低位字節排放在內存的高地址端
c) 網絡字節序:TCP/IP各層協議將字節序定義爲Big-Endian,所以TCP/IP協議中使用的字節序一般稱之爲網絡字節序。
佈局

1.1 什麼是高/低地址端post

首先咱們要知道咱們C程序映像中內存的空間佈局狀況:在《C專 家編程》中或者《Unix環境高級編程》中有關於內存空間佈局狀況的說明,大體以下圖:
----------------------- 最高內存地址 0xffffffff
棧底

棧頂

-----------------------
ui

NULL (空洞)
-----------------------

-----------------------
未初始 化的數據
----------------------- 統稱數據段
初始化的數據
-----------------------
正 文段(代碼段)
----------------------- 最低內存地址 0x00000000
編碼

以上圖爲例若是咱們在棧 上分配一個unsigned char buf[4],那麼這個數組變量在棧上是如何佈局的呢?看下圖:
棧底 (高地址)
----------
buf[3]
buf[2]
buf[1]
buf[0]

----------
棧頂 (低地址)
spa

1.2 什麼是高/低字節

如今咱們弄清了高/低地址,接着考慮高/低字節。有些文章中稱低位字節爲最低有效位,高位字節爲最高有效位。若是咱們有一個32位無符號整型0x12345678,那麼高位是什麼,低位又是什麼呢? 其實很簡單。在十進制中咱們都說靠左邊的是高位,靠右邊的是低位,在其餘進制也是如此。就拿 0x12345678來講,從高位到低位的字節依次是0x十二、0x3四、0x56和0x78
高/低地址端和高/低字節都弄清了。咱們再來回顧 一下Big-Endian和Little-Endian的定義,並用圖示說明兩種字節序:
以unsigned int value = 0x12345678爲例,分別看看在兩種字節序下其存儲狀況,咱們能夠用unsigned char buf[4]來表示value:

Big-Endian: 低地址存放高位,以下圖:
棧底 (高地址)
---------------
buf[3] (0x78) -- 低位
buf[2] (0x56)
buf[1] (0x34)
buf[0] (0x12) -- 高位
---------------
棧頂 (低地址)

Little-Endian: 低地址存放低位,以下圖:
棧底 (高地址)
---------------
buf[3] (0x12) -- 高位
buf[2] (0x34)
buf[1] (0x56)
buf[0] (0x78) -- 低位
--------------
棧 頂 (低地址)

 

2、各類Endian

2.1 Big-Endian

計算機體系結構中一種描述多字節存儲順序的術語,在這種機制中最重要字節(MSB)存放在最低端的地址 上。採用這種機制的處理器有IBM3700系列、PDP-十、Mortolora微處理器系列和絕大多數的RISC處理器。
+----------+
| 0x34 |<-- 0x00000021
+----------+
| 0x12 |<-- 0x00000020
+----------+
圖 1:雙字節數0x1234以Big-Endian的方式存在起始地址0x00000020中

 在Big-Endian中,對於bit序列 中的序號編排方式以下(以雙字節數0x8B8A爲例):
bit 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
+-----------------------------------------+
val | 1 0 0 0 1 0 1 1 | 1 0 0 0 1 0 1 0 |
+----------------------------------------+
圖 2:Big-Endian的bit序列編碼方式

2.2 Little-Endian

計算機體系結構中 一種描述多字節存儲順序的術語,在這種機制中最不重要字節(LSB)存放在最低端的地址上。採用這種機制的處理器有PDP-十一、VAX、Intel系列 微處理器和一些網絡通訊設備。該術語除了描述多字節存儲順序外還經常用來描述一個字節中各個比特的排放次序。

+----------+
| 0x12 |<-- 0x00000021
+----------+
| 0x34 |<-- 0x00000020
+----------+

圖3:雙字節數0x1234以Little-Endian的方式存在起始地址0x00000020中

 在 Little-Endian中,對於bit序列中的序號編排和Big-Endian恰好相反,其方式以下(以雙字節數0x8B8A爲例):

bit 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
+-----------------------------------------+
val | 1 0 0 0 1 0 1 1 | 1 0 0 0 1 0 1 0 |
+-----------------------------------------+
圖 4:Little-Endian的bit序列編碼方式

注2:一般咱們說的主機序(Host Order)就是遵循Little-Endian規則。因此當兩臺主機之間要經過TCP/IP協議進行通訊的時候就須要調用相應的函數進行主機序 (Little-Endian)和網絡序(Big-Endian)的轉換

注3:正由於這兩種機制對於同一bit序列的序號編排方式恰 恰相反,因此《現代英漢詞典》中對MSB的翻譯爲「最高有效位」欠妥,故本文定義爲「最重要的bit/byte」。

2.3 Middle-Endian

除了Big-Endian和Little-Endian以外的多字節存儲順序就是Middle- Endian,好比以4個字節爲例:象以3-4-1-2或者2-1-4-3這樣的順序存儲的就是Middle-Endian。這種存儲順序偶爾會在一些小 型機體系中的十進制數的壓縮格式中出現

嵌入式系統開發者應該對Little-endian和Big-endian模式很是瞭解。採用 Little-endian模式的CPU對操做數的存放方式是從低字節到高字節,而Big-endian模式對操做數的存放方式是從高字節到低字節。 32bit寬的數0x12345678在Little-endian模式CPU內存中的存放方式(假設從地址0x4000開始存放)爲:

內存 地址 0x4000 0x4001 0x4002 0x4003
存放內容 0x78 0x56 0x34 0x12

 

而在Big- endian模式CPU內存中的存放方式則爲:

內存地址 0x4000 0x4001 0x4002 0x4003
存放內容 0x12 0x34 0x56 0x78

 

3、Big-EndianLittle-Endian優缺點

Big-Endian優勢:靠首先提取高位字節,你老是能夠由看看在偏移位置爲0的字節來肯定這個數字是 正數仍是負數。你沒必要知道這個數值有多長,或者你也沒必要過一些字節來看這個數值是否含有符號位這個數值是以它們被打印出來的順序存放的,因此從二進制到十進制的函數特別有效。於是,對於不一樣要求的機器,在設計存取方式時就會不一樣。

Little-Endian優勢:提取一個,兩個,四個或者更長字節數據的彙編指令以與其餘全部格式相同的方式進行:首先在偏移地址爲0的地方提取最低位的字節,由於地址偏移和字節數是一對 一的關係,多重精度的數學函數就相對地容易寫了

若是你增長數字的值,你可能在左邊增長數字(高位非指數函數須要更多的數字)。所以, 常常須要增長兩位數字並移動存儲器裏全部Big-endian順序的數字,把全部數向右移,這會增長計算機的工做量。不過,使用Little- Endian的存儲器中不重要的字節能夠存在它原來的位置,新的數能夠存在它的右邊的高位地址裏。這就意味着計算機中的某些計算能夠變得更加簡單和快速。

4、如何檢查處理器是Big-Endian仍是Little-Endian?

因爲聯合體union的存放順序是全部成員都從低地址開始存放,利用該特性就能夠輕鬆地得到了CPU對內存採用Little- endian仍是Big-endian模式讀寫。例如:
int checkCPUendian(){
union {
unsigned int a;
unsigned char b;           
}c;
c.a = 1;
return (c.b == 1);      

}   /*return 1 : little-endian, return 0:big-endian*/

 

5、Big-EndianLittle-Endian轉 換

 

現有的平臺上Intel的X86採用的是Little-Endian,而像 Sun的SPARC採用的就是Big-Endian。那麼在跨平臺或網絡程序中如何實現字節序的轉換呢?這個經過C語言的移位操做很容易實現,例以下面的 宏:

#if defined(BIG_ENDIAN) && !defined(LITTLE_ENDIAN)

#define htons(A)   (A)
#define htonl(A)     (A)
#define ntohs(A)   (A)
#define ntohl(A)    (A)

#elif defined(LITTLE_ENDIAN) && !defined(BIG_ENDIAN)

#define htons(A)     ((((uint16)(A) & 0xff00) >> 8) | \
(((uint16)(A) & 0x00ff) << 8))
#define htonl(A)     ((((uint32)(A) & 0xff000000) >> 24) | \
(((uint32)(A) & 0x00ff0000) >> 8) | \
(((uint32)(A) & 0x0000ff00) << 8) | \
(((uint32)(A) & 0x000000ff) << 24))
#define ntohs htons
#define ntohl htohl

#else

#error "Either BIG_ENDIAN or LITTLE_ENDIAN must be #defined, but not both."

 

 

網絡字節順序
一、字節內的比特位不受這種順序的影響
好比一個字節 1000 0000 (或表示爲十六進制 80H)不論是什麼順序其內存中的表示法都是這樣。

 

二、大於1個字節的數據類型纔有字節順序問題
好比 Byte A,這個變量只有一個字節的長度,因此根據上一條沒有字節順序問題。因此字節順序是「字節之間的相對順序」的意思。


三、大於1個字節的數據類型的字節順序有兩種
好比 short B,這是一個兩字節的數據類型,這時就有字節之間的相對順序問題了。
網絡字節順序是「所見即所得」的順序。而Intel類型的CPU的字節順序與此相反。
好比上面的 short B=0102H(十六進制,每兩位表示一個字節的寬度)。所見到的是「0102」,按通常數學常識,數軸從左到右的方向增長,即內存地址從左到右增長的話,在內存中這個 short B的字節順序是:
01 02
這就是網絡字節順序。所見到的順序和在內存中的順序是一致的!
假設經過抓包獲得網絡數據的兩個字節流爲:01 02

而相反的字節順序就不一樣了,其在內存中的順序爲:02 01

若是這表示兩個 Byte類型的變量,那麼天然不須要考慮字節順序的問題。若是這表示一個 short 變量,那麼就須要考慮字節順序問題。根據網絡字節順序「所見即所得」的規則,這個變量的值就是:0102

假設本地主機是Intel類型的,那麼要表示這個變量,有點麻煩:
定義變量 short X,字節流地址爲:pt,按順序讀取內存是爲x=*((short*)pt);
那麼X的內存順序固然是 01 02按非「所見即所得」的規則,這個內存順序和看到的同樣顯然是不對的,因此要把這兩個字節的位置調換。調換的方法能夠本身定義,但用已經有的API仍是更爲方便。

網絡字節順序與主機字節順序
NBO與HBO 網絡字節順序NBO(Network Byte Order):按從高到低的順序存儲,在網絡上使用統一的網絡字節順序,能夠避免兼容性問題。主機字節順序(HBO,Host Byte Order):不一樣的機器HBO不相同,與CPU設計有關計算機數據存儲有兩種字節優先順序:高位字節優先和低位字節優先Internet上數據以高位字節優先順序在網絡上傳輸,因此對於在內部是以低位字節優先方式存儲數據的機器,在Internet上傳輸數據時就須要進行轉換。

htonl()
簡述:
    將主機的無符號長整形數轉換成網絡字節順序。
    #include <winsock.h>
    u_long PASCAL FAR htonl( u_long hostlong);
    hostlong:主機字節順序表達的32位數。
註釋:
    本函數將一個32位數從主機字節順序轉換成網絡字節順序。
返回值:
    htonl()返回一個網絡字節順序的值。

inet_ntoa()
簡述:
將網絡地址轉換成「.」點隔的字符串格式。
#include <winsock.h>
char FAR* PASCAL FAR inet_ntoa( struct in_addr in);
in:一個表示Internet主機地址的結構。
註釋:
本函數將一個用in參數所表示的Internet地址結構轉換成以「.」 間隔的諸如「a.b.c.d」的字符串形式。請注意inet_ntoa()返回的字符串存放在WINDOWS套接口實現所分配的內存中。應用程序不該假設該內存是如何分配的。在同一個線程的下一個WINDOWS套接口調用前,數據將保證是有效。
返回值:
若無錯誤發生,inet_ntoa()返回一個字符指針。不然的話,返回NULL。其中的數據應在下一個WINDOWS套接口調用前複製出來。

網絡中傳輸的數據有的和本地字節存儲順序一致,而有的則大相徑庭,爲了數據的一致性,就要把本地的數據轉換成網絡上使用的格式,而後發送出去,接收的時候也是同樣的,通過轉換而後纔去使用這些數據,基本的庫函數中提供了這樣的能夠進行字節轉換的函數,如和htons( ) htonl( ) ntohs( ) ntohl( ),這裏n表示network,h表示host,htons( ) htonl( )用於本地字節向網絡字節轉換的場合,s表示short,即對2字節操做,l表示long即對4字節操做。一樣ntohs( )ntohl( )用於網絡字節向本地格式轉換的場合。

 

 

#endif

相關文章
相關標籤/搜索