C++將整型數據轉換成大端或小端存儲順序

時間 2019-11-12

標籤 c++ 整型數據轉換大端存儲順序欄目 C&C++ 简体版

原文原文鏈接

大端和小端的概念參考以前博客：大端/小端，高字節/低字節，高地址/低地址，移位運算html

昨晚幫導師從指令中恢復圖像的時候，導師要我轉換成raw格式，也就是記錄圖像像素的二進制序列，而後反覆強調讓我注意大端小端。當時我也沒在乎，用ofstream的write方法一個個地寫進去，發現有部分數據存儲順序和其餘的不一致。因爲時間要緊，我馬上試了下FILE*而後用"wb"模式打開文件來寫，恰好要求的也是小端（由於個人win7系統就是小端存儲），結果對了當時也就沒管爲何以前C++的ofstream只有部分正確了。linux

查看了官方文檔 http://www.cplusplus.com/reference/fstream/ofstream/open/ios

open的第二個參數是打開模式的選項，其中有一個是ios_base::binary，表明二進制讀寫，我沒有加上這個選項因此纔會在寫入二進制文件時出現問題。設置這個選項在寫入二進制文件的時候就會和系統存儲順序同樣了。編程

    ofstream fout;
    fout.open("image2.raw", ios_base::binary);

想起我以前也踩過fopen的坑，linux下不區分文本文件和二進制文件，因此"r"和"w"通用，可是windows下區分這二者，因而要用"rb"和"wb"。而C++爲了便於跨平臺，爲了這種區分文本和二進制的系統加上了binary打開方式。windows

提及來這裏我用的ios_base::binary是沒問題的，可是官網ofstream::write()函數的示例代碼用的是ofstream::binary，看了眼微軟的實現，ofstream直接繼承的ios_base的binary字段，因此二者是等價的。考慮設計者在設計的時候可能會認爲繼承自ios_base的類會作些修改吧，這裏用ofstream::binary更爲穩當。網絡

再回到大端小端的問題，若是是要跨平臺地按照小端順序寫入文件是怎樣呢？由於可能你在小端機器上寫入的，在大端機器上讀取的就會是錯誤的數值。函數

網絡編程中處理這個的手段是用htonl和htons庫函數，經過隱藏底層細節的轉換函數，把多字節整型統一按照網絡字節序（大端）來存儲。可是有時候仍然須要使用小端來存儲，因此仍是要會手寫轉換函數，這裏以小端爲例。post

好比對4字節整型：0x11223344，轉換成小端是：0x44 0x33 0x22 0x11。測試

0x44 = 0x11223344 & 0xFFui

0x33 = (0x11223344 & 0xFF00) >> 8

0x22 = (0x11223344 & 0xFF0000) >> 16

0x11 = (0x11223344 & 0xFF000000) >> 24

另外，能夠發現0xFF00即0xFF<<8，所以，能夠很天然地用一個循環實現這個邏輯。

對於2字節和8字節的整型也是相似，因此能夠用一個簡單的函數模板來實現。

#include <stdint.h>

template <typename T> // T must be integer type
T to_little_endian(T x)
{
    size_t n = sizeof(T) / sizeof(uint8_t); // 2,4,8

    T res;
    uint8_t* p = (uint8_t*) &res;
    
    for (size_t i = 0; i < n; i++)
    {
        int offset = 8 * i;
        p[i] = (x & (0xFF << offset)) >> offset;
    }

    return res;
}

看似這個實現沒什麼問題，來寫份測試代碼看看

    uint16_t i1 = 0x1122;
    uint32_t i2 = 0x11223344;
    uint64_t i3 = 0x1122334455667788;
    printf("%04x => %04x\n", i1, to_little_endian(i1));
    printf("%08x => %08x\n", i2, to_little_endian(i2));
    printf("%016lx => %016lx\n", i3, to_little_endian(i3));

結果以下，8字節整型轉換出錯

1122 => 1122
11223344 => 11223344
1122334455667788 => 1100000055667788

調試發現緣由是0xFF，這個整型字面值的默認類型是int，對於類型uint64_t（unsigned long long），int向左移位會形成溢出。因此須要顯式地把0xFF轉換爲uint64_t類型。對於這個函數模板而言，0xFF << offset表示的是x將低位所有置爲0，並捨棄高位，因此結果是不大於x的，那麼這裏0xFF只用轉換成T便可。

修改後的代碼：

template <typename T> // T must be integer type
T to_little_endian(T x)
{
    size_t n = sizeof(T) / sizeof(uint8_t); // 2,4,8

    T res;
    uint8_t* p = (uint8_t*) &res;
    T mask = static_cast<T>(0xFF);
    
    for (size_t i = 0; i < n; i++)
    {
        int offset = 8 * i;
        p[i] = (x & (mask << offset)) >> offset;
    }

    return res;
}