字符編碼

時間 2019-11-19

原文原文鏈接

這篇文章是我兩年多前寫給同事看的，當時很多同事對編碼瞭解甚少，直到如今發現仍是不少人對編碼瞭解甚少，因此我就把這篇文章發出來讓你們參考一下，但願對一些人有幫助，不過這篇文章是當時花了3個小時左右寫的，錯誤在所不免。

字符編碼歷史linux

計算機，發明在20世紀中期西方國家。計算機內部使用二進制做爲表示任何東西的基礎，爲了可以在計算機中使用整數、浮點數等都要對其進行編碼，只是這個編碼是在硬件層的（CPU指令），而計算機要與人進行交互就要對人所能識別的文字進行編碼，ASCII就在那個時候誕生。

web

ASCII（American Standard Code for Information Interchange，美國信息互換標準代碼）chrome

美國標準編碼，用於編碼英文字母的編碼方式。它用了0-127的數字之間來表示a-z等可見字符和一些控制字符，而這個字符集的編碼就肯定了ASCII字符集，而這個字符集要想要在計算機的二進制方式下使用就必須用計算機可以理解的方式來處理，ASCII使用了一個計算機字節來表示這種編碼方式，在C/C++語言中一個字節一般咱們使用char來表示。

windows

GBK瀏覽器

GBK，你們都知道，漢字內碼擴展規範。GBK是怎麼來的呢？GBK由GB2312擴展來的，GB2312是最先的中文編碼方式。GB2312又是怎麼來的呢？ide

計算機發展到80年代在中國開始慢慢的興起。爲了可以讓中國人可以更好的使用計算機，天然要引入中文編碼到計算機中。可是引入中文編碼遇到了一個問題，就是ASCII使用一個字節（char）來編碼字符，可是中國的漢字是確定不可以在一個字節中表示徹底，怎麼辦？聰明的中國人發現一個字節（char）可表示的最大區間是0-255，而ASCII只使用了0-127,128-255並無使用，那麼咱們就能夠用多個字節來表示中文編碼，好比：字體

一個字節（char）的值是在0-127之間，咱們就仍是用這個字節來表示ASCII裏面的字符，也就是說兼容ASCII。編碼

一個字節（char）的值是在128-255之間（此處假設是130），則說明它不是在ASCII字符集裏面的，那它表示什麼字符呢？此種狀況下，則要在讀取下一個字節（char）的值（此處假設是10），那麼就將兩個字節的值：130和10按照某種計算規則來計算等到一個值，此處計算獲得3290，那麼這個值能夠在一個字符編碼表中去查，它可能獲得某個漢字，此處假設爲‘字’字，而後就能夠在屏幕上顯示出來了。spa

（此處的計算都是假設，我沒有詳細查，之後有時間再更正，理解原理便可。也能夠查看維基百科瞭解詳細。）

操作系統

GBK中有哪些字符？

GBK是微軟利用GB2312未使用的編碼空間，收入GB13000.1的所有字符制定而來。GBK是用來編碼中文漢字的，而且兼容ASCII字符集。GBK中是否是隻有簡體中文呢？

由於簡體漢字和繁體漢字有很大一部分是相同，把常見的幾千個繁體中文裏面的漢字編碼進來也不會多多少，所以，GBK裏面也是有繁體中文漢字的。

除此以外還有什麼，由於如今簡體和繁體的常見字都編碼了，那日文裏面的大多數文字也都在其中，只須要將日文的平假名和片假名（也就幾十個字符）編碼進來。

所以，GBK裏面是有常見的簡體中文、繁體中文、日文等字符在一塊兒的字符集。

Big5等編碼

中國人發明了多字節編碼的方式，可是隻能編碼中國漢字（包括簡繁和日文）。其餘國家和中國臺灣想要編碼文字天然就會採用類似的方式來編碼，Big5等編碼方式就產生了，它們一樣按照某種計算方式計算出值，此處假設仍是3290，可是他們的編碼表和GBK不同，因此他們表明的文字就不在是‘字’了。

Windows ANSI編碼

GBK、Big5等編碼就是ANSI編碼，也叫本地碼。ANSI編碼就是本地碼的統稱，就是在什麼國家或地區就是什麼編碼。好比在中國的大陸地區就是GBK，在中國臺灣就是Big5。

亂碼

亂碼，很常見也很煩的一個Bug，編碼Bug。

假設咱們在簡體中文的機器上，那麼本地碼是GBK，咱們用它編碼了一些文字保存在txt文件裏面，而後把它拷貝到繁體中文的機器上，此處的本地碼是Big5，而後打開這個文件，假設咱們使用記事本打開，它打開文件使用的默認編碼就是本地碼，即Big5，按照Big5的方式計算值，並依次查字符編碼表，而後顯示出來。亂碼來了，原本在GBK中編碼的有意義的字句，在Big5下計算查表出來獲得的是一些文字字符，而這些文字字符鏈接在一塊兒沒有任何意思，所以亂碼。

亂碼和字體

亂碼是編碼引發的，而在文字顯示中是要去字體中查詢到某個字符的形狀，而後顯示，有可能出現字體裏面沒有這個文字，那麼就會用一個默認的字符顯示，此時給人的感受也像亂碼，一般表現出不少個字符都是一個樣子（好比一個白框），可是它不是亂碼，只是字體中沒有文字的信息，換個字體就能顯示。

UNICODE

隨着互聯網的發展，各個國家基本上都有本身的本地編碼ANSI編碼。爲此，系統要支持多過的本地編碼，怎麼辦？引入代碼頁code page，根據代碼頁號去查相應的字符集，GBK的代碼頁就是CP936（有細微差異，詳細能夠查看維基百科）。

可是代碼頁仍是不能將不一樣字符集中的字符在同一系統中顯示，好比：漢字和阿拉伯文不能同時顯示。UNICODE誕生了。

UNICODE就是要將全部的字符所有編碼在一個字符集裏面，好比1-10000編碼簡體中文，10001-20000編碼繁體中文，依次類推，這樣就構成了UNICODE字符集。可是UNICODE字符集並沒說要怎麼編碼，只是說某個數字表明某個字符，即之規定了數字到字符的的字典，可是沒有規定在計算機中怎麼編碼。

UCS(Universal Character Set)/UTF(Unicode transformation format)

爲了在計算機中編碼字符，就出現了UCS/UTF編碼，常見的有UTF-8，UTF-16（UCS-2），UTF-32（UCS-4）編碼。

UTF-8是相似GBK編碼的一種編碼，就是用多個字節編碼計算出值而後查表，它能夠是一個字節（也就是兼容ASCII）表示一個字符，能夠是兩個、三個、四個或者更多個字節根據計算獲得某個值，而後去查UNICODE表獲得某個字符，這樣就將全部字符進行了編碼。

UTF-16則至少是須要兩個字節來表示，也就是說，能夠由兩個字節計算獲得某個值，也能夠是四個字節、六個字節、八個字節計算出值而後查表獲得字符。

UTF-32則至少是須要四個字節表示，以此類推。

C/C++中的編碼

char在C/C++中表示一個字節，一般也用它來表示編碼字符，若是它編碼的字符是ASCII編碼，則是每一個字節都表示一個字符，也就是說每一個char表示一個字符。若是編碼是ANSI，此處假設是GBK編碼，那麼能夠是一個char表示的字符，也能夠是兩個char表示一個字符。若是是UTF-8編碼，那麼能夠是一個char、兩個char、三個char或者更多來表示一個字符。

wchar_t是C/C++中的寬字符，標準沒有規定它佔幾個字節，只是規定用來編碼unicode字符集，一個wchar_t在windows（wchar_t是UTF-16編碼）下面佔2個字節，在linux（wchar_t是UTF-32編碼）下面佔4個字節，用wchar_t來編碼unicode的話，常見字符均可以用一個wchar_t來表示。可是unicode字符集一直在擴充引入更多的字符，因此頗有可能一個wchar_t（windows）不能表示出80001號字符，那麼也就出現兩個wchar_t表示一個字符，這也就正好符合UTF-16編碼的規則。

C/C++中的亂碼解決方法

亂碼實際上是無解的。大多數軟件的軟件的處理方式就是隻處理UNICODE、UTF-8和ANSI編碼，所以一段文字的ANSI編碼和打開機器的本地碼不同那麼就必然出現亂碼，固然若人爲的告訴軟件說這段文字是某個code page編碼的，那麼仍是能夠正確顯示，可是這是依靠人爲操做了。

軟件裏面處理這個問題處理的最好的有一類軟件，就是瀏覽器。瀏覽器檢測文本編碼的方式一般就是猜，猜它是哪一種編碼，猜完是哪一種編碼以後就用相應的code page去查字符，而後顯示。那麼這個猜是否是亂猜呢？不是，是經過逐個字節掃描進行統計，看看這段文本最多是哪一種編碼。固然這樣作也會有錯誤，那麼也同樣會出現亂碼，可是已經出現亂碼的概率很低了。（想詳細瞭解能夠查看firefox和chrome的源碼）

看不懂比亂碼好

假設一個程序是用的是GBK編碼的字符串，那麼在一個日文操做系統（Windows）上，軟件的字符那將是亂碼，這給人一個很很差的感覺。即便此軟件沒有日文版，可是若是可以將簡體中文正確的顯示出來那仍是要好上許多的，說不定使用軟件的人仍是個懂中文的人。

C++裏怎麼作？Windows從NT開始就支持寬字符版本的API，對於全部使用API的地方都是用寬字符版本就可以正常的顯示出文字了，在C++中就是使用wchar_t。好比：

wchar_t *wstr = L"中文";

而後用對應的寬字符版本的API來顯示出來就能夠了。那是否是程序內部所有都應該使用wchar_t來表示字符？我我的推薦只在Windows下運行的程序這麼作，也就是跟字符顯示不相關的東西也使用wchar_t來表示。固然，也能夠根據狀況在只在顯示字符的時候經過調用MultiByteToWideChar將其它編碼的字符轉換成寬字符來顯示，這樣顯示不相關的字符就可使用多字節字符集（ANSI、UTF-8）了。

對於跨平臺的軟件（Windows、Linux），我我的推薦使用UTF-8編碼的字符來做爲內部處理的字符，這樣在只須要在字符顯示的地方轉換成相應的編碼就能夠了。固然主要仍是在Windows上面作處理，調用MultiByteToWideChar將UTF-8轉換成寬字符而後顯示。

UTF-8在C++ 98中的表示

在目前的C++標準中，咱們一般不能直接在代碼裏面寫出UTF-8編碼的字符串常量。

char *str = "中文"; // 對於VS，只有源文件是不帶BOM的UTF-8編碼時纔是UTF-8字符串，對於帶BOM的UTF-8編碼或者GBK編碼的文件都是GBK的字符串；
// 對於GCC，源文件編碼是什麼那麼這個字符串的編碼就是什麼。

wchar_t *wstr = L"中文"; // 這裏使用的是unicode編碼

可是，由於ANSI編碼和UTF-8編碼都是兼容ASCII編碼的，因此咱們能夠在代碼裏面這樣寫：

char *str = "abc"; // 此處的編碼是ASCII、ANSI、UTF-8

也就是上面這段字符是能夠當成ANSI編碼也能夠當成是UTF-8編碼的，那麼咱們就能夠將它當成UTF-8編碼來使用。因此在代碼裏面最好不要出現字母之外的字符。（固然，不考慮多語言版的話除外）

那咱們要與用戶交互的時候不能是英文字母啊。咱們能夠從資源文件中讀取，即咱們能夠將要顯示的字符放置到ini、XML以及其它文本文件中，這些文件以UTF-8編碼。這樣咱們程序就從資源文件中讀取這些UTF-8編碼的字符就能夠了。這也就能夠很好的作多語言版本了，只要將資源文件中的字符改爲其它語言的字符就能夠了，固然編碼仍是UTF-8。（Windows下窗口相關的資源.rc也使用UNICODE編碼就行）

這樣作值得麼？值得不值得就看咱們的程序是否是須要作多語言版，或者未來要不要作多語言版，若是要，這就是值得的，不要固然就無所謂了。

UTF-8在C++ 11中的表示

C++ 98中不能寫出UTF-八、UTF-1六、UTF-32的字符串常量，C++ 11加入了新字符類型char16_t和char32_t，其相應的常量表示以下：

u8"中文"; // 表示用UTF-8編碼的字符串常量

u"中文"; // 表示用UTF-16編碼的字符串常量

U"中文"; // 表示用UTF-32編碼的字符串常量