Unicode與UTF-8的區別(字符、字節和編碼的學習探索)

時間 2019-11-12

原文原文鏈接

參考文章

字符編碼筆記：ASCII，Unicode和UTF-8 字符，字節和編碼字符集與字符編碼html

ASCII碼

最開始的計算機編碼，只支持英文字符。上個世紀60年代，美國製定了一套字符編碼，對英語字符與二進制位之間的關係，作了統一規定。這被稱爲ASCII碼，一直沿用至今。咱們知道，在計算機內部，全部的信息最終都表示爲一個二進制的字符串。每個二進制位（bit）有0和1兩種狀態，所以八個二進制位就能夠組合出256種狀態，這被稱爲一個字節（byte）。也就是說，一個字節一共能夠用來表示256種不一樣的狀態，每個狀態對應一個符號，就是256個符號，從0000000到11111111。 ASCII碼一共規定了128個字符的編碼，好比空格"SPACE"是32（二進制00100000），大寫的字母A是65（二進制01000001）。這128個符號（包括32個不能打印出來的控制符號），只佔用了一個字節的後面7位，最前面的1位統一規定爲0。ide

ANSI編碼

後來計算機遍佈全球，慢慢須要本土化。一個字節只能表示256種符號，確定是不夠的，就必須使用多個字節表達一個符號。好比，簡體中文常見的編碼方式是GB2312，使用兩個字節表示一個漢字，因此理論上最多能夠表示256x256=65536個符號。不一樣的國家和地區制定了不一樣的標準，由此產生了 GB2312, BIG5, JIS 等各自的編碼標準。這些使用 2 個字節來表明一個字符的各類漢字延伸編碼方式，稱爲 ANSI 編碼。在簡體中文系統下，ANSI 編碼表明 GB2312 編碼，在日文操做系統下，ANSI 編碼表明 JIS 編碼。編碼

Unicode編碼

能夠想象，若是有一種編碼，將世界上全部的符號都歸入其中。每個符號都給予一個獨一無二的編碼，那麼亂碼問題就會消失。這就是Unicode，就像它的名字都表示的，這是一種全部符號的編碼。參考漢字的unicode對照表操作系統

Unicode的問題

Unicode只是一個符號集，它只規定了符號的二進制代碼，卻沒有規定這個二進制代碼應該如何存儲。 Unicode編碼系統爲表達任意語言的任意字符而設計。它使用4字節的數字來表達每一個字母、符號，或者表意文字(ideograph)。每一個字符對應一個數字，每一個數字對應一個字符。即不存在二義性。再也不須要記錄"模式"了。U+0041老是表明'A'，即便這種語言沒有'A'這個字符。好比，漢字"嚴"的unicode是十六進制數4E25，轉換成二進制數足足有15位（100111000100101），也就是說這個符號的表示至少須要2個字節。表示其餘更大的符號，可能須要3個字節或者4個字節，甚至更多。這裏就有兩個嚴重的問題，第一個問題是，如何才能區別Unicode和ASCII？計算機怎麼知道三個字節表示一個符號，而不是分別表示三個符號呢？第二個問題是，咱們已經知道，英文字母只用一個字節表示就夠了，若是Unicode統一規定，每一個符號用三個或四個字節表示，那麼每一個英文字母前都必然有二到三個字節是0，這對於存儲來講是極大的浪費，文本文件的大小會所以大出二三倍，這是沒法接受的。它們形成的結果是：1）出現了Unicode的多種存儲方式，也就是說有許多種不一樣的二進制格式，能夠用來表示Unicode。2）Unicode在很長一段時間內沒法推廣，直到互聯網的出現。設計

UTF-8編碼規則

互聯網的普及，強烈要求出現一種統一的編碼方式。UTF-8就是在互聯網上使用最廣的一種Unicode的實現方式。其餘實現方式還包括UTF-16（字符用兩個字節或四個字節表示）和UTF-32（字符用四個字節表示），不過在互聯網上基本不用。重複一遍，這裏的關係是，UTF-8是Unicode的實現方式之一。 UTF-8最大的一個特色，就是它是一種變長的編碼方式。它可使用1~4個字節表示一個符號，根據不一樣的符號而變化字節長度。 UTF-8的編碼規則很簡單，只有二條： 1）對於單字節的符號，字節的第一位設爲0，後面7位爲這個符號的unicode碼。所以對於英語字母，UTF-8編碼和ASCII碼是相同的。 2）對於n字節的符號（n>1），第一個字節的前n位都設爲1，第n+1位設爲0，後面字節的前兩位一概設爲10。剩下的沒有說起的二進制位，所有爲這個符號的unicode碼。code

字符集與編碼

各個國家和地區所制定的不一樣 ANSI 編碼標準中，都只規定了各自語言所需的「字符」。好比：漢字標準（GB2312）中沒有規定韓國語字符怎樣存儲。這些 ANSI 編碼標準所規定的內容包含兩層含義：htm

使用哪些字符。也就是說哪些漢字，字母和符號會被收入標準中。所包含「字符」的集合就叫作「字符集」。
規定每一個「字符」分別用一個字節仍是多個字節存儲，用哪些字節來存儲，這個規定就叫作「編碼」。各個國家和地區在制定編碼標準的時候，「字符的集合」和「編碼」通常都是同時制定的。所以，日常咱們所說的「字符集」，好比：GB2312, GBK, JIS 等，除了有「字符的集合」這層含義外，同時也包含了「編碼」的含義。「UNICODE 字符集」包含了各類語言中使用到的全部「字符」。用來給 UNICODE 字符集編碼的標準有不少種，好比：UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。

亂碼的解決方案

所以，Java中咱們經常使用 bytes = string.getBytes("iso-8859-1") 來進行逆向操做，獲得原始的「字節串」。而後再使用正確的 ANSI 編碼，好比 string = new String(bytes, "GB2312")，來獲得正確的「UNICODE 字符串」。blog