Unicode UTF-8 UTF-16 UTF-32的關係

Unicode (統一碼 萬國碼)產生的背景

預備知識:編碼

  1. 計算機只認識二進制數字 好比:010101 單位bit
  2. 通常來講,計算機的最小存儲單元是 8位二進制數 也就是1字節
  3. 想要讓計算機認識字符 例如英文字符 a ,須要對字符進行 編碼
  4. 咱們常說的 ASCII(American Standard Code for Information Interchange)編碼是使用一個字節的存儲長度對字符的編碼集。

爲什麼要有Unicode?

ASCII編碼使用 8bit (b0-b7)中的最高位b7位做爲 奇偶校驗位,用來保障傳輸的可靠性,因此ASCII一共定義了2^7=128個字符集合。代理

所謂奇偶校驗,是指在代碼傳送過程當中用來檢驗是否出現錯誤的一種方法,通常分奇校驗和偶校驗兩種。 奇校驗規定:正確的代碼一個字節中1的個數必須是奇數,若非奇數,則在最高位b7添0; 偶校驗規定:正確的代碼一個字節中1的個數必須是偶數,若非偶數,則在最高位b7添1) code

ASCII編碼的問題

ASCII編碼是美國製定的編碼標準,它能夠表明英文中的字符集合,但用來表示其餘語言 如漢語、法語等是不夠用的。 中國爲了讓計算機識別漢語,制定了GB2312編碼規範,使用兩個字節表明一個漢字,支持65536個漢字。orm

這樣發展的趨勢是 每一個國家或地區制定本身語言的計算機字符編碼,致使混亂不堪。unicode

Unicode產生

Unicode 正是解決這個問題而誕生的,它對世界上絕大部分的文字的進行整理和統一編碼。開發

事實上,歷史上存在兩個獨立的嘗試創立單一字符集的組織,即國際標準化組織(ISO)和多語言軟件製造商組成的統一碼聯盟。前者開發的 ISO/IEC 10646 項目,後者開發的統一碼項目。所以最初制定了不一樣的標準。it

1991年先後,兩個項目的參與者都認識到,世界不須要兩個不兼容的字符集。因而,它們開始合併雙方的工做成果,併爲創立一個單一編碼表而協同工做。從Unicode 2.0開始,Unicode採用了與ISO 10646-1相同的字庫和字碼;ISO也承諾,ISO 10646將不會替超出U+10FFFF的UCS-4編碼賦值,以使得二者保持一致。io

兩個項目仍都存在,並獨立地公佈各自的標準。但統一碼聯盟和ISO/IEC JTC1/SC2都贊成保持二者標準的碼錶兼容,並緊密地共同調整任何將來的擴展。字符編碼

在發佈的時候,Unicode通常都會採用有關字碼最多見的字型,但ISO 10646通常都儘量採用Century字型。(摘自百度百科https://baike.baidu.com/item/Unicode)table

Unicode的編碼方式

Unicode的編碼空間能夠劃分爲17個平面(plane),每一個平面包含2的16次方(65536)個碼位。

17個平面的碼位可表示爲從U+0000到U+10FFFF,共計1114112個碼位,第一個平面稱爲基本多語言平面(Basic Multilingual Plane, BMP),或稱第零平面(Plane 0)。其餘平面稱爲輔助平面(Supplementary Planes)。

基本多語言平面內,從U+D800到U+DFFF之間的碼位區段是永久保留不映射到Unicode字符,因此有效碼位爲1112064個。

爲什麼要定義平面?爲什麼劃分基平面和輔助平面?基平面爲什麼會有保留區段?

計算機實現

Unicode是一種編碼方式,基於Unicode編碼的計算機實現是有多種的。 不一樣的實現方式實際上是對Unicode的存儲方式存在着差別,計算機實現Unicode能夠認爲是對Unicode的存儲編碼。

在這裏咱們已經進行了兩次編碼轉換了,Unicode自己是字符對應數字的編碼方案,而Unicode的計算機實現是Unicode對應的計算機存儲編碼方案。

爲何對計算機實現還要對Unicode作一次編碼???

下面咱們經過介紹不一樣的Unicode計算機實現方案來討論一下這個問題。

咱們應當知道,生活中的字符出現的機率是不同的。例如,生活中咱們經常使用 「你好」 「早」等詞彙,可是「耄耋」 「饕餮」等這些字符咱們不多用到。

基於以上的事實,若是咱們把 「你好」 「早」等這些高几率出現的字符 使用較短的存儲編碼,而那些不多用到的字符使用較長的存儲編碼,

定義: 假設有n個字符c1.....cn,每一個字符出現的機率爲p(n),每一個字符的存儲空間爲s1.....sn,那麼, 字符平均存儲空間計算公式: T = p(1)*s1+......p(n)*sn

下面咱們分別計算一下不一樣編碼實現方案的字符平均存儲空間。

UTF-32

最容易想到的,也是最簡單的計算機實現就是用四個字節(32bit)對Unicode編碼字符進行存儲,這就是UTF-32。UTF-32是最簡單的程序實現方案(無需轉換,與Unicode編碼一一對應)。

好處:無需轉換,速度快

壞處:浪費存儲空間

T = 32bit

UTF-8

UTF-8是一種變長編碼,對於一個Unicode的字符被編碼成1至4個字節。Unicode編碼與UTF-8的編碼的對應關係:

Unicode編碼 UTF-8編碼(二進制)
U+0000 – U+007F 0xxxxxxx
U+0080 – U+07FF 110xxxxx 10xxxxxx
U+0800 – U+FFFF 1110xxxx 10xxxxxx 10xxxxxx
U+10000 – U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

一個字節的uft8表示的unicode 碼範圍爲(0 ~0x7F)

兩個字節長度的uft8 表示的unicode碼範圍爲(0x80 ~ 0x07FF)

三個字節長度的uft8 表示的unicode碼範圍爲(0x0800 ~ 0xFFFF)

四個字節長度的uft8 表示的unicode碼範圍爲( 0x10000 ~ 0x10FFFF)

這樣編碼感受複雜度變高了不少啊,可是, 好處在於節省了存儲空間,另外,兼容了舊的ASCII編碼。

T=???

暫時沒有字符機率數據,等我查資料再更新。

UTF-16

UTF-16也是一種變長編碼,對於一個Unicode字符被編碼成1至2個碼元,每一個碼元爲16位。

基本多語言平面(碼位範圍U+0000-U+FFFF) 在基本多語言平面內的碼位UTF-16編碼使用1個碼元且其值與Unicode是相等的(不須要轉換)。舉例以下

Unicode 字符 UTF-16(碼元) UTF-16 LE(字節) UTF-16 BE(字節) U+0041 A 0x0041 0x41 0x00 0x00 0x41 U+7834 破 0x7834 0x34 0x78 0x78 0x34 U+6653 曉 0x6653 0x53 0x66 0x66 0x53

輔助平面(碼位範圍U+10000-U+10FFFF) 在輔助平面內的碼位在UTF-16中被編碼爲一對16bit的碼元(即32bit,4字節),稱做代理對(surrogate pair)。組成代理對的兩個碼元前一個稱爲前導代理(lead surrogates)範圍爲0xD800-0xDBFF,後一個稱爲後尾代理(trail surrogates)範圍爲0xDC00-0xDFFF。

具體的轉換過程爲

  1. 首先將unicode碼錶 - 0x10000 , 這樣獲得的輔助平面的碼錶範圍爲(U+0000 - U+FFFFF) ,總共最多20bit

  2. 將20bit ,分爲high 10bit 與 low 10bit。 high 1bit | 0xD800 獲得前導代理, low 10bit | 0xDC00 獲得後尾代理

從這裏也能夠理解爲何 在基本多語言平面中, (U+D800 ~ U+DFFF ) 要做爲保留字符了

UTF-16既保留了解析速度,同時也比較節省存儲空間。這個是UTF-8和UTF-32二者優勢的結合。

T=??? 暫時沒有字符機率數據,等我查資料再更新。

相關文章
相關標籤/搜索