說說字符編碼

時間 2019-11-17

原文原文鏈接

一直在說字符編碼,什麼ASCII,UTF-8,GB2312,Unicode等編碼,每次遇到須要編碼的時候都是使用系統默認編碼,或者不停的嘗試變換編碼格式,知道沒有編碼問題就行了,就是隻知道用,殊不知道原理,今天忽然很想了解編碼的原理,之後在使用的時候就能夠直接使用了.html

經過查詢資料,知道字符編碼大體分爲UTF-8,ASCII,UNICODE,GB2312,下面先逐步介紹每一個字符編碼小程序

1. ASCIIwindows

咱們都知道計算機內部,全部的信息都最終表示爲一個二進制字符串,每一個二進制位有兩種狀態:0和1,所以8個二進制組就能夠組合出256種不一樣的狀態,這被稱爲一個字節,也就說一個字節能夠表示256種不一樣的狀態,每個狀態對應一個符號,就是256個符號,從00000000到11111111.上個世紀60年代,美國製定了一套字符編碼,對英語字符與二進制字符之間的關係,作了統一規定,這個被稱爲ASCII,一直沿用至今,ASCII碼一共規定了128個字符的編碼,好比空格爲32(二進制00100000),大寫字母A是65(二進制01000001),這128個字符(包括32個不能打印的字符),只佔用了一個直接的後7位,最前面的1位統一規定爲0.編碼

這個時候你們可能會有疑問,好比像漢字以及其餘國家的文字,遠遠不僅256個,這個時候如何去表示,顯然ASCII編碼遠遠不夠,所以須要一種非ASCII編碼,首先來講說非ASCII編碼code

2. 非ASCII編碼orm

英語用128個符號編碼就夠了,可是用來表示其餘語言,128個字符遠遠不夠.不如,在法語中,字母上方用注音符號,它是沒法用ASCII碼錶示.因而,一些歐洲國家就規定,利用字節中閒置的最高位編入新的符號.好比,法語中的e的編碼爲130(二進制10000010),這樣一來,這些歐洲國家使用的編碼體系,能夠表示最多256個符號.htm

可是這有出現新的問題,不一樣的國家不一樣的字母,所以,哪怕他們都使用256個符號的編碼方式,表明的字母卻不同,不如130在法語中表示e,在希伯來語編碼中卻表明了字母Gimel(),在俄語中有會表明另外一個字符,可是無論怎樣,全部這些編碼方式中0-127表示的符號是同樣的,不同的只是128-255的這一段.blog

至於亞洲國家的文字,使用的符號就更多了,就咋中文漢字就多達10萬左右,一個字節只能表示256中符號,確定是遠遠不夠用的,這樣就必須使用多個來表達一個符號,好比,簡體中文常見的編碼方式是GB2312,使用兩個字節表示一個漢字,因此理論上最多可表示256*256=65536個符號.ci

這裏指出,雖然都是多個字節表示一個符號,可是GB類的漢字編碼與後文的Unicode和UTF-8是毫無關係的.unicode

3. Unicode編碼

Unicode字符集(UCS),國際標準組織於1984年4月成立ISO/IEC/JTC1/SC2/WG2工做組,針對各國文字,符號進行統一性編碼,1991年美國跨國公司成立Unicode Consortium,並於1991年10月與WG2達成協議,採用統一編碼字符集,目前Unicode是採用16位編碼體系,其字符集內容與ISO10646的BMP(Basic Multilingal Plane)相同.Unicode於1992年6月經過DISDraf International Standard),目前版本V2.0 於1996年公佈,內容包含符號6811個,漢字20902個,韓文拼音11172個,造字區6400個,保留20249個,共計65534個.Unicode編碼後大小是同樣的,例如一個英文字母」a」和一個漢字」好」,編碼後都是佔用空間大小是同樣的,都是兩個字節.

unicode能夠用來表示全部的語言字符,並且是定長雙字節(也有四字節的)編碼,包括英文字母在內.因此說他是不兼容ISO8859-1編碼的,也不兼容任何編碼.不過相對於ISO8859-1編碼來講,Unicode編碼只是在前面增長了一個0字節,好比字母"a」爲"00 61」.

須要說明的是,定長編碼便於計算機處理(注意GB2312/GBK不是定長編碼),而Unicode又能夠用來表示全部字符,因此在不少軟件內部是使用Unicode編碼來處理的,好比Java.

Unicode固然是一個很大的集合,如今的規模能夠容納100多萬個符號.每一個符號的編碼都不同,好比,U+0639表示阿拉伯字母Ain,U+0041表示英語的大寫字母A,U+4E25表示漢字」嚴」.具體的符號對應表,能夠查詢Unicode.org,或者專門的漢字對應表.

Unicode的問題

須要注意的是,Unicode只是一個符號集,它只規定了符號的二進制代碼,卻沒有規定這個二進制代碼如何存儲.

好比漢字」嚴」的Unicode是十六進制4E25,轉換成二進制數足足有15位（100111000100101），也就是說這個符號的表示至少須要兩個字節。表示其餘更大的符號，可能須要3個字節或者4個直接，甚至更多。

這裏就有兩個嚴重的問題，第一個問題是，如何才能區別Unicode和Ascii？計算機怎麼知道三個字節表示一個符號，而不是分別表示三個符號呢？第二個問題是咱們已經知道，英文字母只用一個字節表示就夠了，若是Unicode統一規定，每一個符號用三個或4個直接表示，那麼每一個英文字母前必然有二到三個字節是0，這對於存儲來講是極大的浪費，文本文件的大小會所以大出2,3倍，這是沒法接受的

他們形成的結果是：

1）出現了Unicode的多種存儲方式，也就是說有許多種不一樣的二進制格式，能夠用來表示Unicode。

2） Unicode在很長一段時間內沒法推廣,直到互聯網的出現.

4. UTF-8

互聯網的普及,強烈要求出現一種統一的編碼方式,UTF-8就是在互聯網上使用最廣的一種Unicode的實現方式.其餘實現方式還包括UTF-16和UTF-32,不過互聯網上基本不用.重複一遍:UTF-8是Unicode的實現方式之一.

UTF-8最大的一個特色,就是它是一種變長的編碼方式.他可使用1~4個字節表示一個符號,根據不一樣的符號二變化字節長度.

UTF-8的編碼規則很簡單,只有兩條:

1) 對於單字節的符號,直接的第一位設爲0,後面7位爲這個符號的Unicode碼.所以對於英語字母,UTF-8編碼和ASCII碼是相同的.

2) 對於n直接的符號(n>1),第一個字節的前N位都設爲1,第n+1位設爲0,後面字節的前兩位一概設爲10.剩下的沒有說起的二進制位,所有爲這個符號的Unicode碼.

下表總結了編碼規則,字母X表示可用編碼的位.

unic符號範圍 | UTF-8編碼方式

(十六進制) | (二進制)

--------------------------+------------------------------------------

0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

下面,仍是以漢字」嚴」爲例,演示如何實現UTF-8編碼.

已知」嚴」的Unicode是4E25(100111000100101),根據上表,能夠發現4E25處在第三行的範圍內(0000 0800-0000 FFFF),所以」嚴」的UTF-8編碼須要三個字節,及格式是」1110xxx 10xxxxxx 10xxxxxx」.而後,從」嚴」的最後一個二進制位開始,依次從後向前填入格式中的x,多出的位補0.這樣就獲得了」嚴」的UTF-8編碼是」11100100 10111000 10100101」,轉成十六進制就是E4B8A5.

Unicode與UTF-8之間的轉換

經過上一節的例子,能夠看到」嚴」的Unicode碼是4E25,UTF-8編碼是E4B8A5,二者是不同的.他們之間的轉換能夠經過程序實現.

在windows平臺下,有一個最簡單的轉換方法,就是使用內置的記事本小程序notepad.exe.打開文件後,點擊」文件」菜單中的」另存爲」命令,會跳出一個對話框,在最底部有一個」編碼」的下拉條.會出現多個編碼方式

1) ANSI是默認的編碼方式,對於英文文件是ASCII編碼,對於簡體中文文件是GB2312編碼(只針對windows簡體中文版,若是是繁體中文會採用Big5碼)

2) Unicode編碼是指UCS2編碼方式,即直接用兩個字節存入字符的Unicode碼.這個選項用little endian格式.

3) Unicode big endian編碼與上一個選項相對應.我在下面會解釋little endian和big endian涵義.

4) UTF-8編碼,也就是上一節談到的編碼方式.

選擇完」編碼方式」後,點擊」保存」按鈕,文件的編碼方式就馬上轉換好了.

Little endian 和bigEndian

上面提到,Unicode碼能夠採用UCS-2格式直接存儲.以漢字」嚴」爲例,Unicode碼是4E25,須要用兩個字節存儲,一個字節是4E,另外一個字節是25.存儲的時候4E在前,25在後,就是Big Endian方式;25在前,4E在後,就是Little Endian方式.

固然到這裏,確定會有一個疑問,計算機怎麼知道某一個文件到底採用哪種編碼方式?

Unicode規範中定義,每一個文件的最前面分別加入一個表示編碼順序的字符,這個字符的名字叫做」零寬度非換行空格」(ZERO WIDTH NO-BREAK SPACE)用FEFF表示.這正好是兩個字節,並且FF比FE大1.

若是一個文本文件的頭兩個字節是FEFF,就表示該文件採用大頭方式;若是頭兩個直接是FF FE,就表示該文件採用小頭方式.

實例

下面,舉一個實例

打開」記事本」程序Notepad.exe,新建文本文件,內容就是一個嚴字,依次採用ANSI,Unicode,Unicode big endian和UTF-8編碼方式保存.

而後,用文本編輯軟件UtraEdit的」十六進制功能」,觀察該文件的內部編碼方式.

1) ANSI:文件的編碼就是兩個字節」D1 CF」,這正是」嚴」的GB2312編碼,這也暗示GB2312是採用大頭方式存儲的.

2)Unicode: 編碼是四個字節」FF FE 25 4E」,其中」FF FE」代表是小頭方式存儲,真正的編碼是4E25.

3) Unicode big endian: 編碼是4個字節」FE FF 4E 25」,其中」FF EF」代表是大頭方式存儲.

4) UTF-8:編碼是6個字節」EF BB BF E4 B8 A5」,前三個字節」EF BB BF」表示這是UTF-8編碼,後三個」E4B8A5」就是」嚴」的具體編碼,他的存儲順序與編碼順序是一致的.

6. 國標

6.1 GB碼

    全稱是GB2312-80《信息交換用漢字編碼字符集基本集》，1980年發佈，是中文信息處理的國家標準，在大陸及海外使用簡體中文的地區（如新加坡等）是強制使用的惟一中文編碼。P-Windows3.2和蘋果OS就是以GB2312爲基本漢字編碼， Windows 95/98則以GBK爲基本漢字編碼、但兼容支持GB2312。

雙字節編碼

範圍：A1A1~FEFE

A1-A9：符號區，包含682個符號

B0-F7：漢字區，包含6763個漢字

6.2 GB2312

    GB2312(1980年)一共收錄了7445個字符，包括6763個漢字和682個其它符號。漢字區的內碼範圍高字節從B0-F7，低字節從 A1-FE，佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。GB2312-80中共收錄了7545個字符，用兩個字節編碼一個字符。每一個字符最高位爲0。GB2312-80編碼簡稱國標碼。

　　GB2312支持的漢字太少。1995年的漢字擴展規範GBK1.0收錄了21886個符號，它分爲漢字區和圖形符號區。漢字區包括21003個字符。

6.3 GB12345-90

1990年制定了繁體字的編碼標準GB12345-90《信息交換用漢字編碼字符集第一輔助集》，目的在於規範必須使用繁體字的各類場合，以及古籍整理等。該標準共收錄6866個漢字（比GB2312多103個字，其它廠商的字庫大多不包括這些字），純繁體的字大概有2200餘個。
雙字節編碼
範圍：A1A1~FEFE
A1-A9：符號區，增長豎排符號
B0-F9：漢字區，包含6866個漢字

6.4 GBK

    GBK編碼(Chinese Internal Code Specification)是中國大陸制訂的、等同於UCS的新的中文編碼擴展國家標準。gbk編碼可以用來同時表示繁體字和簡體字，而gb2312只能表示簡體字，gbk是兼容gb2312編碼的。GBK工做小組於1995年10月，同年12月完成GBK規範。該編碼標準兼容GB2312，共收錄漢字21003個、符號883個，並提供1894個造字碼位，簡、繁體字融於一庫。Windows95/98簡體中文版的字庫表層編碼就採用的是GBK，經過GBK與UCS之間一一對應的碼錶與底層字庫聯繫。
英文名：Chinese Internal Code Specification
中文名：漢字內碼擴展規範1.0版
雙字節編碼，GB2312-80的擴充，在碼位上和GB2312-80兼容
範圍：8140~FEFE（剔除xx7F）共23940個碼位
包含21003個漢字，包含了ISO/IEC 10646-1中的所有中日韓漢字