Unicode字符集和UTF-8, UTF-16, UTF-32編碼

時間 2019-12-08

標籤 unicode 字符集 utf 編碼欄目字符編碼简体版

原文原文鏈接

ASCII

在過去的計算中，ASCII碼被用來表示字符。英語只有26個字母和其餘一些特殊字符和符號。編碼

下表提供了ASCII字符及其相應的十進制和十六進制值。spa

能夠從上面的表中推斷，在十進制數系統中，ASCII值能夠表示爲0到127。3d

讓咱們看一下0和127的二進制表示形式，在8位字節中。code

0表示爲blog

127表示爲內存

能夠從上面的二進制表示中推斷出，0到127的十進制值能夠用7位表示，而不是8位。ci

這就是事情開始變得混亂的地方。unicode

人們想出了不一樣的方法來使用剩下的8位，它表明了從128到255的十進制值，而且開始發生碰撞。引用

例如使用的十進制值182在越南表明越南字母ờ而相同的值182被印第安人表明印地語字母घ。二進制

若是電子郵件寫的一個印度包含字母表घ若是是閱讀一我的在越南彷佛ờ。不打算出現的方法。

這就是Unicode字符集來保存這一天的地方。

Unicode和代碼點

Unicode字符集將世界上的每一個字符映射到一個惟一的數字。這確保了不一樣語言的字母表之間沒有衝突。這些數字是平臺無關的。

這些獨特的數字被稱爲unicode術語中的代碼點。

讓咱們看看它們是如何被引用的。

拉丁字符ṍ被稱爲使用代碼點

U+1E4D
U +表示unicode和1 e4d十六進制值分配給角色ṍ
英文字母A被表示爲U+0041。
請訪問http://www.unicode.org/charts/瞭解代碼點對全部語言和世界的字母
utf - 8編碼
如今咱們知道了什麼是unicode，以及如何將世界上的每一個字母表分配給一個唯一的代碼點，咱們須要一種方法來表示計算機內存中的這些代碼點。這就是角色編碼進入畫面的地方。一個這樣的編碼方案是UTF-8。

UTF-8編碼是一種可變大小的編碼方案，用於表示內存中的unicode代碼點。可變大小的編碼意味着代碼點使用一、二、3或4字節表示，這取決於它們的大小。

utf - 8 1字節編碼
一個1字節的編碼是經過在第一個比特中出現0來肯定的。

英文字母A有unicode碼點U+0041。它的二進制表示是1000001。

A用UTF-8編碼表示。

紅色0位表示使用1字節編碼，其他的位表示代碼點。

utf - 8 2字節編碼
帶有代碼點U+00F1的拉丁字母n有二進制值11110001。這個值大於使用1字節編碼格式表示的最大值，所以這個字母表將使用UTF-8 2字節編碼表示。

2字節編碼是由位序列110在第1位和第10位在第2位中出現。

unicode代碼點U+00F1的二進制值爲1111 0001。將這些位填充到2字節編碼格式中，咱們獲得了以下所示的UTF-8 2字節編碼表示。
填充是先從最不重要的代碼點開始，而後將其映射到第二個字節中最不重要的部分。

藍色11110001中的二進制數字表示代碼點U+00F1的二進制值，紅色的是2字節編碼標識符。黑顏色的零被用來填充字節中的空比特。

utf - 8 3字節編碼
ṍ的拉丁字符的代碼點U + 1 e4d表示使用3字節編碼是大於最大值,可使用2字節編碼表示。

一個3字節的編碼是經過在第一個字節中出現的位序列1110和第二個和第三個字節中的10來標識的。

十六進制代碼點0x1E4D的二進制值是1111001001101。填充這些位在上面的編碼格式給咱們的utf - 8 3字節編碼表示ṍ顯示以下。
開始填充的時候，最不重要的代碼點映射到第三個字節中最不重要的部分。

紅色位表示3字節編碼，黑色表示填充位，藍色表示代碼點。

utf - 8 4字節編碼
的Emoji😭U+1F62D. unicode代碼點這比使用3字節編碼表示的最大值要大，所以將用4字節編碼表示。

4字節編碼經過在第一個字節中出現11110，在隨後的第2、第三和第四字節中識別。

U+1F62D的二進制表示是11111011000101101。
填充這些位在上面的編碼格式給咱們😭.的utf - 8 4字節編碼代碼點最不重要的部分被映射到第四個字節的最不重要的位，以此類推。

紅色位表示4字節編碼格式，藍色的是實際的代碼點，黑色的是填充位。

utf - 16編碼
UTF-16編碼是一種可變字節編碼方案，它使用2字節或4字節來表示unicode編碼點。全部現代語言的大多數字符都用2個字節表示。

用UTF-16編碼表示的拉丁字母n與代碼點U+00F1和二進制值11110001。

上面的表示是在大的Endian字節順序模式(最重要的一點)。

utf - 32編碼
UTF-32編碼是一個固定的字節編碼方案，它使用4個字節來表示全部的代碼點。

英文字母A有unicode碼點U+0041。它的二進制表示是1000001。

它以UTF-32編碼表示，以下所示，
藍色位是代碼點的二進制表示形式。以上假定爲大的Endian字節順序模式。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。