舉例說明Unicode 和UTF-8之間的轉換

時間 2020-06-12

標籤舉例說明 unicode utf 之間轉換欄目字符編碼简体版

原文原文鏈接

1)寫這篇博客的緣由

首先我要感謝這篇博客，卡了好久，看完下面這篇博客終於明白Unicode怎麼轉換成UTF-8了。python

https://blog.csdn.net/qq_32252957/article/details/83054183編碼

2)囉嗦一些相關的東西

Unicode是一個字符集，Unicode是定長的都爲雙字節。spa

對於漢字來講Unicode佔有的字節比UTF-8佔用的字節少1個字節。Unicode爲雙字節，而UTF-8中漢字佔三個字節。.net

Unicode爲雙字節，而UTF-8中漢字佔三個字節。code

Unicode爲雙字節，而UTF-8中漢字佔三個字節。blog

3)UTF-8編碼表

U-00000000 - U-0000007F: 0xxxxxxx
        U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
        U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
        U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
        U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
        U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

在多字節串中, 第一個字節的開頭"1"的數目就是整個串中字節的數目。而第一行中以0開頭，是爲了兼容ASCII編碼，爲一個字節，第二行就爲雙字節字符串，第三行爲3字節，如漢字就屬於這種，以此類推。(我的認爲：其實咱們能夠簡單的把前面的1的個數當作字節數)utf-8

4)例子

爲了要將Unicode轉換爲UTF-8，固然要知道他們的區別到底在什麼地方。下面來看一下，在Unicode中的編碼是怎樣轉換成UTF-8的，在UTF-8中，若是一個字符的字節小於0x80（128）則爲ASCII字符，佔一個字節，能夠不用轉換，由於UTF-8兼容ASCII編碼。假如在Unicode中漢字「你」的編碼爲「u4F60」，把它轉換爲二進制爲100111101100000，而後按照UTF-8的方法進行轉換。能夠將Unicode二進制從地位往高位取出二進制數字，每次取6位，如上述的二進制就能夠分別取出爲以下所示的格式，前面按格式填補，不足8位用0填補。unicode

unicode: 100111101100000                  4F60
utf-8:    11100100,10111101,10100000       E4BDA0

5)逆轉換 UTF-8轉換成Unicode

從上面就能夠很直觀的看出Unicode到UTF-8之間的轉換，固然知道了UTF-8的格式後，就能夠進行逆運算，就是按照格式把它在二進制中的相應位置上取出，而後在轉換就是所獲得的Unicode字符了（這個運算能夠經過「位移」來完成）。字符串

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。