字符編碼學習筆記

時間 2019-12-09

原文原文鏈接

1、常見編碼

ASCII：ASCII碼即美國標準信息交換碼(American Standard Code for Information Interchange)。因爲計算機內部全部信息最終都是一個二進制值，而每個二進制位（bit）有0和1兩種狀態，所以八個二進制位就能夠組合出256種狀態，這被稱爲一個字節（byte）。標準ASCII 碼一共規定了128個字符的編碼，這是由於只使用了後面七位，最前面的一位統一規定爲0。以後IBM制定了128個擴充字符，這些字符並不是標準的ASCII碼，而是用來表示框線、音標和其它歐洲非英語系的字母。html

英語用128個符號編碼就夠了，可是用來表示其餘語言，128個符號是不夠的，並且不一樣的國家使用不一樣的字母，有的國家使用的字符也遠遠超過256個，顯然ASCII已經沒法解決問題了。那麼有沒有一種統一且惟一的編碼方式呢？答案就是Unicode。瀏覽器

Unicode：Unicode是計算機科學領域裏的一項業界標準，Unicode 是爲了解決傳統的字符編碼方案的侷限而產生的，它爲每種語言中的每一個字符設定了統一而且惟一的二進制編碼，以知足跨語言、跨平臺進行文本轉換、處理的要求。網絡

可是Unicode也是有問題的，好比「中」字的Unicode編碼是十六進制的4E2D，即二進制的100111000101101佔15位，也就是說表示這個符號至少須要兩個字節，那麼怎麼知道這兩個字節是表示一個字符而不是分別表示兩個字符呢？也就是如何區分Unicode和ASCII？ide

UTF-8：UTF是「Unicode Transformation Format」的縮寫，能夠翻譯成Unicode字符集轉換格式。UTF-8 就是在互聯網上使用最廣的一種Unicode的實現方式，其餘實現方式還包括UTF-16（字符用兩個字節或四個字節表示）和UTF-32（字符用四個字節表示）。UTF-8最大的一個特色，就是它是一種變長的編碼方式。它可使用1~6個字節表示一個符號，根據不一樣的符號而變化字節長度。對於某一個字符的UTF-8編碼，若是隻有一個字節則其最高二進制位爲0；若是是多字節，其第一個字節從最高位開始，連續的二進制位值爲1的個數決定了其編碼的位數，其他各字節均以10開頭。編碼

字節數 | UTF-8編碼（二進制）spa

　1 | 0xxxxxxx 操作系統

　2 | 110xxxxx 10xxxxxx翻譯

3 | 1110xxxx 10xxxxxx 10xxxxxx 3d

4 | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx code

5 | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

6 | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

很明顯對於「中」字使用UTF-8編碼須要使用三個字節，所以從「中」字的最後一個二進制位開始，依次從後向前填入格式中的x，多出的位補0。這樣就獲得了「中」字的UTF-8編碼，結果爲：11100100 10111000 10101101，即十六進制的E4B8AD。

2、Python3編碼

Python中的編碼問題困擾了我挺久的，尤爲是Python2和Python3中還有區別，不過這裏我只討論Python3中的編碼問題。

Python3最重要的新特性大概要算是對文本和二進制數據做了更爲清晰的區分，文本老是Unicode，由str類型表示，二進制數據則由bytes類型表示，而二者之間的轉換由編碼（encode）和解碼（decode）實現。這裏能夠看一下Python的官方文檔：

str.encode(encoding="utf-8", errors="strict")

　　Return an encoded version of the string as a bytes object. Default encoding is 'utf-8'. errors may be given to set a different error handling scheme. The default for errors is 'strict', meaning that encoding errors raise a UnicodeError. Other possible values are 'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' and any other name registered via codecs.register_error(), see section Error Handlers. For a list of possible encodings, see section Stardard Encodings.

bytes.decode(encoding="utf-8", errors="strict")

　　Return a string decoded from the given bytes. Default encoding is 'utf-8'. errors may be given to set a different error handling scheme. The default for errors is 'strict', meaning that encoding errors raise a UnicodeError. Other possible values are 'ignore', 'replace' and any other name registered via codecs.register_error(), see section Error Handlers. For a list of possible encodings, see section Stardard Encodings.

能夠看到str是沒有decode方法的，由於自己就是Unicode編碼的，而bytes是沒有encode方法的，並且不管是encode仍是decode默認都是使用UTF-8編碼的，固然咱們還可使用其餘方式進行編碼和解碼，好比：

s = "博客園"
print(s.encode())
print(s.encode("utf-16"))
print(s.encode("gbk"))

# b'\xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xad'
# b'\xff\xfeZS\xa2[\xedV'
# b'\xb2\xa9\xbf\xcd\xd4\xb0'

那麼對於某個數據來講，若是咱們不知道它的編碼格式，要怎麼辦呢？在Python3中可使用chardet模塊裏的detect方法查看：

import chardet
print(chardet.detect(b'\xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xad'))
print(chardet.detect(b'\xff\xfeZS\xa2[\xedV'))

{'encoding': 'utf-8', 'confidence': 0.87625, 'language': ''}
{'encoding': 'UTF-16', 'confidence': 1.0, 'language': ''}

detect方法會返回一個字典，包含編碼方式、檢測獲得的機率和語言信息。可見，用chardet檢測編碼，使用簡單，獲取到編碼後，再轉換爲str，就能夠方便後續處理。

3、文本編碼

首先新建一個文本文檔「test.txt」，內容爲：「博客園Blogs」，而後選擇「另存爲」，能夠看到默認使用的是ANSI編碼：

那麼這個ANSI編碼是什麼呢？不一樣的國家和地區制定了不一樣的標準，由此產生了GB23十二、GBK、Big五、Shift_JIS等各自的編碼標準。這些使用1至4個字節來表明一個字符的各類漢字延伸編碼方式，稱爲ANSI編碼。而在簡體中文Windows操做系統中，ANSI編碼就表明GBK編碼。那麼假如咱們使用了默認的ANSI編碼即GBK編碼，在讀取文本的時候會出現什麼狀況呢？

with open("test.txt", 'r') as f:
    print(f.read())
# 博客園Blogs
with open("test.txt", 'r', encoding="gbk") as f:
    print(f.read())
# 博客園Blogs
with open("test.txt", 'r', encoding="utf-8") as f:
    print(f.read())
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb2 in position 0: invalid start byte

能夠看到使用UTF-8編碼打開的時候報錯了，緣由是有沒法解碼的字符。那麼若是咱們保存的時候使用UTF-8編碼呢？

with open("test.txt", 'r') as f:
    print(f.read())
# 鍩垮崥瀹㈠洯Blogs
with open("test.txt", 'r', encoding="gbk") as f:
    print(f.read())
# 鍩垮崥瀹㈠洯Blogs
with open("test.txt", 'r', encoding="utf-8") as f:
    print(f.read())
# 博客園Blogs

很明顯看到在使用GBK編碼時出現亂碼了，緣由就是編碼和解碼的方式不一致，致使最終出現了亂碼的狀況。

4、URL編碼

URL即全球統一資源定位符（Uniform Resource Locator），通常來講，URL只能使用英文字母、阿拉伯數字和某些標點符號，不能使用其餘文字和符號，這是由於網絡標準RFC1738作出了規定。這意味着，若是URL中有漢字，就必須編碼後使用。可是麻煩的是，RFC1738沒有規定具體的編碼方法，而是交給應用程序（瀏覽器）本身決定。

這裏咱們能夠任意打開一個網頁，好比關於編碼的百度百科，能夠看到瀏覽器顯示的連接沒有什麼問題：

複製一下，而後粘貼出來看一下：https://baike.baidu.com/item/%E7%BC%96%E7%A0%81/80092，能夠看到「編碼」兩個字被瀏覽器自動編碼成了「%E7%BC%96%E7%A0%81」。這裏咱們須要知道的是「編」的UTF-8編碼爲：E7BC96，「碼」的UTF-8編碼爲：E7A081，所以「%E7%BC%96%E7%A0%81」就是在每一個字節前面加上一個「%」獲得的，也就是說URL路徑使用的是UTF-8編碼。