python中的encode（）和decode（）函數

時間 2019-11-18

原文原文鏈接

前言：編碼

咱們知道，計算機是以二進制爲單位的，也就是說計算機只識別0和1,也就是咱們平時在電腦上看到的文字，只有先變成0和1，計算機纔會識別它的意思。這種數據和二進制的轉換規則就是編碼。計算機的發展中，有ASCII碼，GBK，Unicode，utf-8編碼。咱們先從編碼的發展史瞭解一下編碼的進化過程。spa

編碼發展史code

美國人發明了計算機，用八位0和1的組合，一一對應英文中的字符，整出了一個表格，ASCII表。
計算機傳入中國，中國地大物博，繁體字和簡體字多，8位字節最多表示256個字符，知足不了，因而對ASCII擴展，新表叫GB2312
後來發現GB2312還不夠用，擴充以後造成GB18030。
每一個國家都像中國同樣，把本身的語言編碼，因而出現了各類各樣的編碼，若是你不安裝相應的編碼，就沒法解釋相應編碼想表達的內容。
各自編碼沒法國際交流。一個國際組織一塊兒創造了一種編碼 UNICODE（Universal Multiple-Octet Coded Character Set）規定全部字符用兩個字節表示，就是固定的，全部的字符就兩個字節，計算機容易識別。2的16次方能夠表示全部的字符了。
UNICODE雖然解決了各自爲戰的問題，可是美國人不肯意了，由於美國原來的ASCII只須要一個字節就能夠了。UNICODE編碼卻讓他們的語言多了一個字節，白白浪費一個字節的存儲空間。通過協商，出現了一種新的轉換格式，被稱爲通用轉換格式，也就是UTF(unicode transformation format).常見的有utf-8,utf-16。utf-8規定，先分類，美國字符一個字節，歐洲兩個字符，東南亞三個字符。

encode()和decode()orm

decode英文意思是解碼，encode英文原意編碼
字符串在Python內部的表示是unicode編碼，所以，在作編碼轉換時，一般須要以unicode做爲中間編碼，即先將其餘編碼的字符串解碼（decode）成unicode，再從unicode編碼（encode）成另外一種編碼。
decode的做用是將其餘編碼的字符串轉換成unicode編碼，如str1.decode('gb2312')，表示將gb2312編碼的字符串str1轉換成unicode編碼。
encode的做用是將unicode編碼轉換成其餘編碼的字符串，如str2.encode('gb2312')，表示將unicode編碼的字符串str2轉換成gb2312編碼。
總得意思:想要將其餘的編碼轉換成utf-8必須先將其解碼成unicode而後從新編碼成utf-8,它是以unicode爲轉換媒介的如：s='中文' 若是是在utf8的文件中，該字符串就是utf8編碼，若是是在gb2312的文件中，則其編碼爲gb2312。這種狀況下，要進行編碼轉換，都須要先用 decode方法將其轉換成unicode編碼，再使用encode方法將其轉換成其餘編碼。一般，在沒有指定特定的編碼方式時，都是使用的系統默認編碼建立的代碼文件