Base64是一種用64個字符來表示任意二進制數據的方法。python
用記事本打開exe
、jpg
、pdf
這些文件時,咱們都會看到一大堆亂碼,由於二進制文件包含不少沒法顯示和打印的字符,因此,若是要讓記事本這樣的文本處理軟件能處理二進制數據,就須要一個二進制到字符串的轉換方法。Base64是一種最多見的二進制編碼方法。數組
Base64的原理很簡單,首先,準備一個包含64個字符的數組:函數
['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/']
而後,對二進制數據進行處理,每3個字節一組,一共是3x8=24
bit,劃爲4組,每組正好6個bit:編碼
這樣咱們獲得4個數字做爲索引,而後查表,得到相應的4個字符,就是編碼後的字符串。加密
因此,Base64編碼會把3字節的二進制數據編碼爲4字節的文本數據,長度增長33%,好處是編碼後的文本數據能夠在郵件正文、網頁等直接顯示。url
若是要編碼的二進制數據不是3的倍數,最後會剩下1個或2個字節怎麼辦?Base64用\x00
字節在末尾補足後,再在編碼的末尾加上1個或2個=
號,表示補了多少字節,解碼的時候,會自動去掉。spa
Python內置的base64
能夠直接進行base64的編解碼:3d
>>> import base64 >>> base64.b64encode('binary\x00string') 'YmluYXJ5AHN0cmluZw==' >>> base64.b64decode('YmluYXJ5AHN0cmluZw==') 'binary\x00string'
因爲標準的Base64編碼後可能出現字符+
和/
,在URL中就不能直接做爲參數,因此又有一種"url safe"的base64編碼,其實就是把字符+
和/
分別變成-
和_
:code
>>> base64.b64encode('i\xb7\x1d\xfb\xef\xff') 'abcd++//' >>> base64.urlsafe_b64encode('i\xb7\x1d\xfb\xef\xff') 'abcd--__' >>> base64.urlsafe_b64decode('abcd--__') 'i\xb7\x1d\xfb\xef\xff'
還能夠本身定義64個字符的排列順序,這樣就能夠自定義Base64編碼,不過,一般狀況下徹底沒有必要。orm
Base64是一種經過查表的編碼方法,不能用於加密,即便使用自定義的編碼表也不行。
Base64適用於小段內容的編碼,好比數字證書籤名、Cookie的內容等。
因爲=
字符也可能出如今Base64編碼中,但=
用在URL、Cookie裏面會形成歧義,因此,不少Base64編碼後會把=
去掉:
# 標準Base64: 'abcd' -> 'YWJjZA==' # 自動去掉=: 'abcd' -> 'YWJjZA'
去掉=
後怎麼解碼呢?由於Base64是把3個字節變爲4個字節,因此,Base64編碼的長度永遠是4的倍數,所以,須要加上=
把Base64字符串的長度變爲4的倍數,就能夠正常解碼了。
請寫一個能處理去掉=
的base64解碼函數:
>>> base64.b64decode('YWJjZA==') 'abcd' >>> base64.b64decode('YWJjZA') Traceback (most recent call last): ... TypeError: Incorrect padding >>> safe_b64decode('YWJjZA') 'abcd'
def safe_b64decode(str_):
_, sur = divmod(len(str_), 4)
str_ ="{}{}".format(str_, "="*sur)
print(str_)
return base64.b64decode(str_)
注意點:
一、base64模塊真正用的上的方法只有8個,分別是encode, decode, encodestring, decodestring, b64encode,b64decode, urlsafe_b64decode,urlsafe_b64encode。他們8個能夠兩兩分爲4組,encode,decode一組,專門用來編碼和解碼文件的,也能夠StringIO裏的數據作編解碼;encodestring,decodestring一組,專門用來編碼和解碼字符串; b64encode和b64decode一組,用來編碼和解碼字符串,而且有一個替換符號字符的功能;urlsafe_b64encode和urlsafe_b64decode一組,這個就是用來專門對url進行base64編解碼的。
二、py2 與 py3的編碼類型不同!!!2是 bytes, 3是 unicode