python base64

Base64是一種用64個字符來表示任意二進制數據的方法。python

用記事本打開exejpgpdf這些文件時,咱們都會看到一大堆亂碼,由於二進制文件包含不少沒法顯示和打印的字符,因此,若是要讓記事本這樣的文本處理軟件能處理二進制數據,就須要一個二進制到字符串的轉換方法。Base64是一種最多見的二進制編碼方法。數組

Base64的原理很簡單,首先,準備一個包含64個字符的數組:函數

['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/']

而後,對二進制數據進行處理,每3個字節一組,一共是3x8=24bit,劃爲4組,每組正好6個bit:編碼

base64-encode

這樣咱們獲得4個數字做爲索引,而後查表,得到相應的4個字符,就是編碼後的字符串。加密

因此,Base64編碼會把3字節的二進制數據編碼爲4字節的文本數據,長度增長33%,好處是編碼後的文本數據能夠在郵件正文、網頁等直接顯示。url

若是要編碼的二進制數據不是3的倍數,最後會剩下1個或2個字節怎麼辦?Base64用\x00字節在末尾補足後,再在編碼的末尾加上1個或2個=號,表示補了多少字節,解碼的時候,會自動去掉。spa

Python內置的base64能夠直接進行base64的編解碼:3d

>>> import base64
>>> base64.b64encode('binary\x00string')
'YmluYXJ5AHN0cmluZw=='
>>> base64.b64decode('YmluYXJ5AHN0cmluZw==')
'binary\x00string'

因爲標準的Base64編碼後可能出現字符+/,在URL中就不能直接做爲參數,因此又有一種"url safe"的base64編碼,其實就是把字符+/分別變成-_code

>>> base64.b64encode('i\xb7\x1d\xfb\xef\xff')
'abcd++//'
>>> base64.urlsafe_b64encode('i\xb7\x1d\xfb\xef\xff')
'abcd--__'
>>> base64.urlsafe_b64decode('abcd--__')
'i\xb7\x1d\xfb\xef\xff'

還能夠本身定義64個字符的排列順序,這樣就能夠自定義Base64編碼,不過,一般狀況下徹底沒有必要。orm

Base64是一種經過查表的編碼方法,不能用於加密,即便使用自定義的編碼表也不行。

Base64適用於小段內容的編碼,好比數字證書籤名、Cookie的內容等。

因爲=字符也可能出如今Base64編碼中,但=用在URL、Cookie裏面會形成歧義,因此,不少Base64編碼後會把=去掉:

# 標準Base64:
'abcd' -> 'YWJjZA=='
# 自動去掉=:
'abcd' -> 'YWJjZA'

去掉=後怎麼解碼呢?由於Base64是把3個字節變爲4個字節,因此,Base64編碼的長度永遠是4的倍數,所以,須要加上=把Base64字符串的長度變爲4的倍數,就能夠正常解碼了。

請寫一個能處理去掉=的base64解碼函數:

>>> base64.b64decode('YWJjZA==')
'abcd'
>>> base64.b64decode('YWJjZA')
Traceback (most recent call last):
  ...
TypeError: Incorrect padding
>>> safe_b64decode('YWJjZA')
'abcd'


def safe_b64decode(str_):
    _, sur = divmod(len(str_), 4)
    str_ ="{}{}".format(str_, "="*sur)
    print(str_)
    return base64.b64decode(str_)

注意點:

一、base64模塊真正用的上的方法只有8個,分別是encode, decode, encodestring, decodestring, b64encode,b64decode, urlsafe_b64decode,urlsafe_b64encode。他們8個能夠兩兩分爲4組,encode,decode一組,專門用來編碼和解碼文件的,也能夠StringIO裏的數據作編解碼;encodestring,decodestring一組,專門用來編碼和解碼字符串; b64encode和b64decode一組,用來編碼和解碼字符串,而且有一個替換符號字符的功能;urlsafe_b64encode和urlsafe_b64decode一組,這個就是用來專門對url進行base64編解碼的。

二、py2 與 py3的編碼類型不同!!!2是 bytes, 3是 unicode

相關文章
相關標籤/搜索