python中bytes和str

時間 2020-05-22

標籤 python bytes str 欄目 Python 简体版

原文原文鏈接

一、python中bytes和str

Python3 最重要的新特性大概要算是對文本（text）和二進制數據（binary data）做了更爲清晰的區分

（1）Python 3.0使用文本和（二進制）數據的概念而不是Unicode字符串和8位字符串。全部文本都是Unicode; 但編碼的 Unicode表示爲二進制數據。用於保存文本str的類型是用於保存數據的類型 bytes。與2.x狀況的最大區別在於，任何在Python 3.0中混合文本和數據的嘗試都會提升 TypeError，而若是你要在Python 2.x中混合使用Unicode和8位字符串，那麼若是8位字符串可使用它碰巧只包含7位（ASCII）字節，但UnicodeDecodeError若是它包含非ASCII值，則會獲得。多年來，這種特訂價值的行爲形成了許多悲傷的面孔。、html

（2）您不能再將u"..."文字用於Unicode文本。可是，您必須將b"..."文字用於二進制數據。python

（3）因爲str和bytes類型不能混合，所以必須始終在它們之間進行顯式轉換。使用str.encode() 從去str到bytes，並bytes.decode() 從去bytes到str。你也能夠分別使用bytes(s, encoding=...) 和str(b,encoding=...).web

>>> b=b'good' >>> print(type(b)) <class 'bytes'> >>> str(b3,encoding='utf-8') 'example' >>> print(type(str(b3,encoding='utf-8'))) <class 'str'> >>>

4）原始字符串文字中的全部反斜槓都按字面解釋。這意味着原始字符串中的轉義'\U'和'\u'轉義不會被特別處理。例如，r'\u20ac'Python 3.0中是一個包含6個字符的字符串，而在2.6中，ur'\u20ac'則是單個「euro」字符。（固然，此更改僅影響原始字符串文字;歐元字符'\u20ac'在Python 3.0中。編程

總結bytes和str的區別：瀏覽器

一、bytes（一堆二進制的數字，如：b'11001010'）主要是給在計算機看的，string主要是給人看的服務器

首先計算機能存儲的惟一東西就是 bytes。因此爲了在計算機中存儲東西，咱們首先得將其編碼（encode），例如將其轉化爲 bytes。好比：
要想保存音樂，咱們首先得用 MP3, WAV 等將其編碼
要想保存圖片，咱們首先得用 PNG, JPEG 等將其編碼
要想保存文本，咱們首先得用 ASCII, UTF-8 等將其編碼
Unicode 是字符集，不是字符編碼。Unicode 把全世界的字符都蒐集而且編號了，可是沒有規定具體的編碼規則。編碼規則有 UTF-八、GBK 之類的。編程語言

Python3 不會以任意隱式的方式混用 str 和 bytes。正是這使得二者的區分特別清晰，你不能拼接字符串和字節包，也沒法在字節包裏搜索字符串（反之亦然），也不能將字符串傳入參數爲字節包的函數（反之亦然）。函數

二、中間有個橋樑就是編碼規則，如今大趨勢是utf8編碼

例如：在編輯和保存文件時，從文件讀取的UTF-8字符被轉換爲Unicode字符到內存裏，編輯完成後，保存的時候再把Unicode轉換爲UTF-8保存到文件：spa

三、bytes對象是二進制，很容易轉換成16進制，例如\x64

四、string就是咱們看到的內容，例如'abc'

五、string通過編碼encode，轉化成二進制對象，給計算機識別

六、bytes通過反編碼decode，轉化成string，讓咱們看，可是注意反編碼的編碼規則是有範圍,\xc8就不是utf8識別的範圍

二、bytes和str的相互轉換

（1）string to bytes

按 utf-8 的方式編碼，轉成 bytes

1 >>> string='good job' #str類型
2 >>> str_to_byte=string.encode('utf-8') #轉換爲bytes類型 3 >>> type(string) 4 <class 'str'>
5 >>> type(str_to_byte) 6 <class 'bytes'>
7 >>> print(str_to_byte) 8 b'good job'
9 >>>

按 gb2312 的方式編碼，轉成 bytes

>>> str_t_bytes=string.encode('gb2312')
>>> type(str_t_bytes)
<class 'bytes'>
>>> print(str_t_bytes)
b'good job'
>>>

（2）bytes 轉換爲s't'r

解碼成 string，默認不填

>>> website_string = website_bytes_utf8.decode() >>> type(website_string) <class 'str'>
>>> website_string
>>>'http://www.jb51.net/'

解碼成 string，使用 gb2312 的方式

>>> str='good job'
>>> website_bytes_gb2312=str.encode('gb2312') >>> type(website_bytes_gb2312) <class 'bytes'>
>>> website_string_gb2312=website_bytes_gb2312.decode('gb2312') <class 'str'>
>>> website_string_gb2312 'good job'
>>>

補充：字符編碼

咱們已經講過了，字符串也是一種數據類型，可是，字符串比較特殊的是還有一個編碼問題。由於計算機只能處理數字，若是要處理文本，就必須先把文本轉換爲數字（二進制）才能處理。最先的計算機在設計時採用8個比特（bit）做爲一個字節（byte），因此，一個字節能表示的最大的整數就是255（二進制11111111=十進制255），若是要表示更大的整數，就必須用更多的字節。好比兩個字節能夠表示的最大整數是65535，4個字節能夠表示的最大整數是4294967295。因爲計算機是美國人發明的，所以，最先只有127個字符被編碼到計算裏，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱爲ASCII編碼，好比大寫字母A的編碼是65，小寫字母z的編碼是122。可是要處理中文顯然一個字節是不夠的，至少須要兩個字節，並且還不能和ASCII編碼衝突，因此，中國製定了GB2312編碼，用來把中文編進去。你能夠想獲得的是，全世界有上百種語言，日本把日文編到Shift_JIS裏，韓國把韓文編到Euc-kr裏，各國有各國的標準，就會不可避免地出現衝突，結果就是，在多語言混合的文本中，顯示出來會有亂碼。

所以，Unicode應運而生。Unicode把全部語言都統一到一套編碼裏，這樣就不會再有亂碼問題了。Unicode標準也在不斷髮展，但最經常使用的是用兩個字節表示一個字符（若是要用到很是偏僻的字符，就須要4個字節）。現代操做系統和大多數編程語言都直接支持Unicode。

如今，捋一捋ASCII編碼和Unicode編碼的區別：ASCII編碼是1個字節，而Unicode編碼一般是2個字節。

字母A用ASCII編碼是十進制的65，二進制的01000001；

字符0用ASCII編碼是十進制的48，二進制的00110000，注意字符'0'和整數0是不一樣的；

漢字中已經超出了ASCII編碼的範圍，用Unicode編碼是十進制的20013，二進制的01001110 00101101。

你能夠猜想，若是把ASCII編碼的A用Unicode編碼，只須要在前面補0就能夠，所以，A的Unicode編碼是00000000 01000001。

新的問題又出現了：若是統一成Unicode編碼，亂碼問題今後消失了。可是，若是你寫的文本基本上所有是英文的話，用Unicode編碼比ASCII編碼須要多一倍的存儲空間，在存儲和傳輸上就十分不划算。

因此，本着節約的精神，又出現了把Unicode編碼轉化爲「可變長編碼」的UTF-8編碼。UTF-8編碼把一個Unicode字符根據不一樣的數字大小編碼成1-6個字節，經常使用的英文字母被編碼成1個字節，漢字一般是3個字節，只有很生僻的字符纔會被編碼成4-6個字節。若是你要傳輸的文本包含大量英文字符，用UTF-8編碼就能節省空間：