Python5 - 字符編碼

時間 2019-11-19

標籤 python5 python 字符編碼欄目 Python 简体版

原文原文鏈接

Python 字符編碼

參考詳細文章： py編碼終極版 html

　　　　　　http://www.diveintopython3.net/strings.htmlpython

1.在python2默認編碼是ASCII, python3裏默認是unicode程序員

2.unicode 分爲 utf-32(佔4個字節),utf-16(佔兩個字節)，utf-8(佔1-4個字節)，因此 utf-16就是如今最經常使用的unicode版本，不過在文件裏存的仍是utf-8，由於utf8省空間ide

3.在py3中encode，在轉碼的同時還會把string 變成bytes類型，decode在解碼的同時還會把bytes變回string優化

Python3編碼實例1：編碼

gbk向下兼容gb18030,gb18030向下兼容gb2312,因此gbk和gb2312的編碼是相同的，前提是此中文在gbk和gb2312中都存在spa

import sys
print(sys.getdefaultencoding())   #python默認編碼格式是utf-8
s = "世界你好"  #python3全部數據類型都是unicode
# print(type(s))
s_utf8 = s.encode("utf-8")   #由於默認Unicode，因此直接編碼爲utf-8
print("utf-8:", s_utf8)  #python3中編碼以後用bytes類型輸出
s_gb2312 = s_utf8.decode("utf-8").encode("gb2312")  #先從utf-8解碼爲Unicode，再編碼爲gb2312
print("gb2312:", s_gb2312)
s_gbk = s_gb2312.decode("gb2312").encode("gbk") #gb2312 轉 gbk
print("gbk", s_gbk)
s1_gbk = s_utf8.decode("utf-8").encode("gbk") #utf-8 轉 gbk
print("gbk", s1_gbk)
s_unicode = s_gbk.decode("gbk") #gbk 解碼爲Unicode
print("unicode:", s_unicode)
s1_utf8 = s_unicode.encode("utf-8") # unicode 編碼爲 utf-8
print("utf-8:", s1_utf8)

輸出：.net

utf-8
utf-8: b'\xe4\xb8\x96\xe7\x95\x8c\xe4\xbd\xa0\xe5\xa5\xbd'
gb2312: b'\xca\xc0\xbd\xe7\xc4\xe3\xba\xc3'
gbk b'\xca\xc0\xbd\xe7\xc4\xe3\xba\xc3'
gbk b'\xca\xc0\xbd\xe7\xc4\xe3\xba\xc3'
unicode: 世界你好
utf-8: b'\xe4\xb8\x96\xe7\x95\x8c\xe4\xbd\xa0\xe5\xa5\xbd'

實例1輸出

Python3編碼實例2：設計

import sys
print(sys.getdefaultencoding())   #python默認編碼格式是utf-8
s = "世界你好"  #python3字符串的默認編碼是unicode
print(s.encode("gbk"))
print(s.encode("utf-8"))
print(s.encode("utf-8").decode("utf-8").encode("gb2312" ))

上圖代碼

字符編碼的歷史

ASCII碼

ASCII（American Standard Code for Information Interchange，美國標準信息交換代碼）是基於拉丁字母的一套電腦編碼系統，主要用於顯示現代英語和其餘西歐語言，其最多隻能用 8 位來表示（一個字節），即：2**8 = 256-1，因此，ASCII碼最多隻能表示 255 個符號。code

中文編碼

爲了處理漢字，程序員設計了用於簡體中文的GB2312和用於繁體中文的big5。

GB2312(1980年)一共收錄了7445個字符，包括6763個漢字和682個其它符號。漢字區的內碼範圍高字節從B0-F7，低字節從A1-FE，佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。

GB2312 支持的漢字太少。1995年的漢字擴展規範GBK1.0收錄了21886個符號，它分爲漢字區和圖形符號區。漢字區包括21003個字符。2000年的 GB18030是取代GBK1.0的正式國家標準。該標準收錄了27484個漢字，同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字。如今的PC平臺必須支持GB18030，對嵌入式產品暫不做要求。因此手機、MP3通常只支持GB2312。

從ASCII、GB23十二、GBK 到GB18030，這些編碼方法是向下兼容的，即同一個字符在這些方案中老是有相同的編碼，後面的標準支持更多的字符。在這些編碼中，英文和中文能夠統一地處理。區分中文編碼的方法是高字節的最高位不爲0。按照程序員的稱呼，GB23十二、GBK到GB18030都屬於雙字節字符集 (DBCS)。

有的中文Windows的缺省內碼仍是GBK，能夠經過GB18030升級包升級到GB18030。不過GB18030相對GBK增長的字符，普通人是很難用到的，一般咱們仍是用GBK指代中文Windows內碼。

gbk向下兼容gb18030,gb18030向下兼容gb2312,因此gbk和gb2312的編碼是相同的，前提是此中文在gbk和gb2312中都存在

萬國碼

顯然ASCII碼沒法將世界上的各類文字和符號所有表示，因此，就須要新出一種能夠表明全部字符和符號的編碼，即：Unicode

Unicode（統一碼、萬國碼、單一碼）是一種在計算機上使用的字符編碼。Unicode 是爲了解決傳統的字符編碼方案的侷限而產生的，它爲每種語言中的每一個字符設定了統一而且惟一的二進制編碼，規定雖有的字符和符號最少由 16 位來表示（2個字節），即：2 **16 = 65536，
注：此處說的的是最少2個字節，可能更多

UTF-8，是對Unicode編碼的壓縮和優化，他再也不使用最少使用2個字節，而是將全部的字符和符號進行分類：ascii碼中的內容用1個字節保存、歐洲的字符用2個字節保存，東亞的字符用3個字節保存...

因此，python解釋器在加載 .py 文件中的代碼時，會對內容進行編碼（默認ascill），若是是以下代碼的話：

報錯：ascii碼沒法表示中文

#!/usr/bin/env python
  
print "你好，世界

改正：應該顯示的告訴python解釋器，用什麼編碼來執行源代碼，即：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
  
print "你好，世界"

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。