Python 字符編碼問題

時間 2019-11-06

原文原文鏈接

python對多國語言的處理是支持的很好的，它能夠處理如今任意編碼的字符，這裏深刻的研究一下python對多種不一樣語言的處理。
    有一點須要清楚的是，當python要作編碼轉換的時候，會藉助於內部的編碼，轉換過程是這樣的：
        原有編碼 -> 內部編碼 -> 目的編碼
    python的內部是使用unicode來處理的，可是unicode的使用須要考慮的是它的編碼格式有兩種，一是UCS-2，它一共有65536個碼位，另外一種是UCS-4，它有2147483648g個碼位。對於這兩種格式，python都是支持的，這個是在編譯時經過--enable- unicode=ucs2或--enable-unicode=ucs4來指定的。那麼咱們本身默認安裝的python有的什麼編碼怎麼來肯定呢？有一個辦法，就是經過sys.maxunicode的值來判斷：python

import sys
print sys.maxunicode函數

若是輸出的值爲65535,那麼就是UCS-2,若是輸出是1114111就是UCS-4編碼。
咱們要認識到一點：當一個字符串轉換爲內部編碼後，它就不是str類型了！它是unicode類型：編碼

a  =   " 風捲殘雲 "
print  type(a)
b  =  a.unicode(a,  " gb2312 " )
print  type(b)code

輸出：

這個時候b能夠方便的任意轉換爲其餘編碼，好比轉換爲utf-8:接口

c = b.encode( " utf-8 " )
print cutf-8

c輸出的東西看起來是亂碼，那就對了，由於是utf-8的字符串。
好了，該說說codecs模塊了，它和我上面說的概念是密切相關的。codecs專門用做編碼轉換，固然，其實經過它的接口是能夠擴展到其餘關於代碼方面的轉換的，這個東西這裏不涉及。unicode

# -*- encoding: gb2312 -*-
import  codecs, sys

print   ' - ' * 60
#  建立gb2312編碼器
look   =  codecs.lookup( " gb2312 " )
#  建立utf-8編碼器
look2  =  codecs.lookup( " utf-8 " )

a  =   " 我愛北京 "

print  len(a), a
#  把a編碼爲內部的unicode, 但爲何方法名爲decode呢，個人理解是把gb2312的字符串解碼爲unicode
b  =  look.decode(a)
#  返回的b[0]是數據，b[1]是長度，這個時候的類型是unicode了
print  b[ 1 ], b[0], type(b[0])
#  把內部編碼的unicode轉換爲gb2312編碼的字符串，encode方法會返回一個字符串類型
b2  =  look.encode(b[0])
#  發現不同的地方了吧？轉換回來以後，字符串長度由14變爲了7! 如今的返回的長度纔是真正的字數，原來的是字節數
print  b2[ 1 ], b2[0], type(b2[0])
#  雖然上面返回了字數，但並不意味着用len求b2[0]的長度就是7了，仍然仍是14，僅僅是codecs.encode會統計字數
print  len(b2[0])字符串

上面的代碼就是codecs的使用，是最多見的用法。另外還有一個問題就是，若是咱們處理的文件裏的字符編碼是其餘類型的呢？這個讀取進行作處理也須要特殊的處理的。codecs也提供了方法.字符編碼

# -*- encoding: gb2312 -*-
import  codecs, sys

#  用codecs提供的open方法來指定打開的文件的語言編碼，它會在讀取的時候自動轉換爲內部unicode
bfile  =  codecs.open( " dddd.txt " ,  ' r ' ,  " big5 " )
# bfile = open("dddd.txt", 'r')

ss  =  bfile.read()
bfile.close()
#  輸出，這個時候看到的就是轉換後的結果。若是使用語言內建的open函數來打開文件，這裏看到的一定是亂碼
print  ss, type(ss)編譯