PYTHON編碼處理-str與Unicode的區別

整理下python編碼相關的內容python

注意: 如下討論爲Python2.x版本, Py3k的待嘗試數據庫

開始

用python處理中文時，讀取文件或消息，http參數等等python2.7

一運行，發現亂碼(字符串處理，讀寫文件，print)編輯器

而後，大多數人的作法是，調用encode/decode進行調試，並無明確思考爲什麼出現亂碼ide

因此調試時最常出現的錯誤ui

錯誤1編碼

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(128)

錯誤2url

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

首先

必須有大致概念，瞭解下字符集，字符編碼spa

ASCII | Unicode | UTF-8 | 等等

字符編碼筆記：ASCII，Unicode和UTF-8

淘寶搜索技術博客-中文編碼雜談

str 和 unicode

str和unicode都是basestring的子類

因此有判斷是不是字符串的方法

def is_str(s):     return isinstance(s, basestring)

str和unicode 轉換

decode 文檔

encode 文檔

str  -> decode('the_coding_of_str') -> unicode unicode -> encode('the_coding_you_want') -> str

區別

str是字節串，由unicode通過編碼(encode)後的字節組成的

聲明方式

s = '中文' s = u'中文'.encode('utf-8')  >>> type('中文') <type 'str'>

求長度(返回字節數)

>>> u'中文'.encode('utf-8') '\xe4\xb8\xad\xe6\x96\x87' >>> len(u'中文'.encode('utf-8')) 6

unicode纔是真正意義上的字符串，由字符組成

聲明方式

s = u'中文' s = '中文'.decode('utf-8') s = unicode('中文', 'utf-8')  >>> type(u'中文') <type 'unicode'>

求長度(返回字符數),在邏輯中真正想要用的

>>> u'中文' u'\u4e2d\u6587' >>> len(u'中文') 2

結論

搞明白要處理的是str仍是unicode, 使用對的處理方法(str.decode/unicode.encode)

下面是判斷是否爲unicode/str的方法

>>> isinstance(u'中文', unicode) True >>> isinstance('中文', unicode) False  >>> isinstance('中文', str) True >>> isinstance(u'中文', str) False

簡單原則：不要對str使用encode，不要對unicode使用decode (事實上能夠對str進行encode的，具體見最後，爲了保證簡單，不建議)

>>> '中文'.encode('utf-8') Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)  >>> u'中文'.decode('utf-8') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

不一樣編碼轉換,使用unicode做爲中間編碼

#s是code_A的str s.decode('code_A').encode('code_B')

文件處理,IDE和控制檯

處理流程，能夠這麼使用，把python看作一個水池，一個入口，一個出口

入口處，所有轉成unicode, 池裏所有使用unicode處理，出口處，再轉成目標編碼(固然，有例外，處理邏輯中要用到具體編碼的狀況)

讀文件  外部輸入編碼，decode轉成unicode  處理(內部編碼，統一unicode)  encode轉成須要的目標編碼  寫到目標輸出(文件或控制檯)

IDE和控制檯報錯，緣由是print時，編碼和IDE自身編碼不一致致使

輸出時將編碼轉換成一致的就能夠正常輸出

>>> print u'中文'.encode('gbk') ���� >>> print u'中文'.encode('utf-8') 中文

建議

規範編碼

統一編碼，防止因爲某個環節產生的亂碼

環境編碼，IDE/文本編輯器, 文件編碼，數據庫數據表編碼

保證代碼源文件編碼

這個很重要

py文件默認編碼是ASCII, 在源代碼文件中，若是用到非ASCII字符，須要在文件頭部進行編碼聲明文檔

不聲明的話，輸入非ASCII會遇到的錯誤,必須放在文件第一行或第二行

File "XXX.py", line 3 SyntaxError: Non-ASCII character '\xd6' in file c.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

聲明方法

# -*- coding: utf-8 -*- 或者 #coding=utf-8

若頭部聲明coding=utf-8, a = '中文' 其編碼爲utf-8

若頭部聲明coding=gb2312, a = '中文' 其編碼爲gbk

so, 同一項目中全部源文件頭部統一一個編碼,而且聲明的編碼要和源文件保存的編碼一致(編輯器相關)

在源代碼用做處理的硬編碼字符串，統一用unicode

將其類型和源文件自己的編碼隔離開, 獨立無依賴方便流程中各個位置處理

if s == u'中文':  #而不是 s == '中文'     pass #注意這裏 s到這裏時，確保轉爲unicode

以上幾步搞定後，你只須要關注兩個 unicode和你設定的編碼(通常使用utf-8)

處理順序

1. Decode early 2. Unicode everywhere 3. Encode later

PYTHON編碼處理-str與Unicode的區別

開始

首先

str 和 unicode

文件處理,IDE和控制檯

建議

相關模塊及一些方法