python 編碼問題

時間 2019-12-05

標籤 python 編碼問題欄目 Python 简体版

原文原文鏈接

全部語言的字符都用同一種字符集來表示. 就是unicode.
ASCII佔一個字節
UTF-8是針對中文的字符，佔2～4個字節html

python中的 str和unicode
str和unicode都是basestring的子類。嚴格意義上說，str實際上是字節串，它是unicode通過編碼後的字節組成的序列。對UTF-8編碼的str'漢'使用len()函數時，結果是3，由於實際上，UTF-8編碼的'漢' == '\xE6\xB1\x89'。str調用encode()方法是錯誤的，對unicode調用decode()方法也是錯誤的。
字符編碼聲明源代碼文件中，若是有用到非ASCII字符，則須要在文件頭部進行字符編碼的聲明，以下： #-- coding: UTF-8 --
實際上Python只檢查#、coding和編碼字符串，其餘的字符都是爲了美觀加上的.