python 編碼問題

unicode

全部語言的字符都用同一種字符集來表示. 就是unicode.
ASCII佔一個字節
UTF-8是針對中文的字符,佔2~4個字節html

  1. python中的 str和unicode
    str和unicode都是basestring的子類。嚴格意義上說,str實際上是字節串,它是unicode通過編碼後的字節組成的序列。對UTF-8編碼的str'漢'使用len()函數時,結果是3,由於實際上,UTF-8編碼的'漢' == '\xE6\xB1\x89'。str調用encode()方法是錯誤的,對unicode調用decode()方法也是錯誤的。
  2. 字符編碼聲明 源代碼文件中,若是有用到非ASCII字符,則須要在文件頭部進行字符編碼的聲明,以下: #-- coding: UTF-8 --
    實際上Python只檢查#、coding和編碼字符串,其餘的字符都是爲了美觀加上的.

摘自[http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html][1] [1]: http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.htmlpython

相關文章
相關標籤/搜索