python中字符串編碼方式小結

         Python2中字符串的類型有兩種:str和unicode,其中unicode是統一編碼方式,它使得字符跟二進制是一一對應的,所以全部其餘編碼的encode都從unicode開始,而其餘編碼方式按照相應的編碼decode以後也會變成unicode。而utf-8,gbk編碼的字符都是str。html

         從一個界面直接輸入的字符串,其默認編碼爲系統的默認編碼方式:(又或者是當前所使用的軟件客戶端的編碼方式:好比XShell的編碼方式)python

>>> import sys
>>> print sys.getdefaultencoding()
ascii

 

如在windows下是ascii。windows

那麼將其轉化爲unicode:編碼

>>> s =’匆匆’
>>> s
'\xb4\xd2\xb4\xd2'
>>>
>>> s1=s.decode("gbk")
>>>
>>> s1
u'\u5306\u5306'

 

以後將其編碼爲utf8:spa

>>> S2=s1.encode("utf8")
>>>
>>> S2
'\xe5\x8c\x86\xe5\x8c\x86'

 

當python頭文件中包含了語句:code

#-*- coding:utf-8 -*-

 

代碼中輸入的文字默認爲utf8編碼。htm

 

其餘參考:http://www.cnblogs.com/schut/p/8407258.htmlblog

相關文章
相關標籤/搜索