python中字符串編碼方式小結

時間 2019-11-20

原文原文鏈接

Python2中字符串的類型有兩種：str和unicode，其中unicode是統一編碼方式，它使得字符跟二進制是一一對應的，所以全部其餘編碼的encode都從unicode開始，而其餘編碼方式按照相應的編碼decode以後也會變成unicode。而utf-8，gbk編碼的字符都是str。html

從一個界面直接輸入的字符串，其默認編碼爲系統的默認編碼方式:(又或者是當前所使用的軟件客戶端的編碼方式：好比XShell的編碼方式)python

>>> import sys
>>> print sys.getdefaultencoding()
ascii

如在windows下是ascii。windows

那麼將其轉化爲unicode：編碼

>>> s =’匆匆’
>>> s
'\xb4\xd2\xb4\xd2'
>>>
>>> s1=s.decode("gbk")
>>>
>>> s1
u'\u5306\u5306'

以後將其編碼爲utf8:spa

>>> S2=s1.encode("utf8")
>>>
>>> S2
'\xe5\x8c\x86\xe5\x8c\x86'

當python頭文件中包含了語句：code

#-*- coding:utf-8 -*-

代碼中輸入的文字默認爲utf8編碼。htm

相關標籤/搜索