字符串處理是很是經常使用的技能,但 Python 內置字符串方法太多,經常遺忘,爲了便於快速參考,特意依據 Python 3.5.1 給每一個內置方法寫了示例並進行了歸類,便於你們索引。
PS: 能夠點擊概覽內的綠色標題進入相應分類或者經過右側邊欄文章目錄快速索引相應方法。html
str.capitalize()python
str.lower()git
str.casefold()web
str.swapcase()數據庫
str.title()segmentfault
str.upper()api
str.center(width[, fillchar])app
str.ljust(width[, fillchar]); str.rjust(width[, fillchar])ide
str.zfill(width)編碼
str.expandtabs(tabsize=8)
str.format(^args, ^^kwargs)
str.format_map(mapping)
str.count(sub[, start[, end]])
str.find(sub[, start[, end]]); str.rfind(sub[, start[, end]])
str.index(sub[, start[, end]]); str.rindex(sub[, start[, end]])
str.replace(old, new[, count])
str.lstrip([chars]); str.rstrip([chars]); str.strip([chars])
static str.maketrans(x[, y[, z]]); str.translate(table)
str.join(iterable)
str.partition(sep); str.rpartition(sep)
str.split(sep=None, maxsplit=-1); str.rsplit(sep=None, maxsplit=-1)
str.splitlines([keepends])
str.endswith(suffix[, start[, end]]); str.startswith(prefix[, start[, end]])
str.isalnum()
str.isalpha()
str.isdecimal(); str.isdigit(); str.isnumeric()
str.isidentifier()
str.islower()
str.isprintable()
str.isspace()
str.istitle()
str.isupper()
str.encode(encoding="utf-8", errors="strict")
將首字母轉換成大寫,須要注意的是若是首字沒有大寫形式,則返回原字符串。
'adi dog'.capitalize() # 'Adi dog' 'abcd 徐'.capitalize() # 'Abcd 徐' '徐 abcd'.capitalize() # '徐 abcd' 'ß'.capitalize() # 'SS'
將字符串轉換成小寫,其僅對 ASCII
編碼的字母有效。
'DOBI'.lower() # 'dobi' 'ß'.lower() # 'ß' 爲德語小寫字母,其有另外一種小寫 'ss', lower 方法沒法轉換 # 'ß' '徐 ABCD'.lower() # '徐 abcd'
將字符串轉換成小寫,Unicode 編碼中凡有對應的小寫形式的,都會轉換。
'DOBI'.casefold() # 'dobi' 'ß'.casefold() #德語中小寫字母 ß 等同於小寫字母 ss, 其大寫爲 SS # 'ss'
對字符串字母的大小寫進行反轉。
'徐Dobi a123 ß'.swapcase() #: '徐dOBI A123 SS' 這裏的 ß 被轉成 SS 是一種大寫
但須要注意的是 s.swapcase().swapcase() == s
不必定爲真:
u'\xb5' # 'µ' u'\xb5'.swapcase() # 'Μ' u'\xb5'.swapcase().swapcase() # 'μ' hex(ord(u'\xb5'.swapcase().swapcase())) Out[154]: '0x3bc'
這裏 'Μ'
(是 mu 不是 M) 的小寫正好與 'μ'
的寫法一致。
將字符串中每一個「單詞」首字母大寫。其判斷「單詞」的依據則是基於空格和標點,因此應對英文撇好全部格或一些英文大寫的簡寫時,會出錯。
'Hello world'.title() # 'Hello World' '中文abc def 12gh'.title() # '中文Abc Def 12Gh' # 但這個方法並不完美: "they're bill's friends from the UK".title() # "They'Re Bill'S Friends From The Uk"
將字符串全部字母變爲大寫,會自動忽略不可轉成大寫的字符。
'中文abc def 12gh'.upper() # '中文ABC DEF 12GH'
須要注意的是 s.upper().isupper()
不必定爲 True
。
將字符串按照給定的寬度居中顯示,能夠給定特定的字符填充多餘的長度,若是指定的長度小於字符串長度,則返回原字符串。
'12345'.center(10, '*') # '**12345***' '12345'.center(10) # ' 12345 '
返回指定長度的字符串,字符串內容居左(右)若是長度小於字符串長度,則返回原始字符串,默認填充爲 ASCII 空格,可指定填充的字符串。
'dobi'.ljust(10) # 'dobi ' 'dobi'.ljust(10, '~') # 'dobi~~~~~~' 'dobi'.ljust(3, '~') # 'dobi' 'dobi'.ljust(3) # 'dobi'
用 '0' 填充字符串,並返回指定寬度的字符串。
"42".zfill(5) # '00042' "-42".zfill(5) # '-0042' 'dd'.zfill(5) # '000dd' '--'.zfill(5) # '-000-' ' '.zfill(5) # '0000 ' ''.zfill(5) # '00000' 'dddddddd'.zfill(5) # 'dddddddd'
用指定的空格替代橫向製表符,使得相鄰字符串之間的間距保持在指定的空格數之內。
tab = '1\t23\t456\t7890\t1112131415\t161718192021' tab.expandtabs() # '1 23 456 7890 1112131415 161718192021' # '123456781234567812345678123456781234567812345678' 注意空格的計數與上面輸出位置的關係 tab.expandtabs(4) # '1 23 456 7890 1112131415 161718192021' # '12341234123412341234123412341234'
格式化字符串的語法比較繁多,官方文檔已經有比較詳細的 examples,這裏就不寫例子了,想了解的童鞋能夠直接戳這裏 Format examples.
相似 str.format(*args, **kwargs)
,不一樣的是 mapping
是一個字典對象。
People = {'name':'john', 'age':56} 'My name is {name},i am {age} old'.format_map(People) # 'My name is john,i am 56 old'
text = 'outer protective covering' text.count('e') # 4 text.count('e', 5, 11) # 1 text.count('e', 5, 10) # 0
text = 'outer protective covering' text.find('er') # 3 text.find('to') # -1 text.find('er', 3) Out[121]: 3 text.find('er', 4) Out[122]: 20 text.find('er', 4, 21) Out[123]: -1 text.find('er', 4, 22) Out[124]: 20 text.rfind('er') Out[125]: 20 text.rfind('er', 20) Out[126]: 20 text.rfind('er', 20, 21) Out[129]: -1
與 find()
rfind()
相似,不一樣的是若是找不到,就會引起 ValueError
。
'dog wow wow jiao'.replace('wow', 'wang') # 'dog wang wang jiao' 'dog wow wow jiao'.replace('wow', 'wang', 1) # 'dog wang wow jiao' 'dog wow wow jiao'.replace('wow', 'wang', 0) # 'dog wow wow jiao' 'dog wow wow jiao'.replace('wow', 'wang', 2) # 'dog wang wang jiao' 'dog wow wow jiao'.replace('wow', 'wang', 3) # 'dog wang wang jiao'
' dobi'.lstrip() # 'dobi' 'db.kun.ac.cn'.lstrip('dbk') # '.kun.ac.cn' ' dobi '.rstrip() # ' dobi' 'db.kun.ac.cn'.rstrip('acn') # 'db.kun.ac.' ' dobi '.strip() # 'dobi' 'db.kun.ac.cn'.strip('db.c') # 'kun.ac.cn' 'db.kun.ac.cn'.strip('cbd.un') # 'kun.a'
maktrans
是一個靜態方法,用於生成一個對照表,以供 translate
使用。
若是 maktrans
僅一個參數,則該參數必須是一個字典,字典的 key 要麼是一個 Unicode 編碼(一個整數),要麼是一個長度爲 1 的字符串,字典的 value 則能夠是任意字符串、None
或者 Unicode 編碼。
a = 'dobi' ord('o') # 111 ord('a') # 97 hex(ord('狗')) # '0x72d7' b = {'d':'dobi', 111:' is ', 'b':97, 'i':'\u72d7\u72d7'} table = str.maketrans(b) a.translate(table) # 'dobi is a狗狗'
若是 maktrans
有兩個參數,則兩個參數造成映射,且兩個字符串必須是長度相等;若是有第三個參數,則第三個參數也必須是字符串,該字符串將自動映射到 None
:
a = 'dobi is a dog' table = str.maketrans('dobi', 'alph') a.translate(table) # 'alph hs a alg' table = str.maketrans('dobi', 'alph', 'o') a.translate(table) # 'aph hs a ag'
用指定的字符串,鏈接元素爲字符串的可迭代對象。
'-'.join(['2012', '3', '12']) # '2012-3-12' '-'.join([2012, 3, 12]) # TypeError: sequence item 0: expected str instance, int found '-'.join(['2012', '3', b'12']) #bytes 爲非字符串 # TypeError: sequence item 2: expected str instance, bytes found '-'.join(['2012']) # '2012' '-'.join([]) # '' '-'.join([None]) # TypeError: sequence item 0: expected str instance, NoneType found '-'.join(['']) # '' ','.join({'dobi':'dog', 'polly':'bird'}) # 'dobi,polly' ','.join({'dobi':'dog', 'polly':'bird'}.values()) # 'dog,bird'
'dog wow wow jiao'.partition('wow') # ('dog ', 'wow', ' wow jiao') 'dog wow wow jiao'.partition('dog') # ('', 'dog', ' wow wow jiao') 'dog wow wow jiao'.partition('jiao') # ('dog wow wow ', 'jiao', '') 'dog wow wow jiao'.partition('ww') # ('dog wow wow jiao', '', '') 'dog wow wow jiao'.rpartition('wow') Out[131]: ('dog wow ', 'wow', ' jiao') 'dog wow wow jiao'.rpartition('dog') Out[132]: ('', 'dog', ' wow wow jiao') 'dog wow wow jiao'.rpartition('jiao') Out[133]: ('dog wow wow ', 'jiao', '') 'dog wow wow jiao'.rpartition('ww') Out[135]: ('', '', 'dog wow wow jiao')
'1,2,3'.split(','), '1, 2, 3'.rsplit() # (['1', '2', '3'], ['1,', '2,', '3']) '1,2,3'.split(',', maxsplit=1), '1,2,3'.rsplit(',', maxsplit=1) # (['1', '2,3'], ['1,2', '3']) '1 2 3'.split(), '1 2 3'.rsplit() # (['1', '2', '3'], ['1', '2', '3']) '1 2 3'.split(maxsplit=1), '1 2 3'.rsplit(maxsplit=1) # (['1', '2 3'], ['1 2', '3']) ' 1 2 3 '.split() # ['1', '2', '3'] '1,2,,3,'.split(','), '1,2,,3,'.rsplit(',') # (['1', '2', '', '3', ''], ['1', '2', '', '3', '']) ''.split() # [] ''.split('a') # [''] 'bcd'.split('a') # ['bcd'] 'bcd'.split(None) # ['bcd']
字符串以行界符爲分隔符拆分爲列表;當 keepends
爲True
,拆分後保留行界符,能被識別的行界符見官方文檔。
'ab c\n\nde fg\rkl\r\n'.splitlines() # ['ab c', '', 'de fg', 'kl'] 'ab c\n\nde fg\rkl\r\n'.splitlines(keepends=True) # ['ab c\n', '\n', 'de fg\r', 'kl\r\n'] "".splitlines(), ''.split('\n') #注意二者的區別 # ([], ['']) "One line\n".splitlines() # (['One line'], ['Two lines', ''])
text = 'outer protective covering' text.endswith('ing') # True text.endswith(('gin', 'ing')) # True text.endswith('ter', 2, 5) # True text.endswith('ter', 2, 4) # False
字符串和數字的任意組合,即爲真,簡而言之:
只要 c.isalpha()
, c.isdecimal()
, c.isdigit()
, c.isnumeric()
中任意一個爲真,則 c.isalnum()
爲真。
'dobi'.isalnum() # True 'dobi123'.isalnum() # True '123'.isalnum() # True '徐'.isalnum() # True 'dobi_123'.isalnum() # False 'dobi 123'.isalnum() # False '%'.isalnum() # False
Unicode 字符數據庫中做爲 「Letter」(這些字符通常具備 「Lm」, 「Lt」, 「Lu」, 「Ll」, or 「Lo」 等標識,不一樣於 Alphabetic) 的,均爲真。
'dobi'.isalpha() # True 'do bi'.isalpha() # False 'dobi123'.isalpha() # False '徐'.isalpha() # True
三個方法的區別在於對 Unicode 通用標識的真值判斷範圍不一樣:
isdecimal
: Nd,isdigit
: No, Nd,isnumeric
: No, Nd, Nl
digit
與 decimal
的區別在於有些數值字符串,是 digit
卻非 decimal
,具體戳 這裏
num = '\u2155' print(num) # ⅕ num.isdecimal(), num.isdigit(), num.isnumeric() # (False, False, True) num = '\u00B2' print(num) # ² num.isdecimal(), num.isdigit(), num.isnumeric() # (False, True, True) num = "1" #unicode num.isdecimal(), num.isdigit(), num.isnumeric() # (Ture, True, True) num = "'Ⅶ'" num.isdecimal(), num.isdigit(), num.isnumeric() # (False, False, True) num = "十" num.isdecimal(), num.isdigit(), num.isnumeric() # (False, False, True) num = b"1" # byte num.isdigit() # True num.isdecimal() # AttributeError 'bytes' object has no attribute 'isdecimal' num.isnumeric() # AttributeError 'bytes' object has no attribute 'isnumeric'
判斷字符串是否可爲合法的標識符。
'def'.isidentifier() # True 'with'.isidentifier() # True 'false'.isidentifier() # True 'dobi_123'.isidentifier() # True 'dobi 123'.isidentifier() # False '123'.isidentifier() # False
'徐'.islower() # False 'ß'.islower() #德語大寫字母 # False 'a徐'.islower() # True 'ss'.islower() # True '23'.islower() # False 'Ab'.islower() # False
判斷字符串的全部字符都是可打印字符或字符串爲空。Unicode 字符集中 「Other」 「Separator」 類別的字符爲不可打印的字符(但不包括 ASCII 的空格(0x20))。
'dobi123'.isprintable() # True 'dobi123\n'.isprintable() Out[24]: False 'dobi 123'.isprintable() # True 'dobi.123'.isprintable() # True ''.isprintable() # True
判斷字符串中是否至少有一個字符,而且全部字符都是空白字符。
In [29]: '\r\n\t'.isspace() Out[29]: True In [30]: ''.isspace() Out[30]: False In [31]: ' '.isspace() Out[31]: True
判斷字符串中的字符是不是首字母大寫,其會忽視非字母字符。
'How Python Works'.istitle() # True 'How Python WORKS'.istitle() # False 'how python works'.istitle() # False 'How Python Works'.istitle() # True ' '.istitle() # False ''.istitle() # False 'A'.istitle() # True 'a'.istitle() # False '甩甩Abc Def 123'.istitle() # True
'徐'.isupper() # False 'DOBI'.isupper() Out[41]: True 'Dobi'.isupper() # False 'DOBI123'.isupper() # True 'DOBI 123'.isupper() # True 'DOBI\t 123'.isupper() # True 'DOBI_123'.isupper() # True '_123'.isupper() # False
fname = '徐' fname.encode('ascii') # UnicodeEncodeError: 'ascii' codec can't encode character '\u5f90'... fname.encode('ascii', 'replace') # b'?' fname.encode('ascii', 'ignore') # b'' fname.encode('ascii', 'xmlcharrefreplace') # b'徐' fname.encode('ascii', 'backslashreplace') # b'\\u5f90'