python學習--正則表達式

時間 2020-01-16

原文原文鏈接

正則表達式是一種用來匹配字符串的強有力的工具它的設計思想是用一種描述性的語言來給字符串定義一個規則，凡是符合規則的字符串，咱們就認爲它「匹配」了，不然，該字符串就是不合法的。html

Python支持的正則表達式元字符和語法：python

語法	說明	實例	完整匹配的字符串
通常字符	匹配自身	a1b2c3	a1b2c3
.	匹配任意除換行符'\n'外的字符	l.l	lol\|lpl\|lfl
\	轉義字符，使後一個字符改變原來的意思	l\.l正則表達式 l\\l編程	l.l編程語言 l\lide
[...]	對應的位置能夠是字符集中任意字符，字符集中的字符能夠逐個列出，也能夠給出範圍如[abc]或[a-c],第一個字符若是是^則表示取反如[^abc]表示除abc之外的其餘字符；全部特殊字符在字符集中都是去其原有特殊意義	a[bcd]e	abe函數 ace工具 adespa
\d	數字：[0-9]	a\dc	a2c
\D	非數字：[^\d]	a\Dc	axc
\s	空白字符：[空格,\t\r\n\f\v]	a\sc	a c
\S	非空白字符：[^\s]
\w	單詞字符：[_a-zA-Z0-9]	a\wc	axc

\W	非單詞字符：[^\w]	a\Wc	a c
*	匹配前一個字符0或無限次	abc*	ab設計 abcccccc
+	匹配前一個字符1或無限次	abc+	abc abcccccc
?	匹配前一個字符0或1次	abc?	ab abc
{m}	匹配前一個字符m次	ab{2}c	abbc
{m,n}	匹配前一個字符m至n次；若省略m,匹配0至n次；若省略n，匹配m至無限次	ab{1,2}c	abc abbc
*? +? ?? {m,n}?	使* + ? {m,n}變成非貪婪模式
^	匹配字符串開頭在多行模式中匹配每一行的開頭	^abc	abc
$	匹配字符串末尾在多行模式中匹配每一行的末尾	abc$	abc
\A	僅匹配字符串開頭	\Aabc	abc

\Z	僅匹配字符串末尾	abc\Z	abc
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， 'er\b' 能夠匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\|	左右表達式任意匹配一個老是先嚐試匹配左邊表達式，一旦匹配成功則跳過匹配右邊的表達式	abc\|def	abc def
(...)	被括起來的表達式做爲分組	(abc){2} ab(12\|45)c	abcabc ab45c
(?#...)	#後的內容做爲註釋被忽略	ab(?#com..)123	ab123

反斜槓

與大多數編程語言相同，正則表達式裏使用"\"做爲轉義字符，這就可能形成反斜槓困擾。假如你須要匹配文本中的字符"\"，那麼使用編程語言表示的正則表達式裏將須要4個反斜槓"\\\\"：前兩個和後兩個分別用於在編程語言裏轉義成反斜槓，轉換成兩個反斜槓後再在正則表達式裏轉義成一個反斜槓。Python裏的原生字符串很好地解決了這個問題，這個例子中的正則表達式可使用r"\\"表示。一樣，匹配一個數字的"\\d"能夠寫成r"\d"。有了原生字符串，你不再用擔憂是否是漏寫了反斜槓，寫出來的表達式也更直觀。

看一個例子：\d{3}\s+\d{3,8}

咱們來從左到右解讀一下：

\d{3}表示匹配3個數字，例如'010'；

\s能夠匹配一個空格（也包括Tab等空白符），因此\s+表示至少有一個空格，例如匹配' '，' '等；

\d{3,8}表示3-8個數字，例如'1234567'。

綜合起來，上面的正則表達式能夠匹配以任意個空格隔開的帶區號的電話號碼。

若是要匹配'010-12345'這樣的號碼呢？因爲'-'是特殊字符，在正則表達式中，要用'\'轉義，因此，上面的正則是\d{3}\-\d{3,8}。

進階

要作更精確地匹配，能夠用[]表示範圍，好比：

[0-9a-zA-Z\_]能夠匹配一個數字、字母或者下劃線；

[0-9a-zA-Z\_]+能夠匹配至少由一個數字、字母或者下劃線組成的字符串，好比'a100'，'0_Z'，'Py3000'等等；

[a-zA-Z\_][0-9a-zA-Z\_]*能夠匹配由字母或下劃線開頭，後接任意個由一個數字、字母或者下劃線組成的字符串，也就是Python合法的變量；

[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精確地限制了變量的長度是1-20個字符（前面1個字符+後面最多19個字符）。

A|B能夠匹配A或B，因此[P|p]ython能夠匹配'Python'或者'python'。

^表示行的開頭，^\d表示必須以數字開頭。

$表示行的結束，\d$表示必須以數字結束。

你可能注意到了，py也能夠匹配'python'，可是加上^py$就變成了整行匹配，就只能匹配'py'了。

re模塊

re 模塊使 Python 語言擁有所有的正則表達式功能。

re.match

re.match 嘗試從字符串的開始匹配一個模式。

語法：

re.match(pattern, string, flags=0)

參數說明：

pattern 匹配的正則表達式

string 要匹配的字符串。

flags 標誌位，用於控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等。

匹配成功re.match方法返回一個匹配的對象，不然返回None。

eg:

import re

sss = re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
print(sss)

<_sre.SRE_Match object; span=(0, 9), match='010-12345'>

可使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。

group(num=0) 匹配的整個表達式的字符串，group() 能夠一次輸入多個組號，在這種狀況下它將返回一個包含那些組所對應值的元組。

groups() 返回一個包含全部小組字符串的元組，從 1 到所含的小組號。

eg:

line = "Cats are smarter than dogs"
matchObj = re.match(r'(.*) are (.*?) .*', line)
if matchObj:
    print("matchObj.group() : ", matchObj.group())
    print("matchObj.groups() : ", matchObj.groups())
    print("matchObj.group(1) : ", matchObj.group(1))
    print("matchObj.group(2) : ", matchObj.group(2))
else:
    print("No match!!")
    
    
matchObj.group() : Cats are smarter than dogs
matchObj.groups() : ('Cats', 'smarter')
matchObj.group(1) : Cats
matchObj.group(2) : smarter

re.search

語法：

re.search(pattern, string, flags=0)

re.match只匹配字符串的開始，若是字符串開始不符合正則表達式，則匹配失敗，函數返回None；而re.search匹配整個字符串，直到找到一個匹配。

eg:

import re

line = "Cats are smarter than dogs"
matchObj = re.match(r'are', line)
if matchObj:
    print("are ", matchObj.group())
else:
    print("No match!!")

matchObj = re.search(r'are', line)
if matchObj:
    print("are : ", matchObj.group())
else:
    print("No match!!")
    
    
No match!!
are :  are

切分字符串

語法：

split(string[, maxsplit]) | re.split(pattern, string[, maxsplit]):

按照可以匹配的子串將string分割後返回列表。maxsplit用於指定最大分割次數，不指定將所有分割。

a = re.split(r'\d+', 'one1two2three3four')
print(a)

['one', 'two', 'three', 'four']

s = re.split(r'\s+', 'a b  c    d w')
print(s)
d = re.split(r'[\s\,\;]+', 'a ,a;b,v g,d    , ;')
print(d)

['a', 'b', 'c', 'd', 'w']
['a', 'a', 'b', 'v', 'g', 'd', '']

findall

findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags])

搜索string，以列表形式返回所有能匹配的子串。

u = re.findall(r'\d', 'one1two2three3four4')
print(u)

['1', '2', '3', '4']

finditer

finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags])

搜索string，返回一個順序訪問每個匹配結果（Match對象）的迭代器。

u = re.finditer(r'\d', 'one1two2three3four4')
for i in u:
    print(i.group())
    
1
2
3
4

re.sub用於替換字符串中的匹配項。

語法：

re.sub(pattern, repl, string, max=0)

返回的字符串是在字符串中用 RE 最左邊不重複的匹配來替換。若是模式沒有發現，字符將被沒有改變地返回。

可選參數 count 是模式匹配後替換的最大次數；count 必須是非負整數。缺省值是 0 表示替換全部的匹配

#!/usr/bin/python
import re

phone = "2004-959-559 # This is Phone Number"
num = re.sub(r'#.*', "", phone)
print(num)
nun = re.sub(r'\D', "", num)
print(nun)


2004-959-559 
2004959559

正則表達式很是強大,要講清楚正則的全部內容，能夠寫一本厚厚的書了。若是你常常遇到正則表達式的問題，你可能須要一本正則表達式的參考書。

參考：

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html