Python re 模塊

RE模塊

Jamie Zawinski said:
Some people,when confronted with a problem,think,"I know,I'll use regular expressions."
Now they have two problem!正則表達式

當人們遇到一個問題,想到用正則表達式解決時。他們的問題立刻就變成了兩個問題
調侃正則表達式很差學。express

功能

  1. python支持正則表達式是經過re模塊
  2. Regular Expressions 也叫 REs,regex,regexp,regex patterns。看見這些名字就知道是正則表達式
  3. Regex本質是一個小型的,高度專業的編程語言。不少高級語言都嵌入了Regex,Python只是經過re模塊來讓python能夠支持Regex。
  4. re模塊提供Perl風格的正則表達式模式。
  5. For advanced use ,it may be necessary to pay careful attention to how the engine will execute a given RE, and write the RE in a certain way in order to produce bytecode that runs faster.
  6. 正則表達式不是全能的,也有一些處理不了的字符任務。
  7. 正則表達式是對某種字符串的表示。一個字符串符合一個正則表達式規則,咱們就說這個字符串匹配該正則表達式。(注意:區分部分匹配全匹配,都叫匹配,根據具體場景上下文環境理解匹配是部分仍是全匹配。)
  8. 匹配事後就能夠作不少事情了。正則經常使用於處理:
    • 替換:將字符串中匹配到正則表達式的進行替換
    • 截取:將匹配的從字符串截取掉。根據start,end索引截取
    • 匹配邏輯判斷:匹配search ,match等
    • 計數:使用finditer迭代記性迭代計數,其它方式也行
    • 過濾:經過匹配結果bool進行過濾
    • 包含:search
    • 全匹配:fullmatch
    • 分隔:split

注意:編程

  1. Python中的字符串是支持轉義符的,因此要特別注意正則表達式在python中也是用字符串標識而正則表達式也是支持轉移字符的,因此避免python字符串將轉移解析,就須要給python指示出正則表達式字符串中的轉移字符是正則用的,而不是python字符串所用,就須要這樣作r'partten',這樣正則表達式中的字符都是沒有特殊功能。如:r'\n'是兩個字符,'\n'是一個字符,表明換行符。
  2. 正則和須要匹配的字符串,都是要Unicode string 或 8-bit string。兩種是不能混合使用。

正則表達式語法

  • 表達式串表達式
  • 複雜表達式能夠由簡單表達式構成
  • 正則表達式的貪婪greedy和非貪婪non-greedy
    • 是說'+' '*' '?'等多態數量指定的是貪婪匹配,會去匹配儘量大的範圍。
    • 給這三個加上'?',就是非貪婪,回去匹配儘量小的範圍。
  • 正則表達式包含特殊字符和普通字符
    • 普通字符
      • 什麼'A' 'B' 'c' 'd';什麼'last' 'next' 'hello' 由普通字符串連起來的。
    • 特殊字符
      • 像 '.' '()' '|' 等
special character means comments
'.' 點號,表明全部字符除了newline換行符 若是設置了DOTALL flag標識,那就會包含newline
'^' 表明字符串的開始,The start of the string In MULTLINE mode在多行模式也匹配每一個newline的結尾處
'$' 匹配the end of the string or just befor the newline at the end of the string In MULTILINE mode also matches before a newline.
'\b' 不匹配任何字符串,匹配單詞的開頭或結尾 如r'\bfoo\b' 能匹配 'foo','foo.','(foo)','bar foo bar',可是不能匹配'foobar'
'\B' 不匹配任何字符串,是\b的反義
__'*'__ 匹配 0個或 屢次重複 這個符號前面的RE 貪婪
'+' 匹配 1個或 屢次重複 這個符號前面的RE 貪婪,注意是前面的一個RE,一個普通字符就是一個RE不是全部,是最小單位的一個RE.如 ab+ 匹配的是ab or abbb... 而不是ababab
'?' 匹配 0個或 1次重複 這個符號前面的RE 貪婪
__'*?,??,+?'__ 禁掉*,?,+的貪婪,取他們能匹配的最小範圍 非貪婪
'{m}' 指定數量重複 這個符號前面的RE 非貪婪
'{m,n}' 指定m到n數量重複 這個符號前面的RE 貪婪 ,n若是不指定的話,至少m個重複RE
'{m,n}?' 指定m到n數量重複 這個符號前面的RE,可是至匹配最小數量 非貪婪
'' 轉義特殊字符 即然特殊字符表示其字面義
'[]' Used to indicate a set of characters 特殊字符在[]中會沒有特殊意義;可是^符號在[]中若是是第一個字符,那麼^是有意義的,這裏不是表示字符串的開頭,而是取反取補集 .而且在[]除了開頭的^惡化]符號是有各自的意義
'|' 兩邊是RE,匹配左邊或者右邊,或關係 非貪婪,從左到右匹配
'\w' 匹配字母+數字+下劃線
'\W' 匹配非字母數字下劃線,\w的補集
'\d' 匹配任意數字 等價於[0-9]
'\D' 匹配任意非數字
'\s' 匹配任意空白字符 等價[\t\n\r\f]
'\num' 數字表示引用的分組
'(?P=name) name表示引用的分組名

等等等等。。。。api

分組

使用分組能夠將分組中匹配的子串提取出來。這就是分組最大的好處了吧。這樣的話若是隻是想提取某個字符串,可是又要根據其上下文才能肯定這個匹配。那麼就使用分組再將上下文內容寫到partten中,最後從math對象中能夠獲得分組中的內容。
因此正則分組和Python re模塊的match對象是一塊兒工做的。編程語言

以下,若是想提取for 後面的城市,這裏例子是Beijing,for後面城市是可變的,那麼要提取就須要匹配城市先後的for和,號,要獲得城市就將城市的放到分組中:函數

<title>
Conditions for Beijing, Beijing, CN at 09:00 AM CST
</title>

提取代碼:spa

import re
xml_str = '''<title>
Conditions for Beijing, Beijing, CN at 09:00 AM CST
</title>'''

prog = re.compile(r'Conditions for\s(?P<city>\w+),')  # 將regex編譯
city_match = prog.search(xml_str)  # 獲得match對象
city_name = city_match.group('city')  # 從match對象中獲取組中的匹配字符串
print(city_name)

運行結果:code

Beijingregexp

上面的例子分組使用了命名分組表示法,也能夠直接用()表示,這樣在後面match的group調用時就會使用分組偏移量來做爲參數了,上面的代碼使用非命名分組表示,代碼能夠改成:

import re
xml_str = '''<title>
Conditions for Beijing, Beijing, CN at 09:00 AM CST
</title>'''

prog = re.compile(r'Conditions for\s(\w+),')  # 這裏使用了普通分組表示
city_match = prog.search(xml_str)  # 獲得match對象
city_name = city_match.group(1)  # 使用分組的偏移量來做爲參數,這裏是1
print(city_name)

總結一下分組

  • 分組能夠表示使用命名分組和非命名分組(普通分組)
    • 普通表示:(pattern) 命名錶示:(?P< groupname>partten)
  • 分組還能夠引用
    • 普通引用: \num 命名引用: (?P=groupname)
  • match對命名分組的訪問,使用非命名方式訪問也是支持的。

re 模塊提供的API

  • re.compile(partten,flag) 返回一個regex對象,regex對象支持不少模塊級的函數相同功能的方法,如prog.search(str),prog.match(str)...等等。->返回一個regular expression 對象
  • re.search(partten,string,flag) 掃描字符串,找到第一個符合正則表達式匹配的字符,匹配到並返回match對象,一個都沒匹配到返回None。
  • re.match(partten,string,flag) 從字符串開始匹配partten,若是匹配到返回match對象,不然返回None。
  • re.split(partten,string,maxsplite=0,flag=0) 將string中全部匹配的上partten的做爲字符串的分隔符進行分隔字符串。若是一個沒匹配上返回列表中只有string一個字符串。若是匹配上就分隔返回分隔後元素組成的列表。maxsplit指定字符串最多能夠分割的次數。還要特別注意,若是partten中是用了分組,那麼分組將出如今最後分隔列表中,每一個元素之間。就是將分組中匹配到的也添加到列表中。
  • re.findall(partten,string,flag=0) 返回一個列表,將字符串總全部匹配上模式的都出道列表中。
  • re.sub(pattern, repl, string , count=0, flags=0) 將 string中匹配到partten的替換爲repl。count指定匹配多少個。返回替換後的字符串。repl也能夠是一個函數,接受一個字符串,返回一個字符串。函數是很是有用的,能夠添加邏輯判斷。這個頗有用的!!!
  • re.escape(str) 將str中處在在正則表達式中有特殊意義的字符進行轉移。返回轉移後的字符串。
  • re.fullmatch(partten, string, flags=0) 整個字符串都匹配partten,就返回re對象,不然返回None。
  • re.finditer(partten, string, flags=0) 返回一個生成器,生成器每次next()返回的是一個match對象,這個match對象是依次正則匹配上的。

正則表達式對象 Regular Expression Object

正則表達式對象:

  • 就是經過re.compile(partte)返回的對象
  • 若是一個正則表達式在代碼中屢次被使用,那麼最好將其編譯成正則對象,這樣代碼運行效率更快。
  • 正則對象擁有re模塊全部的的函數對應的方法
  • 這這表達式還有屬性prog.groups 是正則對象包含的分組數
  • prog.groupindex 是命名分組名和組id的一個字典

正則匹配後的 Match Object

匹配對象的API:

  • re模塊search,match,fullmatch以及finditer的生成器返回的,這些將匹配上的都做爲一個match對象返回
  • match對象存儲了匹配上的字符串。而且若是正則表達式有分組的話,那麼還會按照分組進行邏輯上的分組存儲,提供group()方法進行分組訪問。
  • match.group([group1,...]) 參數爲組的偏移值,第一個組那麼是1,第二個組那麼是2,依次類推。若是不帶參數或者參數偏移爲0,那麼返回整個正則匹配的字符串。若是是單個組的偏移量,那麼就是某個組的字符串。若是是多個組的偏移,那麼就將多個組匹配的字符串組成的元組返回。
  • match.group() 若是正則表達式是命名組,那麼也支持名字訪問組值。也支持索引。
  • 若是group是貪婪的,那麼已最後一次匹配爲該組的值。
  • match.groups() 返回全部的組所構成的元組,這個方法的參數是默認值,用在某個主沒匹配上任何字符。
  • match.groupdict() 返回命名組字典,也是能夠傳入一個默認值參數,當某個組沒有匹配上。
  • 注意group()返回匹配的字符串,就算沒有分組。而groups()必須有分組纔會有值,否則是空元組,groupdict()返回空字典
  • match.start() 匹配上字符串的開始位置
  • match.end() 匹配上字符串的結束位置
  • match.span() 返回起始位置構成的元組

re模塊使用例子

參考官方手冊re模塊例子

  • 手機格式 1\d{10}
  • 郵箱格式 r"^\w+(.?\w+)@(\w+.)\w+$"
  • 帶名字郵箱地址格式
  • IPv4地址

注意

  • 正則表達式,在有可變長的貪婪配置時,必定要考慮好後面的匹配會影響可變長表達式所能匹配到的範圍。
  • 正則表達式中反斜槓字符的表示。因爲字符要進行轉義,轉移的字符又要進行轉義,因此轉義一個反斜槓須要四個反斜槓或者r"\" r加三個反斜槓。
相關文章
相關標籤/搜索