一.引子:python
文件err.txt中有以下內容:正則表達式
要求提取出全部的電話號碼來。app
方法一:文件操做法:spa
f = open('eer.txt','r',encoding='utf-8') l = [] for line in f: name,city,high,weigh,phone = line.split() ### if phone.startswith('1') and len(phone) == 11: l.append(phone) f.close() print(l)
輸出:對象
方法二:正則表達式法:blog
import re f = open('eer.txt','r',encoding='utf-8') data = f.read() phones = re.findall('1[0-9]{10}',data) print(phones)
輸出是同樣的。索引
二.re的匹配語法有如下幾種:utf-8
1. re.match 從頭開始匹配ci
2.re.search 匹配包含字符串
3.re.findall 把全部匹配到的字符放到以列表中的元素返回
4.re.split 以匹配到的字符當作列表分隔符
5.re.sub 匹配字符並替換
6.re.fullmatch 所有匹配
注意:re.match()是從頭開始,也就是說字符串的開頭必須是符合匹配條件的,re.search()是全局匹配,它兩隻能匹配一個。而re.findall()能夠匹配到全部符合條件的字符。另外,re.match()與re.search()返回的是一個對象,而且能夠返回匹配值的索引,而re.findall()只能以列表形式返回符合匹配條件的全部的值。
match方法:
search方法:
search方法返回一個對象,包含索引(match方法也同樣):
findall方法:
三.經常使用的表達式規則:
1 '.' 默認匹配除\n以外的任意一個字符,若指定flag DOTALL,則匹配任意字符,包括換行
2 '^' 匹配字符開頭,若指定flags MULTILINE,這種也能夠匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
3 '$' 匹配字符結尾,若指定:flags MULTILINE ,re.search('foo.$','foo1\nfoo2\n',re.MULTILINE).group() 會匹配到foo1
4 '*' 匹配*號前的字符0次或屢次, re.search('a*','aaaabac') 結果'aaaa'
5 '+' 匹配前一個字符1次或屢次,re.findall("ab+","ab+cd+abb+bba") 結果['ab', 'abb']
6 '?' 匹配前一個字符1次或0次 ,re.search('b?','alex').group() 匹配b 0次
7 '{m}' 匹配前一個字符m次 ,re.search('b{3}','alexbbbs').group() 匹配到'bbb'
8 '{n,m}' 匹配前一個字符n到m次,re.findall("ab{1,3}","abb abc abbcbbb") 結果'abb', 'ab', 'abb']
9 '|' 匹配|左或|右的字符,re.search("abc|ABC","ABCBabcCD").group() 結果'ABC'
10 '(...)' 分組匹配, re.search("(abc){2}a(123|45)", "abcabca456c").group() 結果爲'abcabca45'
11 '\A' 只從字符開頭匹配,re.search("\Aabc","alexabc") 是匹配不到的,至關於re.match('abc',"alexabc") 或^
12 '\Z' 匹配字符結尾,同$
13 '\d' 匹配數字0-9
14 '\D' 匹配非數字
15 '\w' 匹配[A-Za-z0-9]
16 '\W' 匹配非[A-Za-z0-9]
17 '\s' 匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 結果 '\t'
18 '(?P<name>...)' 分組匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict("city") 結果{'province': '3714', 'city': '81', 'birthday': '1993'}