【學習筆記】Python正則表達式

時間 2020-03-29

原文原文鏈接

1、準備知識
\d：匹配一個數字
\w：匹配一個字母
. ：匹配任意字符
\s ：匹配一個空格python

?表示0個或1個字符
+表示至少一個字符
*表示任意個字符（包括0個）
{n}表示n個字符，{n,m}表示n-m個字符ide

[0-9a-zA-Z_]能夠匹配一個數字、字母或者下劃線
(P|p)ython能夠匹配'Python'或者'python'
^py$只能匹配'py'了對象

2、在Python中使用
（1）匹配字符串

import re
re.match(r'^\d{3}-\d{3,8}$', '010-12345')
<_sre.SRE_Match object at 0x1026e18b8>
re.match(r'^\d{3}-\d{3,8}$', '010 12345')input

match()方法判斷是否匹配，若是匹配成功，返回一個Match對象，不然返回Noneit

（2）切分字符串編譯

import re
re.split(r'[\s\,\;]+', 'a,b;; c d')
['a', 'b', 'c', 'd']class

（3）提取子串效率

import re
m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
m.group(0)
'010-12345'
m.groups()
('010', '12345')
m.group(1)
'010'
m.group(2)
'12345'
用()表示的就是要提取的分組（Group），group(0)永遠是原始字符串，group(1)、group(2)……表示第一、二、……個子串email

（4）貪婪匹配
正則匹配默認是貪婪匹配，也就是匹配儘量多的字符。舉例以下，匹配出數字後面的0：

re.match(r'^(\d+)(0)$', '102300').groups()
('102300', '')
因爲\d+採用貪婪匹配，直接把後面的0所有匹配了，結果0只能匹配空字符串了。

必須讓\d+採用非貪婪匹配（也就是儘量少匹配），才能把後面的0匹配出來，加個?就能夠讓\d+採用非貪婪匹配：

re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')

（5）編譯
先編譯-後匹配，提升效率

import re

編譯:

re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')

使用：

re_telephone.match('010-12345').groups()
('010', '12345')
re_telephone.match('010-8086').groups()
('010', '8086')

3、實例
#郵箱匹配
import re

reemail = re.compile(r'^[0-9a-zA-Z][0-9a-zA-Z\.]+\@[0-9a-z]+.(com|cn|org|net)$')

m = re_email.match(email)

if m:print "OK."else:print "You have input a wrong e-mail."