Python基礎教程：-正則表達式基本語法以及re模塊

時間 2019-11-11

標籤 python 基礎教程正則表達式基本語法以及模塊欄目 Python 简体版

原文原文鏈接

正則表達式是個很牛逼的東西，無論是在javascript，仍是在Python web開發（http://www.maiziedu.com/course/python-px...）中，咱們都會遇到正則表達式，雖然javascript和Python的正則表達式區別不大，可是正則表達式是Python中必不可少的一部分，因此今天就跟你們一塊兒討論一下python中的re模塊。
re模塊包含對正則表達式的支持。
什麼是正則：
正則表達式是能夠匹配文本片斷的模式。
正則表達式’Python’能夠匹配’python’
通配符
.表示匹配任何字符：
‘.ython’能夠匹配’python’和’fython’
對特殊字符進行轉義：
‘python\.org’匹配‘python.org’
字符集
‘[pj]ython’可以匹配’python’和’jython’
反轉字符集
‘¹’能夠匹配除了abc以外的任何字符
選擇符
使用管道符號|
可選項
加上問好就變爲了可選項：
r’(http://)?(www.)?python.org‘只能匹配下面幾種：
'http://www.python.org'
'http://python.org'
'www.python.org'
'python.org'
重複子模式
*：容許模式重複0次或屢次
+：容許模式重複1次或屢次
{m, n}容許模式重複m-n次
固然，正則語法規則不少，遠不止上面的這些。可是咱們只能點到爲止了，由於這篇博客的目的是介紹Python中的模塊，re模塊。
re 模塊使 Python 語言擁有所有的正則表達式功能。
compile 函數根據一個模式字符串和可選的標誌參數生成一個正則表達式對象。該對象擁有一系列方法用於正則表達式匹配和替換。
re 模塊也提供了與這些方法功能徹底一致的函數，這些函數使用一個模式字符串作爲它們的第一個參數。
re中重要的函數：
compile(pattern[, flags]) 根據包含正則表達式的字符串建立模式對象
search(pattern, string[, flags]) 在字符串中尋找模式
match(pattern, string[, flags]) 在字符串的開始處匹配模式split(pattern, string[, maxsplit=0]) 根據匹配項分割字符串
findall(pattern, string) 列出字符串中模式的全部匹配項sub(pat, rep, string[, count=0]) 字符串中全部pat的匹配項用repl替換
escape(string) 將字符串中全部特殊表達式字符轉義
下面就進行簡單的應用：
使用match
import re
print(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配
print(re.match('com', 'www.runoob.com')) # 不在起始位置匹配
使用search
import reprint(re.search('www', 'www.runoob.com').span()) # 在起始位置匹配print(re.search('com', 'www.runoob.com').span()) # 不在起始位置匹配
這時候須要停一下，match和search的區別呢？
看看結果先：
match例子中結果：
(0, 3)Nonejavascript

search例子中結果：
(0, 3)
(11, 14)
match()函數只檢測RE是否是在string的開始位置匹配，search()會掃描整個string查找匹配；
也就是說match()只有在0位置匹配成功的話纔有返回，若是不是開始位置匹配成功的話，match()就返回none。
search()會掃描整個字符串並返回第一個成功的匹配。
使用sub
Python 的re模塊提供了re.sub用於替換字符串中的匹配項。java

!/usr/bin/pythonimport re

phone = "2004-959-559 # This is Phone Number"python

Delete Python-style comments

num = re.sub(r'#.*$', "", phone)print "Phone Num : ", numgit

Remove anything other than digits

num = re.sub(r'\D', "", phone) print "Phone Num : ", num
結果：
Phone Num : 2004-959-559
Phone Num : 2004959559
最後獻上菊花：
^ 匹配字符串的開頭
$ 匹配字符串的末尾。
. 匹配任意字符，除了換行符，當re.DOTALL標記被指定時，則能夠匹配包括換行符的任意字符。
[...] 用來表示一組字符,單獨列出：[amk] 匹配 'a'，'m'或'k'
² 不在[]中的字符：¹ 匹配除了a,b,c以外的字符。
re* 匹配0個或多個的表達式。
re+ 匹配1個或多個的表達式。
re? 匹配0個或1個由前面的正則表達式定義的片斷，非貪婪方式
re{ n}
re{ n,} 精確匹配n個前面表達式。
re{ n, m} 匹配 n 到 m 次由前面的正則表達式定義的片斷，貪婪方式
a| b 匹配a或b
(re) G匹配括號內的表達式，也表示一個組
(?imx) 正則表達式包含三種可選標誌：i, m, 或 x 。隻影響括號中的區域。
(?-imx) 正則表達式關閉 i, m, 或 x 可選標誌。隻影響括號中的區域。
(?: re) 相似 (...), 可是不表示一個組
(?imx: re) 在括號中使用i, m, 或 x 可選標誌
(?-imx: re) 在括號中不使用i, m, 或 x 可選標誌
(?#...) 註釋.
(?= re) 前向確定界定符。若是所含正則表達式，以 ... 表示，在當前位置成功匹配時成功，不然失敗。但一旦所含表達式已經嘗試，匹配引擎根本沒有提升；模式的剩餘部分還要嘗試界定符的右邊。
(?! re) 前向否認界定符。與確定界定符相反；當所含表達式不能在字符串當前位置匹配時成功
(?> re) 匹配的獨立模式，省去回溯。
\w 匹配字母數字
\W 匹配非字母數字
\s 匹配任意空白字符，等價於 [\t\n\r\f].
\S 匹配任意非空字符
\d 匹配任意數字，等價於 [0-9].
\D 匹配任意非數字
\A 匹配字符串開始
\Z 匹配字符串結束，若是是存在換行，只匹配到換行前的結束字符串。c
\z 匹配字符串結束
\G 匹配最後匹配完成的位置。
\b 匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， 'er\b' 能夠匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B 匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n, \t, 等. 匹配一個換行符。匹配一個製表符。等
\1...\9 匹配第n個分組的子表達式。
\10 匹配第n個分組的子表達式，若是它經匹配。不然指的是八進制字符碼的表達式。
以上就是對python正則表達式基礎語法及re模塊的詳解內容，但願能幫助到你們。web