python學習筆記之正則表達式

下面是python學習時候一些正則表達式的總結:

python

re模塊包含對 正則表達式。本章會對re模塊主要特徵和正則表達式進行介紹。web

 

什麼是正則表達式正則表達式

正則表達式是能夠匹配文本片斷的模式。最簡單的正則表達式就是普通字符串,能夠匹配其自身。換包話說,正則表達式’python’ 能夠匹配字符串’python’ 。你能夠用這種匹配行爲搜索文本中的模式,而且用計算後有值併發特定模式,或都將文本進行分段。數據庫

 

** 通配符編程

正則表達式能夠匹配多於一個的字符串,你可使用一些特殊字符建立這類模式。好比點號(.)能夠匹配任何字符。在咱們用window 搜索時用問號(?)匹配任意一位字符,做用是同樣的。那麼這類符號就叫 通配符。併發

 

** 對特殊字符進行轉義ide

經過上面的方法,假如咱們要匹配「python.org」,直接用用‘python.org’能夠麼?這麼作能夠,但這樣也會匹配「pythonzorg」,這可不是所指望的結果。函數

好吧!咱們須要對它進行轉義,能夠在它前面加上發斜線。所以,本例中可使用「python\\.org」,這樣就只會匹配「python.org」了。oop

 

** 字符集學習

咱們可使用中括號([ ])括住字符串來建立字符集。可使用範圍,好比‘[a-z]’可以匹配az的任意一個字符,還能夠經過一個接一個的方式將範圍聯合起來使用,好比‘[a-zA-Z0-9]’可以匹配任意大小寫字母和數字。

反轉字符集,能夠在開頭使用^字符,好比‘[^abc]’能夠匹配任何除了abc以外的字符。

 

** 選擇符

有時候只想匹配字符串’python’ 和 ’perl’  ,可使用選擇項的特殊字符:管道符號(|) 。所以, 所需模式能夠寫成’python|perl’ 。

 

** 子模式

可是,有些時候不須要對整個模式使用選擇符---只是模式的一部分。這時可使用圓括號起須要的部分,或稱子模式。 前例能夠寫成 ‘p(ython | erl)’

 

** 可選項

在子模式後面加上問號,它就變成了可選項。它可能出如今匹配字符串,但並不是必須的。

r’(heep://)?(www\.)?python\.org’

只能匹配下列字符:

‘http://www.python.org’
‘http://python.org’
‘www.python.org’
‘python.org’


** 重複子模式

(pattern)* : 容許模式重複0次或屢次

(pattern)+ : 容許模式重複1次或屢次

(pattern){m,n} : 容許模式重複m~ n 


例如:

r’w * \.python\.org’  匹配 ‘www.python.org’ 、’.python.org’ 、’wwwwwww.python.org’
r’w + \.python\.org’  匹配 ‘w.python.org’ ;但不能匹配 ’.python.org’ 
r’w {3,4}\.python\.org’  只能匹配‘www.python.org’ 和‘wwww.python.org’


re模塊的內容


re模塊中一些重要的函數:

wKiom1eYyPbjuX1UAAA7k3OSAkk454.png

  re.compile 將正則表達式轉換爲模式對象,能夠實現更有效率的匹配。

  re.search 會在給定字符串中尋找第一個匹配給正則表式的子字符串。找到函數返回MatchObject(值爲True),不然返回None(值爲False) 。由於返回值的性質,因此該函數能夠用在條件語句中:

性質,因此該函數能夠用在條件語句中:

if re.serch(pat, string):

print ‘found it !’

 

  re.math 會在給定字符串的開頭匹配正則表達式。所以,re.math(‘p’ , ‘python’)返回真,re.math(‘p’ , ‘www.python’) 則返回假。

  re.split 會根據模式的匹配項來分割字符串。

>>> import re
>>> some_text = 'alpha, beta ,,,gamma delta '
>>> re.split('[,]+',some_text)
['alpha ', 'beta ', 'gamma delta ']


re. findall以列表形式返回給定模式的全部匹配項。好比,要在字符串中查找全部單詞,能夠像下面這麼作:

>>> import re
>>> pat = '[a-zA-Z]+'
>>> text = '"Hm...err-- are you sure?" he said, sounding insecure.'
>>>re.findall(pat,text)
['Hm', 'err','are', 'you','sure', 'he','said', 'sounding','insecure']

 

  re.sub的做用在於:使用給定的替換內容將匹配模式的子符串(最左端而且重疊子字符串)替換掉。

>>> import re
>>> pat = '{name}'
>>> text = 'Dear{name}...'
>>> re.sub(pat, 'Mr.Gumby',text)
'Dear Mr. Gumby...'

  re.escape 函數,能夠對字符串中全部可能被解釋爲正則運算符的字符進行轉義的應用函數。

若是字符串很長且包含不少特殊字符,而你又不想輸入一大堆反斜線,可使用這個函數:

>>> re.escape('www.python.org')
'www\\.python\\.org'
>>> re.escape('butwhere is the ambiguity?')
'but\\ where\\ is\\ the\\ ambiguity\\?'


 

匹配對象和組

 

簡單來講,組就是放置在圓括號裏內的子模塊,組的序號取決於它左側的括號數。組0就是整個模塊,因此在下面的模式中:

‘There  (was a (wee) (cooper)) who (lived in Fyfe)’

包含組有:

0  There  was a  wee cooper  who  lived in Fyfe
1  was a  wee  cooper
2  wee
3  cooper
4  lived in Fyfe

 

re 匹配對象的重要方法

wKiom1eYyQWzXoQ2AAAjQfdqzr8177.png

下面看實例:

>>> import re
>>> m = re.match(r'www\.(.*)\..{3}','www.python.org')
>>> m.group()
'www.python.org'
>>> m.group(0)
'www.python.org'
>>> m.group(1)
'python'
>>> m.start(1)
4
>>> m.end(1)
10
>>> m.span(1)
(4, 10)

  group方法返回模式中與給定組匹配的字符串,若是沒有組號,默認爲;如上面:m.group()==m.group(0) ;若是給定一個組號,會返回單個字符串。

  start 方法返回給定組匹配項的開始索引,

  end方法返回給定組匹配項的結束索引加1

  span以元組(startend)的形式返回給組的開始和結束位置的索引。

 

----------------------------

正則表達式應該是不容易理解的一個知識點;python沒意思的基礎終於學完了。雖然學的不紮實,但大致有了個印象;後面的將會很是有意思,讀取文件,編寫圖形窗口,鏈接數據庫,web編程....

相關文章
相關標籤/搜索