Python 正則表達式入門(中級篇)

Python 正則表達式入門(中級篇)#

初級篇連接:http://www.cnblogs.com/chuxiuhong/p/5885073.htmlhtml

上一篇咱們說在這一篇裏,咱們會介紹子表達式,向前向後查找,回溯引用。到這一篇開始前除了回溯引用在一些場合不可替代之外,大部分狀況下的正則表達式你應該都會寫了。python

1.子表達式##


子表達式的概念特別好理解。其實它就是將幾個字符的組合形式看作一個大的「字符」。很差理解?舉個栗子:咱們要匹配相似IP地址這種形式的字符(暫且不考慮數值範圍的合理性,這個留做學完以後的思考題吧)。形如192.168.1.1這樣的地址咱們怎麼寫表達式呢?正則表達式

答案一 \d+.?\d+.?\d+.?\d+

很差,一個是太繁瑣,另外一個是連位數都控制不了url

答案二 \d+{1,3}.?\d+{1,3}.?\d+{1,3}.?\d+{1,3}

通常般,複雜可是起碼能把位數控制在合理範圍spa

答案三 (\d+{1,3}\.){3}\d+{1,3}\.

利用子表達式,將123.這種數字加小數點看作一個總體字符,對其規定重複匹配的次數,既簡潔,效果又好。因此只要你將幾個字符組合用圓括號括起來,那麼你就能夠把一個圓括號內的內容當作一個字符,外面能夠加咱們以前講過的全部元字符來控制匹配。.net


2.向前向後查找##


如今,咱們終於來到了向前向後查找這一塊。爲何說終於來到這了呢?還記得咱們在初級篇最開始的例子嗎?code

假如你在寫一個爬蟲,你獲得了一個網頁的HTML源碼。其中有一段html
<html><body><h1>hello world</h1></body></html>
你想要把這個hello world提取出來
import re

key = r"<html><body><h1>hello world</h1></body></html>"#這段是你要匹配的文本
p1 = r"(?<=<h1>).+?(?=</h1>)"#這是咱們寫的正則表達式規則,你如今能夠不理解啥意思
pattern1 = re.compile(p1)#咱們在編譯這段正則表達式
matcher1 = re.search(pattern1,key)#在源文本中搜索符合正則表達式的部分
print matcher1.group(0)#打印出來

這個正則表達式htm

p1 = r"(?<=<h1>).+?(?=<h1>)"

看到(?<=<h1>)(?=<h1>)了嗎?第一個?<=表示在被匹配字符前必須得有<h1>,後面的?=表示被匹配字符後必須有<h1>blog

簡單來講,就是你要匹配的字符是XX,但必須知足形式是AXXB這樣的字符串,那麼你就能夠這樣寫正則表達式字符串

p = r"(?<=A)XX(?=B)"

匹配到的字符串就是XX。而且,向前查找向後查找不須要必須同時出現。若是你願意,能夠只寫知足一個條件。

因此你也不須要記住哪一個是向前查找,哪一個是向後查找。只要記住?<=後面跟着的是前綴要求,?=後面跟的是後綴要求。

本質上來講,向前查找和向後查找實際上是匹配整個字符串,即AXXB,但返回時僅僅返回一個XX。也就是說,若是你願意,徹底能夠避開向前向後查找的方式,直接匹配帶有先後綴的字符串,而後作字符串切片處理。


3.回溯引用##


不一樣於前面的向前向後查找,這一條有時候你未必繞的過去。在有些狀況下,你還必須得用到回溯引用,因此你若是想擁有在實際應用中使用正則表達式,回溯引用是你應該瞭解和掌握的。

咱們仍是從最開始的例子來講。
你本來要匹配<h1></h1>之間的內容,如今你知道HTML有多級標題,你想把每一級的標題內容都提取出來。你也許會這樣寫:

p = r"<h[1-6]>.*?</h[1-6]>"

這樣一來,你就能夠將HTML頁面內全部的標題內容所有匹配出來。即<h1></h1><h6></h6>的內容均可以被提取出來。可是咱們以前說過,寫正則表達式困難的不是匹配到想要的內容,而是儘量的不匹配到不想要的內容。在這個例子中,頗有可能你就會被下面這樣的用例玩壞。

比方說

<h1>hello world</h3>

發現後面的</h3>了嗎?咱們不論是怎麼寫出來這樣的標題的,但實實在在的是咱們的正則表達式一樣會把這裏面的hello world匹配出來。這時候就是回溯引用的重要做用。下面就是一個示例:

import re

key = r"<h1>hello world</h3>"
p1 = r"<h([1-6])>.*?</h\1>"
pattern1 = re.compile(p1)
m1 = re.search(pattern1,key)
print m1.group(0)#這裏是會報錯的,由於匹配不到,你若是將源字符串改爲</h1>
結尾就能看出效果

看到\1了嗎?本來那個位置應該是[1-6],可是咱們寫的是\1,咱們以前說過,轉義符\乾的活就是把特殊的字符轉成通常的字符,把通常的字符轉成特殊字符。普普統統的數字1被轉移成什麼了呢?在這裏1表示第一個子表達式,也就是說,它是動態的,是隨着前面第一個子表達式的匹配到的東西而變化的。比方說前面的子表達式內是[1-6],在實際字符串中找到了1,那麼後面的\1就是1,若是前面的子表達式在實際字符串中找到了2,那麼後面的\1就是2。

相似的,\2,\3,....就表明第二個第三個子表達式。

因此回溯引用是正則表達式內的一個「動態」的正則表達式,讓你根據實際的狀況變化進行匹配。

中級篇就到這裏,其實正則表達式還有不少細節尚未寫出來,也有不少元字符我沒有交代,但掌握了綱要,懂得原理以後剩下的就相似於查表構造這種活了。

建議看到這的朋友看看《正則表達式必知必會》,初級篇和這篇中有幾個例子也是取材於此。

相關文章
相關標籤/搜索