【Python3網絡爬蟲開發實戰】3-基本庫的使用-3正則表達式

本節中,咱們看一下正則表達式的相關用法。正則表達式是處理字符串的強大工具,它有本身特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。html

固然,對於爬蟲來講,有了它,從HTML裏提取想要的信息就很是方便了。python

1. 實例引入

說了這麼多,可能咱們對它究竟是個什麼仍是比較模糊,下面就用幾個實例來看一下正則表達式的用法。web

打開開源中國提供的正則表達式測試工具tool.oschina.net/regex/,輸入待匹配的文本,而後選擇經常使用的正則表達式,就能夠得出相應的匹配結果了。例如,這裏輸入待匹配的文本以下:正則表達式

Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is http://cuiqingcai.com.
複製代碼

這段字符串中包含了一個電話號碼和一個電子郵件,接下來就嘗試用正則表達式提取出來,如圖3-10所示。編程

圖3-10 運行頁面bash

在網頁右側選擇「匹配Email地址」,就能夠看到下方出現了文本中的E-mail。若是選擇「匹配網址URL」,就能夠看到下方出現了文本中的URL。是否是很是神奇?微信

其實,這裏就是用了正則表達式匹配,也就是用必定的規則將特定的文本提取出來。好比,電子郵件開頭是一段字符串,而後是一個@符號,最後是某個域名,這是有特定的組成格式的。另外,對於URL,開頭是協議類型,而後是冒號加雙斜線,最後是域名加路徑。網絡

對於URL來講,能夠用下面的正則表達式匹配:編程語言

[a-zA-z]+://[^\s]*
複製代碼

用這個正則表達式去匹配一個字符串,若是這個字符串中包含相似URL的文本,那就會被提取出來。工具

這個正則表達式看上去是亂糟糟的一團,其實否則,這裏面都是有特定的語法規則的。好比,a-z表明匹配任意的小寫字母,\s表示匹配任意的空白字符,*就表明匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合。

寫好正則表達式後,就能夠拿它去一個長字符串裏匹配查找了。不論這個字符串裏面有什麼,只要符合咱們寫的規則,通通能夠找出來。對於網頁來講,若是想找出網頁源代碼裏有多少URL,用匹配URL的正則表達式去匹配便可。

上面咱們說了幾個匹配規則,表3-2列出了經常使用的匹配規則。

表3-2 經常使用的匹配規則

看完了以後,可能有點暈暈的吧,不過不用擔憂,後面咱們會詳細講解一些常見規則的用法。

其實正則表達式不是Python獨有的,它也能夠用在其餘編程語言中。可是Python的re庫提供了整個正則表達式的實現,利用這個庫,能夠在Python中使用正則表達式。在Python中寫正則表達式幾乎都用這個庫,下面就來了解它的一些經常使用方法。

2. match()

這裏首先介紹第一個經常使用的匹配方法——match(),向它傳入要匹配的字符串以及正則表達式,就能夠檢測這個正則表達式是否匹配字符串。

match()方法會嘗試從字符串的起始位置匹配正則表達式,若是匹配,就返回匹配成功的結果;若是不匹配,就返回None。示例以下:

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())
複製代碼

運行結果以下:

41
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)
複製代碼

這裏首先聲明瞭一個字符串,其中包含英文字母、空白字符、數字等。接下來,咱們寫一個正則表達式:

^Hello\s\d\d\d\s\d{4}\s\w{10}
複製代碼

用它來匹配這個長字符串。開頭的^是匹配字符串的開頭,也就是以Hello開頭;而後\s匹配空白字符,用來匹配目標字符串的空格;\d匹配數字,3個\d匹配123;而後再寫1個\s匹配空格;後面還有4567,咱們其實能夠依然用4個\d來匹配,可是這麼寫比較煩瑣,因此後面能夠跟{4}以表明匹配前面的規則4次,也就是匹配4個數字;而後後面再緊接1個空白字符,最後\w{10}匹配10個字母及下劃線。咱們注意到,這裏其實並無把目標字符串匹配完,不過這樣依然能夠進行匹配,只不過匹配結果短一點而已。

而在match()方法中,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出結果,能夠看到結果是SRE_Match對象,這證實成功匹配。該對象有兩個方法:group()方法能夠輸出匹配到的內容,結果是Hello 123 4567 World_This,這剛好是正則表達式規則所匹配的內容;span()方法能夠輸出匹配的範圍,結果是(0, 25),這就是匹配到的結果字符串在原字符串中的位置範圍。

經過上面的例子,咱們基本瞭解瞭如何在Python中使用正則表達式來匹配一段文字。

匹配目標

剛纔咱們用match()方法能夠獲得匹配到的字符串內容,可是若是想從字符串中提取一部份內容,該怎麼辦呢?就像最前面的實例同樣,從一段文本中提取出郵件或電話號碼等內容。

這裏可使用()括號將想提取的子字符串括起來。()實際上標記了一個子表達式的開始和結束位置,被標記的每一個子表達式會依次對應每個分組,調用group()方法傳入分組的索引便可獲取提取的結果。示例以下:

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())
複製代碼

這裏咱們想把字符串中的1234567提取出來,此時能夠將數字部分的正則表達式用()括起來,而後調用了group(1)獲取匹配結果。

運行結果以下:

<_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)
複製代碼

能夠看到,咱們成功獲得了1234567。這裏用的是group(1),它與group()有所不一樣,後者會輸出完整的匹配結果,而前者會輸出第一個被()包圍的匹配結果。假如正則表達式後面還有()包括的內容,那麼能夠依次用group(2)group(3)等來獲取。

通用匹配

剛纔咱們寫的正則表達式其實比較複雜,出現空白字符咱們就寫\s匹配,出現數字咱們就用\d匹配,這樣的工做量很是大。其實徹底不必這麼作,由於還有一個萬能匹配能夠用,那就是.*(點星)。其中.(點)能夠匹配任意字符(除換行符),*(星)表明匹配前面的字符無限次,因此它們組合在一塊兒就能夠匹配任意字符了。有了它,咱們就不用挨個字符地匹配了。

接着上面的例子,咱們能夠改寫一下正則表達式:

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result)
print(result.group())
print(result.span())
複製代碼

這裏咱們將中間部分直接省略,所有用.*來代替,最後加一個結尾字符串就行了。運行結果以下:

<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)
複製代碼

能夠看到,group()方法輸出了匹配的所有字符串,也就是說咱們寫的正則表達式匹配到了目標字符串的所有內容;span()方法輸出(0, 41),這是整個字符串的長度。

所以,咱們可使用.*簡化正則表達式的書寫。

貪婪與非貪婪

使用上面的通用匹配.*時,可能有時候匹配到的並非咱們想要的結果。看下面的例子:

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))
複製代碼

這裏咱們依然想獲取中間的數字,因此中間依然寫的是(\d+)。而數字兩側因爲內容比較雜亂,因此想省略來寫,都寫成 .*。最後,組成^He.*(\d+).*Demo$,看樣子並無什麼問題。咱們看下運行結果:

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7
複製代碼

奇怪的事情發生了,咱們只獲得了7這個數字,這是怎麼回事呢?

這裏就涉及一個貪婪匹配與非貪婪匹配的問題了。在貪婪匹配下,.*會匹配儘量多的字符。正則表達式中.*後面是\d+,也就是至少一個數字,並無指定具體多少個數字,所以,.*就儘量匹配多的字符,這裏就把123456匹配了,給\d+留下一個可知足條件的數字7,最後獲得的內容就只有數字7了。

但這很明顯會給咱們帶來很大的不便。有時候,匹配結果會莫名其妙少了一部份內容。其實,這裏只須要使用非貪婪匹配就行了。非貪婪匹配的寫法是.*?,多了一個?,那麼它能夠達到怎樣的效果?咱們再用實例看一下:

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))
複製代碼

這裏咱們只是將第一個.*改爲了.*?,轉變爲非貪婪匹配。結果以下:

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567
複製代碼

此時就能夠成功獲取1234567了。緣由可想而知,貪婪匹配是儘量匹配多的字符,非貪婪匹配就是儘量匹配少的字符。當.*?匹配到Hello後面的空白字符時,再日後的字符就是數字了,而\d+剛好能夠匹配,那麼這裏.*?就再也不進行匹配,交給\d+去匹配後面的數字。因此這樣.*?匹配了儘量少的字符,\d+的結果就是1234567了。

因此說,在作匹配的時候,字符串中間儘可能使用非貪婪匹配,也就是用.*?來代替.*,以避免出現匹配結果缺失的狀況。

但這裏須要注意,若是匹配的結果在字符串結尾,.*?就有可能匹配不到任何內容了,由於它會匹配儘量少的字符。例如:

import re

content = 'http://weibo.com/comment/kEraCN'
result1 = re.match('http.*?comment/(.*?)', content)
result2 = re.match('http.*?comment/(.*)', content)
print('result1', result1.group(1))
print('result2', result2.group(1))
複製代碼

運行結果以下:

result1 
result2 kEraCN
複製代碼

能夠觀察到,.*?沒有匹配到任何結果,而.*則儘可能匹配多的內容,成功獲得了匹配結果。

修飾符

正則表達式能夠包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定爲一個可選的標誌。咱們用實例來看一下:

import re

content = '''Hello 1234567 World_This is a Regex Demo '''
result = re.match('^He.*?(\d+).*?Demo$', content)
print(result.group(1))
複製代碼

和上面的例子相仿,咱們在字符串中加了換行符,正則表達式仍是同樣的,用來匹配其中的數字。看一下運行結果:

AttributeError Traceback (most recent call last)
<ipython-input-18-c7d232b39645> in <module>()
      5 ''' 6 result = re.match('^He.*?(\d+).*?Demo$', content) ----> 7 print(result.group(1)) AttributeError: 'NoneType' object has no attribute 'group' 複製代碼

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果爲None,而咱們又調用了group()方法致使AttributeError

那麼,爲何加了一個換行符,就匹配不到了呢?這是由於\.匹配的是除換行符以外的任意字符,當遇到換行符時,.*?就不能匹配了,因此致使匹配失敗。這裏只需加一個修飾符re.S,便可修正這個錯誤:

result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
複製代碼

這個修飾符的做用是使.匹配包括換行符在內的全部字符。此時運行結果以下:

1234567
複製代碼

這個re.S在網頁匹配中常常用到。由於HTML節點常常會有換行,加上它,就能夠匹配節點與節點之間的換行了。

另外,還有一些修飾符,在必要的狀況下也可使用,如表3-3所示。

表3-3 修飾符

在網頁匹配中,較爲經常使用的有re.Sre.I

轉義匹配

咱們知道正則表達式定義了許多匹配模式,如.匹配除換行符之外的任意字符,可是若是目標字符串裏面就包含.,那該怎麼辦呢?

這裏就須要用到轉義匹配了,示例以下:

import re

content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com', content)
print(result)
複製代碼

當遇到用於正則匹配模式的特殊字符時,在前面加反斜線轉義一下便可。例如.就能夠用\.來匹配,運行結果以下:

<_sre.SRE_Match object; span=(0, 17), match='(百度)www.baidu.com'>
複製代碼

能夠看到,這裏成功匹配到了原字符串。

這些是寫正則表達式經常使用的幾個知識點,熟練掌握它們對後面寫正則表達式匹配很是有幫助。

3. search()

前面提到過,match()方法是從字符串的開頭開始匹配的,一旦開頭不匹配,那麼整個匹配就失敗了。咱們看下面的例子:

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
print(result)
複製代碼

這裏的字符串以Extra開頭,可是正則表達式以Hello開頭,整個正則表達式是字符串的一部分,可是這樣匹配是失敗的。運行結果以下:

None
複製代碼

由於match()方法在使用時須要考慮到開頭的內容,這在作匹配時並不方便。它更適合用來檢測某個字符串是否符合某個正則表達式的規則。

這裏就有另一個方法search(),它在匹配時會掃描整個字符串,而後返回第一個成功匹配的結果。也就是說,正則表達式能夠是字符串的一部分,在匹配時,search()方法會依次掃描字符串,直到找到第一個符合規則的字符串,而後返回匹配內容,若是搜索完了尚未找到,就返回None

咱們把上面代碼中的match()方法修改爲search(),再看下運行結果:

<_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>
1234567
複製代碼

這時就獲得了匹配結果。

所以,爲了匹配方便,咱們能夠儘可能使用search()方法。

下面再用幾個實例來看看search()方法的用法。

首先,這裏有一段待匹配的HTML文本,接下來寫幾個正則表達式實例來實現相應信息的提取:

html = '''<div id="songs-list"> <h2 class="title">經典老歌</h2> <p class="introduction"> 經典老歌列表 </p> <ul id="list" class="list-group"> <li data-view="2">一路上有你</li> <li data-view="7"> <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a> </li> <li data-view="4" class="active"> <a href="/3.mp3" singer="齊秦">往事隨風</a> </li> <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> <li data-view="5"> <a href="/6.mp3" singer="鄧麗君"><i class="fa fa-user"></i>希望人長久</a> </li> </ul> </div>'''
複製代碼

能夠觀察到,ul節點裏有許多li節點,其中li節點中有的包含a節點,有的不包含a節點,a節點還有一些相應的屬性——超連接和歌手名。

首先,咱們嘗試提取classactiveli節點內部的超連接包含的歌手名和歌名,此時須要提取第三個li節點下a節點的singer屬性和文本。

此時正則表達式能夠以li開頭,而後尋找一個標誌符active,中間的部分能夠用.*?來匹配。接下來,要提取singer這個屬性值,因此還須要寫入singer="(.*?)",這裏須要提取的部分用小括號括起來,以便用group()方法提取出來,它的兩側邊界是雙引號。而後還須要匹配a節點的文本,其中它的左邊界是>,右邊界是</a>。而後目標內容依然用(.*?)來匹配,因此最後的正則表達式就變成了:

<li.*?active.*?singer="(.*?)">(.*?)</a>
複製代碼

而後再調用search()方法,它會搜索整個HTML文本,找到符合正則表達式的第一個內容返回。

另外,因爲代碼有換行,因此這裏第三個參數須要傳入re.S。整個匹配代碼以下:

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))
複製代碼

因爲須要獲取的歌手和歌名都已經用小括號包圍,因此能夠用group()方法獲取。

運行結果以下:

齊秦 往事隨風
複製代碼

能夠看到,這正是classactiveli節點內部的超連接包含的歌手名和歌名。

若是正則表達式不加active(也就是匹配不帶classactive的節點內容),那會怎樣呢?咱們將正則表達式中的active去掉,代碼改寫以下:

result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))
複製代碼

因爲search()方法會返回第一個符合條件的匹配目標,這裏結果就變了:

任賢齊 滄海一聲笑
複製代碼

active標籤去掉後,從字符串開頭開始搜索,此時符合條件的節點就變成了第二個li節點,後面的就再也不匹配,因此運行結果就變成第二個li節點中的內容。

注意,在上面的兩次匹配中,search()方法的第三個參數都加了re.S,這使得.*?能夠匹配換行,因此含有換行的li節點被匹配到了。若是咱們將其去掉,結果會是什麼?代碼以下:

result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)
if result:
    print(result.group(1), result.group(2))
複製代碼

運行結果以下:

beyond 光輝歲月
複製代碼

能夠看到,結果變成了第四個li節點的內容。這是由於第二個和第三個li節點都包含了換行符,去掉re.S以後,.*?已經不能匹配換行符,因此正則表達式不會匹配到第二個和第三個li節點,而第四個li節點中不包含換行符,因此成功匹配。

因爲絕大部分的HTML文本都包含了換行符,因此儘可能都須要加上re.S修飾符,以避免出現匹配不到的問題。

4. findall()

前面咱們介紹了search()方法的用法,它能夠返回匹配正則表達式的第一個內容,可是若是想要獲取匹配正則表達式的全部內容,那該怎麼辦呢?這時就要藉助findall()方法了。該方法會搜索整個字符串,而後返回匹配正則表達式的全部內容。

仍是上面的HTML文本,若是想獲取全部a節點的超連接、歌手和歌名,就能夠將search()方法換成findall()方法。若是有返回結果的話,就是列表類型,因此須要遍歷一下來依次獲取每組內容。代碼以下:

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0], result[1], result[2])
複製代碼

運行結果以下:

[('/2.mp3', '任賢齊', '滄海一聲笑'), ('/3.mp3', '齊秦', '往事隨風'), ('/4.mp3', 'beyond', '光輝歲月'), ('/5.mp3', '陳慧琳', '記事本'), ('/6.mp3', '鄧麗君', '希望人長久')]
<class 'list'>
('/2.mp3', '任賢齊', '滄海一聲笑')
/2.mp3 任賢齊 滄海一聲笑
('/3.mp3', '齊秦', '往事隨風')
/3.mp3 齊秦 往事隨風
('/4.mp3', 'beyond', '光輝歲月')
/4.mp3 beyond 光輝歲月
('/5.mp3', '陳慧琳', '記事本')
/5.mp3 陳慧琳 記事本
('/6.mp3', '鄧麗君', '希望人長久')
/6.mp3 鄧麗君 希望人長久
複製代碼

能夠看到,返回的列表中的每一個元素都是元組類型,咱們用對應的索引依次取出便可。

若是隻是獲取第一個內容,能夠用search()方法。當須要提取多個內容時,能夠用findall()方法。

5. sub()

除了使用正則表達式提取信息外,有時候還須要藉助它來修改文本。好比,想要把一串文本中的全部數字都去掉,若是隻用字符串的replace()方法,那就太煩瑣了,這時能夠藉助sub()方法。示例以下:

import re

content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '', content)
print(content)
複製代碼

運行結果以下:

aKyroiRixLg
複製代碼

這裏只須要給第一個參數傳入\d+來匹配全部的數字,第二個參數爲替換成的字符串(若是去掉該參數的話,能夠賦值爲空),第三個參數是原字符串。

在上面的HTML文本中,若是想獲取全部li節點的歌名,直接用正則表達式來提取可能比較煩瑣。好比,能夠寫成這樣子:

results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
for result in results:
    print(result[1])
複製代碼

運行結果以下:

一路上有你
滄海一聲笑
往事隨風
光輝歲月
記事本
希望人長久
複製代碼

此時藉助sub()方法就比較簡單了。能夠先用sub()方法將a節點去掉,只留下文本,而後再利用findall()提取就行了:

html = re.sub('<a.*?>|</a>', '', html)
print(html)
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
for result in results:
    print(result.strip())
複製代碼

運行結果以下:

<div id="songs-list">
    <h2 class="title">經典老歌</h2>
    <p class="introduction">
        經典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            滄海一聲笑
        </li>
        <li data-view="4" class="active">
            往事隨風
        </li>
        <li data-view="6">光輝歲月</li>
        <li data-view="5">記事本</li>
        <li data-view="5">
            希望人長久
        </li>
    </ul>
</div>
一路上有你
滄海一聲笑
往事隨風
光輝歲月
記事本
希望人長久
複製代碼

能夠看到,a節點通過sub()方法處理後就沒有了,而後再經過findall()方法直接提取便可。能夠看到,在適當的時候,藉助sub()方法能夠起到事半功倍的效果。

6. compile()

前面所講的方法都是用來處理字符串的方法,最後再介紹一下compile()方法,這個方法能夠將正則字符串編譯成正則表達式對象,以便在後面的匹配中複用。示例代碼以下:

import re

content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2, result3)
複製代碼

例如,這裏有3個日期,咱們想分別將3個日期中的時間去掉,這時能夠藉助sub()方法。該方法的第一個參數是正則表達式,可是這裏沒有必要重複寫3個一樣的正則表達式,此時能夠藉助compile()方法將正則表達式編譯成一個正則表達式對象,以便複用。

運行結果以下:

2016-12-15  2016-12-17  2016-12-22
複製代碼

另外,compile()還能夠傳入修飾符,例如re.S等修飾符,這樣在search()findall()等方法中就不須要額外傳了。因此,compile()方法能夠說是給正則表達式作了一層封裝,以便咱們更好地複用。

到此爲止,正則表達式的基本用法就介紹完了,後面會經過具體的實例來說解正則表達式的用法。


本資源首發於崔慶才的我的博客靜覓: Python3網絡爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊,請關注個人我的微信公衆號:進擊的Coder

weixin.qq.com/r/5zsjOyvEZ… (二維碼自動識別)

相關文章
相關標籤/搜索