本節中,咱們利用requests庫和正則表達式來抓取貓眼電影TOP100的相關內容。requests比urllib使用更加方便,並且目前咱們尚未系統學習HTML解析庫,因此這裏就選用正則表達式來做爲解析工具。
html
本節中,咱們要提取出貓眼電影TOP100的電影名稱、時間、評分、圖片等信息,提取的站點URL爲http://maoyan.com/board/4,提取的結果會以文件形式保存下來。git
在本節開始以前,請確保已經正確安裝好了requests庫。若是沒有安裝,能夠參考第1章的安裝說明。github
咱們須要抓取的目標站點爲http://maoyan.com/board/4,打開以後即可以查看到榜單信息,以下圖所示。
正則表達式
排名第一的電影是霸王別姬,頁面中顯示的有效信息有影片名稱、主演、上映時間、上映地區、評分、圖片等信息。json
將網頁滾動到最下方,能夠發現有分頁的列表,直接點擊第2頁,觀察頁面的URL和內容發生了怎樣的變化,以下圖所示。app
能夠發現頁面的URL變成http://maoyan.com/board/4?offset=10,比以前的URL多了一個參數,那就是offset=10
,而目前顯示的結果是排行11~20名的電影,初步推斷這是一個偏移量的參數。再點擊下一頁,發現頁面的URL變成了http://maoyan.com/board/4?offset=20,參數offset
變成了20,而顯示的結果是排行21~30的電影。ide
由此能夠總結出規律,offset
表明偏移量值,若是偏移量爲n
,則顯示的電影序號就是n+1
到n+10
,每頁顯示10個。因此,若是想獲取TOP100電影,只須要分開請求10次,而10次的offset
參數分別設置爲0、十、20、…90便可,這樣獲取不一樣的頁面以後,再用正則表達式提取出相關信息,就能夠獲得TOP100的全部電影信息了。工具
接下來用代碼實現這個過程。首先抓取第一頁的內容。咱們實現了get_one_page()
方法,並給它傳入url
參數。而後將抓取的頁面結果返回,再經過main()
方法調用。初步代碼實現以下:
學習
import requests
def get_one_page(url): response = requests.get(url)
if response.status_code == 200:
return response.text
return None
def main(): url = 'http://maoyan.com/board/4' html = get_one_page(url) print(html) main()
這樣運行以後,就能夠成功獲取首頁的源代碼了。獲取源代碼後,就須要解析頁面,提取出咱們想要的信息。編碼
接下來,回到網頁看一下頁面的真實源碼。在開發者模式下的Network監聽組件中查看源代碼,以下圖所示。
注意,這裏不要在Elements選項卡中直接查看源碼,由於那裏的源碼可能通過JavaScript操做而與原始請求不一樣,而是須要從Network選項卡部分查看原始請求獲得的源碼。
查看其中一個條目的源代碼,以下圖所示。
能夠看到,一部電影信息對應的源代碼是一個dd
節點,咱們用正則表達式來提取這裏面的一些電影信息。首先,須要提取它的排名信息。而它的排名信息是在class
爲board-index
的i
節點內,這裏利用非貪婪匹配來提取i
節點內的信息,正則表達式寫爲:
<dd>.*?board-index.*?>(.*?)</i>
隨後須要提取電影的圖片。能夠看到,後面有a
節點,其內部有兩個img
節點。通過檢查後發現,第二個img
節點的data-src
屬性是圖片的連接。這裏提取第二個img
節點的data-src
屬性,正則表達式能夠改寫以下:
<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"
再日後,須要提取電影的名稱,它在後面的p
節點內,class
爲name
。因此,能夠用name
作一個標誌位,而後進一步提取到其內a
節點的正文內容,此時正則表達式改寫以下:
<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>
再提取主演、發佈時間、評分等內容時,都是一樣的原理。最後,正則表達式寫爲:
<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>
這樣一個正則表達式能夠匹配一個電影的結果,裏面匹配了7個信息。接下來,經過調用findall()
方法提取出全部的內容。
接下來,咱們再定義解析頁面的方法parse_one_page()
,主要是經過正則表達式來從結果中提取出咱們想要的內容,實現代碼以下:
def parse_one_page(html): pattern = re.compile(
'<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>', re.S) items = re.findall(pattern, html) print(items)
這樣就能夠成功地將一頁的10個電影信息都提取出來,這是一個列表形式,輸出結果以下:
[('1', 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', '霸王別姬', '\n 主演:張國榮,張豐毅,鞏俐\n ', '上映時間:1993-01-01(中國香港)', '9.', '6'), ('2', 'http://p0.meituan.net/movie/__40191813__4767047.jpg@160w_220h_1e_1c', '肖申克的救贖', '\n 主演:蒂姆·羅賓斯,摩根·弗里曼,鮑勃·岡頓\n ', '上映時間:1994-10-14(美國)', '9.', '5'), ('3', 'http://p0.meituan.net/movie/fc9d78dd2ce84d20e53b6d1ae2eea4fb1515304.jpg@160w_220h_1e_1c', '這個殺手不太冷', '\n 主演:讓·雷諾,加里·奧德曼,娜塔莉·波特曼\n ', '上映時間:1994-09-14(法國)', '9.', '5'), ('4', 'http://p0.meituan.net/movie/23/6009725.jpg@160w_220h_1e_1c', '羅馬假日', '\n 主演:格利高利·派克,奧黛麗·赫本,埃迪·艾伯特\n ', '上映時間:1953-09-02(美國)', '9.', '1'), ('5', 'http://p0.meituan.net/movie/53/1541925.jpg@160w_220h_1e_1c', '阿甘正傳', '\n 主演:湯姆·漢克斯,羅賓·懷特,加里·西尼斯\n ', '上映時間:1994-07-06(美國)', '9.', '4'), ('6', 'http://p0.meituan.net/movie/11/324629.jpg@160w_220h_1e_1c', '泰坦尼克號', '\n 主演:萊昂納多·迪卡普里奧,凱特·溫絲萊特,比利·贊恩\n ', '上映時間:1998-04-03', '9.', '5'), ('7', 'http://p0.meituan.net/movie/99/678407.jpg@160w_220h_1e_1c', '龍貓', '\n 主演:日高法子,阪本千夏,糸井重裏\n ', '上映時間:1988-04-16(日本)', '9.', '2'), ('8', 'http://p0.meituan.net/movie/92/8212889.jpg@160w_220h_1e_1c', '教父', '\n 主演:馬龍·白蘭度,阿爾·帕西諾,詹姆斯·凱恩\n ', '上映時間:1972-03-24(美國)', '9.', '3'), ('9', 'http://p0.meituan.net/movie/62/109878.jpg@160w_220h_1e_1c', '唐伯虎點秋香', '\n 主演:周星馳,鞏俐,鄭佩佩\n ', '上映時間:1993-07-01(中國香港)', '9.', '2'), ('10', 'http://p0.meituan.net/movie/9bf7d7b81001a9cf8adbac5a7cf7d766132425.jpg@160w_220h_1e_1c', '千與千尋', '\n 主演:柊瑠美,入野自由,夏木真理\n ', '上映時間:2001-07-20(日本)', '9.', '3')]
但這樣還不夠,數據比較雜亂,咱們再將匹配結果處理一下,遍歷提取結果並生成字典,此時方法改寫以下:
def parse_one_page(html): pattern = re.compile(
'<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>', re.S) items = re.findall(pattern, html)
for item in items:
yield {
'index': item[0],
'image': item[1],
'title': item[2].strip(),
'actor': item[3].strip()[3:] if len(item[3]) > 3 else '',
'time': item[4].strip()[5:] if len(item[4]) > 5 else '',
'score': item[5].strip() + item[6].strip() }
這樣就能夠成功提取出電影的排名、圖片、標題、演員、時間、評分等內容了,並把它賦值爲一個個的字典,造成結構化數據。運行結果以下:
{'image': 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', 'actor': '張國榮,張豐毅,鞏俐', 'score': '9.6', 'index': '1', 'title': '霸王別姬', 'time': '1993-01-01(中國香港)'} {'image': 'http://p0.meituan.net/movie/__40191813__4767047.jpg@160w_220h_1e_1c', 'actor': '蒂姆·羅賓斯,摩根·弗里曼,鮑勃·岡頓', 'score': '9.5', 'index': '2', 'title': '肖申克的救贖', 'time': '1994-10-14(美國)'} {'image': 'http://p0.meituan.net/movie/fc9d78dd2ce84d20e53b6d1ae2eea4fb1515304.jpg@160w_220h_1e_1c', 'actor': '讓·雷諾,加里·奧德曼,娜塔莉·波特曼', 'score': '9.5', 'index': '3', 'title': '這個殺手不太冷', 'time': '1994-09-14(法國)'} {'image': 'http://p0.meituan.net/movie/23/6009725.jpg@160w_220h_1e_1c', 'actor': '格利高利·派克,奧黛麗·赫本,埃迪·艾伯特', 'score': '9.1', 'index': '4', 'title': '羅馬假日', 'time': '1953-09-02(美國)'} {'image': 'http://p0.meituan.net/movie/53/1541925.jpg@160w_220h_1e_1c', 'actor': '湯姆·漢克斯,羅賓·懷特,加里·西尼斯', 'score': '9.4', 'index': '5', 'title': '阿甘正傳', 'time': '1994-07-06(美國)'} {'image': 'http://p0.meituan.net/movie/11/324629.jpg@160w_220h_1e_1c', 'actor': '萊昂納多·迪卡普里奧,凱特·溫絲萊特,比利·贊恩', 'score': '9.5', 'index': '6', 'title': '泰坦尼克號', 'time': '1998-04-03'} {'image': 'http://p0.meituan.net/movie/99/678407.jpg@160w_220h_1e_1c', 'actor': '日高法子,阪本千夏,糸井重裏', 'score': '9.2', 'index': '7', 'title': '龍貓', 'time': '1988-04-16(日本)'} {'image': 'http://p0.meituan.net/movie/92/8212889.jpg@160w_220h_1e_1c', 'actor': '馬龍·白蘭度,阿爾·帕西諾,詹姆斯·凱恩', 'score': '9.3', 'index': '8', 'title': '教父', 'time': '1972-03-24(美國)'} {'image': 'http://p0.meituan.net/movie/62/109878.jpg@160w_220h_1e_1c', 'actor': '周星馳,鞏俐,鄭佩佩', 'score': '9.2', 'index': '9', 'title': '唐伯虎點秋香', 'time': '1993-07-01(中國香港)'} {'image': 'http://p0.meituan.net/movie/9bf7d7b81001a9cf8adbac5a7cf7d766132425.jpg@160w_220h_1e_1c', 'actor': '柊瑠美,入野自由,夏木真理', 'score': '9.3', 'index': '10', 'title': '千與千尋', 'time': '2001-07-20(日本)'}
到此爲止,咱們就成功提取了單頁的電影信息。
隨後,咱們將提取的結果寫入文件,這裏直接寫入到一個文本文件中。這裏經過JSON庫的dumps()
方法實現字典的序列化,並指定ensure_ascii
參數爲False
,這樣能夠保證輸出結果是中文形式而不是Unicode編碼。代碼以下:
def write_to_json(content): with open('result.txt', 'a') as f: print(type(json.dumps(content))) f.write(json.dumps(content, ensure_ascii=False,).encode('utf-8'))
經過調用write_to_json()
方法便可實現將字典寫入到文本文件的過程,此處的content
參數就是一部電影的提取結果,是一個字典。
最後,實現main()
方法來調用前面實現的方法,將單頁的電影結果寫入到文件。相關代碼以下:
def main(): url = 'http://maoyan.com/board/4' html = get_one_page(url)
for item in parse_one_page(html): write_to_json(item)
到此爲止,咱們就完成了單頁電影的提取,也就是首頁的10部電影能夠成功提取並保存到文本文件中了。
由於咱們須要抓取的是TOP100的電影,因此還須要遍歷一下,給這個連接傳入offset
參數,實現其餘90部電影的爬取,此時添加以下調用便可:
if __name__ == '__main__':
for i in range(10): main(offset=i * 10)
這裏還須要將main()
方法修改一下,接收一個offset
值做爲偏移量,而後構造URL進行爬取。實現代碼以下:
def main(offset): url = 'http://maoyan.com/board/4?offset=' + str(offset) html = get_one_page(url)
for item in parse_one_page(html): print(item) write_to_file(item)
到此爲止,咱們的貓眼電影TOP100的爬蟲就所有完成了,再稍微整理一下,完整的代碼以下:
import json
import requests
from requests.exceptions
import RequestException
import re
import time
def get_one_page(url): try: response = requests.get(url)
if response.status_code == 200:
return response.text
return None except RequestException:
return None
def parse_one_page(html): pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a' + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>' + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S) items = re.findall(pattern, html)
for item in items:
yield {
'index': item[0],
'image': item[1],
'title': item[2],
'actor': item[3].strip()[3:],
'time': item[4].strip()[5:],
'score': item[5] + item[6] }
def write_to_file(content): with open('result.txt', 'a', encoding='utf-8') as f: f.write(json.dumps(content, ensure_ascii=False) + '\n')
def main(offset): url = 'http://maoyan.com/board/4?offset=' + str(offset) html = get_one_page(url)
for item in parse_one_page(html): print(item) write_to_file(item)
if __name__ == '__main__':
for i in range(10): main(offset=i * 10) time.sleep(1)
如今貓眼多了反爬蟲,若是速度過快,則會無響應,因此這裏又增長了一個延時等待。
最後,咱們運行一下代碼,輸出結果相似以下:
{'index': '1', 'image': 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', 'title': '霸王別姬', 'actor': '張國榮,張豐毅,鞏俐', 'time': '1993-01-01(中國香港)', 'score': '9.6'} {'index': '2', 'image': 'http://p0.meituan.net/movie/__40191813__4767047.jpg@160w_220h_1e_1c', 'title': '肖申克的救贖', 'actor': '蒂姆·羅賓斯,摩根·弗里曼,鮑勃·岡頓', 'time': '1994-10-14(美國)', 'score': '9.5'} ... {'index': '98', 'image': 'http://p0.meituan.net/movie/76/7073389.jpg@160w_220h_1e_1c', 'title': '東京物語', 'actor': '笠智衆,原節子,杉村春子', 'time': '1953-11-03(日本)', 'score': '9.1'} {'index': '99', 'image': 'http://p0.meituan.net/movie/52/3420293.jpg@160w_220h_1e_1c', 'title': '我愛你', 'actor': '宋在河,李彩恩,吉海延', 'time': '2011-02-17(韓國)', 'score': '9.0'} {'index': '100', 'image': 'http://p1.meituan.net/movie/__44335138__8470779.jpg@160w_220h_1e_1c', 'title': '遷徙的鳥', 'actor': '雅克·貝漢,菲利普·拉波洛,Philippe Labro', 'time': '2001-12-12(法國)', 'score': '9.1'}
這裏省略了中間的部分輸出結果。能夠看到,這樣就成功地把TOP100的電影信息爬取下來了。
這時咱們再看下文本文件,結果以下圖所示。
能夠看到,電影信息也已所有保存到了文本文件中了,大功告成!
本節的代碼地址爲https://github.com/Python3WebSpider/MaoYan。
本節中,咱們經過爬取貓眼TOP100的電影信息練習了requests和正則表達式的用法。這是一個最基礎的實例,但願你們能夠經過這個實例對爬蟲的實現有一個最基本的思路,也對這兩個庫的用法有更深一步的瞭解。