requests庫+正則表達式爬取貓眼電影

時間 2019-11-17

原文原文鏈接

咱們用 requests 庫 + 正則表達式構建一個簡陋的爬蟲，雖然這個爬蟲很簡陋，可是經過這個例子咱們能夠對爬蟲有一個很好的瞭解。html

此次目的是爬取貓眼電影 TOP 100，要想爬取這些信息，咱們首先要到貓眼電影 TOP 100 的頁面上觀察一下（也能夠說踩點）。網址爲：https://maoyan.com/board/4python

這就是咱們要爬取的頁面，如今咱們來寫一段代碼自動訪問這個頁面。正則表達式

def get_one_pages(url) -> 'HTML':json
headers = { # 構建表頭，模仿正常瀏覽器，防止被屏蔽瀏覽器
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'服務器
}微信
response = requests.get(url, headers=headers)網絡
if response.status_code == 200: # 網頁訪問正常函數
return response.textflex
return None

咱們構造了 get_one_pages(url) 函數，在構造這個函數時要注意必定要加上表頭，表頭的做用是讓爬蟲假裝成一個正常的瀏覽器請求。若是不加表頭的話，會被服務器拒絕訪問（不信你就試一下）。以後當你調用這個函數並往裏面傳入 URL 也就是https://maoyan.com/board/4 時，該函數會把這個網頁的 HTML 返回下來。HTML 算是網頁的源代碼，在 Chrome 瀏覽器中按下 F12 鍵就能看到源代碼，發現返回的 HTML 與網頁中的 HTML 同樣，那麼證實咱們這個網頁算是訪問成功了。

下一步咱們要解析這個網頁，獲取咱們想要的內容。觀察返回的 HTML 會發現，每個電影的相關信息被一個 <dd> </dd> 標籤包圍。

以這段標籤爲例，咱們須要獲取的內容有排名、電影海報、電影名稱、演員和上映時間。這時該輪到正則表達式出場了。咱們用正則表達式去匹配這段文本，來獲取想要的信息，若是你如今還不知道什麼是正則表達式，能夠 Google 一下，正則表達式的內容很複雜，但這裏咱們用到的很簡單，一搜就會。

下面是解析網頁的代碼：

def parse_one_page(html) -> list:
pattern = re.compile('<dd>.*?>(.*?).*?<img data-src="(.*?)".*?title="(.*?)".*?(.*?).*?>(.*?) ',
re.S)
res = re.findall(pattern, html)
for i in res:
yield { # 這裏使用了生成器構造一個字典
'index': i[0],
'image': i[1],
'name': i[2].strip(),
'actor': i[3].strip(),
'time': i[4].strip(),
}

咱們用 <dd>.*?>(.*?).*?<img data-src="(.*?)".*?title="(.*?)".*?(.*?).*?>(.*?) 這段正則表達式來匹配想要的內容，而後將匹配的結果存入一個字典中，爲了之後方便讀取和保存。

下一步咱們把爬到的內容保存下來，不然一旦關閉程序，全部爬取的內容就會消失，白忙一頓豈不是很難受。

def write_to_file(content):
with open('result.txt', 'a', encoding='utf-8') as f:
f.write(json.dumps(content, ensure_ascii=False) + '\n')

咱們用上下文管理器打開一個 txt 文件，將爬下來的內容寫入這個文件中。

咱們的目標是爬取貓眼電影 TOP 100，但是如今才爬到 TOP 10，那後面的怎麼辦呢？再來觀察網頁，咱們看到，第11-20的URL爲：https://maoyan.com/board/4?offset=10

第21-30的URL爲：https://maoyan.com/board/4?offset=20 ，以此類推。。。

那麼咱們能夠推斷出來網頁的變化只跟 offset= 後面數字有關，這樣能夠繼續寫代碼了。

def main(offset):
url = 'http://maoyan.com/board/4?offset=' + str(offset)
html = get_one_pages(url)
content = parse_one_page(html)
for i in content:
print(i)
write_to_file(i)

這裏寫了一個 main(offset) 函數，傳入相應的數字，會對相應的網頁進行咱們以前的操做。

最後一步，傳入數字便可。總結一下最終的代碼：

import requests
import re
import json
def get_one_pages(url) -> 'HTML':
headers = { # 構建表頭，模仿正常瀏覽器，防止被屏蔽
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'
}
response = requests.get(url, headers=headers)
if response.status_code == 200: # 網頁訪問正常
return response.text
return None
def parse_one_page(html) -> list:
pattern = re.compile('<dd>.*?>(.*?).*?<img data-src="(.*?)".*?title="(.*?)".*?(.*?).*?>(.*?) ',
re.S)
res = re.findall(pattern, html)
for i in res:
yield { # 這裏使用了生成器構造一個字典
'index': i[0],
'image': i[1],
'name': i[2].strip(),
'actor': i[3].strip(),
'time': i[4].strip(),
}
def write_to_file(content):
with open('result.txt', 'a', encoding='utf-8') as f:
f.write(json.dumps(content, ensure_ascii=False) + '\n')
def main(offset):
url = 'http://maoyan.com/board/4?offset=' + str(offset)
html = get_one_pages(url)
content = parse_one_page(html)
for i in content:
print(i)
write_to_file(i)
for i in range(10):
main(i*10)