一鍵爬取，多種網頁模板任你選！

:點擊上方[Python爬蟲數據分析挖掘]→右上角[...]→[設爲星標⭐]html

文章目錄python

一、網頁查看nginx
二、網頁爬取數據分析bash
三、代碼分析微信
四、圖片輔助分析app
五、運行結果學習

一、網頁查看url

進入網頁模板spa

多頁爬取.net

二、網頁爬取數據分析

3.代碼分析

數據爬取部分

# 使用etree進行數據解析tree = etree.HTML(page_text)
#參考圖1，使用xpath語法根據id定位，定位後拿到下面的全部div標籤下的a標籤的href屬性#全部詳情頁urla_list = tree.xpath("//div[@id='container']//div/a/@href")#遍歷詳情頁urlfor a_li in a_list: # 發起詳情頁請求 moban_data = requests.get(url=a_li, headers=headers) moban_data.encoding = "utf-8"
 #解析網頁 tree2 = etree.HTML(moban_data.text) #下載的url，參考圖2 rar_down = tree2.xpath("//div[@class='downbody']//div[@class='dian'][2]/a[1]/@href") #網頁模板名稱，參考圖3 rar_name = tree2.xpath("//div[@class='text_wrap']/h2/a/text()")[0]  #rar_down是一個列表 DownRar(rar_down[0], rar_name)

多頁爬取部分

#多頁爬取for i in range(1,11): #若是是第一頁 if i == 1: url = "http://sc.chinaz.com/moban/index.html" #不是第一頁 else: url = "http://sc.chinaz.com/moban/index_" + str(i) + ".html"

4.圖片輔助分析

圖1

圖2

圖3

5.運行結果

- END -

【各類爬蟲源碼獲取方式】

識別文末二維碼，回覆：爬蟲源碼

歡迎關注公衆號：Python爬蟲數據分析挖掘，方便及時閱讀最新文章

記錄學習python的點點滴滴；

回覆【開源源碼】免費獲取更多開源項目源碼；

本文分享自微信公衆號 - Python爬蟲數據分析挖掘（zyzx3344）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。