一鍵爬取,多種網頁模板任你選!


:點擊上方[Python爬蟲數據分析挖掘]右上角[...][設爲星標⭐]html


文章目錄python


  • 一、網頁查看nginx

  • 二、網頁爬取數據分析bash

  • 三、代碼分析微信

  • 四、圖片輔助分析app

  • 五、運行結果學習



一、網頁查看url



進入網頁模板spa


多頁爬取.net




二、網頁爬取數據分析


3.代碼分析

數據爬取部分

# 使用etree進行數據解析tree = etree.HTML(page_text)
#參考圖1,使用xpath語法根據id定位,定位後拿到下面的全部div標籤下的a標籤的href屬性#全部詳情頁urla_list = tree.xpath("//div[@id='container']//div/a/@href")#遍歷詳情頁urlfor a_li in a_list: # 發起詳情頁請求 moban_data = requests.get(url=a_li, headers=headers) moban_data.encoding = "utf-8"
#解析網頁 tree2 = etree.HTML(moban_data.text) #下載的url,參考圖2 rar_down = tree2.xpath("//div[@class='downbody']//div[@class='dian'][2]/a[1]/@href") #網頁模板名稱,參考圖3 rar_name = tree2.xpath("//div[@class='text_wrap']/h2/a/text()")[0] #rar_down是一個列表 DownRar(rar_down[0], rar_name)

多頁爬取部分

#多頁爬取for i in range(1,11): #若是是第一頁 if i == 1: url = "http://sc.chinaz.com/moban/index.html" #不是第一頁 else: url = "http://sc.chinaz.com/moban/index_" + str(i) + ".html"

4.圖片輔助分析

圖1

圖2


圖3


5.運行結果








- END -


各類爬蟲源碼獲取方式

識別文末二維碼,回覆:爬蟲源碼


歡迎關注公衆號:Python爬蟲數據分析挖掘,方便及時閱讀最新文章

記錄學習python的點點滴滴;

回覆【開源源碼】免費獲取更多開源項目源碼;



本文分享自微信公衆號 - Python爬蟲數據分析挖掘(zyzx3344)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索