:點擊上方[Python爬蟲數據分析挖掘]→右上角[...]→[設爲星標⭐]html
文章目錄python
一、網頁查看nginx
二、網頁爬取數據分析bash
三、代碼分析微信
四、圖片輔助分析app
五、運行結果學習
一、網頁查看url
進入網頁模板spa
多頁爬取.net
二、網頁爬取數據分析
3.代碼分析
數據爬取部分
# 使用etree進行數據解析tree = etree.HTML(page_text)
#參考圖1,使用xpath語法根據id定位,定位後拿到下面的全部div標籤下的a標籤的href屬性#全部詳情頁urla_list = tree.xpath("//div[@id='container']//div/a/@href")#遍歷詳情頁urlfor a_li in a_list: # 發起詳情頁請求 moban_data = requests.get(url=a_li, headers=headers) moban_data.encoding = "utf-8"
#解析網頁 tree2 = etree.HTML(moban_data.text) #下載的url,參考圖2 rar_down = tree2.xpath("//div[@class='downbody']//div[@class='dian'][2]/a[1]/@href") #網頁模板名稱,參考圖3 rar_name = tree2.xpath("//div[@class='text_wrap']/h2/a/text()")[0] #rar_down是一個列表 DownRar(rar_down[0], rar_name)
多頁爬取部分
#多頁爬取for i in range(1,11): #若是是第一頁 if i == 1: url = "http://sc.chinaz.com/moban/index.html" #不是第一頁 else: url = "http://sc.chinaz.com/moban/index_" + str(i) + ".html"
4.圖片輔助分析
圖1
圖2
圖3
5.運行結果
- END -
【各類爬蟲源碼獲取方式】
歡迎關注公衆號:Python爬蟲數據分析挖掘,方便及時閱讀最新文章
記錄學習python的點點滴滴;
回覆【開源源碼】免費獲取更多開源項目源碼;
本文分享自微信公衆號 - Python爬蟲數據分析挖掘(zyzx3344)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。