一文教你如何爬取扇貝單詞

1、網頁分析

咱們打開此網站以後，經過以往爬取網頁的經驗，會發現此網頁特別容易爬取。

大概查看了網頁，咱們只需爬取單詞和含義便可。首先咱們先來查看網頁源碼

下面分別把他們解析出來：

🆗，分析完畢後，咱們就能夠經過代碼進行實現了。學習

 etree_obj = etree.HTML(html) word_list = etree_obj.xpath('//strong/text()') explain_list = etree_obj.xpath('//td[@class="span10"]/text()') item_zip = zip(word_list,explain_list) for item in item_zip: items.append(item)

分析完內容，下面就開始分析分頁。鑑於此URL只有三頁URL，所以，博主就使用最簡單的方式，把Url拼接出來

網站

base_url = "https://www.shanbay.com/wordlist/110521/232414/?page={}"
for i in range(1, 4): url = base_url.format(i) print(url)

2、代碼實現

# encoding: utf-8'''  @author 李運辰  @create 2020-11-08 @software: Pycharm @file: 做業：爬扇貝Python必背詞彙.py @Version：1.0 '''import csvimport requestsfrom lxml import etree
"""https://www.shanbay.com/wordlist/110521/232414/?page=1https://www.shanbay.com/wordlist/110521/232414/?page=2https://www.shanbay.com/wordlist/110521/232414/?page=3
//strong # en//td[@class="span10"] # cn"""base_url = "https://www.shanbay.com/wordlist/110521/232414/?page={}"
headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',}
items =[]
def parse_url(url): """解析url，獲得響應內容""" response = requests.get(url=url,headers=headers) return response.content.decode("utf-8")
def parse_html(html): """使用xpath解析html""" etree_obj = etree.HTML(html) word_list = etree_obj.xpath('//strong/text()') explain_list = etree_obj.xpath('//td[@class="span10"]/text()') item_zip = zip(word_list,explain_list) for item in item_zip: items.append(item)
def save(): """將數據保存到csv中""" with open("./shanbei.csv", "a", encoding="utf-8") as file: writer = csv.writer(file) for item in items: writer.writerow(item)
def start(): """開始爬蟲""" for i in range(1, 4): url = base_url.format(i) html = parse_url(url) parse_html(html) save()
if __name__ == '__main__': start()

3、運行結果

正文結束！！！ui

歡迎關注公衆號：Python爬蟲數據分析挖掘url

記錄學習python的點點滴滴；

回覆【開源源碼】免費獲取更多開源項目源碼；

公衆號每日更新python知識和【免費】工具；

本文已同步到【開源中國】、【騰訊雲社區】、【CSDN】；

文章源：buwenbuhuo.blog.csdn.net/

本文分享自微信公衆號 - Python爬蟲數據分析挖掘（zyzx3344）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。

想增長你的詞彙量嗎？---教你如何爬取某貝單詞

一文教你如何爬取扇貝單詞

目錄

1、網頁分析

2、代碼實現

3、運行結果