一文教你如何爬取扇貝單詞
目錄
推薦html
1、網頁分析python
2、代碼實現bash
3、運行結果微信
無心之中打開了扇貝Python必背詞彙的網址。那麼既然打開了。那麼就嘗試爬取一下這個網頁!app
扇貝Python必背詞彙網址:https://www.shanbay.com/wordlist/110521/232414/工具
1、網頁分析
咱們打開此網站以後,經過以往爬取網頁的經驗,會發現此網頁特別容易爬取。
大概查看了網頁,咱們只需爬取單詞和含義便可。首先咱們先來查看網頁源碼
下面分別把他們解析出來:
🆗,分析完畢後,咱們就能夠經過代碼進行實現了。學習
etree_obj = etree.HTML(html) word_list = etree_obj.xpath('//strong/text()') explain_list = etree_obj.xpath('//td[@class="span10"]/text()') item_zip = zip(word_list,explain_list) for item in item_zip: items.append(item)
分析完內容,下面就開始分析分頁。鑑於此URL只有三頁URL,所以,博主就使用最簡單的方式,把Url拼接出來
網站
base_url = "https://www.shanbay.com/wordlist/110521/232414/?page={}"
for i in range(1, 4): url = base_url.format(i) print(url)
2、代碼實現
# encoding: utf-8''' @author 李運辰 @create 2020-11-08 @software: Pycharm @file: 做業:爬扇貝Python必背詞彙.py @Version:1.0 '''import csvimport requestsfrom lxml import etree
"""https://www.shanbay.com/wordlist/110521/232414/?page=1https://www.shanbay.com/wordlist/110521/232414/?page=2https://www.shanbay.com/wordlist/110521/232414/?page=3
//strong # en//td[@class="span10"] # cn"""base_url = "https://www.shanbay.com/wordlist/110521/232414/?page={}"
headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',}
items =[]
def parse_url(url): """解析url,獲得響應內容""" response = requests.get(url=url,headers=headers) return response.content.decode("utf-8")
def parse_html(html): """使用xpath解析html""" etree_obj = etree.HTML(html) word_list = etree_obj.xpath('//strong/text()') explain_list = etree_obj.xpath('//td[@class="span10"]/text()') item_zip = zip(word_list,explain_list) for item in item_zip: items.append(item)
def save(): """將數據保存到csv中""" with open("./shanbei.csv", "a", encoding="utf-8") as file: writer = csv.writer(file) for item in items: writer.writerow(item)
def start(): """開始爬蟲""" for i in range(1, 4): url = base_url.format(i) html = parse_url(url) parse_html(html) save()
if __name__ == '__main__': start()
3、運行結果
正文結束!!!ui
歡迎關注公衆號:Python爬蟲數據分析挖掘url
記錄學習python的點點滴滴;
回覆【開源源碼】免費獲取更多開源項目源碼;
公衆號每日更新python知識和【免費】工具;
本文已同步到【開源中國】、【騰訊雲社區】、【CSDN】;
文章源:buwenbuhuo.blog.csdn.net/
本文分享自微信公衆號 - Python爬蟲數據分析挖掘(zyzx3344)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。