python從入門到放棄篇26(lxml.etree庫，urllib.request庫，構造xpath路徑，構造url）實現翻頁爬取豆瓣書簡介並保存數據

時間 2021-01-06

標籤 python xpath 欄目 Python 简体版

原文原文鏈接

今天，我研究了構造url和xpath路徑的方法實現翻頁爬取數據。覺得還可以，不過還是存在一些問題，沒有我想的那麼理想，因爲，目前只實現了爬取每一頁的第一本書及其書評。我等有時間會再去研究。第一步，我們要先導入各種需要的庫。之所以導入時間庫，是爲了控制爬取速度，基本的爬蟲對抗反爬手段，還有一個目的就是不要瞬間多次請求網頁資源，容易導致網頁崩潰（道德問題）。第二步，我們打開百度搜索，搜索豆瓣，出

>>阅读原文<<