python從入門到放棄篇26(lxml.etree庫,urllib.request庫,構造xpath路徑,構造url)實現翻頁爬取豆瓣書簡介並保存數據

今天,我研究了構造url和xpath路徑的方法實現翻頁爬取數據。覺得還可以,不過還是存在一些問題,沒有我想的那麼理想,因爲,目前只實現了爬取每一頁的第一本書及其書評。我等有時間會再去研究。 第一步,我們要先導入各種需要的庫。 之所以導入時間庫,是爲了控制爬取速度,基本的爬蟲對抗反爬手段,還有一個目的就是不要瞬間多次請求網頁資源,容易導致網頁崩潰(道德問題)。 第二步,我們打開百度搜索,搜索豆瓣,出
相關文章
相關標籤/搜索