scrapy爬取Drupal網站，提示404錯誤

時間 2019-12-07

原文原文鏈接

最近在學習Python的爬蟲。之前堅持用nodejs作爬蟲。前兩天閒得無聊，在慕課上看了下scrapy的課程。而後發現這個框架的設計真模塊化。因此就開始動手用scrapy爬取一些東西。
而後個人目標網站是個drupal作的。分頁抓取的時候，首頁是正常的，爬取第二頁的時候，大機率是拋錯提示：404，要麼就是給我返回了一些髒數據。html

這個網站還真是老謀深算啊。而後我仔細分析了下網站的請求頭。而後加上了以下兩條，請求就正常了：node

request.headers['accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'
request.headers['cache-control'] = 'no-cache'

看來仍是得注意請求頭的細節。web

相關標籤/搜索