最近在學習Python的爬蟲。之前堅持用nodejs作爬蟲。前兩天閒得無聊,在慕課上看了下scrapy的課程。而後發現這個框架的設計真模塊化。因此就開始動手用scrapy爬取一些東西。
而後個人目標網站是個drupal作的。分頁抓取的時候,首頁是正常的,爬取第二頁的時候,大機率是拋錯提示:404,要麼就是給我返回了一些髒數據。html
這個網站還真是老謀深算啊。而後我仔細分析了下網站的請求頭。而後加上了以下兩條,請求就正常了:node
request.headers['accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8' request.headers['cache-control'] = 'no-cache'
看來仍是得注意請求頭的細節。web