2020/04/12 02-HTML和URL提取、豆瓣讀書爬蟲編寫

時間 2021-07-13

原文原文鏈接

scrapy提供了大量的腳手架，其實要寫的部分都可以通過腳手架來完成先是創建一個項目，明確爬取目標這是項目裏需要配置的東西首先要配置user-agent和robotstxt協議改成false，不改成false，就會把別人不允許的都跳過不爬取，cookie一般不用，除非你用cookie做一些事情，否則不要保留cookie了，相當於對url來講每一次發起的都是全新的請求。在爬取的時候注意併發

>>阅读原文<<