2020/04/12 02-HTML和URL提取、豆瓣讀書爬蟲編寫

scrapy提供了大量的腳手架,其實要寫的部分都可以通過腳手架來完成 先是創建一個項目,明確爬取目標 這是項目裏需要配置的東西 首先要配置user-agent和robotstxt協議改成false,不改成false,就會把別人不允許的都跳過不爬取,cookie一般 不用,除非你用cookie做一些事情,否則不要保留cookie了,相當於對url來講每一次發起的都是全新的請求。 在爬取的時候注意併發
相關文章
相關標籤/搜索