[置頂]scrapy 知乎關鍵字爬蟲spider代碼

時間 2021-01-06

原文原文鏈接

以下是spider部分的代碼。爬知乎是需要登錄的，建議使用cookie就可以了，如果需要爬的數量預計不多，請不要使用過大的線程數量，否則會過快的被封殺，需要等十幾個小時賬號才能重新使用，比起損失的這十幾個小時的時間，即使是單線程也能夠爬取很多頁面了，得不償失。知乎是基於賬號策略反爬的，換ua和ip並沒用，如果需要高併發，需要採用幾十個賬號的方式來爬取。 1 # -*- coding: utf

>>阅读原文<<