[置頂]scrapy 知乎關鍵字爬蟲spider代碼

以下是spider部分的代碼。爬知乎是需要登錄的,建議使用cookie就可以了,如果需要爬的數量預計不多,請不要使用過大的線程數量,否則會過快的被封殺,需要等十幾個小時賬號才能重新使用,比起損失的這十幾個小時的時間,即使是單線程也能夠爬取很多頁面了,得不償失。 知乎是基於賬號策略反爬的,換ua和ip並沒用,如果需要高併發,需要採用幾十個賬號的方式來爬取。 1 # -*- coding: utf
相關文章
相關標籤/搜索