scrapy 爬取知乎用戶信息

時間 2021-01-05

標籤 scrapy 知乎欄目 Python 简体版

原文原文鏈接

先從知乎的輪子哥開始爬去他的粉絲列表和關注列表，然後再爬取他粉絲和關注的人裏的用戶，遞歸爬取，然後存儲到MongoDB裏。目前還沒有寫代理池，爬取太頻繁容易被知乎識別出來，會被要求輸入驗證碼。所以現在我還是把settings裏的AUTOTHROTTLE_ENABLED = True，延遲操作，但是爬取效率肯定會低很多。看視頻的時候request的url和翻頁的url裏都有/api/v4這個字符

>>阅读原文<<