爬蟲之全站爬取方法

時間 2021-01-15

原文原文鏈接

方法做過好幾個關於網站全站的項目，這裏總結一下。先把上面那張圖寫下來，全站爬取的兩種方法：關係網絡：優點：簡單；可以抓取「熱門」數據缺點：無法抓取全量數據；速度慢；需要解決去重問題可行性：比較高遍歷ID 優點：可以抓取所有數據；不用數據去重缺點：資源消耗大；速度慢；可能被發現可行性：僅可用於ID自增關於關係網絡其實這個很好理解。比如說知乎，一個大V有100W粉絲，從這個大V出