爬蟲之全站爬取方法

方法 做過好幾個關於網站全站的項目,這裏總結一下。 先把上面那張圖寫下來,全站爬取的兩種方法: 關係網絡: 優點:簡單;可以抓取「熱門」數據 缺點:無法抓取全量數據;速度慢;需要解決去重問題 可行性:比較高 遍歷ID 優點:可以抓取所有數據;不用數據去重 缺點:資源消耗大;速度慢;可能被發現 可行性:僅可用於ID自增 關於關係網絡 其實這個很好理解。比如說知乎,一個大V有100W粉絲,從這個大V出
相關文章
相關標籤/搜索