如何讓爬蟲一天抓取100萬張網頁

時間 2021-01-16

原文原文鏈接

前一兩年抓過某工商信息網站，幾三週時間大約抓了過千萬多萬張頁面。那時由於公司沒啥經費，報銷又拖得很久，不想花錢在很多機器和帶寬上，所以當時花了較多精力研究如何讓一臺爬蟲機器達到抓取極限。本文偏爬蟲技術細節，先周知。爬蟲這兩年貌似成爲了一項必備技能，無論是搞技術的，做產品的，數據分析的，金融的，初創公司做冷啓動的，都想去抓點數據回來玩玩。這裏面絕大多數一共都只抓幾萬或幾十萬條數據，這個數量級其實