如何讓爬蟲一天抓取100萬張網頁

前一兩年抓過某工商信息網站,幾三週時間大約抓了過千萬多萬張頁面。那時由於公司沒啥經費,報銷又拖得很久,不想花錢在很多機器和帶寬上,所以當時花了較多精力研究如何讓一臺爬蟲機器達到抓取極限。 本文偏爬蟲技術細節,先周知。 爬蟲這兩年貌似成爲了一項必備技能,無論是搞技術的,做產品的,數據分析的,金融的,初創公司做冷啓動的,都想去抓點數據回來玩玩。這裏面絕大多數一共都只抓幾萬或幾十萬條數據,這個數量級其實
相關文章
相關標籤/搜索