如何讓爬蟲一天抓取100萬張網頁

時間 2020-01-17

原文原文鏈接

前一兩年抓過某工商信息網站，幾三週時間大約抓了過千萬多萬張頁面。那時因爲公司沒啥經費，報銷又拖得好久，不想花錢在不少機器和帶寬上，因此當時花了較多精力研究如何讓一臺爬蟲機器達到抓取極限。javascript 本篇偏爬蟲技術細節，先周知。css 爬蟲這兩年貌似成爲了一項必備技能，不管是搞技術的，作產品的，數據分析的，金融的，初創公司作冷啓動的，都想去抓點數據回來玩玩。這裏面絕大多數一共都只抓幾萬或幾