抓取了一千億個網頁後我才明白,爬蟲一點都不簡單

編者按:互聯網上有浩瀚的數據資源,要想抓取這些數據就離不開爬蟲。鑑於網上免費開源的爬蟲框架多如牛毛,很多人認爲爬蟲定是非常簡單的事情。但是如果你要定期上規模地準確抓取各種大型網站的數據卻是一項艱鉅的挑戰,其中包括網站的格式經常會變、架構必須能靈活伸縮應對規模變化同時要保持性能,與此同時還要挫敗網站反機器人的手段以及維護數據質量。流行的Python爬蟲框架Scrapy開發者Scrapinghub分享
相關文章
相關標籤/搜索