如何寫一個一天爬取 100 萬張網頁的爬蟲

時間 2021-01-13

原文原文鏈接

本文轉自公衆號：猿人學Python 摘要：介紹爬取大量網頁需要重點關注的幾個方面。通常來說，多數人寫的爬蟲量級很小，幾千上萬個頁面/信息，多則也不過百萬以內。對一個網站定向抓取幾十萬張頁面一般只用解決訪問頻率限制問題就好。對機器內存，硬盤空間，URL去重，網絡性能，抓取間隙時間調優一般都不會在意。如果要設計一個單臺每天抓取上百萬張網頁，共有一億張頁面的網站時，訪問頻率限制問題就不是最棘手的問題了