利用Python爬蟲一天內抓取百萬張網頁的心得總結

時間 2020-01-17

標籤利用 python 爬蟲一天 1天抓取百萬網頁心得總結欄目 Python 简体版

原文原文鏈接

1、優化硬盤存儲html 因此千萬級網頁的抓取是須要先設計的，先來作一個計算題。共要抓取一億張頁面，通常一張網頁的大小是400KB左右，一億張網頁就是1億X200KB=36TB 。這麼大的存儲需求，通常的電腦和硬盤都是無法存儲的。因此確定要對網頁作壓縮後存儲，能夠用zlib壓縮，也能夠用壓縮率更好的bz2或pylzma 。算法 2、優化內存，URL去重瀏覽器再來講內存佔用問題，作爬蟲程序爲了防止

>>阅读原文<<