利用Python爬蟲一天內抓取百萬張網頁的心得總結

1、優化硬盤存儲html 因此千萬級網頁的抓取是須要先設計的,先來作一個計算題。共要抓取一億張頁面,通常一張網頁的大小是400KB左右,一億張網頁就是1億X200KB=36TB 。這麼大的存儲需求,通常的電腦和硬盤都是無法存儲的。因此確定要對網頁作壓縮後存儲,能夠用zlib壓縮,也能夠用壓縮率更好的bz2或pylzma 。算法 2、優化內存,URL去重瀏覽器 再來講內存佔用問題,作爬蟲程序爲了防止
相關文章
相關標籤/搜索