實現並行抓取整站40萬條房價數據(可更換抓取城市)

這次的爬蟲是關於房價信息的抓取,目的在於練習10萬以上的數據處理及整站式抓取。 數據量的提升最直觀的感覺便是對函數邏輯要求的提高,針對Python的特性,謹慎的選擇數據結構。以往小數據量的抓取,即使函數邏輯部分重複,I/O請求頻率密集,循環套嵌過深,也不過是1~2s的差別,而隨着數據規模的提高,這1~2s的差別就有可能擴展成爲1~2h。 因此對於要抓取數據量較多的網站,可以從兩方面着手降低抓取信息
相關文章
相關標籤/搜索