實現並行抓取整站40萬條房價數據（可更換抓取城市）

時間 2021-07-14

原文原文鏈接

這次的爬蟲是關於房價信息的抓取，目的在於練習10萬以上的數據處理及整站式抓取。數據量的提升最直觀的感覺便是對函數邏輯要求的提高，針對Python的特性，謹慎的選擇數據結構。以往小數據量的抓取，即使函數邏輯部分重複，I/O請求頻率密集，循環套嵌過深，也不過是1~2s的差別，而隨着數據規模的提高，這1~2s的差別就有可能擴展成爲1~2h。因此對於要抓取數據量較多的網站，可以從兩方面着手降低抓取信息