Python實戰異步爬蟲(協程)+分佈式爬蟲(多進程)

引言:我們在寫爬蟲時常會遇到這樣的問題,當需要爬取多個URL時,寫一個普通的基於requests庫的爬蟲程序爬取時間會很長。因爲是順序請求網頁的,而網頁請求和獲得響應過程比較耗費時間,程序不得不等待獲得當前網頁響應後才能進行下一個URL的爬取,使得總耗時較多。對於這樣的多任務,可以使用基於多進程(multiprocessing)和基於Asyncio庫的異步(協程)爬蟲增強併發性,加速爬蟲。 Tal
相關文章
相關標籤/搜索