Python實戰異步爬蟲(協程)+分佈式爬蟲(多進程)

時間 2021-01-09

原文原文鏈接

引言：我們在寫爬蟲時常會遇到這樣的問題，當需要爬取多個URL時，寫一個普通的基於requests庫的爬蟲程序爬取時間會很長。因爲是順序請求網頁的，而網頁請求和獲得響應過程比較耗費時間，程序不得不等待獲得當前網頁響應後才能進行下一個URL的爬取，使得總耗時較多。對於這樣的多任務，可以使用基於多進程(multiprocessing)和基於Asyncio庫的異步(協程)爬蟲增強併發性，加速爬蟲。 Tal

>>阅读原文<<