Python爬蟲入門，快速抓取大規模數據（第六部分）

時間 2020-12-31

原文原文鏈接

在前面的章節中，我們以儘量少的代碼演示了爬蟲的基本原理。如果只是需要抓取一些簡單的數據，那麼我們修改一下前面的代碼就可以完成任務了。但是當我們需要完成一些複雜的大型抓取任務時，我們就需要考慮更多東西，例如爬蟲的可擴展性，抓取效率等。現在讓我們再回顧一下我們抓取的過程：從待下載URL列表取出URL；構造和發送HTTP請求下載網頁；解析網頁提取數據，解析網頁提取URL並加入待下載列表；存儲從網頁提取

>>阅读原文<<