Python爬蟲入門,快速抓取大規模數據(第六部分)

在前面的章節中,我們以儘量少的代碼演示了爬蟲的基本原理。如果只是需要抓取一些簡單的數據,那麼我們修改一下前面的代碼就可以完成任務了。但是當我們需要完成一些複雜的大型抓取任務時,我們就需要考慮更多東西,例如爬蟲的可擴展性,抓取效率等。 現在讓我們再回顧一下我們抓取的過程:從待下載URL列表取出URL;構造和發送HTTP請求下載網頁;解析網頁提取數據,解析網頁提取URL並加入待下載列表;存儲從網頁提取
相關文章
相關標籤/搜索