Python爬蟲---理論基礎

其實爬蟲沒有大家想象的那麼複雜,有時候也就是幾行代碼的事兒,千萬不要把自己嚇倒了。這篇就清晰地講解一下利用Python爬蟲的理論基礎。 首先說明爬蟲分爲三個步驟,也就需要用到三個工具。 利用網頁下載器將網頁的源碼等資源下載。 利用URL管理器管理下載下來的URL 利用網頁解析器解析需要的URL,進而進行匹配。 網頁下載器 網頁下載器常用的有兩個。一個是Python自帶的urllib2模塊;另一個是
相關文章
相關標籤/搜索