（轉）如何入門 Python 爬蟲

時間 2019-11-12

原文原文鏈接

「入門」是良好的動機，可是可能做用緩慢。若是你手裏或者腦子裏有一個項目，那麼實踐起來你會被目標驅動，而不會像學習模塊同樣慢慢學習。

另外若是說知識體系裏的每個知識點是圖裏的點，依賴關係是邊的話，那麼這個圖必定不是一個有向無環圖。由於學習A的經驗能夠幫助你學習B。所以，你不須要學習怎麼樣「入門」，由於這樣的「入門」點根本不存在！你須要學習的是怎麼樣作一個比較大的東西，在這個過程當中，你會很快地學會須要學會的東西的。固然，你能夠爭論說須要先懂python，否則怎麼學會python作爬蟲呢？可是事實上，你徹底能夠在作這個爬蟲的過程當中學習python :D

看到前面不少答案都講的「術」——用什麼軟件怎麼爬，那我就講講「道」和「術」吧——爬蟲怎麼工做以及怎麼在python實現。

先長話短說summarize一下：
你須要學習

基本的爬蟲工做原理
基本的http抓取工具，scrapy
Bloom Filter: Bloom Filters by Example
若是須要大規模網頁抓取，你須要學習分佈式爬蟲的概念。其實沒那麼玄乎，你只要學會怎樣維護一個全部集羣機器可以有效分享的分佈式隊列就好。最簡單的實現是python-rq: https://github.com/nvie/rq
rq和Scrapy的結合：darkrho/scrapy-redis · GitHub
後續處理，網頁析取(grangier/python-goose · GitHub)，存儲(Mongodb)

如下是短話長說：

說說當初寫的一個集羣爬下整個豆瓣的經驗吧。

1）首先你要明白爬蟲怎樣工做。
想象你是一隻蜘蛛，如今你被放到了互聯「網」上。那麼，你須要把全部的網頁都看一遍。怎麼辦呢？沒問題呀，你就隨便從某個地方開始，好比說人民日報的首頁，這個叫initial pages，用$表示吧。

在人民日報的首頁，你看到那個頁面引向的各類連接。因而你很開心地從爬到了「國內新聞」那個頁面。太好了，這樣你就已經爬完了倆頁面（首頁和國內新聞）！暫且不用管爬下來的頁面怎麼處理的，你就想象你把這個頁面完完整整抄成了個html放到了你身上。

忽然你發現，在國內新聞這個頁面上，有一個連接鏈回「首頁」。做爲一隻聰明的蜘蛛，你確定知道你不用爬回去的吧，由於你已經看過了啊。因此，你須要用你的腦子，存下你已經看過的頁面地址。這樣，每次看到一個可能須要爬的新連接，你就先查查你腦子裏是否是已經去過這個頁面地址。若是去過，那就別去了。

好的，理論上若是全部的頁面能夠從initial page達到的話，那麼能夠證實你必定能夠爬完全部的網頁。

那麼在python裏怎麼實現呢？
很簡單

 
   import Queue

initial_page = "http://www.renminribao.com"

url_queue = Queue.Queue()
seen = set()

seen.insert(initial_page)
url_queue.put(initial_page)

while(True): #一直進行直到海枯石爛
    if url_queue.size()>0:
        current_url = url_queue.get()    #拿出隊例中第一個的url
        store(current_url)               #把這個url表明的網頁存儲好
        for next_url in extract_urls(current_url): #提取把這個url裏鏈向的url
            if next_url not in seen:      
                seen.put(next_url)
                url_queue.put(next_url)
    else:
        break 
  

寫得已經很僞代碼了。

全部的爬蟲的backbone都在這裏，下面分析一下爲何爬蟲事實上是個很是複雜的東西——搜索引擎公司一般有一整個團隊來維護和開發。

2）效率
若是你直接加工一下上面的代碼直接運行的話，你須要一全年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎須要爬下全網的內容了。

問題出在哪呢？須要爬的網頁實在太多太多了，而上面的代碼太慢太慢了。設想全網有N個網站，那麼分析一下判重的複雜度就是N*log(N)，由於全部網頁要遍歷一次，而每次判重用set的話須要log(N)的複雜度。OK，OK，我知道python的set實現是hash——不過這樣仍是太慢了，至少內存使用效率不高。

一般的判重作法是怎樣呢？ Bloom Filter. 簡單講它仍然是一種hash的方法，可是它的特色是，它可使用固定的內存（不隨url的數量而增加）以O(1)的效率斷定url是否已經在set中。惋惜天下沒有白吃的午飯，它的惟一問題在於，若是這個url不在set中，BF能夠100%肯定這個url沒有看過。可是若是這個url在set中，它會告訴你：這個url應該已經出現過，不過我有2%的不肯定性。注意這裏的不肯定性在你分配的內存足夠大的時候，能夠變得很小不多。一個簡單的教程: Bloom Filters by Example

注意到這個特色，url若是被看過，那麼可能以小几率重複看一看（不要緊，多看看不會累死）。可是若是沒被看過，必定會被看一下（這個很重要，否則咱們就要漏掉一些網頁了！）。 [IMPORTANT: 此段有問題，請暫時略過]

好，如今已經接近處理判重最快的方法了。另一個瓶頸——你只有一臺機器。無論你的帶寬有多大，只要你的機器下載網頁的速度是瓶頸的話，那麼你只有加快這個速度。用一臺機子不夠的話——用不少臺吧！固然，咱們假設每臺機子都已經進了最大的效率——使用多線程（python的話，多進程吧）。

3）集羣化抓取
爬取豆瓣的時候，我總共用了100多臺機器晝夜不停地運行了一個月。想象若是隻用一臺機子你就得運行100個月了...

那麼，假設你如今有100臺機器能夠用，怎麼用python實現一個分佈式的爬取算法呢？

咱們把這100臺中的99臺運算能力較小的機器叫做slave，另一臺較大的機器叫做master，那麼回顧上面代碼中的url_queue，若是咱們能把這個queue放到這臺master機器上，全部的slave均可以經過網絡跟master聯通，每當一個slave完成下載一個網頁，就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁，就把這個網頁上全部的連接送到master的queue裏去。一樣，bloom filter也放到master上，可是如今master只發送肯定沒有被訪問過的url給slave。Bloom Filter放到master的內存裏，而被訪問過的url放到運行在master上的Redis裏，這樣保證全部操做都是O(1)。（至少平攤是O(1)，Redis的訪問效率見: LINSERT – Redis)

考慮如何用python實現：
在各臺slave上裝好scrapy，那麼各臺機子就變成了一臺有抓取能力的slave，在master上裝好Redis和rq用做分佈式隊列。

代碼因而寫成

#slave.py

current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
    to_send.append(next_url)

store(current_url);
send_to_master(to_send)

#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()

initial_pages = "www.renmingribao.com"

while(True):
    if request == 'GET':
        if distributed_queue.size()>0:
            send(distributed_queue.get())
        else:
            break
    elif request == 'POST':
        bf.put(request.url)