Duplicate Elimination in Scrapy(轉)

以前介紹 Scrapy 的時候提過 Spider Trap ,實際上,就算是正常的網絡拓撲,也是很複雜的相互連接,雖然我當時給的那個例子對於我感興趣的內容是能夠有一個線性順序依次爬下來的,可是這樣的狀況在真正的網絡結構中一般是少之又少,一但連接網絡出現環路,就沒法進行拓撲排序而得出一個依次遍歷的順序了,因此 duplicate elimination 能夠說是每個 non-trivial 的必備組
相關文章
相關標籤/搜索