如果讓你設計一個網絡爬蟲,你怎麼避免陷入無限循環?

話說爬蟲爲什麼會陷入循環呢?答案很簡單,當我們重新去解析一個已經解析過的網頁時,就會陷入無限循環。這意味着我們會重新訪問那個網頁的所有鏈接,然後不久後又會訪問到這個網頁。最簡單的例子就是,網頁A包含了網頁B的鏈接,而網頁B又包含了網頁A的鏈接,那它們之間就會形成一個閉環。 那麼我們怎樣防止訪問已經訪問過的頁面呢?答案很簡單,設置一個標誌即可。整個互聯網就是一個圖結構,我們通常使用DFS(深度優先搜
相關文章
相關標籤/搜索