爬蟲基本原理及概念

爬蟲在網絡中爬行的時候,將Web 上的網頁集合當作是一個有向圖,從給定的起始 URL 開始,沿着網頁中的連接,按照必定的策略進行。一般用到如下幾種遍歷算法: 一、深度優先算法 該算法是指網絡爬蟲會從選定的一個超連接開始,按照一條線路,一個一個連接訪 問下去,直到達到這條線路的葉子節點,即不包含任何超連接的HTML 文件,處理完這 條線路以後再轉入下一個起始頁,繼續訪問新的起始頁面所包含的連接中的一
相關文章
相關標籤/搜索