初識爬蟲

企業黃頁:每個企業聯繫方式,主要業務等。 存在意義:找到所需信息 百度等:收集這些信息,以便用戶搜索。而百度是自動24小時不間斷爬取每個鏈接第相關信息,遇到一個鏈接再打開頁面中的連接,拿到這個頁面的簡介,標題,鏈接等,叫外鏈。跳轉到別的網頁後再搜別的網頁的關鍵字等。跳着跳轉就永遠停不下來,源源不斷的查。蜘蛛網很多蚊子,把蜘蛛放到網上,最終把蚊子全吃了。目的是自動獲取想要的信息,省去了人爲的查找。
相關文章
相關標籤/搜索