網絡爬蟲-原理篇(一)

  引入:我們在百度首頁輸入關鍵字,百度一下,相關的內容就會立馬呈現出來,這個動作的背後到底隱藏着哪些操作?   其實百度的核心搜索引擎就是一個大型的分佈式網絡爬蟲程序。   什麼是網絡爬蟲? 詳見:   1.百度百科   2. 維基百科   網絡爬蟲的主要目的是將互聯網上的網頁下載到本地形成一個或聯網內容的鏡像備份。這篇博客主要對爬蟲以及抓取系統進行一個簡單的概述。 一、網絡爬蟲的基本結構及工作
相關文章
相關標籤/搜索