搜索引擎核心讀書心得2:暗網抓取

所謂的暗網在上篇文章已經簡單介紹,是指目前搜索引擎爬蟲按照常規方式很難抓取到的網頁。在網絡中不少網站的內容是以數據庫方式進行存儲的,而搜索引擎爬蟲依賴頁面中的連接關係發現新頁面。比例攜程網中的機票數據,很難有直接顯示的連接指向數據庫內的記錄,而是以網站提供組合查詢界面,在用戶輸入想要查詢的數據以後,纔可以獲取相關的數據。這些數據是網絡爬蟲沒法搜索到的。因此,爲了實現這些暗網數據的索引,須要相對應地
相關文章
相關標籤/搜索