【FocusSpider】主題爬蟲的概述

時間 2019-12-05

原文原文鏈接

隨着互聯網技術的日益發展，通用的搜索引擎返回的查詢結果已經不可以知足不一樣領域，不一樣背景的用戶查詢特定主題信息的需求，所以垂直搜索引擎營運而生。做爲垂直搜索引擎的核心組成部分---主題爬蟲抓取網頁的方法直接應先過了垂直搜索引擎的性能。數據庫

###通用搜索引擎網絡

通用搜索引擎工做流程主要分爲三個階段，信息採集、預處理和索引、提供檢索服務。首先，由爬行器（網絡爬蟲）到網上進行信息採集，收集網絡上的資源；無缺，利用索引生成器對抓取的網頁進行預處理，並自動進行標引，創建索引數據庫；最後，提供查詢檢索器給用戶，根據用戶提交的查詢關鍵詞對索引數據庫進行檢索，對線索結果進行排序和集合運算，再提取網頁的簡單扎偶奧一下逆襲呈現給用戶。
因爲其通用的特色不能很好的針對不一樣領域、不一樣背景的用戶提供精準化的信息需求服務，通用搜索引擎返回的結果包含了大量用戶不關心的網頁，可是多元化的市場需求決定額搜索引擎的服務模式必有「廣、泛、淺」向「專、精、深」轉變，針對不一樣的行業提供更加精確的服務模式，所以垂直搜索引擎應運而生。

###垂直搜索引擎性能

是面向特定搜索領域和搜索需求的專業搜索引擎，對Web中某個主題的信息進行爬取。索引並整合，定向分字段地抽取須要的數據進行處理後，針對特定領域、特定人羣或者特定需求提供有必定價值的信息和服務。常見的垂直搜索引擎有物流搜索、醫藥搜索、購物搜索、體育、教育搜索。
垂直搜索引擎爲了彌補通用搜索引擎存在的信息量大、查詢不許確、更新不及時、深度不夠等缺陷而提出來的一種新的搜索引擎服務模式，其特色就是「專、精、深」，且極具行業特點，與通用搜索引擎的海量信息無序化相比，顯現了更加專一、具體和深刻的優點。
垂直搜索引擎也是由主題爬蟲、索引生成器和查詢檢索器組成。主題爬蟲是盡力收集和主題相關的網頁信息，而儘可能避免下載與主題不想關的網頁信息；索引生成器和查詢檢索器與通用的搜索引擎中的功能相似：索引生成器是吧Web上抓取的信息創建索引目錄，以便實現快速檢索；查詢檢索器是提供搜索的功能，以及快的速度返回給用戶須要的信息。
垂直搜索引擎與傳統的區分：
1.通用搜索引擎面向整個Web進行信息採集，採集數量大、範圍廣，可是採集深度淺，更新不及時，採集的動態網頁優先級較低；而垂直搜索引擎只採集Web中與某個主題相關的信息，所才幾點額網頁都是面向某一特定領域，特定人羣所特定需求的，數量適中，採集層次更深，更新速度較快，採集的動態網頁優先級相對較高，服務上更據專業特點。
2.通用搜索引擎強調響應速度，所以僅對部分網頁中特定位置的文本進行索引，致使檢索結果不徹底、不許確；而垂直搜索引擎更注重一下信息的專業化和使用價值，並支持全文檢索、精確檢索以及機構化和非結構化數據聯合檢索，按照需求提供多種結果排序方式。
3.通用搜索引擎以網頁爲最小搜索引擎，而垂直搜索引擎對網頁信息進行結構化的信息抽取加工，以結構化數據爲最小搜索單位。

###通用爬蟲的爬行策略網站

適用通用爬蟲的搜索策略有廣度優先策略、深度優先策略和IP紙質搜索策略。搜索引擎

1.廣度優先策略（BFS），是網絡爬蟲從初始的URL種子開始進行逐層地遍歷抓取網頁，只有遍歷完本層網頁包含的全部URL指向的頁面才進入下一層繼續遍歷，這就辦證了對淺層面頁面的首先處理，當遇到一個無窮盡的深層分支時，不會致使陷入WWW中的深層頁面中出不來的狀況發生。
2.深度優先策略（DFS），是網絡爬蟲從初始URL開始，沿着頁面的一條URL鏈往下爬取，層層深刻，一直到搜索結構的葉節點（即那些不包含任何URL的HTML文件），沒有URL可爬取爲止，而後再但會上層網頁從另外一個URL開始按照相同的方式繼續進行下去。深度優先策略雖然能都遍歷一個Web站點或深層嵌套的網頁集而挖掘到深層次的資源，但卻容易忽略爬行的廣度，有事會致使爬蟲的陷入問題。
3.IP地址搜索策略，是先賦予通用爬蟲一個IP地址做爲初始種子，而後以該IP地址爲起點，按照IP地址遞增的順序依次下載增加後的IP地址所指向的網頁。這種搜索策略的優勢是搜索全面，可以發現那些沒被任何URL指向的資源，尤爲是那些在互聯網中新產生的網站及站內的網頁信息，缺點是搜索效率比較低，不適合大規模搜索。

###主題爬蟲code

與通用爬蟲的結構相比，主題爬蟲多出兩個模塊，即頁面主題相關性計算模塊和候選連接優先級計算模塊。頁面主題相關性計算模塊對下載的網頁進行主題相關性判斷，若判斷出下載的網頁與目標主題的相關性知足設定的閾值條件，則將該頁面中候選連接提取出來並送入候選連接優先級計算模塊，肯定這些候選連接的訪問優先級，若候選連接與主題的相關性較高則被插入到待爬行URLs優先級隊列的而前面，他們將會被優先爬行，反之則被插入到待爬行URLs優先級隊列的後面或被捨棄；若網頁的主題相關性不知足設定的閾值條件，則捨棄該網頁，沒必要在對網頁中存在的候選連接進行提取和優先級計算。
這兩個模塊會直接影響主題爬蟲下載的網頁的質量。

###主題爬蟲的爬行策略排序

1.廣度優先搜索策略

初始 URL 種子在必定連接距離內下載的網頁與目標主題相關的機率很大，所以適用於通用爬蟲中的廣度優先搜索策略也常被應用於主題爬蟲中，目的是儘量多地覆蓋網頁，以提升主題爬蟲的覆蓋率。但這種作法使得主題爬蟲在提升覆蓋率的同時也會下載大量與目標主題無關的網頁，最終影響主題爬蟲的準確率。爲了解決這個弊端，許多研究把網頁過濾技術加入到採用廣度優先搜索策略的主題爬蟲中：先是利用廣度優先搜索策略下載網頁，而後利用網頁過濾技術過濾掉與目標主題無關的網頁，從而提升主題爬蟲的準確度。但這種方法又會帶來新的問題，即隨着下載網頁的增多，許多與目標主題無關的網頁被下載後再進行過濾，會影響主題爬蟲的效率。索引

2.最佳優先搜索策略

研究代表，主題爬蟲中應用最佳優先搜索策略要好於廣度優先搜索策略，應用最佳優先策略的主題爬蟲在爬行過程當中會一直維護一個待爬行 URL 優先級隊列，每次爬行時都會從這個隊列中選擇優先級最高的 URL 進行網頁下載，並分析和計算網頁中的連接優先級，再按照優先級的高低插入到待爬行 URL 優先級隊列，如此循環往復直到優先級隊列爲空或達到終止條件才結束。連接優先級的高低通常採用與主題的相關程度來度量，這樣主題爬蟲就會一直優先爬行與主題相關性高的網頁，與主題爬蟲的目標，即最大程度地爬取與主題相關的網頁，最小程度地爬取與主題不相關的網頁是相符合的，所以主題爬蟲一般都是採用最優優先策略爬取網頁。該策略的不足之處是：它是局部最優的，每次只訪問當前待爬行 URLs 優先級隊列中優先級最高的 URL，可是待爬行優先級隊列中不可能存放整個爬行過程當中的 URL，所謂優先級最高的 URL 也只是暫時的，不必定是整個爬行過程當中優先級最高的，所以爬行中一些較深層的與目標主題相關的網頁可能被忽略。Best-First 策略就是一種最簡單的最佳優先搜索策略，由於其簡潔性和高效性被認爲是最成功的爬行策略之一，也是技術評價中經常使用的一個基準策略。主題爬行策略是主題爬蟲的核心技術之一，直接影響主題網頁採集的質量與效率，所以選擇一種好的爬行策略對主題爬蟲來講相當重要。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。