搜索引擎的核心算法

時間 2019-12-06

原文原文鏈接

第一種算法：PageRank算法算法

　　1998年，Sergey Brin和Lawrence Page提出了PageRank算法。該算法基於「從許多優質的網頁連接過來的網頁，一定仍是優質網頁」的迴歸關係，來斷定網頁的重要性。該算法認爲從網頁A導向網頁B的連接能夠看做是頁面A對頁面B的支持投票，根據這個投票數來判斷頁面的重要性。固然，不只僅只看投票數，還要對投票的頁面進行重要性分析，越是重要的頁面所投票的評價也就越高。根據這樣的分析，獲得了高評價的重要頁面會被給予較高的PageRank值，在檢索結果內的名次也會提升。PageRank是基於對「使用複雜的算法而獲得的連接構造」的分析，從而得出的各網頁自己的特性。數據庫

　　分析：PageRank算法的優勢在於它對互聯網上的網頁給出了一個全局的重要性排序，而且算法的計算過程是能夠離線完成的，這樣有利於迅速響應用戶的請求。不過，其缺點在於主題無關性，沒有區分頁面內的導航連接、廣告連接和功能連接等，容易對廣告頁面有太高評價；另外，PageRank算法的另外一弊端是，舊的頁面等級會比新頁面高，由於新頁面，即便是很是好的頁面，也不會有不少連接，除非他是一個站點的子站點。這就是PageRank須要多項算法結合的緣由。併發

　　第二種算法：Hilltop算法網站

　　HillTop，是一項搜索引擎結果排序的專利，是Google的一個工程師Bharat在2001年得到的專利。HillTop算法的指導思想和PageRank是一致的，即都經過反向連接的數量和質量來肯定搜索結果的排序權重。但HillTop認爲只計算來自具備相同主題的相關文檔連接對於搜索者的價值會更大，即主題相關網頁之間的連接對於權重計算的貢獻比主題不相關的連接價值要更高。在1999-2000年，當這個算法被Bharat與其餘Google開發人員開發出來的時候，他們稱這種對主題有影響的文檔爲「專家」文檔，而只有從這些專家文檔頁面到目標文檔的連接決定了被連接網頁「權重得分」的主要部分。搜索引擎

　　Hilltop算法的過程：首先計算查詢主題最相關的「專家」資源列表；其次在選中的「專家」集中識別相關的連接，並追蹤它們以識別相關的網頁目標；而後將目標根據非關聯的指向它們的「專家」數量和相關性排序。由此，目標網頁的得分反映了關於查詢主題的最中立的專家的集體觀點。若是這樣的專家池不存在，Hilltop不會給出結果。排序

　　從Hilltop算法過程可見，該算法包括兩個主要的方面：尋找專家；目標排序。經過對搜索引擎抓取的網頁進行預處理，找出專家頁面。對於一個關鍵詞的查詢，首先在專家中查找，並排序返回結果。索引

　　權威頁面是對於一個查詢主題來講最好的專家指向的頁面。專家也有可能在更寬泛的領域或其它領域的主題上也是專家。在專家頁面中只有一部分連接與主題相關。所以，把查詢主題的專家中相關的外向連接合並，以找到查詢主題相關頁面高度承認的頁面。資源

　　從排名在前的匹配專家頁面和相聯繫的匹配信息中選擇專家頁面中一個超連接的子集。尤爲選擇那些與全部的查詢相關的連接。基於這些選中的連接找出一個它們的目標子集做爲查詢主題最相關的網頁。這個目標子集包含至少被兩個非親屬的專家頁面連接到的網頁。目標集根據指向它們的專家的綜合成績來排序。開發

　　Hilltop在應用中還存在一些不足。專家頁面的搜索和肯定對算法起關鍵做用，專家頁面的質量決定了算法的準確性；而專家頁面的質量和公平性在必定程度上難以保證。Hiltop忽略了大多數非專家頁面的影響。在Hiltop的原型系統中，專家頁面只佔到整個頁面的1.79%，不能全面表明整個互聯網。文檔

　　Hiltop算法在沒法獲得足夠的專家頁面子集時（少於兩個專家頁面），返回爲空，即Hiltop適合於對查詢排序進行求精，而不能覆蓋。這意味着Hilltop能夠與某個頁面排序算法結合，提升精度，而不適合做爲一個獨立的頁面排序算法。Hilltop中根據查詢主題從專家頁面集合中選取與主題相關的子集也是在線運行的，這與前面提到的HITS算法同樣會影響查詢響應時間。隨着專家頁面集合的增大，算法的可伸縮性存在不足之處。

　　分析：HITS算法的優勢在於它能更好地描述互聯網的組織特色，因爲它只是對互聯網中的很小的一個子集進行分析，因此它須要的迭代次數更少，收斂速度更快，減小了時間複雜度。

　　但HITS算法也存在以下缺點：中心網頁之間的相互引用以增長其網頁評價，當一個網站上的多篇網頁指向一個相同的連接，或者一個網頁指向另外一個網站上的多個文件時會引發評分的不正常增長，這會致使易受「垃圾連接」的影響；網頁中存在自動生成的連接；

　　主題漂移，在鄰接圖中常常包括一些和搜索主題無關的連接，若是這些連接自身也是中心網頁或權威網頁就會引發主題漂移：對於每一個不一樣的查詢算法都須要從新運行一次來獲取結果。這使得它不可能用於實時系統，由於對於上千萬次的併發查詢這樣的開銷實在太大。

　　第三種算法：Direct Hit 算法

　　與前面的算法相比，Ask Jeeves公司的Direct Hit算法是一種注重信息的質量和用戶反饋的排序方法。它的基本思想是，搜索引擎將查詢的結果返回給用戶，並跟蹤用戶在檢索結果中的點擊。若是返回結果中排名靠前的網頁被用戶點擊後，瀏覽時間較短，用戶又從新返回點擊其它的檢索結果，那麼能夠認爲其相關度較差，系統將下降該網頁的相關性。另外一方面，若是網頁被用戶點擊打開進行瀏覽，而且瀏覽的時間較長，那麼該網頁的受歡迎程度就高，相應地，系統將增長該網頁的相關度。能夠看出，在這種方法中，相關度在不停地變化，對於同一個詞在不一樣的時間進行檢索，獲得結果集合的排序也有可能不一樣，它是一種動態排序。

　　分析：該算法的優勢是可以節省大量時間，由於用戶閱讀的是從搜索結果中篩選出來的更加符合要求的結果。同時，這種算法直接融入用戶的反饋信息，可以保證頁面的質量。

　　然而，統計代表，Direct Hit算法只適合於檢索關鍵詞較少的狀況，由於它實際上並無進行排序，而是一種篩選和抽取，在檢索數據庫很大、關鍵詞不少的時候，返回的搜索結果成千上萬，用戶不可能一一審閱。所以，這種方式也不能做爲主要的排序算法來使用，而是一種很好的輔助排序算法，目前在許多搜索引擎當中仍然在使用。

　　其實對於網頁的搜索排名，都是多種算法綜合做用的結果，簡單分析上面的三種算法，Pagerank能夠給網站上的全部網頁給予一個重要性的排序，可是沒有針對性、相關性，並且如今PR值做弊已經到了一個氾濫的地步，因此PR就網頁排名的重要性已經大爲降低；

　　Hilltop算法的提出，對於廣大站長作外部連接建設，將起到指導做用。在Hilltop算法中，每一個領域都會有若干專家頁面，若是搜索相關關鍵詞，搜索引擎首先會從專家頁面查找，若是匹配度不夠，再從專家頁面連接的下一級頁面查找，以此類推。

　　Direct Hit算法能夠做爲Hilltop和pagerank很好的補充，Direct Hit更多的是，考慮了用戶體驗的影響，對搜索結果的質量，進行實時的更新，一個最符合搜索用戶要求的頁面，應該是用戶從搜索框中點擊頁面連接開始，用戶瀏覽網站超過必定時間，則被認爲結果頁面，更符合用戶搜索的要求，長期有效的點擊，頁面在搜索引擎中排名，就會有相應的提升。

　　經過以上三種算法，就能夠明白，不管是作外鏈仍是網站內容建設，首先須要考慮的就是相關性，在外鏈建設中，要努力尋找主題相關中，權威度高的網站，軟文、友情連接等，均可以看做是這些網站，對你的支持，同時，注意網站的跳出率和瀏覽時間，時刻反饋用戶數據，對一些重點頁面，用戶點擊量較高的頁面，作好相關性推薦，引導用戶點擊更多的頁面。