後端技術雜談2：搜索引擎工做原理

時間 2019-11-26

標籤後端技術雜談搜索引擎原理欄目搜索引擎简体版

原文原文鏈接

本文做者：頓燉
連接：https://www.zhihu.com/question/19937854/answer/98791215
來源：知乎java

本系列文章將整理到我在GitHub上的《Java面試指南》倉庫，更多精彩內容請到個人倉庫裏查看git

https://github.com/h2pl/Java-Tutorialgithub

喜歡的話麻煩點下Star哈面試

本系列文章將整理於個人我的博客：算法

www.how2playlife.com數據庫

該系列博文會介紹常見的後端技術，這對後端工程師來講是一種綜合能力，咱們會逐步瞭解搜索技術，雲計算相關技術、大數據研發等常見的技術喜提，以便讓你更完整地瞭解後端技術棧的全貌，爲後續參與分佈式應用的開發和學習作好準備。編程

若是對本系列文章有什麼建議，或者是有什麼疑問的話，也能夠關注公衆號【Java技術江湖】聯繫我，歡迎你參與本系列博文的創做和修訂。後端

寫在前面

Max Grigorev最近寫了一篇文章，題目是《What every software engineer should know about search》，這篇文章裏指出瞭如今一些軟件工程師的問題，他們認爲開發一個搜索引擎功能就是搭建一個ElasticSearch集羣，而沒有深究背後的技術，以及技術發展趨勢。Max認爲，除了搜索引擎自身的搜索問題解決、人類使用方式等以外，也須要解決索引、分詞、權限控制、國際化等等的技術點，看了他的文章，勾起了我多年前的想法。瀏覽器

不少年前，我曾經想過本身實現一個搜索引擎，做爲本身的研究生論文課題，後來琢磨半天沒有想出新的技術突破點（相較於已發表的文章），因此切換到了大數據相關的技術點。當時沒有寫出來，心中有點小遺憾，畢竟憑藉搜索引擎崛起的谷歌是我心裏渴望的公司。今天我就想結合本身的一些積累，聊聊做爲一名軟件工程師，您須要瞭解的搜索引擎知識。緩存

搜索引擎發展過程

現代意義上的搜索引擎的祖先，是1990年由蒙特利爾大學學生Alan Emtage發明的Archie。即使沒有英特網，網絡中文件傳輸仍是至關頻繁的，並且因爲大量的文件散佈在各個分散的FTP主機中，查詢起來很是不便，所以Alan Emtage想到了開發一個能夠以文件名查找文件的系統，因而便有了Archie。Archie工做原理與如今的搜索引擎已經很接近，它依靠腳本程序自動搜索網上的文件，而後對有關信息進行索引，供使用者以必定的表達式查詢。

互聯網興起後，須要可以監控的工具。世界上第一個用於監測互聯網發展規模的「機器人」程序是Matthew Gray開發的World wide Web Wanderer，剛開始它只用來統計互聯網上的服務器數量，後來則發展爲可以檢索網站域名。

隨着互聯網的迅速發展，天天都會新增大量的網站、網頁，檢索全部新出現的網頁變得愈來愈困難，所以，在Matthew Gray的Wanderer基礎上，一些編程者將傳統的「蜘蛛」程序工做原理做了些改進。現代搜索引擎都是以此爲基礎發展的。

搜索引擎分類

全文搜索引擎

當前主流的是全文搜索引擎，較爲典型的表明是Google、百度。全文搜索引擎是指經過從互聯網上提取的各個網站的信息（以網頁文字爲主），保存在本身創建的數據庫中。用戶發起檢索請求後，系統檢索與用戶查詢條件匹配的相關記錄，而後按必定的排列順序將結果返回給用戶。從搜索結果來源的角度，全文搜索引擎又可細分爲兩種，一種是擁有本身的檢索程序（Indexer），俗稱「蜘蛛」（Spider）程序或「機器人」（Robot）程序，並自建網頁數據庫，搜索結果直接從自身的數據存儲層中調用；另外一種則是租用其餘引擎的數據庫，並按自定的格式排列搜索結果，如Lycos引擎。

雖然有搜索功能，但嚴格意義上不能稱爲真正的搜索引擎，只是按目錄分類的網站連接列表而已。用戶徹底能夠按照分類目錄找到所須要的信息，不依靠關鍵詞（Keywords）進行查詢。目錄索引中最具表明性的莫過於大名鼎鼎的Yahoo、新浪分類目錄搜索。

元搜索引擎

元搜索引擎在接受用戶查詢請求時，同時在其餘多個引擎上進行搜索，並將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具表明性的有搜星搜索引擎。在搜索結果排列方面，有的直接按來源引擎排列搜索結果，如Dogpile，有的則按自定的規則將結果從新排列組合，如Vivisimo。

本身實現搜索引擎

若是咱們想要實現搜索引擎，最重要的是索引模塊和搜索模塊。索引模塊在不一樣的機器上各自進行對資源的索引，並把索引文件統一傳輸到同一個地方（能夠是在遠程服務器上，也能夠是在本地）。搜索模塊則利用這些從多個索引模塊收集到的數據完成用戶的搜索請求。所以，咱們能夠理解兩個模塊之間相對是獨立的，它們之間的關聯不是經過代碼，而是經過索引和元數據，以下圖所示。

對於索引的創建，咱們須要注意性能問題。當須要進行索引的資源數目很少時，隔必定的時間進行一次徹底索引，不會佔用很長時間。但在大型應用中，資源的容量是巨大的，若是每次都進行完整的索引，耗費的時間會很驚人。咱們能夠經過跳過已經索引的資源內容，刪除已不存在的資源內容的索引，並進行增量索引來解決這個問題。這可能會涉及文件校驗和索引刪除等。另外一方面，框架能夠提供查詢緩存功能，提升查詢效率。框架能夠在內存中創建一級緩存，並使用如 OSCache或 EHCache緩存框架，實現磁盤上的二級緩存。當索引的內容變化不頻繁時，使用查詢緩存更會明顯地提升查詢速度、下降資源消耗。

搜索引擎解決方案

Sphinx

俄羅斯一家公司開源的全文搜索引擎軟件Sphinx，單一索引最大可包含1億條記錄，在1千萬條記錄狀況下的查詢速度爲0.x秒（毫秒級）。Sphinx建立索引的速度很快，根據網上的資料，Sphinx建立100萬條記錄的索引只需3～4分鐘，建立1000萬條記錄的索引能夠在50分鐘內完成，而只包含最新10萬條記錄的增量索引，重建一次只需幾十秒。

OmniFind

OmniFind 是 IBM 公司推出的企業級搜索解決方案。基於 UIMA (Unstructured Information Management Architecture) 技術，它提供了強大的索引和獲取信息功能，支持巨大數量、多種類型的文檔資源（不管是結構化仍是非結構化），併爲 Lotus®Domino®和 WebSphere®Portal 專門進行了優化。
下一代搜索引擎

從技術和產品層面來看，接下來的幾年，甚至於更長時間，應該沒有哪一家搜索引擎能夠撼動谷歌的技術領先優點和產品地位。可是咱們也能夠發現一些現象，例如搜索假期租房的時候，人們更喜歡使用Airbub，而不是Google，這就是針對匿名/個性化搜索需求，這些需求是谷歌所不能徹底覆蓋到的，畢竟原始數據並不在谷歌。咱們能夠看一個例子：DuckDuckGo。這是一款有別於大衆理解的搜索引擎，DuckDuckGo強調的是最佳答案，而不是更多的結果，因此每一個人搜索相同關鍵詞時，返回的結果是不同的。

另外一個方面技術趨勢是引入人工智能技術。在搜索體驗上，經過大量算法的引入，對用戶搜索的內容和訪問偏好進行分析，將標題摘要進行必定程度的優化，以更容易理解的方式呈現給用戶。谷歌在搜索引擎AI化的步驟領先於其餘廠商，2016年，隨着Amit Singhal被退休，John Giannandrea上位的交接班過程後，正式開啓了自身的革命。Giannandrea是深度神經網絡、近似人腦中的神經元網絡研究方面的頂級專家，經過分析海量級的數字數據，這些神經網絡能夠學習排列方式，例如對圖片進行分類、識別智能手機的語音控制等等，對應也能夠應用在搜索引擎。所以，Singhal向Giannandrea的過渡，也意味着傳統人爲干預的規則設置的搜索引擎向AI技術的過渡。引入深度學習技術以後的搜索引擎，經過不斷的模型訓練，它會深層次地理解內容，併爲客戶提供更貼近實際需求的服務，這纔是它的有用，或者可怕之處。

Google搜索引擎的工做流程

貼個圖，本身感覺下。

詳細點的：