海量數據搜索---搜索引擎的實現

在咱們日常的生活工做中,百度、谷歌這些搜索網站已經成爲了咱們受教解惑的學校,俗話說得好,「有問題找度娘」。那麼百度是如何在海量數據中找到本身須要的數據呢?爲何它搜索的速度如此之快?咱們都知道是由於百度的搜索引擎,那麼搜索引擎究竟是個什麼東西呢?可能有的程序員會想到es,可是es並不能表明搜索引擎,它只是其中的一種工具,不過這種工具確實好用,效率很高。html

本文會向你們講述搜索引擎的基本知識以及中文分詞的一些方法、而後會作一個小的demo來嘗試數據檢索。讓你們初步瞭解搜索引擎的實現。java

1、搜索引擎介紹

1.1 搜索引擎是什麼

這裏引用百度百科的介紹:git

搜索引擎(Search Engine)是指根據必定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理後,爲用戶提供檢索服務,將用戶檢索相關的信息展現給用戶的系統。程序員

1.2 搜索引擎分類

搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費連接列表等。github

本文主要介紹全文索引,即百度使用的搜索引擎分類。算法

全文索引數據庫

首先是數據庫中數據的蒐集,搜索引擎的自動信息蒐集功能分兩種:apache

  • 一種是按期搜索,即每隔一段時間(好比Google通常是28天),搜索引擎主動派出「蜘蛛」程序,對必定IP地址範圍內的互聯網網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入本身的數據庫。
  • 另外一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在必定時間內(2天到數月不等)定向向你的網站派出「蜘蛛」程序,掃描你的網站並將有關信息存入數據庫,以備用戶查詢。

當用戶以關鍵詞查找信息時,搜索引擎會在數據庫中進行搜尋,若是找到與用戶要求內容相符的網站,便採用特殊的算法——一般根據網頁中關鍵詞的匹配程度、出現的位置、頻次、連接質量——計算出各網頁的相關度及排名等級,而後根據關聯度高低,按順序將這些網頁連接返回給用戶。這種引擎的特色是搜全率比較高。windows

1.3 搜索引擎能解決什麼問題

  • 高效查詢數據(運用多種算法查詢數據,查詢速率是毫秒級別,不管是千萬條數據仍是上億的數據)服務器

  • 比較容易,將普通的數據庫切換成搜索引擎比較容易。

  • 大數據量、時效性、高併發等等。

1.4 搜索引擎的應用場景

  • 數據庫達到百萬數據級別的時候
  • 要求檢索時效性、性能要求高,Ms級響應

1.5 Solr

接下來看在日常的互聯網中搜索引擎的應用Solr。那麼什麼是Solr呢?它和es相比有什麼優勢和不足呢?

咱們先來簡單地介紹一下solr:

Solr是一個基於Lucene的全文搜索服務器。同時對其進行了擴展,提供了比Lucene更爲豐富的面向使用的查詢語言,同時實現了可配置、可擴展並對查詢性能進行了優化,而且提供了一個完善的功能管理界面。它支持Xml/Http協議,支持JSONAPI接口。

它具備以下特色:

  • 可擴展性:Solr能夠把創建索引和查詢處理的運算分佈到一個集羣內的多臺服務器上。

  • 快速部署:Solr是開源軟件,安裝和配置都很方便,能夠根據安裝包內的Sample配置直接上手,可分爲單機和集羣模式。

  • 海量數據:Solr是針對億級以上的海量數據處理而設計的,能夠很好地處理海量數據檢索。

  • 優化的搜索功能:Solr搜索速度夠快,對於複雜的搜索查詢Solr能夠作到毫秒級的處理,一般,幾十毫秒就能處理完一次複雜查詢。

2、分詞介紹

接下來,咱們將瞭解分詞是如何實現的。那麼,咱們爲何要去分詞呢,這和搜索引擎有什麼關係呢?咱們在搜索框裏輸入的幾個詞或者一段話是如何拆成多個關鍵字的呢?

你們據說過哪些分詞器嗎?好比lucene自帶的中文分詞器smartcn,還有最經常使用的IK分詞器等等,今天咱們主要講一下IK分詞器。

2.1 IK分詞器

IK分詞器首先會維護幾個詞典來記錄一些經常使用的詞,如主詞表:main2012.dic、量詞表quantifier.dic、停用詞stopword.dic。

Dictionary爲字典管理類中,分別加載了這個詞典到內存結構中。具體的字典代碼,位於org.wltea.analyzer.dic.DictSegment。 這個類實現了一個分詞器的一個核心數據結構,即Tire Tree。

Tire Tree(字典樹)是一種結構至關簡單的樹型結構,用於構建詞典,經過前綴字符逐一比較對方式,快速查找詞,因此有時也稱爲前綴樹。具體的例子以下。

舉例

好比:我是北京海淀區中關村的中國人民。

咱們設置的詞典是:北京、海淀區、中關村、中國、中國人民,那麼根據詞典組成的字典樹如圖所示:

而後咱們根據這個字典樹來對這段話進行詞語切分。IK分詞器中,基本能夠分爲兩種模式:一種是smart模式、一種是非smart模式,能夠在代碼中初始化的時候去配置。

咱們其實不用解釋這兩種模式的字面含義,直接打印兩種模式的結果就能夠看出來:

  • 原句:我是北京海淀區中關村的中國人民

  • smart模式:北京、海淀區、中關村、中國人民

  • 非smart模式:北京、海淀區、中關村、中國、中國人民

顯而易見,非smart模式是將可以分出來的詞所有輸出;smart模式是根據內在的方法輸出一個合理的分詞結果,這就涉及到了歧義判斷。

舉例

舉個更有表明性的例子:張三說的確實在理。

根據正向匹配可能的詞元鏈:

  • L1:{張三,張,三}
  • L2:{說}
  • L3:{的確,的,確實,確,實在,實,在理,在,理}

首來看一下最基本的一些元素結構類:

public class Lexeme implements Comparable{  
    ……  
   
    //詞元的起始位移  
    private int offset;  
    //詞元的相對起始位置  
    private int begin;  
    //詞元的長度  
    private int length;  
    //詞元文本  
    private String lexemeText;  
    //詞元類型  
    private int lexemeType;  
     ……  
}

這裏的Lexeme(詞元),能夠理解爲是一個詞語或單詞。其中的begin,是指其在輸入文本中的位置。注意,它是實現Comparable的,起始位置靠前的優先,長度較長的優先,這能夠用來決定一個詞在一條分詞結果的詞元鏈中的位置,能夠用於獲得上面例子中分詞結果中的各個詞的順序。  

/* 
* 詞元在排序集合中的比較算法
* @see java.lang.Comparable#compareTo(java.lang.Object) 
*/  
public int compareTo(Lexeme other) {  
//起始位置優先  
    if(this.begin < other.getBegin()){  
        return -1;  
    }else if(this.begin == other.getBegin()){  
     //詞元長度優先  
     if(this.length > other.getLength()){  
         return -1;  
     }else if(this.length == other.getLength()){  
         return 0;  
     }else {//this.length < other.getLength()  
         return 1;  
     }  
        
    }else{//this.begin > other.getBegin()  
     return 1;  
    }  
}

smart模式歧義消除算法:  

  • 詞元位置權重比較(詞元長度積),含義是選取長的詞元位置在後的集合
  • L31:{的,確實,在理}1*1+2*2+3*2=11
  • L32:{的確,實,在理} 1*2+2*1+3*2=10
  • L33:{的確,實在,理} 1*2+2*2+3*1=9
  • 最後的分詞結果:張三,說,的,確實,在理

分詞就介紹這麼多,你們能夠去讀一下IK分詞器的源碼,深刻地瞭解一下,源碼地址:https://github.com/quentinxxz/Search/tree/master/IKAnalyzer2012FF_hf1_source/

3、倒排索引算法

3.1 介紹

咱們能夠把倒排索引算法想象成查字典時的目錄同樣,咱們知道須要查的字的目錄後,就會很快地查找到。若是用專業的語言解釋的話就是:

倒排索引源於實際應用中須要根據屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具備該屬性值的各記錄的地址。因爲不是由記錄來肯定屬性值,而是由屬性值來肯定記錄的位置,於是稱爲倒排索引(inverted index)。帶有倒排索引的文件咱們稱爲倒排索引文件,簡稱倒排文件(inverted file)。

倒排文件(倒排索引),索引對象是文檔或者文檔集合中的單詞等,用來存儲這些單詞在一個文檔或者一組文檔中的存儲位置,是對文檔或者文檔集合的一種最經常使用的索引機制。

搜索引擎的關鍵步驟就是創建倒排索引,倒排索引通常表示爲一個關鍵詞,而後是它的頻度(出現的次數),位置(出如今哪一篇文章或網頁中,及有關的日期,做者等信息),它至關於爲互聯網上幾千億頁網頁作了一個索引,比如一本書的目錄、標籤通常。讀者想看哪個主題相關的章節,直接根據目錄便可找到相關的頁面。沒必要再從書的第一頁到最後一頁,一頁一頁地查找。

3.2 Lucene倒排索引原理

Lucerne是一個開放源代碼的高性能的基於java的全文檢索引擎工具包,不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎。目的是爲軟件開發人員提供一個簡單易用的工具包,以方便在目標系統中實現全文檢索的功能,或者以此爲基礎創建起完整的全文檢索引擎。

假設有兩篇文章1和2:

文章1的內容爲: Jack lives in BeiJing,I live in BeiJing too.    文章2的內容爲: He lived in Taiyuan.

1)取得關鍵詞 

首先咱們要用咱們以前講的方式分詞,而後因爲英文的緣由,咱們須要將in、on、of這些沒用實際意義的詞過濾掉,而後將第三人稱單數加s或者過去式加ed這些詞還原回去,如lived變回live,lives變回live,而後把不須要的標點符號也去掉。通過上面的處理以後,剩下的關鍵字爲:

文章1的全部關鍵詞爲:[Jack] [live] [BeiJing] [i] [live] [BeiJing]    

文章2的全部關鍵詞爲:[he] [live] [Taiyuan]

2)創建倒排索引

關鍵詞            文章號[出現頻率]              出現位置   
BeiJing             1[2]                      3,6   
he                  2[1]                      1   
i                   1[1]                      4   
live                1[2]                      2,5, 
                    2[1]                      2   
Taiyuan             2[1]                      3   
tom                 1[1]                      1

  以上就是lucene索引結構中最核心的部分。咱們注意到關鍵字是按字符順序排列的(lucene沒有使用B樹結構),所以lucene能夠用二元搜索算法快速定位關鍵詞。  

3.3 實現

實現時,lucene將上面三列分別做爲詞典文件(Term Dictionary)、頻率文件(frequencies)、位置文件 (positions)保存。其中詞典文件不只保存有每一個關鍵詞,還保留了指向頻率文件和位置文件的指針,經過指針能夠找到該關鍵字的頻率信息和位置信息。  

3.4 壓縮算法

爲了減少索引文件的大小,Lucene對索引還使用了壓縮技術。

首先,對詞典文件中的關鍵詞進行了壓縮,關鍵詞壓縮爲<前綴長度,後綴>,例如:當前詞爲「阿拉伯語」,上一個詞爲「阿拉伯」,那麼「阿拉伯語」壓縮爲<3,語>。

其次大量用到的是對數字的壓縮,數字只保存與上一個值的差值(這樣能夠減少數字的長度,進而減小保存該數字須要的字節數)。例如當前文章號是16389(不壓縮要用3個字節保存),上一文章號是16382,壓縮後保存7(只用一個字節)。

3.5 使用緣由

假設要查詢單詞 「live」,lucene先對詞典二元查找、找到該詞,經過指向頻率文件的指針讀出全部文章號,而後返回結果。詞典一般很是小,於是,整個過程的時間是毫秒級的。   

而用普通的順序匹配算法,不建索引,而是對全部文章的內容進行字符串匹配,這個過程將會至關緩慢,當文章數目很大時,時間每每是沒法忍受的。

4、solr基本配置以及使用

咱們在windows系統中安裝solr。

下載地址 http://lucene.apache.org/solr/downloads.html

解壓後:

cmd 進入solr的bin目錄,使用命令 solr start(爲了更方便,能夠配置solr的環境變量,配好後能夠直接在cmd中使用solr命名)

看到這個界面,說明solr服務啓動成功,端口號爲 8983,訪問 http://localhost:8983,會自動跳轉到http://localhost:8983/solr/#/

在這個頁面會顯示 solr的基本信息,lucene信息,Java信息等

而後咱們介紹一個solr的指令: solr -h 能夠看到solr的基本信息

配置solr

配置核心core

solr create -c mycore -d baisc_configs:-c參數指定定義的核心名稱,-d參數指定配置目錄

執行該命令後,會多出一個test目錄。

訪問Solr Admin頁面:http://localhost:8983/,查看core,多了一個 test

在\solr-6.3.0\server\solr\test目錄下有conf和data目錄,分別對應配置和數據。

給core添加數據

打開目錄:\solr-6.3.0\server\solr\test\conf,添加一個字段:

<field name="name" type="string" indexed="false" stored="true" required="true" multiValued="false" />

而後重啓solr: solr restart -p 8983

到Solr Admin頁面,選擇core-test-document,在Document(s)中填寫數據:

{
"id":"1",
"name":"寶馬"
}

點擊submit,返回Status: success,則表明添加數據成功。

多加幾條後,點擊Query,查詢數據:

查詢界面的 q,表明 查詢條件,如輸入:name:"寶馬",再次執行查詢

也能夠直接get方式訪問url:http://localhost:8983/solr/test/select?q=name:寶馬

做者:楊亨

來源:宜信技術學院

拓展閱讀:數據中臺:宜信敏捷數據中臺建設實踐|分享實錄

相關文章
相關標籤/搜索