lucene字典實現原理

時間 2019-11-14

標籤 lucene 字典實現原理简体版

原文原文鏈接

http://www.cnblogs.com/LBSer/p/4119841.html

1 lucene字典

使用lucene進行查詢不可避免都會使用到其提供的字典功能，即根據給定的term找到該term所對應的倒排文檔id列表等信息。實際上lucene索引文件後綴名爲tim和tip的文件實現的就是lucene的字典功能。html

怎麼實現一個字典呢？咱們立刻想到排序數組，即term字典是一個已經按字母順序排序好的數組，數組每一項存放着term和對應的倒排文檔id列表。每次載入索引的時候只要將term數組載入內存，經過二分查找便可。這種方法查詢時間複雜度爲Log(N)，N指的是term數目，佔用的空間大小是O(N*str(term))。排序數組的缺點是消耗內存，即須要完整存儲每個term，當term數目多達上千萬時，佔用的內存將不可接受。node

2 經常使用字典數據結構

不少數據結構均能完成字典功能，總結以下。redis

數據結構	優缺點
排序列表Array/List	使用二分法查找，不平衡
HashMap/TreeMap	性能高，內存消耗大，幾乎是原始數據的三倍
Skip List	跳躍表，可快速查找詞語，在lucene、redis、Hbase等均有實現。相對於TreeMap等結構，特別適合高併發場景（Skip List介紹）
Trie	適合英文詞典，若是系統中存在大量字符串且這些字符串基本沒有公共前綴，則相應的trie樹將很是消耗內存（數據結構之trie樹）
Double Array Trie	適合作中文詞典，內存佔用小，不少分詞工具均採用此種算法（深刻雙數組Trie）
Ternary Search Tree	三叉樹，每個node有3個節點，兼具省空間和查詢快的優勢（Ternary Search Tree）
Finite State Transducers (FST)	一種有限狀態轉移機，Lucene 4有開源實現，並大量使用

3 FST原理簡析

lucene從4開始大量使用的數據結構是FST（Finite State Transducer）。FST有兩個優勢：1）空間佔用小。經過對詞典中單詞前綴和後綴的重複利用，壓縮了存儲空間；2）查詢速度快。O(len(str))的查詢時間複雜度。算法

下面簡單描述下FST的構造過程（工具演示：http://examples.mikemccandless.com/fst.py?terms=&cmd=Build+it%21）。咱們對「cat」、「deep」、「do」、「dog」、「dogs」這5個單詞進行插入構建FST（注：必須已排序）。數組

1）插入「cat」數據結構

插入cat，每一個字母造成一條邊，其中t邊指向終點。併發

2）插入「deep」less

與前一個單詞「cat」進行最大前綴匹配，發現沒有匹配則直接插入，P邊指向終點。高併發

3）插入「do」工具

與前一個單詞「deep」進行最大前綴匹配，發現是d，則在d邊後增長新邊o，o邊指向終點。

4）插入「dog」

與前一個單詞「do」進行最大前綴匹配，發現是do，則在o邊後增長新邊g，g邊指向終點。

5）插入「dogs」

與前一個單詞「dog」進行最大前綴匹配，發現是dog，則在g後增長新邊s，s邊指向終點。

最終咱們獲得瞭如上一個有向無環圖。利用該結構能夠很方便的進行查詢，如給定一個term 「dog」，咱們能夠經過上述結構很方便的查詢存不存在，甚至咱們在構建過程當中能夠將單詞與某一數字、單詞進行關聯，從而實現key-value的映射。

4 FST使用與性能評測

咱們能夠將FST當作Key-Value數據結構來進行使用，特別在對內存開銷要求少的應用場景。Lucene已經爲咱們提供了開源的FST工具，下面的代碼是使用說明。

 1 public static void main(String[] args) {
 2         try {
 3             String inputValues[] = {"cat", "deep", "do", "dog", "dogs"};
 4             long outputValues[] = {5, 7, 17, 18, 21};
 5             PositiveIntOutputs outputs = PositiveIntOutputs.getSingleton(true);
 6             Builder<Long> builder = new Builder<Long>(FST.INPUT_TYPE.BYTE1, outputs);
 7             BytesRef scratchBytes = new BytesRef();
 8             IntsRef scratchInts = new IntsRef();
 9             for (int i = 0; i < inputValues.length; i++) {
10                 scratchBytes.copyChars(inputValues[i]);
11                 builder.add(Util.toIntsRef(scratchBytes, scratchInts), outputValues[i]);
12             }
13             FST<Long> fst = builder.finish();
14             Long value = Util.get(fst, new BytesRef("dog"));
15             System.out.println(value); // 18
16         } catch (Exception e) {
17             ;
18         }
19     }