Lucene筆記系列(3)——Lucene的文件結構

Lucene的文件結構是一個層次結構。
數據庫

Lucene文件層次結構包含:spa

若是非要打一個比方:索引

這裏的索引至關於數據庫中的表,當表中的記錄達到必定的量以後,咱們要對錶進行分區操做。
文檔

這裏的段就至關於表的分區。im

也就是說,索引能夠分解成多個段。數據

數據表中的記錄又保存不一樣的分區中內,這裏的文檔就至關於數據庫表中的記錄。不一樣的文檔保存在不一樣的段中。img

與表的分區略有不一樣的是,這裏的段能夠合併成一個新段。文件

一個索引包含多個段,每一個段包含一個或多個文檔,文檔中包含多個域,域能夠進行分詞劃分紅一個或多個詞元。文章


Lucene索引中保存了正向信息和反向信息。

正向信息:按層次保存了索引到詞的包含關係。

索引-段-文檔-域-詞

一個索引包含哪些段,每一個段包含哪些文檔,文檔中包含哪些域,域劃分紅哪些詞元。


反向信息:詞到文檔的映射關係。

在本系列前面的文章(1)中,咱們將這種從詞到文檔的映射關係,定義爲倒排表。經過倒排表,咱們能夠看到每個詞分別在哪些文檔中出現。


相關文章
相關標籤/搜索