Lucene的文件結構是一個層次結構。
數據庫
Lucene文件層次結構包含:spa
若是非要打一個比方:索引
這裏的索引至關於數據庫中的表,當表中的記錄達到必定的量以後,咱們要對錶進行分區操做。
文檔
這裏的段就至關於表的分區。im
也就是說,索引能夠分解成多個段。數據
數據表中的記錄又保存不一樣的分區中內,這裏的文檔就至關於數據庫表中的記錄。不一樣的文檔保存在不一樣的段中。img
與表的分區略有不一樣的是,這裏的段能夠合併成一個新段。文件
一個索引包含多個段,每一個段包含一個或多個文檔,文檔中包含多個域,域能夠進行分詞劃分紅一個或多個詞元。文章
Lucene索引中保存了正向信息和反向信息。
正向信息:按層次保存了索引到詞的包含關係。
索引-段-文檔-域-詞
一個索引包含哪些段,每一個段包含哪些文檔,文檔中包含哪些域,域劃分紅哪些詞元。
反向信息:詞到文檔的映射關係。
在本系列前面的文章(1)中,咱們將這種從詞到文檔的映射關係,定義爲倒排表。經過倒排表,咱們能夠看到每個詞分別在哪些文檔中出現。