《Lucene in Action》（第二版）第二章節的學習總結 ---- IndexWriter+Document+Field

時間 2019-11-19

標籤 lucene action 第二章節學習總結 indexwriter+document+field indexwriter document field 简体版

原文原文鏈接

這一章節的學習，主要是學會如何建立索引，使用索引安全

一.建立索引併發

1.從原始文件中提取內容。這裏的文件，能夠是文本文件，也能夠是二進制文件。文本文件(txt)，lucene能夠直接處理；而二進制文件（word，pdf等），則可使用Tika框架（Tika是啥，我本身還沒學到，先不細說了）。提取的內容，必須的轉換成lucene能識別的格式並存儲。這裏的格式，就是Field以及由多個Field組成的Document。存儲在Directory對象中。框架

2.光轉換成Document還不能用，lucene還得對Document進行分析，轉換成語彙單元。分析是使用的分析器，即各類Analyzer學習

3.Lucene是安裝倒排索引的方式來存儲分析結果（即語彙單元）的。倒排就是：給定一個語彙單元做爲key，哪些document含有這個key啊？線程

4.創建的索引，存儲在一些有奇怪後綴名的文件中（包括：fdt,fdx,fnm,frq,nrm,prx,tii,tis,tvd,tvf,tvx,segments.gen,segments_一個數字，等等），具體含義看附錄B吧。這也就是書上說的索引段對象

二.使用索引索引

1.向索引中加入文檔：內存

建立IndexWriter對象：IndexWriter writer = new IndexWriter(一個Directory對象，一個分析器對象，一個指定索引存儲Field最大所需內存大小的值)文檔

建立Document對象，並加入Field：Document doc = new Document(); doc.add(new Field(域名,域值,域存儲選項,域索引選項))域名

向索引中加入文檔：writer.addDocument(doc); 最後記得要writer.close();從而才能將索引的變化提交到Directory對象中。

2.刪除索引中的文檔：

注意：這裏刪除的是文檔（即Document），而不是Field。也就是說，刪除的最小單位是Document。而定位要刪除哪一個Document，可使用Term對象或者Query對象。而後使用writer.deleteDocuments(Term對象或者Query對象) 便可

要使得其生效，得writer.commit()或者writer.close();

3.更新索引中的文檔

lucene的更新，實際就是先刪除舊的Document，再添加新的Document。對應方法是:updateDocument(用來匹配舊文檔的Term對象,要更新的新文檔對象，可選的一個分析器對象)。

4.索引中的文檔裏面的域，受到域選項的控制。包括：域索引選項，域存儲選項，域的項向量選項（這個不大理解，先寫在這裏而已）；同一個域名還能帶多個域值

5.因爲索引中會有不少文檔，一個文檔中又有不少域。那麼，哪些文檔重要，哪些域重要，就能夠用加權來進行控制。有文檔加權(doc.setBoost(權值))和域加權（field.setboost(權值)）。當加權一個文檔時，則文檔中全部域也就跟着加權了。

這裏我有一個疑問：若是一個文檔的權值是1.5；而又給該文檔中的某個field加權爲2.0，那麼，這個特別的field的權值是1.5仍是2.0，仍是別的啥？

6.最後在記錄一個索引的「併發，線程安全及鎖機制」。記住：

A.任意數量的只讀屬性的IndexReader類均可以同時打開一個索引；

B.對於一個索引來講，一次只能打開一個IndexWriter類。當IndexWriter打開一個索引後，就在該索引所在Directory中存放了一個鎖文件(write.lock)。其餘writer就不能再打開咯。

此章節還有一些高級話題，我還沒理解，就先不寫了

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

《Lucene in Action》（第二版） 第二章節的學習總結 ---- IndexWriter+Document+Field

《Lucene in Action》（第二版）第二章節的學習總結 ---- IndexWriter+Document+Field