lucene開發必備工具luke介紹

本文已經遷移到搞搜索 java

作lucene開發的,免不了要和索引文件打交道,可是一些二進制的文件咱們怎麼去看,下面就要隆重的有請luke了 數據庫

根據百度百科的說法:Luke是一個用於Lucene搜索引擎的,方便開發和診斷的第三方工具,它能夠訪問現有Lucene的索引,並容許您顯示和修改。 分佈式

咱們能夠經過luke來進行通常的索引查看和修改操做。 工具

就打個比方,lucene的索引文件就好像是數據庫存儲的數據文件,luke就是一個DBMS系統,相信都懂的^_^ oop

首先jdk是必須地,而後直接到googlecode上把最新的luke下下來,我如今用的是3.5版本,下下來就是一個jar包,能夠直接雙擊打開,或者到命令行:java -jar /lukeall-3.5.0.jar,界面仍是不錯的哈,而後上方的菜單欄上的file按鈕就能夠打開索引目錄了,若是當前索引已經被打開了(裏面有write.lock文件了),咱們就可使用強制解鎖的方法來打開目錄,或者是使用readonly的方法來打開索引目錄,打開後就能夠像DBMS一看的查看索引裏面保存的數據了,若是索引改變了,能夠點擊overview界面上的re-open按鈕從新打開。 性能

共有5個界面: 測試

overview是用來進行索引的通常性查看和操做的,好比索引目錄民,索引文件版本。。。等等概要信息,右上角三個按鈕分別能夠從新打開索引,提交索引更改和關閉當前打開的索引,下面兩個list就是顯示詞和字段的相關信息了。 優化

documents界面是用來進行文檔的操做和查看的,好比文件的刪除、添加。下面一個大listview就能夠用來查看文檔的詳細信息了,是否是和DBMS的查看錶數據很是的像呢?上面有兩個查找文檔的方法,根據文檔編號來查找和根據詞來查找了,其實這個就是搜索了 搜索引擎

search界面是我認爲最有用的一個界面了,其中咱們能夠在這裏進行索引的搜索測試,能夠編寫最的lucene搜索語句,而後能夠看到語句解析後的query樹,這樣就能夠知道爲何咱們有些查詢會查詢不到咱們想要的信息了,而後還能夠選擇進行搜索的分詞器、默認字段和重複搜索次數的(能夠經過屢次搜索來獲取平均一個搜索過程的耗時長短,這個對查詢的性能測試時很是有用的),而後下面的listview中就會列出一個搜索的的文檔的全部保存的(store)字段的值,下面能夠看到查詢花費的時間 google

file界面,故名思義,這個就是用來查看每一個索引相關文件的一些屬性的界面,具體的話,能夠經過這個界面分析下索引文件的多少,是否須要優化或者合併等等。。。。

最後一個plugins界面,就是能夠看到luke提供的各類插件,我認爲比較有用的仍是那個分詞工具,提供一個分詞的類,而後下面文本框輸入一段文本,而後就可讓這個工具幫你分詞,你能夠看到詳細的分詞信息,相信這個對自定義分詞器的調試或者測試仍是頗有用的。而後還有一個hadoop插件,支持從hadoop節點中獲取節點中文件的相關信息,這個應該對分佈式搜索引擎搭建仍是有那麼點用吧。。。。不過我認爲若是用hadoop的話,必定會用更強大的插件的。。。這個是否是有點多餘了,哈哈

 附上下載地址:http://code.google.com/p/luke/downloads/list

文筆很差,並且沒有配上圖片(不知道怎麼上傳圖片 = =)但願你們多多批評指教哈,另外五一快樂!!!!IT民工們!!

相關文章
相關標籤/搜索