Lucene簡介html
Lucene是apache軟件基金會4 jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是爲軟件開發人員提供一個簡單易用的工具包,以方便的在目標系統中實現全文檢索的功能,或者是以此爲基礎創建起完整的全文檢索引擎。apache
Lucene.net簡介架構
Lucene.net是Lucene的.net移植版本,是一個開源的全文檢索引擎開發包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎。開發人員能夠基於Lucene.net實現全文檢索的功能。工具
Lucene.net工做原理post
Lucene.net提供的服務須要兩部分:索引文件的寫入和索引文件的讀取。學習
1寫入流程
源數據字符串通過analyzer處理,將源中須要搜索的信息加入Document的各個字段中,並把須要索引的字段起來並存儲。
將索引寫入存儲器,存儲器能夠是內存或磁盤。
2讀出流程
用戶提供搜索關鍵詞,通過analyzer處理。(咱們下面代碼採用的是盤古分詞 ,其相關分詞原理 能夠再它的官網上能夠看到 http://pangusegment.codeplex.com/)
對處理後的關鍵詞搜索索引找出對應的Document,用戶根據須要從找到的Document中提取須要的Field。ui
Lucene.net安裝spa
你們能夠去官網看下:https://www.nuget.org/packages/Lucene.Net/3.0.3.net
盤古分詞安裝pwa
盤古分詞主頁:http://pangusegment.codeplex.com/
下載:http://pangusegment.codeplex.com/downloads/get/144143
Lucene.net結合盤古分詞使用
http://pangusegment.codeplex.com/downloads/get/144145
你們能夠看到相關使用的案列
Lucene.net建立索引(結合盤古分詞)
/*code 釋迦苦僧*/ class Program { static void Main(string[] args) { Stopwatch sw = new Stopwatch();//加入時間統計 //獲取 數據列表 PostBll bll = new PostBll(); IList<PostInfo> posts = bll.GetAllPost(); Console.WriteLine(posts.Count); //建立Lucene索引文件 string IndexDic = @"D:\Lucene\post\"; sw.Start(); IndexWriter writer = new IndexWriter(FSDirectory.Open(IndexDic), new PanGuAnalyzer(), true, IndexWriter.MaxFieldLength.LIMITED); foreach (PostInfo item in posts) { Document doc = new Document(); Field postid = new Field("PostId", item.PostId.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO); Field title = new Field("Title", item.Title.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO); Field postscore = new Field("PostScore", item.PostScore.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO); doc.Add(postid); doc.Add(title); doc.Add(postscore); writer.AddDocument(doc); } writer.Optimize(); writer.Commit(); sw.Stop(); Console.Write("創建" + posts.Count + "索引,花費: " + sw.Elapsed); Console.ReadLine(); } }
如代碼所示:
D:\Lucene\post\ 存儲Lucene.net生成的索引文件,以下圖
這些索引存儲文件存儲了PostInfo表中 PostId,Title,PostScore 三個字段信息。
須要注意的是:使用盤古分詞操做時,須要將PanGu.xml和盤古分詞自帶的分詞文件放入項目中,以下圖:
Lucene.net執行搜索(結合盤古分詞)
namespace LuceneNetStudy.Search { /*code 釋迦苦僧*/ public partial class MainForm : Form { private string IndexDic = @"D:\Lucene\post\"; public MainForm() { InitializeComponent(); } private void btnSearch_Click(object sender, EventArgs e) { /*開啓搜索用的後臺線程*/ BackgroundWorker backWorker = new BackgroundWorker(); backWorker.DoWork += new DoWorkEventHandler(backWorker_DoWork); backWorker.RunWorkerAsync(txtKey.Text.Trim()); } void backWorker_DoWork(object sender, DoWorkEventArgs e) { string key = e.Argument as string; List<PostInfo> result = new List<PostInfo>(); /*加入時間統計*/ Stopwatch sw = new Stopwatch(); sw.Start(); /*建立 Lucene.net 搜索實例*/ IndexSearcher search = new IndexSearcher(FSDirectory.Open(IndexDic), true); /*爲搜索實例 加入搜索分詞規則 來源 盤古分詞*/ key = GetKeyWordsSplitBySpace(key, new PanGuTokenizer()); BooleanQuery bq = new BooleanQuery(); if (!string.IsNullOrEmpty(key)) { /*若是搜索關鍵字不爲空 知道關鍵字搜索列爲Title*/ QueryParser queryParser = new MultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_30, new string[] { "Title" }, new PanGuAnalyzer()); Query query = queryParser.Parse(key); bq.Add(query, Occur.MUST); } /*指定排序方式 按 PostScore 字段來排序*/ List<SortField> sorts = new List<SortField>(); SortField sf = new SortField("PostScore", SortField.DOUBLE, true); sorts.Add(sf); Sort sort = new Sort(sorts.ToArray()); TopFieldDocs docs = search.Search(bq, null, search.MaxDoc, sort); int allCount = docs.TotalHits; /*獲取匹配的前10條*/ ScoreDoc[] hits = TopDocs(0, 10, docs); foreach (ScoreDoc sd in hits)//遍歷搜索到的結果 { try { Document doc = search.Doc(sd.Doc); var model = new PostInfo(); model.PostId = Guid.Parse(doc.Get("PostId")); model.PostScore = double.Parse(doc.Get("PostScore")); model.Title = doc.Get("Title"); result.Add(model); } catch { } } search.Close(); search.Dispose(); sw.Stop(); if (result != null) { Invoke(new MethodInvoker(delegate() { lblRunTime.Text = "花費: " + sw.Elapsed; txtResult.Text = ""; foreach (PostInfo info in result)//遍歷搜索到的結果 { txtResult.Text += info.PostScore + "\t" + info.Title + "\r\n"; } })); } } public static ScoreDoc[] TopDocs(int start, int limit, TopFieldDocs docs) { int endIndex = 0; int hc = docs.TotalHits; if (hc - start > limit) { endIndex = start + limit; } else { endIndex = hc; } List<ScoreDoc> dl = new List<ScoreDoc>(); var da = docs.ScoreDocs; for (int i = start; i < endIndex; i++) { dl.Add(da[i]); } return dl.ToArray(); } static public string GetKeyWordsSplitBySpace(string keywords, PanGuTokenizer ktTokenizer) { StringBuilder result = new StringBuilder(); /*執行分詞操做 一個關鍵字能夠拆分爲多個次和單個字*/ ICollection<WordInfo> words = ktTokenizer.SegmentToWordInfos(keywords); foreach (WordInfo word in words) { if (word == null) { continue; } result.AppendFormat("{0} ", word.Word); } return result.ToString().Trim(); } } }
這是咱這兩天的學習成果,研究還不是很透徹,但願能給你們帶來些瞭解,點個贊吧。
做者:釋迦苦僧 出處:http://www.cnblogs.com/woxpp/p/3972233.html 本文版權歸做者和博客園共有,歡迎轉載,但未經做者贊成必須保留此段聲明,且在文章頁面明顯位置給出原文鏈接。