從Lucene到Elasticsearch:Lucene 文件檢索項目實戰

項目需求::java

  • 構建一個類百度文庫小型文件檢索系統

架構設計圖::git

文件內容抽取:架構

  • 內容解析提取工具:Tika
    • 文件類型檢測、文件內容提取的庫
    • Lucene 子項目、java 寫成
    • 普遍應用於搜索引擎、內容分析、文本翻譯、數字資產管理等多個領域

  • Tika 還能夠解析圖像、音頻、視頻等多種文件

參見代碼::https://gitee.com/jly521/TikaDemo.git工具

自動解析:搜索引擎

  • 兩種:
    • Tika tika = new Tika();
    • Parser parser = new AutoDetectParser();

參見代碼::https://gitee.com/jly521/filesearchnew.git架構設計

相關文章
相關標籤/搜索