Lucene基於IKAnalyzer配置的詞典擴充

時間 2019-11-21

標籤 lucene 基於 ikanalyzer 配置詞典擴充简体版

原文原文鏈接

在web項目的src目錄下建立IKAnalyzer.cfg.xml文件,內容以下html

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  

    <comment>IK Analyzer 擴展配置</comment>
    <!-- 用戶能夠在這裏配置本身的擴展字典 -->
     <entry key="ext_dict">use.dic.dic;googlepy.dic</entry> 
     <!-- 用戶能夠在這裏配置本身的擴展中止詞字典    -->
    <entry key="ext_stopwords">dicdata/ext_stopword.dic</entry> 

</properties>

注意：java

1. use.dic的格式是無BOM 的UTF-8 編碼的中文文本文件，文件擴展名不限。詞典中，每一箇中文詞彙獨立佔一行，使用\r\n 的DOS 方式換行。（注，若是您不瞭解什麼是無BOM 的UTF-8 格式，請保證您的詞典使用UTF-8 存儲，並在文件的頭部添加一空行）。您能夠參考分詞器源碼org.wltea.analyzer.dic 包下的.dic 文件。web

2. use.dic文件應部署在src中。（推薦同IKAnalyzer.cfg.xml 放在一塊兒）.google

3.IKAnalyzer.cfg.xml中路徑的寫法：前面不能加/，不然是絕對路徑。編碼

http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.htmlspa

http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.htmlcode

http://www.itzhai.com/ikanalyzer-lucene-demo-performance-test.html#read-moreorm