Lucene基於IKAnalyzer配置的詞典擴充

在web項目的src目錄下建立IKAnalyzer.cfg.xml文件,內容以下html

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  

    <comment>IK Analyzer 擴展配置</comment>
    <!-- 用戶能夠在這裏配置本身的擴展字典 -->
     <entry key="ext_dict">use.dic.dic;googlepy.dic</entry> 
     <!-- 用戶能夠在這裏配置本身的擴展中止詞字典    -->
    <entry key="ext_stopwords">dicdata/ext_stopword.dic</entry> 

</properties>

注意:java

1. use.dic的格式是無BOM 的UTF-8 編碼的中文文本文件,文件擴展名不限。詞典中,每一箇中文詞彙獨立佔一行,使用\r\n 的DOS 方式換行。(注,若是您不瞭解什麼是無BOM 的UTF-8 格式, 請保證您的詞典使用UTF-8 存儲,並在文件的頭部添加一空行)。您能夠參考分詞器源碼org.wltea.analyzer.dic 包下的.dic 文件。web

2. use.dic文件應部署在src中。(推薦同IKAnalyzer.cfg.xml 放在一塊兒).google

3.IKAnalyzer.cfg.xml中路徑的寫法:前面不能加/,不然是絕對路徑。編碼

http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.htmlspa

http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.htmlcode

http://www.itzhai.com/ikanalyzer-lucene-demo-performance-test.html#read-moreorm

相關文章
相關標籤/搜索