solr5.3.1 添加中文分詞之mmseg4j

1,下載對應jar包,並拷貝到sorl服務器的lib目錄底下shell

2,添加配置文件(在Solr的安裝部署及簡單使用已經有過介紹)服務器

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
		<analyzer>
			<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="d:\solr\my_dic"/>
		</analyzer>
	</fieldtype>
	 
	<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
		<analyzer>
			<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
		</analyzer>
	</fieldtype>
	 
	<fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
		<analyzer>
			<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic" />
		</analyzer>
	</fieldtype>

其中  dicPath="d:\solr\my_dic"  是咱們指定的詞庫路徑,詞庫文件都在這個文件夾底下,而且名字要以words開頭,以dic作後綴,例如  words_my.dic。做爲演示,在詞庫裏添加.net

愛他美
高富帥

值得強調的是:這個詞典文件必須是utf-8格式的,不然沒法識別。code

3,重啓solr服務,進入管理界面xml

先試一下沒有添加自定義詞庫的效果,輸入文字:高富帥喜歡德國愛他美奶粉(使用textSimple)blog

再試一下添加了自定義詞庫的效果,仍是上面的文字token

明顯添加了自定義詞庫的顯示效果要比沒添加好不少utf-8

相關文章
相關標籤/搜索