solr5.3.1 添加中文分詞之mmseg4j

時間 2019-11-09

標籤 solr5.3.1 solr 添加中文分詞 mmseg4j mmseg 简体版

原文原文鏈接

1，下載對應jar包，並拷貝到sorl服務器的lib目錄底下shell

2，添加配置文件（在Solr的安裝部署及簡單使用已經有過介紹）服務器

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
		<analyzer>
			<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="d:\solr\my_dic"/>
		</analyzer>
	</fieldtype>
	 
	<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
		<analyzer>
			<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
		</analyzer>
	</fieldtype>
	 
	<fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
		<analyzer>
			<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic" />
		</analyzer>
	</fieldtype>

其中 dicPath="d:\solr\my_dic" 是咱們指定的詞庫路徑，詞庫文件都在這個文件夾底下，而且名字要以words開頭，以dic作後綴，例如 words_my.dic。做爲演示，在詞庫裏添加.net