Solr配置分詞器

時間 2019-11-07

標籤 solr 配置分詞器简体版

原文原文鏈接

1、版本信息測試

solr版本：4.6.0google

須要ik-analyzer版本：IK Analyzer 2012FF_hf1spa

ik-analyzer下載地址：http://code.google.com/p/ik-analyzer/downloads/listcode

2、配置步驟xml

下載壓縮解壓後獲得以下目錄結構的文件夾：blog

咱們把IKAnalyzer2012FF_u1.jar拷貝到solr服務的solr\WEB-INF\lib下面。token

咱們把IKAnalyzer.cfg.xml、stopword.dic拷貝到須要使用分詞器的core的conf下面，和core的schema.xml文件一個目錄。ci

修改core的schema.xml，在<types></types>配置項間加一段以下配置：rem

get

<fieldType name="cn_ik" class="solr.TextField" positionIncrementGap="100">

<analyzer type="index">

<tokenizer class="org.wltea.analyzer.solr.SolrIKAnalyzer" useSmart="true"/>

<filter class="solr.LowerCaseFilterFactory" />

</analyzer>

<analyzer type="query">

<tokenizer class="org.wltea.analyzer.solr.SolrIKAnalyzer" useSmart="true"/>

<filter class="solr.LowerCaseFilterFactory" />

</analyzer>

</fieldType>

咱們就多了一種cn_ik的field類型了，該類型使用的分詞器就是ik-analyzer。

咱們在這個core的schema.xml裏面配置field類型的時候就能夠使用cn_ik了。

<field name="cn_ik" type="cn_ik" indexed="true" stored="true"/>

3、中文分詞測試

結果以下:

IKT

text

raw_bytes

start

end

type

position

新

[e6 96 b0]

CN_CHAR

蛋

[e8 9b 8b]

CN_CHAR

信息技術

[e4 bf a1 e6 81 af e6 8a 80 e6 9c af]

CN_WORD

有限公司

[e6 9c 89 e9 99 90 e5 85 ac e5 8f b8]

CN_WORD

LCF

text

raw_bytes

position

start

end

type

新

[e6 96 b0]

CN_CHAR

蛋

[e8 9b 8b]

CN_CHAR

信息技術

[e4 bf a1 e6 81 af e6 8a 80 e6 9c af]

CN_WORD

有限公司

[e6 9c 89 e9 99 90 e5 85 ac e5 8f b8]

CN_WORD

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。