Solr配置分詞器

1、版本信息測試

solr版本:4.6.0google

須要ik-analyzer版本:IK Analyzer 2012FF_hf1spa

ik-analyzer下載地址:http://code.google.com/p/ik-analyzer/downloads/listcode

2、配置步驟xml

下載壓縮解壓後獲得以下目錄結構的文件夾:blog

咱們把IKAnalyzer2012FF_u1.jar拷貝到solr服務的solr\WEB-INF\lib下面。token

咱們把IKAnalyzer.cfg.xmlstopword.dic拷貝到須要使用分詞器的coreconf下面,和coreschema.xml文件一個目錄。ci

修改coreschema.xml,在<types></types>配置項間加一段以下配置:rem

<!-- IKAnalyzer -->get

<fieldType name="cn_ik" class="solr.TextField" positionIncrementGap="100">

          <analyzer type="index">

        <tokenizer class="org.wltea.analyzer.solr.SolrIKAnalyzer" useSmart="true"/>

                    <filter class="solr.LowerCaseFilterFactory" />

    </analyzer>

    <analyzer type="query">

        <tokenizer class="org.wltea.analyzer.solr.SolrIKAnalyzer" useSmart="true"/>

                    <filter class="solr.LowerCaseFilterFactory" />

    </analyzer>

</fieldType>

 

咱們就多了一種cn_ikfield類型了,該類型使用的分詞器就是ik-analyzer

咱們在這個coreschema.xml裏面配置field類型的時候就能夠使用cn_ik了。

<field name="cn_ik" type="cn_ik" indexed="true" stored="true"/>

3、中文分詞測試

結果以下:

IKT

text

raw_bytes

start

end

type

position

[e6 96 b0]

0

1

CN_CHAR

1

[e8 9b 8b]

1

2

CN_CHAR

2

信息技術

[e4 bf a1 e6 81 af e6 8a 80 e6 9c af]

2

6

CN_WORD

3

有限公司

[e6 9c 89 e9 99 90 e5 85 ac e5 8f b8]

6

10

CN_WORD

4

LCF

text

raw_bytes

position

start

end

type

[e6 96 b0]

1

0

1

CN_CHAR

[e8 9b 8b]

2

1

2

CN_CHAR

信息技術

[e4 bf a1 e6 81 af e6 8a 80 e6 9c af]

3

2

6

CN_WORD

有限公司

[e6 9c 89 e9 99 90 e5 85 ac e5 8f b8]

4

6

10

CN_WORD

相關文章
相關標籤/搜索