Nutch+solr+mmseg4j集成

第一章

安裝配置solr4.2

#下載solr4.2.0版本

[root@nutch nutch2]# wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgzjava

#解壓solr4.2.0文件

[root@nutch nutch2]# tar -xzvf solr-4.2.0.tgz apache

#nutch/conf/schema.xml複製到solr/collection1/conf瀏覽器

solr4.2.0版本中,咱們須要把nutchschema-solr4.xml文件複製到collection1下的conf目錄內,指定爲schema.xml服務器

[root@nutch nutch2]# cp /home/nutch2/release-1.6/runtime/local/conf/schema-solr4.xml /home/nutch2/solr-4.2.0/example/solr/collection1/conf/schema.xmlgoogle

#啓動solr服務器

[root@nutch example]# java -jar start.jar &spa

啓動以後報錯:code

_version_ does not exist orm

Unable to use updateLog: _version_field must exist in schema, using indexed="true" stored="true" and multiValued="false" (_version_ does not exist)xml

不存在_version_字段索引

解決方案:

修改solr/collection1/conf/schema.xml,在<fields>下增長:<field name=」_version_」 type=」long」 indexed=」true」 stored=」true」/>

#關閉solr服務器

[root@nutch example]# jps

4625 jar

4664 Jps

[root@nutch example]# kill -9 4625

[root@nutch example]#

solr4.2.0版本和solr3.6.2版本,最大的區別在於

solr4.2.0版本中,咱們再也不須要把solr/conf/solrconfig.xml文件裏的<str name=」df」>text</str>都替換爲<str name=」df」>content</str>

#從新啓動solr服務器

[root@nutch example]# java -jar start.jar &

打開瀏覽器訪問8983端口

http://192.168.1.49:8983/solr/

solr4.2配置分詞器mmseg4j 1.9.0

咱們在不配分詞的狀況下提交索引,它使用默認的分詞。但默認分詞效果並非咱們想要的。因此,咱們給solr配置mmseg4j分詞器。

#中止服務

[root@nutch example]# jps

5927 Jps

5853 jar

[root@nutch example]# kill -9 5853

#下載mmseg4j1.9

[root@nutch nutch2]# wget http://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip

#unzip命令解壓mmseg4j1.9

[root@nutch nutch2]# unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip -d mmseg4j-1.9.1

#建立lib目錄

[root@nutch nutch2]# mkdir solr-4.2.0/example/solr/collection1/lib

拷貝mmseg4j1.9dist目錄中的3jar包到solr/collection1/lib目錄下

[root@nutch nutch2]# cp mmseg4j-1.9.1/mmseg4j-1.9.1-SNAPSHOT/dist/* solr-4.2.0/example/solr/collection1/lib

修改schema.xml,指定使用seg4jTokenizer

[root@nutch nutch2]# vi solr-4.2.0/example/solr/collection1/conf/schema.xml

<tokenizer class="solr.WhitespaceTokenizerFactory"/><tokenizer class="solr.StandardTokenizerFactory"/>替換爲<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/>

Solr配置分詞器主要注意兩點:

  1. 複製jar

  2. 替換schema分詞器

運行SOLR並提交索引

#啓動solr服務器

[root@nutch example]# java -jar start.jar &

#提交索引

[root@nutch local]# bin/nutch solrindex http://192.168.1.49:8983/solr/ data/crawldb/ -linkdb data/linkdb/ -dir data/segments/

solr管理界面去查看索引信息

在網頁查看schema.xml配置文件

比較solr3.6solr4.2的區別

相關文章
相關標籤/搜索