[root@nutch nutch2]# wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgzjava
[root@nutch nutch2]# tar -xzvf solr-4.2.0.tgz apache
#把nutch/conf/schema.xml複製到solr/collection1/conf瀏覽器
在solr4.2.0版本中,咱們須要把nutch的schema-solr4.xml文件複製到collection1下的conf目錄內,指定爲schema.xml服務器
[root@nutch nutch2]# cp /home/nutch2/release-1.6/runtime/local/conf/schema-solr4.xml /home/nutch2/solr-4.2.0/example/solr/collection1/conf/schema.xmlgoogle
[root@nutch example]# java -jar start.jar &spa
啓動以後報錯:code
_version_ does not exist orm
Unable to use updateLog: _version_field must exist in schema, using indexed="true" stored="true" and multiValued="false" (_version_ does not exist)xml
不存在_version_字段索引
解決方案:
修改solr/collection1/conf/schema.xml,在<fields>下增長:<field name=」_version_」 type=」long」 indexed=」true」 stored=」true」/>
[root@nutch example]# jps
4625 jar
4664 Jps
[root@nutch example]# kill -9 4625
[root@nutch example]#
在solr4.2.0版本中,咱們再也不須要把solr/conf/solrconfig.xml文件裏的<str name=」df」>text</str>都替換爲<str name=」df」>content</str>
[root@nutch example]# java -jar start.jar &
http://192.168.1.49:8983/solr/
咱們在不配分詞的狀況下提交索引,它使用默認的分詞。但默認分詞效果並非咱們想要的。因此,咱們給solr配置mmseg4j分詞器。
[root@nutch example]# jps
5927 Jps
5853 jar
[root@nutch example]# kill -9 5853
[root@nutch nutch2]# wget http://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip
[root@nutch nutch2]# unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip -d mmseg4j-1.9.1
[root@nutch nutch2]# mkdir solr-4.2.0/example/solr/collection1/lib
[root@nutch nutch2]# cp mmseg4j-1.9.1/mmseg4j-1.9.1-SNAPSHOT/dist/* solr-4.2.0/example/solr/collection1/lib
[root@nutch nutch2]# vi solr-4.2.0/example/solr/collection1/conf/schema.xml
把<tokenizer class="solr.WhitespaceTokenizerFactory"/>和<tokenizer class="solr.StandardTokenizerFactory"/>替換爲<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/>
複製jar包
替換schema分詞器
[root@nutch example]# java -jar start.jar &
[root@nutch local]# bin/nutch solrindex http://192.168.1.49:8983/solr/ data/crawldb/ -linkdb data/linkdb/ -dir data/segments/