一、SOLR4.2集成NUTCH1.6 java
wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz git
tar -xzvf solr-4.2.0.tgz github
cd solr-4.2.0/example apache
複製nutch的conf目錄中的schema-solr4.xml文件到solr/collection1/conf目錄,更名爲schema.xml,覆蓋原來文件 服務器
修改solr/collection1/conf/schema.xml,在<fields>下增長:<field name="_version_" type="long" indexed="true" stored="true"/> spa
二、給SOLR4.2配置中文分詞器word分詞 插件
參考https://github.com/ysc/word的Solr插件部分 xml
三、運行SOLR4.2 索引
啓動SOLR4.2服務器: java -jar start.jar & get
SOLR4.2 Web界面: http://host2:8983
四、運行NUTCH提交索引
運行solrindex命令:
bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments