部署solr創建nutch索引

接着上篇nutch1.4的部署應用,咱們來部署一下solr,solr是對lucene進行了封裝的企業級搜索應用,具體的你們能夠去搜一下了解,我這裏就不作具體闡述了,我來講一下solr的部署吧。java

首先,咱們去solr的官網中下載solr,nutch1.4中應用的solr是3.4,那麼咱們去官網中也下載3.4吧web

http://www.apache.org/dyn/closer.cgi/lucene/solr/apache

找到3.4.0下載apache-solr-3.4.0.zip或者apache-solr-3.4.0.tgz均可以,下載完成後,咱們解壓縮,解壓完畢後,咱們去解壓一個tomcat,我用的是tomcat6,解壓完tomcat6後,咱們打開tomcat 的文件夾, tomcat

而後咱們在tomcat下的conf目錄下ide

建立Catalina\localhost目錄(若是存在就不用建立)測試

而後咱們建立solr.xml文件spa

在裏面加入以下語句: debug

<Context docBase="D:/file/apache-solr-3.4.0/dist/apache-solr-3.4.0.war" reloadable="true" debug="0" privileged="true" allowLinking="true" crossContext="true">  
<Environment name="solr/home" type="java.lang.String" value="D:/file/apache-solr-3.4.0/example/solr" override="true" /> 
<!--
	<Valve className="org.apache.catalina.valves.RemoteAddrValve" allow="127.0.0.1,localhost,192.168.0.127"/> 
-->
</Context>

docBase中是咱們的solr的web服務的地址,咱們解壓solr後,到dist中找到apache-solr-3.4.0.war給引入進來,而後solr/home就是solr的配置和索引地址,測試的話能夠引入example/solr,或者把example下的solr 複製到任何位置均可以,只要把solr/home的地址給加正確了就能夠。code

若是須要控制訪問權限則能夠配置(上面配置註釋的地方):xml

<Valve className="org.apache.catalina.valves.RemoteAddrValve" allow="127.0.0.1,localhost,192.168.0.127"/>

若是不是來自配置的IP則被攔截會顯示403

咱們所有配置好了,如今還不行,若是要與nutch進行索引的話,還須要把nutch中的solr配置給copy過來,咱們在nutch1.4的conf目錄下找到schema.xml文件,而後咱們將這個文件copy到solr/home的conf目錄下便可,若是不將nutch 下的schema.xml文件copy過去,在生成索引時會出現 一些錯誤如:

org.apache.solr.common.SolrException: ERROR:unknown field 'content'

配置好了後,而後啓動tomcat便可,而後nutch爬取完畢後就會生成索引到solr/home下的data下面:

D:/file/apache-solr-3.4.0/example/solr/data/index下(個人solr/home)

相關文章
相關標籤/搜索