nutch與起點R3集成之筆記（三）

時間 2019-11-09

標籤 nutch 起點 r3 集成筆記简体版

原文原文鏈接

4、抓取網頁，創建solr索引java

在抓取網頁前，要保證起點R3處在運行狀態。即在瀏覽器中鍵入 http://127.0.0.1:880/ 後，會出現以下窗口：linux

在linux或cygwin中運行nutch抓取網頁命令爲：bin/nutch crawl url -solr http://127.0.0.1:880 -dir test -depth 3 -topN ，其dir、depth、topN參數的含義網上介紹有不少，在這裏不作解釋。參數solr表示將抓取後的網頁solr索引到一個提供solr服務的服務器索引庫中，這裏的127.0.0.1是指當nutch和起點R3都安裝在同一臺機器上，若是二者不在同一臺機器上，這裏的127.0.0.1要改爲起點R3機器的IP。apache

在eclipse環境裏，先在apache-nutch-1.3的項目裏創建一個main類爲org.apache.nutch.crawl.Crawl的java運行應用程序，以下圖：瀏覽器

對應的自變量設置爲：服務器

點擊「運行」後，最後，在eclipse的控制檯出現：eclipse

表示網頁抓取和solr索引創建完畢。這時，能夠在瀏覽器上經過起點R3的查詢界面，實現對抓取的頁面進行搜索了。以下圖：url

5、總結spa

nutch與起點R3集成，其實與nutch和solr集成實現原理是同樣：1.定義solr的索引字段，實現nutch的index與solr的index字段的映射；2.使用nutch的solrindex功能，實現將nutch採集的頁面索引到solr的索引庫中。索引