nutch與起點R3集成之筆記(三)

         4、抓取網頁,創建solr索引java

        在抓取網頁前,要保證起點R3處在運行狀態。即 在瀏覽器中鍵入 http://127.0.0.1:880/ 後,會出現以下窗口:linux

        在linux或cygwin中運行nutch抓取網頁命令爲 :bin/nutch  crawl url -solr http://127.0.0.1:880 -dir test -depth 3 -topN ,其dir、depth、topN參數的含義網上介紹有不少,在這裏不作解釋。參數solr表示將抓取後的網頁solr索引到一個提供solr服務的服務器索引庫中,這裏的127.0.0.1是指當nutch和起點R3都安裝在同一臺機器上,若是二者不在同一臺機器上,這裏的127.0.0.1要改爲起點R3機器的IP。apache

      在eclipse環境裏,先在apache-nutch-1.3的項目裏創建一個main類爲org.apache.nutch.crawl.Crawl的java運行應用程序,以下圖:瀏覽器

對應的自變量設置爲:服務器

 點擊「運行」後,最後,在eclipse的控制檯出現:eclipse

表示網頁抓取和solr索引創建完畢。這時,能夠在瀏覽器上經過起點R3的查詢界面,實現對抓取的頁面進行搜索了。以下圖:url

         5、總結spa

       nutch與起點R3集成,其實與nutch和solr集成實現原理是同樣:1.定義solr的索引字段,實現nutch的index與solr的index字段的映射;2.使用nutch的solrindex功能,實現將nutch採集的頁面索引到solr的索引庫中。索引

相關文章
相關標籤/搜索