安裝nutch2+Hbase+Slor4

介紹

Nutch 網絡爬蟲
Hbase 分佈式存儲系統
Solr搜索服務器
html

版本說明

        因爲Nutch\Hbase\Solr他們都各自作在本身的版本修改,因此配置他們三者有不一樣的方法.這裏也是參考網絡文檔作了他們最新版本的配置  Nutch版本(2.2.1) apache-nutch-2.2.1-src.tar.gz;因爲改版本的Nutch默認的Hbase版本是0.90.4 因此這裏就使用的hbase-0.90.4.tar.gz    ;同時Nutch默認的Solr版本是3.4.0版本,但因爲Solr4與三的版本變化比較大,因此這裏我使用的是當前最新的4版本solr-4.4.0.tgz。
apache-nutch-2.2.1-src.tar.gz
hbase-0.90.4.tar.gz
solr-4.4.0.tgz
java

下載

Nutch 首頁http://nutch.apache.org/ 下載地址apache-nutch-2.2.1-src.tar.gz
Nutch 首頁http://hbase.apache.org/ 下載地址hbase-0.90.4.tar.gz
Solr    首頁http://lucene.apache.org/solr/  下載地址 solr-4.4.0.tgz  
linux

安裝JDK

參考: Linux安裝JDK

安裝Hbase

單機版的HBase
因爲Hbase是一個分佈式的數據庫,因此咱們常常與Hadoop聯繫起來一塊兒用。能夠參考(Hbase入門——安裝),但咱們在開放中其實未必有條件使用。使用這裏就能夠不於hadoop一塊兒使用,使用這裏就直接安裝單擊版的Hbase。來在官方的安裝和使用http://hbase.apache.org/book/quickstart.htmlweb

解壓hbase-0.90.4.tar.gz

先拷貝文件到/usr/local/目錄下 sql

$ tar xfz hbase-0.90.4.tar.gz
$ chmod -R 777 hbase-0.90.4


編輯 conf/hbase-site.xml

在<configuration></configuration> 中添加以下內容。其實這裏也能夠不作修改,若是不作修改,就會把數據存放到tmp臨時目錄中,重啓就沒有數據。若是作簡單的測試就不用麻煩去配置文件。
<property>
    <name>hbase.rootdir</name>
    <value>file:////usr/local/hbase-0.90.4/hbase</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/usr/local/hbase-0.90.4/zookeeper</value>
  </property>

啓動Hbase

$./cp hbase-0.90.4
$ bin/start-hbase.sh


查看Logs日誌,若是不報錯就證實啓動成功。 shell

安裝Nutch

在安裝Nutch與Hbase結合前,能夠先參考官方文檔https://wiki.apache.org/nutch/Nutch2Tutorial 
網上有不少Nutch與Mysql結合的實力,但Nutch與Hbase結合的不多,這裏也是參考官方文檔作了相應操做。 數據庫

解壓apache-nutch-2.2.1-src.tar.gz

$ tar -zxvf apache-nutch-2.2.1-src.tar.gz
$ mv apache-nutch-2.2.1-src nutch-2
$ chmod -R 777 nutch-2

修改conf/ nutch-site.xml

<property>   <name>storage.data.store.class</name>  <value>org.apache.gora.hbase.store.HBaseStore</value>  <description>Default class for storing data</description> </property>

修改ivy/ivy.xml


取消註釋 apache

<dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" />

配置conf/gora.properties


添加
瀏覽器

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

安裝ANT

因爲nutch是基於ant安裝的,使用首先要先安裝ANT。安裝能夠參考 linux安裝ant

安裝Nutch

Nutch的安裝須要基於網絡,因爲原文件中還有不少jar沒有包含,因此修要運行ant來自動下載
$ cd nutch-2
$ ant
這裏須要等待一段時間,這裏會在nutch-2下生成runtime目錄 (180M左右) ,其實就是最後的二進制目錄。


在配置nutch-2/runtime/local/conf/nutch-site.xml
在添加以下配置信息

在添加以下配置信息
<property>
<name>http.agent.name</name>
<value>Your Nutch Spider</value>
</property>

<property>
<name>http.accept.language</name>
<value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value>
<description>Value of the 「Accept-Language」 request header field.
This allows selecting non-English language as default one to retrieve.
It is a useful setting for search engines build for certain national group.
</description>
</property>

<property>
<name>parser.character.encoding.default</name>
<value>utf-8</value>
<description>The character encoding to fall back to when no other information
is available</description>
</property>

配置抓取網址

能夠參考 https://wiki.apache.org/nutch/NutchTutorial
$ cd runtime/local
$ mkdir -p urls
$ cd urls
$ vi seed.txt
在seed.txt添加
http://nutch.apache.org/

運行Nutch

$ /bin/nutch inject urls $ /bin/nutch readdb
若是不報錯證實已成功安裝
在Hbase測試
在運行
hbase shell
list
就能夠查看到webpage表,證實已經成功建立。




安裝Solr

這裏使用的是Solr4

解壓solr-4.4.0.tar.gz

拷貝到/usr/local目錄


$ tar -zxvf solr-4.4.0.tar.gz
$ mv solr-4.4.0 solr-4
$ chmod -R 777 solr-4

替換schema.xml文件

這裏下載 http://nlp.solutions.asia/wp-content/uploads/2012/08/schema.xml(schema.xml 


把下載的schema.xml文件替換掉 /usr/local/solr-4/example/solr/collection1/conf/schema.xml(這裏正時solr4與nutch格式)
服務器

運行Solr

java -jar start.jar
經過瀏覽器訪問 http://127.0.0.1:8983/solr 就能夠參考相應的信息

運行Nutch提交


在nutch-2/runtime/local/bin/下面執行nutch的所有抓取過程:
inject>generate>fetch>parse>updatedb以後,能夠執行solrindex的操做,用法以下:

bin/nutch inject urls
bin/nutch  generate -topN 3

 
 
 
 

  
  
  
  
  

 
bin/nutch fetch -all bin/nutch parse -all bin/nutch updatedb

bin/nutch  solrindex http://127.0.0.1:8983/solr/  -reindex


參考文檔:

http://blog.chinaunix.net/uid-8345138-id-3350686.html

http://nlp.solutions.asia/?p=180#tab-3

https://wiki.apache.org/nutch/Nutch2Tutorial

http://abloz.com/hbase/book.html(Hbase中文手冊)

相關文章
相關標籤/搜索