Nutch 網絡爬蟲
Hbase 分佈式存儲系統
Solr搜索服務器 html
因爲Nutch\Hbase\Solr他們都各自作在本身的版本修改,因此配置他們三者有不一樣的方法.這裏也是參考網絡文檔作了他們最新版本的配置 Nutch版本(2.2.1) apache-nutch-2.2.1-src.tar.gz;因爲改版本的Nutch默認的Hbase版本是0.90.4 因此這裏就使用的hbase-0.90.4.tar.gz ;同時Nutch默認的Solr版本是3.4.0版本,但因爲Solr4與三的版本變化比較大,因此這裏我使用的是當前最新的4版本solr-4.4.0.tgz。
apache-nutch-2.2.1-src.tar.gz
hbase-0.90.4.tar.gz
solr-4.4.0.tgz
java
Nutch 首頁http://nutch.apache.org/ 下載地址apache-nutch-2.2.1-src.tar.gz
Nutch 首頁http://hbase.apache.org/ 下載地址hbase-0.90.4.tar.gz
Solr 首頁http://lucene.apache.org/solr/ 下載地址 solr-4.4.0.tgz
linux
單機版的HBase
因爲Hbase是一個分佈式的數據庫,因此咱們常常與Hadoop聯繫起來一塊兒用。能夠參考(Hbase入門——安裝),但咱們在開放中其實未必有條件使用。使用這裏就能夠不於hadoop一塊兒使用,使用這裏就直接安裝單擊版的Hbase。來在官方的安裝和使用http://hbase.apache.org/book/quickstart.html。 web
先拷貝文件到/usr/local/目錄下 sql
$ tar xfz hbase-0.90.4.tar.gz $ chmod -R 777 hbase-0.90.4
<property> <name>hbase.rootdir</name> <value>file:////usr/local/hbase-0.90.4/hbase</value> </property> <property> <name>hbase.zookeeper.property.dataDir</name> <value>/usr/local/hbase-0.90.4/zookeeper</value> </property>
$./cp hbase-0.90.4 $ bin/start-hbase.sh
查看Logs日誌,若是不報錯就證實啓動成功。 shell
在安裝Nutch與Hbase結合前,能夠先參考官方文檔https://wiki.apache.org/nutch/Nutch2Tutorial
網上有不少Nutch與Mysql結合的實力,但Nutch與Hbase結合的不多,這裏也是參考官方文檔作了相應操做。 數據庫
$ tar -zxvf apache-nutch-2.2.1-src.tar.gz $ mv apache-nutch-2.2.1-src nutch-2 $ chmod -R 777 nutch-2
<property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> <description>Default class for storing data</description> </property>
取消註釋 apache
<dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" />
添加
瀏覽器
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
$ cd nutch-2 $ ant這裏須要等待一段時間,這裏會在nutch-2下生成runtime目錄 (180M左右) ,其實就是最後的二進制目錄。
<property> <name>http.agent.name</name> <value>Your Nutch Spider</value> </property> <property> <name>http.accept.language</name> <value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value> <description>Value of the 「Accept-Language」 request header field. This allows selecting non-English language as default one to retrieve. It is a useful setting for search engines build for certain national group. </description> </property> <property> <name>parser.character.encoding.default</name> <value>utf-8</value> <description>The character encoding to fall back to when no other information is available</description> </property>
$ cd runtime/local $ mkdir -p urls $ cd urls $ vi seed.txt在seed.txt添加
http://nutch.apache.org/
$ /bin/nutch inject urls $ /bin/nutch readdb若是不報錯證實已成功安裝
hbase shell list就能夠查看到webpage表,證實已經成功建立。
$ tar -zxvf solr-4.4.0.tar.gz $ mv solr-4.4.0 solr-4 $ chmod -R 777 solr-4
把下載的schema.xml文件替換掉 /usr/local/solr-4/example/solr/collection1/conf/schema.xml(這裏正時solr4與nutch格式)
服務器
java -jar start.jar經過瀏覽器訪問 http://127.0.0.1:8983/solr 就能夠參考相應的信息
在nutch-2/runtime/local/bin/下面執行nutch的所有抓取過程:
inject>generate>fetch>parse>updatedb以後,能夠執行solrindex的操做,用法以下:
bin/nutch inject urls bin/nutch generate -topN 3bin/nutch fetch -all bin/nutch parse -all bin/nutch updatedb
bin/nutch solrindex http://127.0.0.1:8983/solr/ -reindex
參考文檔:
http://blog.chinaunix.net/uid-8345138-id-3350686.html
http://nlp.solutions.asia/?p=180#tab-3
https://wiki.apache.org/nutch/Nutch2Tutorial
http://abloz.com/hbase/book.html(Hbase中文手冊)