大數據爬蟲技術基礎篇:大快在線爬蟲安裝步驟

在線爬蟲是大快大數據一體化開發框架的重要組成部分,本篇重點分享在線爬蟲的安裝。 爬蟲安裝前準備工做:大快大數據平臺安裝完成、zookeeper、redis、elasticsearch、mysql等組件安裝啓動成功。java

一、修改爬蟲安裝配置文件(最好在線下修改好後再上傳平臺)mysql

大數據爬蟲技術

大數據爬蟲技術

二、修改crawler\dkcrw\jdbc.properties配置文件(只修改圖片裏的內容其餘內容默認便可)web

大數據爬蟲技術

Hbase.zookeeper.quorum所填地址應在DKM監控平臺查看:redis

大數據爬蟲技術

Redis相關配置看以下界面:sql

三、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替換到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes下(這下面有一個沒有改好的直接替換)數據庫

大數據爬蟲技術

修改好後把修改好的爬蟲文件打壓成壓縮文件瀏覽器

四、上傳平臺主節點並解壓(這裏就不介紹怎麼上傳了的了,本次例子是上傳到root目錄下,安裝包上傳到任何目錄下均可以推選root目錄)tomcat

大數據爬蟲技術

unzip 解壓命令,解壓唱功後會多了一個 cuawler 的文件夾服務器

大數據爬蟲技術

使用cd crawler 命令進入 crawler 文件夾下app

大數據爬蟲技術

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql數據庫

大數據爬蟲技術

五、分發爬蟲文件

大數據爬蟲技術

每一個節點都須要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一個節點上,不能放在主節點上(推選放在從節點) 命令: scp -r {要分發的文件名可填寫多個,若是不在要分發文件的目錄下請添加路徑} {分發到的服務器ip或名稱:分發到的路徑} 例如: cd /opt/dkh scp -r dkcrw dk2:/opt/dkh/ scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

六、在分發了dkcrw-tomcat-7.0.56文件的節點上給文件添加權限 命令: chmod -R 755 {須要給權限的文件等} 例如: cd /opt/dkh chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

大數據爬蟲技術

七、啓動爬蟲界面 命令: cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/ ./startup.sh

大數據爬蟲技術

啓動界面以後再瀏覽器中輸入啓動界面節點的IP,來打開爬蟲界面看是否啓動成功(帳號密碼是默認的)

大數據爬蟲技術

八、啓動每一個節點的dkcrw.jar 命令: 主節點運行 cd /opt/dkh/dkcrw/ nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

從節點運行 cd /opt/dkh/dkcrw/ nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

注意:能夠先使用前臺啓動爬蟲,肯定爬蟲沒錯誤。 前臺啓動命令java -jar dkcrw.jar master/slave

相關文章
相關標籤/搜索