Ubuntu 16.04 Hadoop-2.7.3全分佈模式 + eclipse hadoop

Ps1:主要答疑區在本帖最下方,疑點會標註出來。我的在配置過程當中遇到的困難都會此列舉。html

Ps2:本帖也是我本身原創的,最近從CSDN搬家過來。原帖地址java


實驗介紹:node

  本次實驗主要介紹了Hadoop平臺的兩個核心工具,HDFS和Mapreduce,結合這兩個核心在Linux下搭建基於YARN集羣的全分佈模式的Hadoop架構。python

  實驗案例,基於Hadoop平臺下的Wordcount分詞統計的試驗linux

實驗需求:web

  一、PC機,局域網服務,Linux系統  算法

背景介紹:apache

  Hadoop實現了一個分佈式文件系統,簡稱HDFS。
  HDFS有高容錯性的特色,而且設計用來部署在普PC機上,並且它提供高吞吐量來訪問應用程序的數據,適合那些有着超大數據集的應用程序。
  HDFS放寬了POSIX的要求,能夠以流的形式訪問文件系統中的數據。
  Hadoop的框架最核心的設計就是:
    HDFS和MapReduce。
    HDFS爲海量的數據提供了存儲,則MapReduce爲海量的數據提供了計算。
  
  開發者在熟練掌握了hadoop的使用後輕鬆地在Hadoop上開發和運行處理海量數據的應用程序
  

  NameNode

  NameNode 是一個一般在 HDFS 實例中的單獨機器上運行的軟件。
  它負責管理文件系統名稱空間和控制外部客戶機的訪問。NameNode 決定是否將文件映射到 DataNode 上的複製塊上。
  對於最多見的 3 個複製塊,第一個複製塊存儲在同一機架的不一樣節點上,最後一個複製塊存儲在不一樣機架的某個節點上。
  實際的 I/O事務並無通過 NameNode,只有表示 DataNode 和塊的文件映射的元數據通過 NameNode。
  當外部客戶機發送請求要求建立文件時,NameNode 會以塊標識和該塊的第一個副本的 DataNode IP 地址做爲響應,這個 NameNode 還會通知其餘將要接收該塊的副本的 DataNode。
  NameNode 在一個稱爲 FsImage 的文件中存儲全部關於文件系統名稱空間的信息。
  這個文件和一個包含全部事務的記錄文件(這裏是 EditLog)將存儲在 NameNode 的本地文件系統上。FsImage 和 EditLog 文件也須要複製副本,以防文件損壞或 NameNode 系統丟失。
  NameNode自己不可避免地具備SPOF單點失效的風險,主備模式並不能解決這個問題,經過Hadoop Non-stop namenode才能實現100% uptime可用時間。

  DataNode

  DataNode 也是一個一般在 HDFS實例中的單獨機器上運行的軟件。
  Hadoop 集羣包含一個 NameNode 和大量 DataNode。
  DataNode 一般以機架的形式組織,機架經過一個交換機將全部系統鏈接起來。
  Hadoop 的一個假設是:機架內部節點之間的傳輸速度快於機架間節點的傳輸速度。
  DataNode 響應來自 HDFS 客戶機的讀寫請求。它們還響應來自 NameNode 的建立、刪除和複製塊的命令。
  NameNode 依賴來自每一個 DataNode 的按期心跳(heartbeat)消息。每條消息都包含一個塊報告,NameNode 能夠根據這個報告驗證塊映射和其餘文件系統元數據。
  若是 DataNode 不能發送心跳消息,NameNode 將採起修復措施,從新複製在該節點上丟失的塊。

實驗步驟及結果:後端

1.搭建平臺(全分佈式hadoop + eclipse Neon.1 + JDK1.8)安全

  

  集羣搭建:

  主機兩臺(可拓展):

  (1)兩個主機系統均爲Ubuntu 16.04 LTS

    詳情:

      master 192.168.:103.26(虛擬機)

      slave2 192.168.103.22(物理機)

      

      注:

        (1)slave1是在同窗的筆記本上,由於他的筆記本老是飄忽不定,因此此次博客上就先不寫他的ip地址

        (2)master是虛擬機的理由就是第一次嘗試怕配錯環境,致使崩潰,因此用了VMware爲master,方便拯救平臺

  (2)hadoop平臺版本都爲最新穩定版2.7.3(解壓及安裝hadoop)      

      下載地址:Hadoop官網 hadoop.apache.org/releases.ht…

      

      步驟1:點開網頁之後,點擊紅色箭頭所指的連接

      步驟2:點開後以下圖

      

      步驟3:選擇一個連接下載(我的推薦最後一個 tsinghua.edu.cn 清華大學連接源比較好)

      步驟4:下載完後打開文件管理器,選擇Downloads文件夾(若是修改主要文件夾名字爲中文的,應選擇「下載」)

      

      步驟5:解壓到指定路徑

      步驟5.1:在當前文件夾下右鍵 - 在終端打開 鍵入su root命令

      

      步驟5.2:輸入root用戶密碼後,以下圖所示

      

      步驟5.3:鍵入解壓命令

sudo tar zxvf hadoop-2.7.3.tar.gz -C /usr/local/hadoop
複製代碼

        (注意:若是提示hadoop文件夾不存在的,能夠在root用戶下用cd命令到 /usr/local路徑下 鍵入 sudo mkdir /hadoop 建立夾)

      步驟5.4:解壓後以下圖所示

        (注意:路徑知足如圖所示便可,或自行定義)

    至此hadoop前期下載準備工做已經完成。接下準備java環境的配置

 

  (3)JDK版本爲java8-oracle(配置java環境)

     (環境:系統穩定聯網狀態下)

      步驟1:打開終端鍵入命令(root用戶模式能夠不用加sudo前綴)

sudo add-apt-repository ppa:webupd8team/java複製代碼

      步驟2:出現一段文字後按回車繼續

      步驟3:繼續鍵入命令

sudo apt-get update複製代碼

      步驟4:待系統加載完全部下載源

      步驟5:鍵入安裝命令

sudo apt-get install oracle-java8-installer複製代碼

      步驟6:等待下載結束(過程稍微有點漫長)

      

      這個版本的java默認安裝在 /usr/lib/jvm文件夾下

      安裝結束後配置環境變量

      

      終端輸入:

sudo gedit /etc/profile複製代碼

      步驟7:配置完後,按 ctrl + s 保存

      步驟8:在終端中輸入

sudo source /etc/profile複製代碼

      使配置的環境變量生效

      步驟9:和在Windows下配置同樣,在終端測試java和javac命令是否生效,在linux下能夠多測試下jps命令看java進程號

      

      至此java環境變量配置完畢

  (4)SSH免密配置

    SSH 是目前較可靠,專爲遠程登陸會話和其餘網絡服務提供安全性的協議。利用 SSH 協議能夠有效防止遠程管理過程當中的信息泄露問題。SSH最初是UNIX系統上的一個程序,後來又迅速擴展到其餘操做平臺。

    SSH在正確使用時可彌補網絡中的漏洞。SSH客戶端適用於多種平臺。

      Ubuntu Linux下配置免密登陸主要依靠 ssh localhost的命令

      !!注意,若是改過 /etc/hosts 下的內容須要從新配置(下圖是個人例子)

    

    因爲後期爲了不hadoop的一些端口和IP錯誤,因此我把localhost的名字改了,順帶把 /etc/hostname 的名字也改了。

    改了上述的 hosts 和 hostname的名字後,記得重啓電腦或者虛擬機

    

    192.168.91.45是我虛擬的IP的地址 名字叫master 至關於 沒有改變配置文件以前的 127.0.0.1 localhost

    因此配置ssh免密的時候是鍵入 ssh master 而不是 ssh localhost

    

    話很少說!

    步驟0:SSH須要安裝OpenSSH-server(若是已經安裝則無需理會)

sudo apt-get install openssh-server複製代碼

    步驟1:在非root用戶模式下打開終端鍵入ssh localhost(或者是定義的用戶名)

    步驟2:提示輸入密碼,輸入你的ssh密碼(本身記得住就好)

    步驟3:輸入完之後,測試一下ssh localhost(或是自定義名字),輸入密碼後是否以下圖彈出一些信息

    

    步驟4:若是下午所示後,則建立ssh成功

    步驟5:建立免密登陸(不須要關閉終端),鍵入以下命令

ssh-keygen -t rsa複製代碼

    

    步驟6:一直按回車直至出現RSA窗口便可

    步驟7:鍵入命令

sudo cp .ssh/id_rsa.pub .ssh/authorized_keys複製代碼

    步驟8:驗證免密登陸,輸入ssh localhost(或者自定義的名字),是否還須要輸入密碼登陸

    root用戶下:

    步驟1:進入root用戶模式(用戶模式下在終端鍵盤入:su root,輸入root密碼便可)

    步驟2:進入ssh配置文件

gedit /etc/ssh/sshd_config複製代碼

    

    步驟3:把PermitRootLogin的字段改爲 yes(原來的好像是Prohibit xxxx的),有點忘記了。總之改爲yes就能夠了

    步驟4:保存退出終端

    步驟5:打開新的終端鍵入命令

sudo service ssh restart複製代碼

    重啓ssh服務以後,打開終端

    

    步驟6:進入root用戶模式下,鍵入 ssh localhost(或是你的自定義名字)

    步驟7:輸入自定義ssh密碼後,與用戶模式下的相似

    步驟8:鍵入 ssh-keygen -t rsa 建立RSA密鑰

    步驟9:一直回車直至出現RSA密鑰圖,(若是提示Overwrite 輸入 y 便可)

    步驟10:鍵入配置免密的命令

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys複製代碼

    步驟11:完成後,在root用戶模式輸入 ssh localhost(或自定義名字)後,以下圖所示便可。

        

    

    至此,root用戶和普通用戶模式的ssh免密配置完成。

    

  (4.1)SSH免密配置(節點篇)

      需求:若是每一個節點都須要下載安裝hadoop ,則大量耗費人力物力。

      解決:因此須要一個SSH來遠程發送hadoop包分發給每一個節點。

      

      接下來來說解master打通每一個節點的鏈接方式(單節點和多節點同樣,只要配置好就能夠進行鏈接)

      步驟1:在hosts文件中配置好各子節點的ip地址以及名稱(以下圖)

      

      步驟2: 編輯好hosts文件保存並關閉,(root用戶模式下)打開終端輸入

ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave* 
(星號表明子節點號碼,或者把slave*換成自定義的名稱)複製代碼

      步驟3:提示輸入,子節點的登陸密碼,輸入完成後,等待命令完成

      步驟4:在終端中輸入 ssh slave*(或者自定義名字),以下圖:

     步驟5:ssh打通master和子節點的通道,能夠經過scp命令傳輸數據了。

     至此,完成對於子節點的ssh免密訪問配置。

  (5)hadoop平臺版本都爲最新穩定版2.7.3(解壓及安裝hadoop)

    hadoop配置下主要注意配置文件路徑的問題

    主要包括:hadoop根目錄下 /etc/hadoop 裏面的xml配置文件

      例:hadoop-env.sh , hdfs-site.xml, mapred-site.xml , core-site.xml , yarn-site.xml

      

      注:mapred-site.xml須要複製出來到本路徑,本來是mapred-site.xml.template 須要用 cp 命令複製並更名字

        或者能夠經過 gedit 命令建立一個新的mapred-site.xml,把模板內的內容複製過去,而後再進行配置

     

      配置文件1:hadoop-env.sh(配置環境變量,讓hadoop識別)

      配置文件2:core-site.xml

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://master:8020</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hadoop.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hadoop.group</name>
        <value>*</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>複製代碼

      配置文件3:hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9000</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hadoop/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>複製代碼

      配置文件4: mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapred.job.tracker</name>
        <value>master:9001</value>
    </property>
    <property>
        <name>mapred.job.tracker.http.address</name>
        <value>master:50030</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>複製代碼

      配置文件5:yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
</configuration>複製代碼

      !!!注:若是是master節點(即服務器)須要添加多一個slaves文件指定slave

      配置文件6:slaves(選)

slave2 192.168.90.33複製代碼

     

    最後步驟:以上配置文件配置完畢後打開終端窗口,輸入

hadoop namenode -format複製代碼

    出現以下結果,沒有JAVA報錯便可

    初始化hadoop namenode節點成功!

    

    打開終端利用 cd 命令進入hadoop啓動命令文件下

cd /usr/local/hadoop/hadoop-2.7.3/sbin複製代碼

    

    鍵入以下命令啓動hadoop(root用戶模式下)     

./start-all.sh複製代碼

    關閉hadoop則鍵入命令關閉

./stop-all.sh複製代碼

    

    輸入jps在master節點測試,若是如上圖所示則測試成功

    在ssh slave2 節點輸入jps測試

    

    經過hadoop 自帶命令

hadoop dfsadmin -report複製代碼

    如上圖所示輸出Live Datanodes,說明有存活節點,死節點爲空。

    證實集羣配置成功!

  (6)集羣安裝hadoop(完成Master節點的hadoop安裝以及SSH的搭建)    

    構建好master與各個slave之間的ssh通訊,以下圖所示

    步驟1:測試ssh命令與各節點間的通訊

    步驟2:確認本機的hadoop安裝地址

    步驟3:

scp –r /usr/local/hadoop/ root@slaver2:/usr/local/hadoop 複製代碼

    把master上的hadoop分發給slave2節點(其餘節點依次類推,只要搭好ssh就能夠傳輸)。

    傳輸過程有點久,耐心等候。

    步驟4:在slave節點上配置環境變量

HADOOP_HOME=/usr/local/Hadoop  PATH=$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin複製代碼

    步驟5:在master啓動hadoop進行測試

Namenode界面 50070端口

hadoop管理界面 8088端口

hadoop SecondaryNamenode 管理界面 端口9000

  (7)hadoop Wordcount測試(完成eclipse和eclipse hadoop插件安裝)

    步驟0:安裝eclipse和eclipse hadoop插件

      步驟0.1:安裝eclipse

      

    下載後,解壓到自定義路徑,解壓後如所示

      在此給出eclipse hadoop插件下載(pan.baidu.com/s/1mi6UP5I

      下載後,把jar放到eclipse根目錄的dropins的目錄

      在根目錄進入終端,進入root用戶模式,輸入

./eclipse複製代碼

      進入eclipse界面,完成安裝。

      

    步驟1:啓動hadoop完成上述集羣測試

    步驟2:經過終端把測試數據 test.txt上傳到hdfs中 (test.txt爲hadoop跟目錄下的NOTICE.txt)

      步驟2.1:在hdfs目錄下建立input文件夾

hadoop fs -mkdir /input
hadoop fs -put test.txt /input複製代碼

    如圖所示,則上傳成功。

    若是權限不對的話能夠修改權限

hadoop fs -chmod -R 777 /input/test.txt複製代碼

    

    步驟3:打開eclipse,並完成mapreduce的wordcount代碼,完成eclipse hadoop的配置

   步驟4:確保左上角的DFS Location可以顯示hdfs中的文件目錄

WordCount代碼:

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

    public static class TokenizerMapper
    extends Mapper<Object, Text, Text, IntWritable>{

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) 
            {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> 
    {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException 
        {
            int sum = 0;
            for (IntWritable val : values) 
            {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

    public static void main(String[] args) throws Exception 
    {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}複製代碼

log4j日誌文件:

log4j.rootLogger=debug, stdout, R 
#log4j.rootLogger=stdout, R 
log4j.appender.stdout=org.apache.log4j.ConsoleAppender   
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout   
#log4j.appender.stdout.layout.ConversionPattern=%5p - %m%n 
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n  
log4j.appender.R=org.apache.log4j.RollingFileAppender   
log4j.appender.R.File=log4j.log   
log4j.appender.R.MaxFileSize=100KB   
log4j.appender.R.MaxBackupIndex=1   
log4j.appender.R.layout=org.apache.log4j.PatternLayout   
#log4j.appender.R.layout.ConversionPattern=%p %t %c - %m%n 
log4j.appender.R.layout.ConversionPattern=%d %p [%c] - %m%n  
#log4j.logger.com.codefutures=DEBUG複製代碼

    步驟5:配置Run Configuration

    步驟6:右鍵Run As - Run On Hadoop(日誌我選用了DEBUG模式測試,因此會很長,可是方便測試)

    

    此時,master hdfs多出一個文件夾存放分詞結果

    下列圖爲結果部分截圖:

    

    至此,從安裝到mapreduce Wordcount測試所有結束了。

    hadoop2.7.6全模式下,結合eclipse hadoop插件配置,完成Wordcount測試。

實驗結果分析:

一、Wordcount項目代碼是結合Map-reduce的核心思想,以及對於Java輸入輸出流的認識所編寫,也參考了一下"大牛"博客編寫的,可以基本實現分詞-詞頻統計。

二、小項目的分詞的效果顯然沒有Python Jieba分詞來的精確,可是基於Hadoop Mapreduce的運算,分詞一篇詞彙衆多的文檔只須要5秒。(如需查看請點開。文檔來源:Hadoop LICENSE.txt)

測試文檔

心得體會:

    一、實驗完成結果到達預期目標,在搭建平臺的過程耗費了不少學習成本,主要花在安裝包的下載以及對於Linux系統的理解和hadoop配置文件的理解。

    二、實驗完成的過程當中與小組成員分工合做,在搭建過程當中自學了linux的命令操做以及linux系統的一些工做原理。

    三、在搭建hadoop平臺時,遇到不少匪夷所思的問題,經過hadoop平臺自帶的log文件,查看日誌文件,百度搜索或者看國外網站的配置方式,再經過本身的嘗試,解決問題。

    四、在搭建過程體會最深的就是hadoop對於端口的使用很謹慎,第一次在嘗試的時候沒有仔細看清楚官網文檔的端口設置,配置出錯,致使進度耽誤幾天,最後才發現是端口的問題。

    五、在搭建完後對於linux系統也有深入的體會,對於linux的權限設置,SSH,以及基本的文件操做命令等有基本的掌握經驗。

    六、小組成員在第一次衝刺後決定更改軟件工程項目,主要是爲了適應目前的學習任務以及工做任務。小組成員目前在分析 學校歷年學生體質測試數據 以及 網絡招聘崗位數據對應學校各二級學院的專業核心技能

      Python Django項目屬於python後端項目,初期小組成員定題是爲了學習除java後端之外的另一直後端開發。可是後期由於繁重的分析任務以及報告,因此決定開始尋找新的出路,也順利在第三次衝刺前幾天完成實驗。

      雖然可能與軟件工程的項目關係不太大,可是在搭建平臺的過程,小組成員也深入體會到團隊合做的意義。以及對於大數據平臺的理解,再也不是以爲深不可測,改變對於大數據平臺以及雲計算的見解。

展望:

    一、但願在接下來的寒假或者將來的時間點,完善本身的hadoop平臺,經過hadoop平臺提交小組的數據分析項目,利用Mapreduce並行化算法以及YARN集羣分佈式計算,提升數據分析的效率。

    二、以及寫一個基於hadoop平臺的分佈式爬蟲,提升大數據的讀取時間。

    三、目前也在學習Spark,掌握與Mapreduce相相似的並行化運算框架,也但願在往後的使用中,結合HBase,Mapreduce/Spark搭建一個雲計算平臺項目。

    四、在將來的時間,花更多時間從理解hadoop的核心架構,到理解hadoop的外沿,學習Spark,HBase,Pig,Mahout,Hive等核心工具的使用。

    五、最近時間關注大數據方向注意到關聯數據RDF的應用,也但願能嘗試利用Sqoop讀取關聯數據,進行數據分析。

相關文章
相關標籤/搜索