寫給後端的Hadoop初級入門教程（三）：Hadoop運行環境搭建

時間 2019-12-16

原文原文鏈接

前言：

在在上一篇文章寫給後端的Hadoop初級入門教程：Hadoop組成部分中咱們初略地敘述了Hadoop的三個重要組成部分 Map - Reduce ， Yarn ， HDFS 。難道到此一切都結束了嗎， no no no，好戲纔剛剛開始，既然要學習Hadoop，那麼首先咱們要解決的就是運行環境的問題，畢竟我我的認爲學習編程最好的方式應該邊看書邊敲鍵盤，若是僅僅看書雲學習的話，理論性的東西還好，可是代碼性質的內容若是不敲一遍的話就會一個致使很明顯的問題，就是本身以爲明明會了，寫出來的程序卻一直報錯，總體學習效率是十分感人的。java

不廢話，直接上東西。linux

虛擬機：

首先，在學習hadoop以前。你須要一個虛擬機，固然若是你剛好財力雄厚，也能夠本身買個服務器，或者後期買一組服務器作個集羣,這樣學習起來就方便多了。git

由於考慮到咱們以後要搭建集羣，可能要同時啓動多臺linux主機，這個時候虛擬機就是一個很是合適的選擇，特別是對於咱們你們主要以學習爲目的的人來講。而後這就要求你的電腦配置可能要稍微好一點，以我本人爲例，I5+8G配置的臺式機，同時運行三臺虛擬機仍是有點吃力的。程序員

建立一個新的用戶，我這裏是 hanshu,並配置hanshu用戶具備root權限。github

在/opt目錄下建立兩個文件夾，分別是module和softwareshell

sudo mkdir module
sudo mkdir software
複製代碼

修改module和software文件夾全部者爲hanshuapache

sudo chown hanshu:hanshu module/ software/
複製代碼

到此，咱們虛擬機的基本準備就已經算是完成了。編程

設置java環境：

咱們本次選擇使用的linux發行版是centos7系統，centos7默認是帶了java環境的，但因爲centos7自帶的openjdk並無增長對java監控命令jps的支持。目前有兩種方案能夠解決這個問題，第一種是卸載原有的openjdk進行重裝，第二個是經過yum安裝jdk開發插件。vim

首先咱們查看咱們本機的Openjdk版本：後端

rpm -qa | grep openjdk
複製代碼

我這裏是java 1.8版本，而後執行yum命令安裝咱們對應版本的jdk開發插件：

yum install -y  java-1.8.0-openjdk-devel
複製代碼

第三步則是在咱們/etc/profile文件添加咱們java的環境變量，具體的操做我就不列出來了，最後我會把我/etc/profile的內容貼出來供你們進行參考。

安裝Hadoop:

首先第一步是下載咱們的Hadoop，我這裏選用的Hadoop2.7.2版本，我知道到這裏不少小夥伴可能會問了:

Hadoop3.x既然都已經出來了，那爲啥不用3.x呢，

這裏我想說的是，咱們學會了一個版本作知識更新的成本是很低的，好比你掌握了java 1.6 ，再去使用java 1.8的時候，實際上是很快就能夠過分完成的。並且以目前我瞭解到的狀況來講，目前企業使用的最多的版本仍是Hadoop2.x版本，畢竟企業追求的是開發的穩定性，但將來Hadoop 3.x版本必定會是一個趨勢。

Hadoop下載地址:

archive.apache.org/dist/hadoop…

使用Xshell或者其餘的linux終端管理工具將咱們下載好的Hadoop安裝包上傳至咱們上文建立好的/opt/software目錄下。

解壓該壓縮包至/opt/module目錄:

tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
複製代碼

將Hadoop添加到環境變量：

在這裏我就不一一展現具體的過程了，無非是把目錄添加至/etc/profile文件裏面，我直接貼出來個人/etc/profile相關的配置文件信息，以下:

##JAVA_HOME
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk/jre/
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
 ##HADOOP_HOME 
export HADOOP_HOME=/opt/module/hadoop-2.7.2 
export PATH=$PATH:$HADOOP_HOME/bin 
export PATH=$PATH:$HADOOP_HOME/sbin
複製代碼

執行命令使配置生效:

source /etc/profile
複製代碼

終端執行hadoop version命令，查看hadoop是否安裝成功:

[hanshu@hadoop100 ~]$ hadoop version
Hadoop 2.7.2
複製代碼

當出現hadoop版本信息時，則表明咱們hadoop運行環境已經配置成功了。

Hadoop目錄結構:

前面光想着解壓了，也忘了點進去看看裏面都有些啥，和java同樣，Hadoop也有着清晰的目錄結構用來堆放對應的內容，接下來咱們列幾個重要目錄簡單地闡述一下它們的做用:

bin目錄:存放對Hadoop相關服務（HDFS,YARN）進行操做的腳本.
etc目錄：Hadoop的配置文件目錄，存放Hadoop的配置文件等信息。
lib目錄：存放Hadoop的本地庫（對數據進行壓縮解壓縮功能）。
sbin目錄：存放啓動或中止Hadoop相關服務的腳本。
share目錄：存放Hadoop的依賴jar包、文檔、和官方案例，好比wordCount等。

下面開始技術總結:

今天這篇文章，咱們簡單地過了一遍Hadoop基本運行環境的配置。由於不少操做實在是太過於基礎，好比查看文件目錄，配置環境變量，使用vim編輯器等等這些操做都應該是一個java程序員的基本操做，因此就沒有作很是詳細的敘述，固然，若是有不明白的同窗能夠去谷歌或者百度查閱相關資料，總體配置成功仍是不復雜的。下一節呢，咱們將經過修改Hadoop的配置文件，實現hadoop僞分佈式環境的搭建，等我週六考完試，後面更新頻率大概會維持在兩天一更這樣的進度，比較立刻要放寒假了，隨我好多年的筆記本跑不起來集羣了。

很是感謝能讀到這裏的朋友，大家的支持和關注是我堅持高質量分享下去的動力。

相關代碼已經上傳至本人github。必定要點個star啊啊啊啊啊啊啊

萬水千山老是情，給個star行不行

韓數的開發筆記

歡迎點贊，關注我，有你好果子吃（滑稽）