寫給後端的Hadoop初級入門教程(三):Hadoop運行環境搭建

前言:

在在上一篇文章寫給後端的Hadoop初級入門教程:Hadoop組成部分中咱們初略地敘述了Hadoop的三個重要組成部分 Map - ReduceYarnHDFS 。難道到此一切都結束了嗎, no no no,好戲纔剛剛開始,既然要學習Hadoop,那麼首先咱們要解決的就是運行環境的問題,畢竟我我的認爲學習編程最好的方式應該邊看書邊敲鍵盤,若是僅僅看書雲學習的話,理論性的東西還好,可是代碼性質的內容若是不敲一遍的話就會一個致使很明顯的問題,就是本身以爲明明會了,寫出來的程序卻一直報錯,總體學習效率是十分感人的。java

不廢話,直接上東西。linux

虛擬機:

首先,在學習hadoop以前。你須要一個虛擬機,固然若是你剛好財力雄厚,也能夠本身買個服務器,或者後期買一組服務器作個集羣,這樣學習起來就方便多了。git

由於考慮到咱們以後要搭建集羣,可能要同時啓動多臺linux主機,這個時候虛擬機就是一個很是合適的選擇,特別是對於咱們你們主要以學習爲目的的人來講。而後這就要求你的電腦配置可能要稍微好一點,以我本人爲例,I5+8G配置的臺式機,同時運行三臺虛擬機仍是有點吃力的。程序員

建立一個新的用戶,我這裏是 hanshu,並配置hanshu用戶具備root權限。github

在/opt目錄下建立兩個文件夾,分別是modulesoftwareshell

sudo mkdir module
sudo mkdir software
複製代碼

修改modulesoftware文件夾全部者爲hanshuapache

sudo chown hanshu:hanshu module/ software/
複製代碼

到此,咱們虛擬機的基本準備就已經算是完成了。編程

設置java環境:

咱們本次選擇使用的linux發行版是centos7系統,centos7默認是帶了java環境的,但因爲centos7自帶的openjdk並無增長對java監控命令jps的支持。目前有兩種方案能夠解決這個問題,第一種是卸載原有的openjdk進行重裝,第二個是經過yum安裝jdk開發插件。vim

首先咱們查看咱們本機的Openjdk版本:後端

rpm -qa | grep openjdk
複製代碼

我這裏是java 1.8版本,而後執行yum命令安裝咱們對應版本的jdk開發插件:

yum install -y  java-1.8.0-openjdk-devel
複製代碼

第三步則是在咱們/etc/profile文件添加咱們java的環境變量,具體的操做我就不列出來了,最後我會把我/etc/profile的內容貼出來供你們進行參考。

安裝Hadoop:

首先第一步是下載咱們的Hadoop,我這裏選用的Hadoop2.7.2版本,我知道到這裏不少小夥伴可能會問了:

Hadoop3.x既然都已經出來了,那爲啥不用3.x呢,

這裏我想說的是,咱們學會了一個版本作知識更新的成本是很低的,好比你掌握了java 1.6 ,再去使用java 1.8的時候,實際上是很快就能夠過分完成的。並且以目前我瞭解到的狀況來講,目前企業使用的最多的版本仍是Hadoop2.x版本,畢竟企業追求的是開發的穩定性,但將來Hadoop 3.x版本必定會是一個趨勢。

Hadoop下載地址:

archive.apache.org/dist/hadoop…

使用Xshell或者其餘的linux終端管理工具將咱們下載好的Hadoop安裝包上傳至咱們上文建立好的/opt/software目錄下。

解壓該壓縮包至/opt/module目錄:

tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
複製代碼

將Hadoop添加到環境變量:

在這裏我就不一一展現具體的過程了,無非是把目錄添加至/etc/profile文件裏面,我直接貼出來個人/etc/profile相關的配置文件信息,以下:

##JAVA_HOME
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk/jre/
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
 ##HADOOP_HOME 
export HADOOP_HOME=/opt/module/hadoop-2.7.2 
export PATH=$PATH:$HADOOP_HOME/bin 
export PATH=$PATH:$HADOOP_HOME/sbin
複製代碼

執行命令使配置生效:

source /etc/profile
複製代碼

終端執行hadoop version命令,查看hadoop是否安裝成功:

[hanshu@hadoop100 ~]$ hadoop version
Hadoop 2.7.2
複製代碼

當出現hadoop版本信息時,則表明咱們hadoop運行環境已經配置成功了。

Hadoop目錄結構:

前面光想着解壓了,也忘了點進去看看裏面都有些啥,和java同樣,Hadoop也有着清晰的目錄結構用來堆放對應的內容,接下來咱們列幾個重要目錄簡單地闡述一下它們的做用:

  • bin目錄:存放對Hadoop相關服務(HDFS,YARN)進行操做的腳本.
  • etc目錄:Hadoop的配置文件目錄,存放Hadoop的配置文件等信息。
  • lib目錄:存放Hadoop的本地庫(對數據進行壓縮解壓縮功能)。
  • sbin目錄:存放啓動或中止Hadoop相關服務的腳本。
  • share目錄:存放Hadoop的依賴jar包、文檔、和官方案例,好比wordCount等。

下面開始技術總結:

今天這篇文章,咱們簡單地過了一遍Hadoop基本運行環境的配置。由於不少操做實在是太過於基礎,好比查看文件目錄,配置環境變量,使用vim編輯器等等這些操做都應該是一個java程序員的基本操做,因此就沒有作很是詳細的敘述,固然,若是有不明白的同窗能夠去谷歌或者百度查閱相關資料,總體配置成功仍是不復雜的。下一節呢,咱們將經過修改Hadoop的配置文件,實現hadoop僞分佈式環境的搭建,等我週六考完試,後面更新頻率大概會維持在兩天一更這樣的進度,比較立刻要放寒假了,隨我好多年的筆記本跑不起來集羣了。

很是感謝能讀到這裏的朋友,大家的支持和關注是我堅持高質量分享下去的動力。

相關代碼已經上傳至本人github。必定要點個star啊啊啊啊啊啊啊

萬水千山老是情,給個star行不行

韓數的開發筆記

歡迎點贊,關注我,有你好果子吃(滑稽)

相關文章
相關標籤/搜索