Hadoop由GNU / Linux平臺及其版本支持。所以,咱們必須安裝一個Linux操做系統來設置Hadoop環境。若是您有除Linux之外的操做系統,您能夠在其中安裝Virtualbox軟件,並在Virtualbox內部安裝Linux。html
在將Hadoop安裝到Linux環境以前,咱們須要使用ssh(Secure Shell)來設置Linux。按照如下步驟設置Linux環境。java
在開始時,建議爲Hadoop建立一個單獨的用戶,以便將Hadoop文件系統與Unix文件系統隔離。按照如下步驟建立用戶:node
打開Linux終端並鍵入如下命令以建立用戶。linux
$ su password: # useradd hadoop # passwd hadoop New passwd: Retype new passwd
須要SSH設置在集羣上執行不一樣的操做,如啓動,中止,分佈式守護程序shell操做。要對Hadoop的不一樣用戶進行身份驗證,須要爲Hadoop用戶提供公鑰/私鑰對,並與不一樣的用戶共享。shell
如下命令用於使用SSH生成鍵值對。將公共密鑰表單id_rsa.pub複製到authorized_keys,並分別向擁有者授予authorized_keys文件的讀取和寫入權限。apache
$ ssh-keygen -t rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys
Java是Hadoop的主要先決條件。首先,您應該使用命令「java -version」驗證系統中是否存在java。 java版本命令的語法以下。瀏覽器
$ java -version
若是一切正常,它會給你如下輸出。bash
java version "1.7.0_71" Java(TM) SE Runtime Environment (build 1.7.0_71-b13) Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
若是系統中沒有安裝java,請按照如下步驟安裝java。架構
經過訪問如下連接http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads1880260.html下載java(JDK <latest version> - X64.tar.gz)。oracle
而後jdk-7u71-linux-x64.tar.gz將下載到您的系統。
一般你會在下載文件夾中找到下載的java文件。使用如下命令驗證它並解壓縮jdk-7u71-linux-x64.gz文件。
$ cd Downloads/ $ ls jdk-7u71-linux-x64.gz $ tar zxf jdk-7u71-linux-x64.gz $ ls jdk1.7.0_71 jdk-7u71-linux-x64.gz
要使java可用於全部用戶,您必須將其移動到位置「/ usr / local /」。打開root,而後鍵入如下命令。
$ su password: # mv jdk1.7.0_71 /usr/local/ # exit
要設置PATH和JAVA_HOME變量,請將如下命令添加到〜/ .bashrc文件。
export JAVA_HOME=/usr/local/jdk1.7.0_71 export PATH=$PATH:$JAVA_HOME/bin
如今將全部更改應用到當前運行的系統。
$ source ~/.bashrc
如今將全部更改應用到當前運行的系統。
# alternatives --install /usr/bin/java java usr/local/java/bin/java 2 # alternatives --install /usr/bin/javac javac usr/local/java/bin/javac 2 # alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2 # alternatives --set java usr/local/java/bin/java # alternatives --set javac usr/local/java/bin/javac # alternatives --set jar usr/local/java/bin/jar
如今如上所述從終端驗證java -version命令。
使用如下命令從Apache Software Foundation下載並提取Hadoop 2.4.1。
$ su password: # cd /usr/local # wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/ hadoop-2.4.1.tar.gz # tar xzf hadoop-2.4.1.tar.gz # mv hadoop-2.4.1/* to hadoop/ # exit
一旦下載了Hadoop,您就可使用如下三種支持模式之一來操做Hadoop集羣:
本地/獨立模式 :在系統中下載Hadoop以後,默認狀況下,它以獨立模式配置,而且能夠做爲單個Java進程運行。
僞分佈式模式 :它是單機上的分佈式仿真。每一個Hadoop守護進程(如hdfs,yarn,MapReduce等)都將做爲單獨的java進程運行。此模式對開發有用。
徹底分佈式的模式 :此模式是徹底分佈式的,至少有兩臺或多臺機器做爲集羣。咱們將在接下來的章節中詳細討論這種模式。
這裏咱們將討論Hadoop 2.4.1在獨立模式下的安裝。
沒有運行的守護程序,而且一切都在單個JVM中運行。獨立模式適合在開發期間運行MapReduce程序,由於它很容易測試和調試。
您能夠經過將如下命令附加到〜/.bashrc文件來設置Hadoop環境變量。
export HADOOP_HOME=/usr/local/hadoop
在繼續進行以前,您須要確保Hadoop正常工做。只需發出如下命令:
$ hadoop version
若是您的設置一切正常,那麼你應該看到如下結果:
Hadoop 2.4.1 Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768 Compiled by hortonmu on 2013-10-07T06:28Z Compiled with protoc 2.5.0 From source with checksum 79e53ce7994d1628b240f09af91e1af4
這意味着你的Hadoop的獨立模式設置工做正常。默認狀況下,Hadoop配置爲在單臺計算機上以非分佈式方式運行。
讓咱們檢查一個簡單的Hadoop示例。 Hadoop安裝提供瞭如下示例MapReduce jar文件,它提供了MapReduce的基本功能,可用於計算,如Pi值,文件列表中的字數等。
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar
讓咱們有一個輸入目錄,咱們將推送幾個文件,咱們的要求是計數這些文件中的字的總數。要計算總字數,咱們不須要寫咱們的MapReduce,只要.jar文件包含字計數的實現。您能夠嘗試使用相同的.jar文件的其餘示例;只需發出如下命令來檢查hadoop-mapreduce-examples-2.2.0.jar文件支持的MapReduce功能程序。
$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduceexamples-2.2.0.jar
在輸入目錄中建立臨時內容文件。您能夠在要工做的任何位置建立此輸入目錄。
$ mkdir input $ cp $HADOOP_HOME/*.txt input $ ls -l input
它將在您的輸入目錄中提供如下文件:
total 24 -rw-r--r-- 1 root root 15164 Feb 21 10:14 LICENSE.txt -rw-r--r-- 1 root root 101 Feb 21 10:14 NOTICE.txt -rw-r--r-- 1 root root 1366 Feb 21 10:14 README.txt
這些文件已從Hadoop安裝主目錄複製。對於您的實驗,您能夠有不一樣的和大的文件集。
讓咱們開始Hadoop進程來計算輸入目錄中全部可用文件中的總字數,以下所示:
$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduceexamples-2.2.0.jar wordcount input output
第2步將執行所需的處理並將輸出保存在output / part-r00000文件中,您可使用如下命令檢查:
$cat output/*
它將列出全部字以及它們在輸入目錄中可用的全部文件中的總計數。
"AS 4 "Contribution" 1 "Contributor" 1 "Derivative 1 "Legal 1 "License" 1 "License"); 1 "Licensor" 1 "NOTICE」 1 "Not 1 "Object" 1 "Source」 1 "Work」 1 "You" 1 "Your") 1 "[]" 1 "control" 1 "printed 1 "submitted" 1 (50%) 1 (BIS), 1 (C) 1 (Don't) 1 (ECCN) 1 (INCLUDING 2 (INCLUDING, 2 .............
按照下面給出的步驟在僞分佈式模式下安裝Hadoop 2.4.1。
您能夠經過將如下命令附加到〜/.bashrc文件來設置Hadoop環境變量。
export HADOOP_HOME=/usr/local/hadoop export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_INSTALL=$HADOOP_HOME
如今將全部更改應用到當前運行的系統。
$ source ~/.bashrc
您能夠在位置「$ HADOOP_HOME/etc/hadoop」中找到全部Hadoop配置文件。須要根據您的Hadoop基礎結構對這些配置文件進行更改。
$ cd $HADOOP_HOME/etc/hadoop
爲了在java中開發Hadoop程序,您必須經過用系統中java的位置替換JAVA_HOME值來重置hadoop-env.sh文件中的java環境變量。
export JAVA_HOME=/usr/local/jdk1.7.0_71
如下是您必須編輯以配置Hadoop的文件列表。
core-site.xml
core-site.xml文件包含諸如用於Hadoop實例的端口號,爲文件系統分配的內存,用於存儲數據的內存限制以及讀/寫緩衝區大小的信息。
打開core-site.xml並在<configuration>,</ configuration>標籤之間添加如下屬性。
<configuration> <property> <name>fs.default.name </name> <value> hdfs://localhost:9000 </value> </property> </configuration>
hdfs-site.xml
hdfs-site.xml文件包含本地文件系統的複製數據值,namenode路徑和datanode路徑等信息。這意味着您要存儲Hadoop基礎架構的位置。
讓咱們假設如下數據。
dfs.replication (data replication value) = 1 (In the below given path /hadoop/ is the user name. hadoopinfra/hdfs/namenode is the directory created by hdfs file system.) namenode path = //home/hadoop/hadoopinfra/hdfs/namenode (hadoopinfra/hdfs/datanode is the directory created by hdfs file system.) datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
打開此文件,並在此文件中的<configuration> </ configuration>標記之間添加如下屬性。
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value> </property> </configuration>
注意:在上述文件中,全部屬性值都是用戶定義的,您能夠根據Hadoop基礎結構進行更改。
yarn-site.xml
此文件用於將Yarn爲Hadoop配置爲Hadoop。打開yarn-site.xml文件,並在此文件中的<configuration>,</ configuration>標記之間添加如下屬性。
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
mapred-site.xml
此文件用於指定咱們使用的MapReduce框架。默認狀況下,Hadoop包含yarn-site.xml的模板。首先,須要使用如下命令將文件從mapred-site,xml.template複製到mapred-site.xml文件。
$ cp mapred-site.xml.template mapred-site.xml
打開mapred-site.xml文件,並在此文件中的<configuration>,</ configuration>標記之間添加如下屬性。
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
如下步驟用於驗證Hadoop安裝。
使用命令「HDFS的NameNode -format」以下設置名稱節點。
$ cd ~ $ hdfs namenode -format
預期結果以下。
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: /************************************************************ STARTUP_MSG: Starting NameNode STARTUP_MSG: host = localhost/192.168.1.11 STARTUP_MSG: args = [-format] STARTUP_MSG: version = 2.4.1 ... ... 10/24/14 21:30:56 INFO common.Storage: Storage directory /home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0 10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0 10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11 ************************************************************/
如下命令用於啓動dfs。執行此命令將啓動您的Hadoop文件系統。
$ start-dfs.sh
預期輸出以下:
10/24/14 21:37:56 Starting namenodes on [localhost] localhost: starting namenode, logging to /home/hadoop/hadoop 2.4.1/logs/hadoop-hadoop-namenode-localhost.out localhost: starting datanode, logging to /home/hadoop/hadoop 2.4.1/logs/hadoop-hadoop-datanode-localhost.out Starting secondary namenodes [0.0.0.0]
下面的命令被用於啓動Yarn腳本。執行該命令將啓動紗守護進程。
$ start-yarn.sh
預期輸出以下:
starting yarn daemons starting resourcemanager, logging to /home/hadoop/hadoop 2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out localhost: starting nodemanager, logging to /home/hadoop/hadoop 2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
訪問Hadoop的默認端口號爲50070.使用如下URL在瀏覽器上獲取Hadoop服務。
http://localhost:50070/
訪問羣集的全部應用程序的默認端口號爲8088.使用如下URL訪問此服務。
http://localhost:8088/