在CentOS 6.9中搭建Hadoop

時間 2019-11-07

標籤 centos 6.9 搭建 hadoop 欄目 CentOS 简体版

原文原文鏈接

準備工做

配置 java 環境變量java

在 ~/.bash_profile 中配置node

tar -zxvf jdk-8uXXX-linux-x64.tar.gzlinux

export JAVA_HOME=/解壓目錄/jak1.8.0_xxxweb

export PATH=$PATH:$JAVA_HOME/binbash

修改後執行網絡

source ~/.bash_profile app

使剛剛配置的環境變量當即生效webapp

配置host分佈式

使用 ifconfig 查看本身的ipoop

而後在 /etc/hosts 添加host配置

修改hostname主機名

修改/etc/sysconfig/network 裏HOSTNAME配置，而後執行 hostname bigdata

若是使用的是虛擬機最好使用NAT網絡模式

配置 Hadoop

下載 hadoop-2.7.x.tar.gz

tar -zxvf hadoop-2.7.x.tar.gz

在 ~/.bash_profile 中添加Hadoop環境變量配置

export HADOOP_HOME=/解壓目錄/hadoop-2.7.x

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

修改Hadoop配置文件, Hadoop配置文件在 etc/hadoop 目錄下

1. 修改 hadoop-env.sh 中 JAVA_HOME 改成 jdk 的絕對路徑

2. 修改 core-site.xml

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://bigdata:9000</value>
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/application/tmp/hadoop</value>
	</property>
</configuration>

3. 修改 yarn-site.xml

<configuration>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
		<name>yarn.resourcemanager.address</name>
		<value>bigdata:18040</value>
	</property>
	<property>
		<name>yarn.resourcemanager.scheduler.address</name>
		<value>bigdata:18030</value>
	</property>
	<property>
		<name>yarn.resourcemanager.resource-tracker.address</name>
		<value>bigdata:18025</value>
	</property>
	<property>
		<name>yarn.resourcemanager.admin.address</name>
		<value>bigdata:18141</value>
	</property>
	<property>
		<name>yarn.resourcemanager.webapp.address</name>
		<value>bigdata:18088</value>
	</property>
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>
	<property>
		<name>yarn.log.server.url</name>
		<value>http://bigdata:19888/jobhistory/logs</value>
	</property>
	<property>
		<name>yarn.nodemanager.vmem-check-enabled</name>
		<value>false</value>
	</property>
</configuration>

4. 修改 hdfs-site.xml

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>/application/tmp/hdfs/namenode</value>
	</property>
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>/application/tmp/hdfs/datanode</value>
	</property>
</configuration>

5. 修改 mapred-site.xml

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>

配置分佈式

將 jdk 及上述 hadoop 文件及其配置都複製到其他準備好的虛擬節點上
在 namenode 節點啓動格式化：
hadoop namenode –format
在 namenode 節點上啓動 namenode 服務,resourcemanager 和 history server
sbin/hadoop-daemon.sh start namenode
sbin/yarn-daemon.sh start resourcemanager
sbin/mr-jobhistory-daemon.sh start historyserver
在 datanode 節點上啓動 datanode 服務和 nodemanager 服務
sbin/hadoop-daemon.sh start datanode
sbin/yarn-daemon.sh start nodemanager
(namenode 和 resourcemanager 在生產環境中不必定會被放在一個節點)

輸入 jps

在 namenode 節點上有 NameNode 進程和 ResourceManager 進程，historysever 進程，在 datanode 上有 DataNode 進程和 NodeManager 進程。則
說明正確。

僞分佈式版

與上面的區別是：不須要在其餘節點從新配置 hadoop 和 jdk，直接在本節
點配置好 jdk 和 hadoop 後：
hadoop namenode –format

sbin/hadoop-daemon.sh start namenode
sbin/yarn-daemon.sh start resourcemanager
sbin/mr-jobhistory-daemon.sh start historyserver

sbin/hadoop-daemon.sh start datanode
sbin/yarn-daemon.sh start nodemanager