Hadoop的配置文件都放在/HADOOP_HOME/confnode
Hadoop配置文件分佈式 |
||
文件名稱oop |
格式spa |
描述日誌 |
hadoop-env.shxml |
Bash腳本進程 |
記錄Hadoop要用的環境變量ip |
core-site.xmlhadoop |
Hadoop配置XMLit |
Hadoop Core的配置項,例如HDFS和MapReduce經常使用的I/O設置等 |
hdfs-site.xml |
Hadoop配置XML |
HDFS守護進程的配置項,包括NameNode、SecondaryNameNode、DataNode等 |
mapred-site.xml |
Hadoop配置XML |
MapReduce守護進程的配置項 |
masters |
純文本 |
運行SecondaryNameNode的機器列表 |
slaves |
純文本 |
運行DataNode和TaskTracker的機器列表(每行一個) |
hadoop-metrics.properties |
Properties文件 |
控制metrics在Hadoop和上如何如何發佈的屬性 |
log4j.properties |
Properties文件 |
系統日誌文件、NameNode審計日誌、TaskTracker子進程的任務日誌的屬性 |
Hadoop安裝時經常使用的模式是僞分佈式模式,
現將經常使用的配置整理以下:
1 hadoop-env.sh
添加JAVA_HOME和HADOOP_HOME
export JAVA_HOME=/opt/jdk1.6.0_35
export HADOOP_HOME=/opt/hadoop-0.20.2-cdh3u6
2 core-site.xml
第一個屬性用來指定HDFS老大得地址,也就是NameNode的地址
value值是主機名加端口號,若是在host文件中添加了主機名和ip映射,主機名也能夠用ip地址替換。。。。。
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
第二個屬性用來指定hadoop運行時產生文件的路徑
<property>
<name>hadoop.tmp.dir</name>
<value>/master/hadoop-2.5.2/tmp</value>
</property>
3 hdfs-site.xml
指定hdfs保存數據的副本數量,若是是2,總共有2份
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
4 mapred-site.xml
本來hadoop文件夾的etc下是沒有mapred-site.xml的。。。。 mv mapred-site.xml.template mapred-site.xml
生成一個 mapred-site.xml
告訴hadoop之後mapreduce運行在yarn上面。。。。
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
5 yarn-site.xml
添加兩個屬性,第一個告訴nodemanager獲取數據的方式爲shuffle
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
第二個指定yarn的老大Resourcemanagger的地址
<property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property>