1.vi /opt/hadoop-2.6.0/etc/hadoop/hadoop-env.sh 緩存
export JAVA_HOME=/opt/jdk1.7.0_75網絡
2.vi /opt/hadoop-2.6.0/etc/hadoop/core-site.xml oop
<property>
<name>fs.default.name</name>
<value>hdfs://spore:9000</value>
</property>測試
注:spore爲機器的hostname優化
<!--是否使用本地庫,注意hadoop的位數與操做系統的位數是否匹配-->
<property>
<name>hadoop.native.lib</name>
<value>true</value>
</property>spa
<!--關閉hdfs用戶組權限,測試環境下建議打開,方便不一樣用戶訪問-->操作系統
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>xml
<!--hadoop數據存放點,默認/tmp,會重啓丟數據,最好配一個-->排序
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.6.0/tmp</value>
</property>內存
3.vi /opt/hadoop-2.6.0/etc/hadoop/hdfs-site.xml
<!--數據備份數,生產環境最好配置3以上-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
4.vi /opt/hadoop-2.6.0/etc/hadoop/mapred-site.xml
<!--使用yarn進行資源管理-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
5.vi /opt/hadoop-2.6.0/etc/hadoop/slaves
添加slave的hostname
優化:
儘可能使用combiner減小鍵值對數目,本地合併鍵值對,減小網絡傳輸,優化效果明顯
調大mapreduce中間結果緩存的內存
巧用複合鍵讓系統完成排序,沒必要要本身實現排序