hadoop性能優化

時間 2019-11-10

標籤 hadoop 性能優化欄目 Hadoop 简体版

原文原文鏈接

hadoop 集羣性能優化 hadoop 層面性能調優： node

hadoop 層面性能調優

1. 守護進行內存調優

a）NameNode 和 DataNode 內存調整在 hadoop-env.sh 文件中算法

NameNode： ExportHADOOP_NAMENODE_OPTS="-Xmx512m-Xms512m -Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_NAMENODE_OPTS" apache

DataNode：性能優化

export HADOOP_DATANODE_OPTS="-Xmx256m -Xms256m -Dhadoop.security.logger=ERROR,RFAS $HADOOP_DATANODE_OPTS" app

-Xmx -Xms 這兩個參數通常保持一致，以免每次垃圾回收完成後 JVM 從新分配內存。
負載均衡

b）REsourceManager 和 NodeManager 內存調整在 yarn-env.sh 文件中 oop

REsourceManager：性能

export YARN_RESOURCEMANAGER_HEAPSIZE=1000 默認 export YARN_RESOURCEMANAGER_OPTS="..........."能夠覆蓋上面的值優化

NodeManager： spa

export YARN_NODEMANAGER_HEAPSIZE=1000 默認export YARN_NODEMANAGER_OPTS="";能夠覆蓋上面的值

常駐內存經驗配置：

namenode:16G

datanode:2-4G

ResourceManager:4G
NodeManager:2G

Zookeeper：4G

Hive Server：2G

2. mr中間目錄要配置多個，分散IO 壓力

http://hadoop.apache.org/docs/r2.6.0/

配置文件yarn-default.xml 分散 IO 壓力

yarn.nodemanager.local-dirs

yarn.nodemanager.log-dirs

配置文件 mapred-default.xml：

mapreduce.cluster.local.dir

配置文件 hdfs-default.xml：提升可靠性

dfs.namenode.name.dir
dfs.namenode.edits.dir

dfs.datanode.data.dir

3. mr中間結果要壓縮

a）配置 mapred-site.xml 文件中配置

<name>mapreduce.map.output.compress</name>

</property>

<name>mapreduce.map.output.compress.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>
程序運行時指定參數 hadoop jar /home/hadoop/tv/tv.jar MediaIndex -Dmapreduce.compress.map.output=true -Dmapreduce.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec /tvdata /media

b）使用合理的壓縮算法（cpu 和磁盤） cpu：若是是 cpu 的瓶頸，能夠更換速度快的壓縮算法磁盤：若是是磁盤的瓶頸，能夠更換壓縮力度大的壓縮算法通常狀況咱們使用 snappy 壓縮，比較均衡 lzo