原文:http://blog.javachen.com/2013/04/06/install-cloudera-cdh-by-yum.htmlhtml
本文主要是記錄使用yum安裝CDH Hadoop集羣的過程,包括HDFS、Yarn、Hive和HBase。本文使用CDH5.4版本進行安裝,故下文中的過程都是針對CDH5.4版本的
。java
系統環境:node
CDH5.4
1.7.0_71
集羣各節點角色規劃爲:mysql
192.168.56.121 cdh1 NameNode、ResourceManager、HBase、Hive metastore、Impala Catalog、Impala statestore、Sentry 192.168.56.122 cdh2 DataNode、SecondaryNameNode、NodeManager、HBase、Hive Server二、Impala Server 192.168.56.123 cdh3 DataNode、HBase、NodeManager、Hive Server二、Impala Server
cdh1做爲master節點,其餘節點做爲slave節點。linux
安裝 Hadoop 集羣前先作好下面的準備工做,在修改配置文件的時候,建議在一個節點上修改,而後同步到其餘節點,例如:對於 hdfs 和 yarn ,在 NameNode 節點上修改而後再同步,對於 HBase,選擇一個節點再同步。由於要同步配置文件和在多個節點啓動服務,建議配置 ssh 無密碼登錄。web
CDH 要求使用 IPv4,IPv6 不支持,禁用IPv6方法:sql
bash$ vim /etc/sysctl.conf #disable ipv6 net.ipv6.conf.all.disable_ipv6=1 net.ipv6.conf.default.disable_ipv6=1 net.ipv6.conf.lo.disable_ipv6=1
使其生效:shell
bash$ sysctl -p
最後確認是否已禁用:數據庫
bash$ cat /proc/sys/net/ipv6/conf/all/disable_ipv6 1
一、設置hostname,以cdh1爲例:apache
bash$ hostname cdh1
二、確保/etc/hosts
中包含ip和FQDN,若是你在使用DNS,保存這些信息到/etc/hosts
不是必要的,倒是最佳實踐。
三、確保/etc/sysconfig/network
中包含hostname=cdh1
四、檢查網絡,運行下面命令檢查是否配置了hostname以及其對應的ip是否正確。
運行uname -a
查看hostname是否匹配hostname
命令運行的結果:
bash$ uname -a Linux cdh1 2.6.32-358.23.2.el6.x86_64 #1 SMP Wed Oct 16 18:37:12 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux $ hostname cdh1
運行/sbin/ifconfig
查看ip:
bash$ ifconfig eth1 Link encap:Ethernet HWaddr 08:00:27:75:E0:95 inet addr:192.168.56.121 Bcast:192.168.56.255 Mask:255.255.255.0 ......
先安裝bind-utils,才能運行host命令:
bash$ yum install bind-utils -y
運行下面命令查看hostname和ip是否匹配:
bash$ host -v -t A `hostname` Trying "cdh1" ... ;; ANSWER SECTION: cdh1. 60 IN A 192.168.56.121
五、hadoop的全部配置文件中配置節點名稱時,請使用hostname和不是ip
bash$ setenforce 0 $ vim /etc/sysconfig/selinux #修改SELINUX=disabled #清空iptables $ iptables -F
這裏選擇 cdh1 節點爲時鐘同步服務器,其餘節點爲客戶端同步時間到該節點。安裝ntp:
bash$ yum install ntp
修改 cdh1 上的配置文件 /etc/ntp.conf
:
restrict default ignore //默認不容許修改或者查詢ntp,而且不接收特殊封包 restrict 127.0.0.1 //給於本機全部權限 restrict 192.168.56.0 mask 255.255.255.0 notrap nomodify //給於局域網機的機器有同步時間的權限 server 192.168.56.121 # local clock driftfile /var/lib/ntp/drift fudge 127.127.1.0 stratum 10
啓動 ntp:
bash#設置開機啓動 $ chkconfig ntpd on $ service ntpd start
ntpq用來監視ntpd操做,使用標準的NTP模式6控制消息模式,並與NTP服務器通訊。
ntpq -p
查詢網絡中的NTP服務器,同時顯示客戶端和每一個服務器的關係。
$ ntpq -p remote refid st t when poll reach delay offset jitter ============================================================================== *LOCAL(1) .LOCL. 5 l 6 64 1 0.000 0.000 0.000
在cdh2和cdh3節點上執行下面操做:
bash$ ntpdate cdh1
Ntpd啓動的時候一般須要一段時間大概5分鐘進行時間同步,因此在ntpd剛剛啓動的時候還不能正常提供時鐘服務,報錯"no server suitable for synchronization found"。啓動時候須要等待5分鐘。
若是想定時進行時間校準,可使用crond服務來定時執行。
bash# 天天 1:00 Linux 系統就會自動的進行網絡時間校準 00 1 * * * root /usr/sbin/ntpdate 192.168.56.121 >> /root/ntpdate.log 2>&1
CDH5.4要求使用JDK1.7,JDK的安裝過程請參考網上文章。
CDH官方的yum源地址在 http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/cloudera-cdh4.rep... 或 http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/cloudera-cdh5.rep... ,請根據你安裝的cdh版本修改該文件中baseurl的路徑。
你能夠從這裏下載 cdh4 的倉庫壓縮包,或者從這裏 下載 cdh5 的倉庫壓縮包。
由於我是使用的centos操做系統,故我這裏下載的是cdh5的centos6壓縮包,將其下載以後解壓到ftp服務的路徑下,而後配置cdh的本地yum源:
[hadoop] name=hadoop baseurl=ftp://cdh1/cdh/5/ enabled=1 gpgcheck=0
操做系統的yum源,建議你經過下載 centos 的 dvd 而後配置一個本地的 yum 源。
根據文章開頭的節點規劃,cdh1 爲NameNode節點,cdh2爲SecondaryNameNode節點,cdh2 和 cdh3 爲DataNode節點
在 cdh1 節點安裝 hadoop-hdfs-namenode:
bash$ yum install hadoop hadoop-hdfs hadoop-client hadoop-doc hadoop-debuginfo hadoop-hdfs-namenode
在 cdh2 節點安裝 hadoop-hdfs-secondarynamenode
bash$ yum install hadoop-hdfs-secondarynamenode -y
在 cdh二、cdh3節點安裝 hadoop-hdfs-datanode
bash$ yum install hadoop hadoop-hdfs hadoop-client hadoop-doc hadoop-debuginfo hadoop-hdfs-datanode -y
NameNode HA 的配置過程請參考CDH中配置HDFS HA,建議暫時不用配置。
在/etc/hadoop/conf/core-site.xml
中設置fs.defaultFS
屬性值,該屬性指定NameNode是哪個節點以及使用的文件系統是file仍是hdfs,格式:hdfs://<namenode host>:<namenode port>/
,默認的文件系統是file:///
:
xml<property> <name>fs.defaultFS</name> <value>hdfs://cdh1:8020</value> </property>
在/etc/hadoop/conf/hdfs-site.xml
中設置dfs.permissions.superusergroup
屬性,該屬性指定hdfs的超級用戶,默認爲hdfs,你能夠修改成hadoop:
xml<property> <name>dfs.permissions.superusergroup</name> <value>hadoop</value> </property>
更多的配置信息說明,請參考 Apache Cluster Setup
在hadoop中默認的文件路徑以及權限要求以下:
目錄 全部者 權限 默認路徑 hadoop.tmp.dir hdfs:hdfs drwx------ /var/hadoop dfs.namenode.name.dir hdfs:hdfs drwx------ file://${hadoop.tmp.dir}/dfs/name dfs.datanode.data.dir hdfs:hdfs drwx------ file://${hadoop.tmp.dir}/dfs/data dfs.namenode.checkpoint.dir hdfs:hdfs drwx------ file://${hadoop.tmp.dir}/dfs/namesecondary
說明你能夠在 hdfs-site.xm l中只配置hadoop.tmp.dir
,也能夠分別配置上面的路徑。這裏使用分別配置的方式,hdfs-site.xml中配置以下:
xml<property> <name>dfs.namenode.name.dir</name> <value>file:///data/dfs/nn</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///data/dfs/dn</value> </property>
在NameNode上手動建立 dfs.name.dir
或 dfs.namenode.name.dir
的本地目錄:
bash$ mkdir -p /data/dfs/nn
在DataNode上手動建立 dfs.data.dir
或 dfs.datanode.data.dir
的本地目錄:
bash$ mkdir -p /data/dfs/dn
修改上面目錄全部者:
$ chown -R hdfs:hdfs /data/dfs/nn /data/dfs/dn
hadoop的進程會自動設置 dfs.data.dir
或 dfs.datanode.data.dir
,可是 dfs.name.dir
或 dfs.namenode.name.dir
的權限默認爲755,須要手動設置爲700:
bash$ chmod 700 /data/dfs/nn # 或者 $ chmod go-rx /data/dfs/nn
注意:DataNode的本地目錄能夠設置多個,你能夠設置 dfs.datanode.failed.volumes.tolerated
參數的值,表示可以容忍不超過該個數的目錄失敗。
配置 SecondaryNameNode 須要在 /etc/hadoop/conf/hdfs-site.xml
中添加如下參數:
bashdfs.namenode.checkpoint.check.period dfs.namenode.checkpoint.txns dfs.namenode.checkpoint.dir dfs.namenode.checkpoint.edits.dir dfs.namenode.num.checkpoints.retained
在 /etc/hadoop/conf/hdfs-site.xml
中加入以下配置,將cdh2設置爲 SecondaryNameNode:
xml<property> <name>dfs.secondary.http.address</name> <value>cdh2:50090</value> </property>
設置多個secondarynamenode,請參考multi-host-secondarynamenode-configuration.
回收站功能默認是關閉的,建議打開。在 /etc/hadoop/conf/core-site.xml
中添加以下兩個參數:
fs.trash.interval
,該參數值爲時間間隔,單位爲分鐘,默認爲0,表示回收站功能關閉。該值表示回收站中文件保存多長時間,若是服務端配置了該參數,則忽略客戶端的配置;若是服務端關閉了該參數,則檢查客戶端是否有配置該參數;fs.trash.checkpoint.interval
,該參數值爲時間間隔,單位爲分鐘,默認爲0。該值表示檢查回收站時間間隔,該值要小於fs.trash.interval
,該值在服務端配置。若是該值設置爲0,則使用 fs.trash.interval
的值。在 /etc/hadoop/conf/hdfs-site.xml
中配置如下三個參數:
dfs.datanode.fsdataset. volume.choosing.policy
dfs.datanode.available-space-volume-choosing-policy.balanced-space-threshold
dfs.datanode.available-space-volume-choosing-policy.balanced-space-preference-fraction
詳細說明,請參考 Optionally configure DataNode storage balancing。
在NameNode節點上安裝:
bash$ yum install hadoop-httpfs -y
而後修改 /etc/hadoop/conf/core-site.xml配置代理用戶:
xml<property> <name>hadoop.proxyuser.httpfs.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.httpfs.groups</name> <value>*</value> </property>
下載repo文件到 /etc/yum.repos.d/
:
而後,安裝lzo:
bash$ yum install hadoop-lzo* impala-lzo -y
最後,在 /etc/hadoop/conf/core-site.xml
中添加以下配置:
xml<property> <name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec,com.hadoop.compression.lzo.LzoCodec, com.hadoop.compression.lzo.LzopCodec</value> </property> <property> <name>io.compression.codec.lzo.class</name> <value>com.hadoop.compression.lzo.LzoCodec</value> </property>
更多關於LZO信息,請參考:Using LZO Compression
cdh 的 rpm 源中默認已經包含了 snappy ,直接在每一個節點安裝Snappy:
bash$ yum install snappy snappy-devel -y
而後,在 core-site.xml
中修改io.compression.codecs
的值,添加 org.apache.hadoop.io.compress.SnappyCodec
。
使 snappy 對 hadoop 可用:
bash$ ln -sf /usr/lib64/libsnappy.so /usr/lib/hadoop/lib/native/
將cdh1上的配置文件同步到每個節點:
bash$ scp -r /etc/hadoop/conf root@cdh2:/etc/hadoop/ $ scp -r /etc/hadoop/conf root@cdh3:/etc/hadoop/
在cdh1節點格式化NameNode:
bash$ sudo -u hdfs hadoop namenode -format
在每一個節點運行下面命令啓動hdfs:
bash$ for x in `ls /etc/init.d/|grep hadoop-hdfs` ; do service $x start ; done
在 hdfs 運行以後,建立 /tmp
臨時目錄,並設置權限爲 1777
:
bash$ sudo -u hdfs hadoop fs -mkdir /tmp $ sudo -u hdfs hadoop fs -chmod -R 1777 /tmp
若是安裝了HttpFS,則啓動 HttpFS 服務:
bash$ service hadoop-httpfs start
經過 http://cdh1:50070/ 能夠訪問 NameNode 頁面。使用 curl 運行下面命令,能夠測試 webhdfs 並查看執行結果:
bash$ curl "http://localhost:14000/webhdfs/v1?op=gethomedirectory&user.name=hdfs" {"Path":"\/user\/hdfs"}
更多的 API,請參考 WebHDFS REST API
根據文章開頭的節點規劃,cdh1 爲resourcemanager節點,cdh2 和 cdh3 爲nodemanager節點,爲了簡單,historyserver 也裝在 cdh1 節點上。
在 cdh1 節點安裝:
bash$ yum install hadoop-yarn hadoop-yarn-resourcemanager -y #安裝 historyserver $ yum install hadoop-mapreduce-historyserver hadoop-yarn-proxyserver -y
在 cdh二、cdh3 節點安裝:
bash$ yum install hadoop-yarn hadoop-yarn-nodemanager hadoop-mapreduce -y
要想使用YARN,須要在 /etc/hadoop/conf/mapred-site.xml
中作以下配置:
xml<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
修改/etc/hadoop/conf/yarn-site.xml,配置resourcemanager的節點名稱以及一些服務的端口號:
xml<property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>cdh1:8031</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>cdh1:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>cdh1:8030</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>cdh1:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>cdh1:8088</value> </property>
在 /etc/hadoop/conf/yarn-site.xml
中添加以下配置:
xml<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <name>yarn.application.classpath</name> <value> $HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/*, $HADOOP_COMMON_HOME/lib/*, $HADOOP_HDFS_HOME/*, $HADOOP_HDFS_HOME/lib/*, $HADOOP_MAPRED_HOME/*, $HADOOP_MAPRED_HOME/lib/*, $HADOOP_YARN_HOME/*, $HADOOP_YARN_HOME/lib/* </value> </property> <property> <name>yarn.log.aggregation.enable</name> <value>true</value> </property>
注意:
yarn.nodemanager.aux-services
的值在 cdh4 中應該爲 mapreduce.shuffle
,並配置參數yarn.nodemanager.aux-services.mapreduce.shuffle.class
值爲 org.apache.hadoop.mapred.ShuffleHandler
,在cdh5中爲mapreduce_shuffle
,這時候請配置yarn.nodemanager.aux-services.mapreduce_shuffle.class
參數
這裏配置了 yarn.application.classpath
,須要設置一些喜歡環境變量:
bashexport HADOOP_HOME=/usr/lib/hadoop export HIVE_HOME=/usr/lib/hive export HBASE_HOME=/usr/lib/hbase export HADOOP_HDFS_HOME=/usr/lib/hadoop-hdfs export HADOOP_MAPRED_HOME=/usr/lib/hadoop-mapreduce export HADOOP_COMMON_HOME=${HADOOP_HOME} export HADOOP_HDFS_HOME=/usr/lib/hadoop-hdfs export HADOOP_LIBEXEC_DIR=${HADOOP_HOME}/libexec export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop export HADOOP_YARN_HOME=/usr/lib/hadoop-yarn export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop
在hadoop中默認的文件路徑以及權限要求以下:
目錄 全部者 權限 默認路徑 yarn.nodemanager.local-dirs yarn:yarn drwxr-xr-x ${hadoop.tmp.dir}/nm-local-dir yarn.nodemanager.log-dirs yarn:yarn drwxr-xr-x ${yarn.log.dir}/userlogs yarn.nodemanager.remote-app-log-dir hdfs://cdh1:8020/var/log/hadoop-yarn/apps
故在 /etc/hadoop/conf/yarn-site.xml
文件中添加以下配置:
xml<property> <name>yarn.nodemanager.local-dirs</name> <value>/data/yarn/local</value> </property> <property> <name>yarn.nodemanager.log-dirs</name> <value>/data/yarn/logs</value> </property> <property> <name>yarn.nodemanager.remote-app-log-dir</name> <value>/yarn/apps</value> </property>
建立 yarn.nodemanager.local-dirs
和 yarn.nodemanager.log-dirs
參數對應的目錄:
bash$ mkdir -p /data/yarn/{local,logs} $ chown -R yarn:yarn /data/yarn
在 hdfs 上建立 yarn.nodemanager.remote-app-log-dir
對應的目錄:
bash$ sudo -u hdfs hadoop fs -mkdir -p /yarn/apps $ sudo -u hdfs hadoop fs -chown yarn:mapred /yarn/apps $ sudo -u hdfs hadoop fs -chmod 1777 /yarn/apps
在 /etc/hadoop/conf/mapred-site.xml
中配置 MapReduce History Server:
xml<property> <name>mapreduce.jobhistory.address</name> <value>cdh1:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>cdh1:19888</value> </property>
此外,確保 mapred、yarn 用戶可以使用代理,在 /etc/hadoop/conf/core-site.xml
中添加以下參數:
xml<property> <name>hadoop.proxyuser.mapred.groups</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.mapred.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.yarn.groups</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.yarn.hosts</name> <value>*</value> </property>
配置 Staging 目錄:
xml<property> <name>yarn.app.mapreduce.am.staging-dir</name> <value>/user</value> </property>
並在 hdfs 上建立相應的目錄:
bash$ sudo -u hdfs hadoop fs -mkdir -p /user $ sudo -u hdfs hadoop fs -chmod 777 /user
可選的,你能夠在 /etc/hadoop/conf/mapred-site.xml
設置如下兩個參數:
mapreduce.jobhistory.intermediate-done-dir
,該目錄權限應該爲1777,默認值爲 ${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate
mapreduce.jobhistory.done-dir
,該目錄權限應該爲750,默認值爲 ${yarn.app.mapreduce.am.staging-dir}/history/done
而後,在 hdfs 上建立目錄並設置權限:
bash$ sudo -u hdfs hadoop fs -mkdir -p /user/history $ sudo -u hdfs hadoop fs -chmod -R 1777 /user/history $ sudo -u hdfs hadoop fs -chown mapred:hadoop /user/history
設置 HADOOP_MAPRED_HOME
,或者把其加入到 hadoop 的配置文件中
bash$ export HADOOP_MAPRED_HOME=/usr/lib/hadoop-mapreduce
bash$ sudo -u hdfs hadoop fs -ls -R /
你應該看到以下結構:
bashdrwxrwxrwt - hdfs hadoop 0 2014-04-19 14:21 /tmp drwxrwxrwx - hdfs hadoop 0 2014-04-19 14:26 /user drwxrwxrwt - mapred hadoop 0 2014-04-19 14:31 /user/history drwxr-x--- - mapred hadoop 0 2014-04-19 14:38 /user/history/done drwxrwxrwt - mapred hadoop 0 2014-04-19 14:48 /user/history/done_intermediate drwxr-xr-x - hdfs hadoop 0 2014-04-19 15:31 /yarn drwxrwxrwt - yarn mapred 0 2014-04-19 15:31 /yarn/apps
同步配置文件到整個集羣:
bash$ scp -r /etc/hadoop/conf root@cdh2:/etc/hadoop/ $ scp -r /etc/hadoop/conf root@cdh3:/etc/hadoop/
在每一個節點啓動 YARN :
bash$ for x in `ls /etc/init.d/|grep hadoop-yarn` ; do service $x start ; done
在 cdh1 節點啓動 mapred-historyserver :
bash$ /etc/init.d/hadoop-mapreduce-historyserver start
爲每一個 MapReduce 用戶建立主目錄,好比說 hive 用戶或者當前用戶:
bash$ sudo -u hdfs hadoop fs -mkdir /user/$USER $ sudo -u hdfs hadoop fs -chown $USER /user/$USER
經過 http://cdh1:8088/ 能夠訪問 Yarn 的管理頁面,經過 http://cdh1:19888/ 能夠訪問 JobHistory 的管理頁面,查看在線的節點:http://cdh1:8088/cluster/nodes。
運行下面的測試程序,看是否報錯:
bash# Find how many jars name ending with examples you have inside location /usr/lib/ $ find /usr/lib/ -name "*hadoop*examples*.jar" # To list all the class name inside jar $ find /usr/lib/ -name "hadoop-examples.jar" | xargs -0 -I '{}' sh -c 'jar tf {}' # To search for specific class name inside jar $ find /usr/lib/ -name "hadoop-examples.jar" | xargs -0 -I '{}' sh -c 'jar tf {}' | grep -i wordcount.class # 運行 randomwriter 例子 $ sudo -u hdfs hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar randomwriter out
Zookeeper 至少須要3個節點,而且節點數要求是基數,這裏在全部節點上都安裝 Zookeeper。
在每一個節點上安裝zookeeper:
bash$ yum install zookeeper* -y
設置 zookeeper 配置 /etc/zookeeper/conf/zoo.cfg
propertiesmaxClientCnxns=50 tickTime=2000 initLimit=10 syncLimit=5 dataDir=/var/lib/zookeeper clientPort=2181 server.1=cdh1:2888:3888 server.2=cdh3:2888:3888 server.3=cdh3:2888:3888
將配置文件同步到其餘節點:
bash$ scp -r /etc/zookeeper/conf root@cdh2:/etc/zookeeper/ $ scp -r /etc/zookeeper/conf root@cdh3:/etc/zookeeper/
在每一個節點上初始化並啓動 zookeeper,注意 n 的值須要和 zoo.cfg 中的編號一致。
在 cdh1 節點運行:
bash$ service zookeeper-server init --myid=1 $ service zookeeper-server start
在 cdh2 節點運行:
bash$ service zookeeper-server init --myid=2 $ service zookeeper-server start
在 cdh3 節點運行:
$ service zookeeper-server init --myid=3 $ service zookeeper-server start
經過下面命令測試是否啓動成功:
bash$ zookeeper-client -server cdh1:2181
HBase 依賴 ntp 服務,故須要提早安裝好 ntp。
1)修改系統 ulimit 參數,在 /etc/security/limits.conf
中添加下面兩行並使其生效:
hdfs - nofile 32768 hbase - nofile 32768
2)修改 dfs.datanode.max.xcievers
,在 hdfs-site.xml
中修改該參數值,將該值調整到較大的值:
xml<property> <name>dfs.datanode.max.xcievers</name> <value>8192</value> </property>
在每一個節點上安裝 master 和 regionserver,若是須要你能夠安裝 hbase-rest、hbase-solr-indexer、hbase-thrift
bash$ yum install hbase hbase-master hbase-regionserver -y
修改 hbase-site.xml
文件,關鍵幾個參數及含義以下:
hbase.distributed
:是否爲分佈式模式hbase.rootdir
:HBase在hdfs上的目錄路徑hbase.tmp.dir
:本地臨時目錄hbase.zookeeper.quorum
:zookeeper集羣地址,逗號分隔hbase.hregion.max.filesize
:hregion文件最大大小hbase.hregion.memstore.flush.size
:memstore文件最大大小另外,在CDH5中建議關掉Checksums
(見Upgrading HBase)以提升性能,最後的配置以下:
xml<configuration> <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.rootdir</name> <value>hdfs://cdh1:8020/hbase</value> </property> <property> <name>hbase.tmp.dir</name> <value>/data/hbase</value> </property> <property> <name>hbase.zookeeper.quorum</name> <value>cdh1,cdh2,cdh3</value> </property> <property> <name>hbase.hregion.max.filesize</name> <value>536870912</value> </property> <property> <name>hbase.hregion.memstore.flush.size</name> <value>67108864</value> </property> <property> <name>hbase.regionserver.lease.period</name> <value>600000</value> </property> <property> <name>hbase.client.retries.number</name> <value>3</value> </property> <property> <name>hbase.regionserver.handler.count</name> <value>100</value> </property> <property> <name>hbase.hstore.compactionThreshold</name> <value>10</value> </property> <property> <name>hbase.hstore.blockingStoreFiles</name> <value>30</value> </property> <property> <name>hbase.regionserver.checksum.verify</name> <value>false</value> </property> <property> <name>hbase.hstore.checksum.algorithm</name> <value>NULL</value> </property> </configuration>
在 hdfs 中建立 /hbase
目錄
bash$ sudo -u hdfs hadoop fs -mkdir /hbase $ sudo -u hdfs hadoop fs -chown hbase:hbase /hbase
設置 crontab 定時刪除日誌:
$ crontab -e * 10 * * * cd /var/log/hbase/; rm -rf `ls /var/log/hbase/|grep -P 'hbase\-hbase\-.+\.log\.[0-9]'\`>> /dev/null &
將配置文件同步到其餘節點:
bash$ scp -r /etc/hbase/conf root@cdh2:/etc/hbase/ $ scp -r /etc/hbase/conf root@cdh3:/etc/hbase/
在 hbase-site.xml 配置文件中配置了 hbase.tmp.dir
值爲 /data/hbase
,如今須要在每一個 hbase 節點建立該目錄並設置權限:
bash$ mkdir /data/hbase $ chown -R hbase:hbase /data/hbase/
bash$ for x in `ls /etc/init.d/|grep hbase` ; do service $x start ; done
經過 http://cdh1:60030/ 能夠訪問 RegionServer 頁面,而後經過該頁面能夠知道哪一個節點爲 Master,而後再經過 60010 端口訪問 Master 管理界面。
在一個 NameNode 節點上安裝 hive:
bash$ yum install hive hive-metastore hive-server2 hive-jdbc hive-hbase -y
在其餘 DataNode 上安裝:
bash$ yum install hive hive-server2 hive-jdbc hive-hbase -y
這裏使用 postgresq l數據庫來存儲元數據,若是你想使用 mysql 數據庫,請參考下文。手動安裝、配置 postgresql 數據庫,請參考 手動安裝Cloudera Hive CDH
yum 方式安裝:
$ yum install postgresql-server -y
初始化數據庫:
bash$ service postgresql initdb
修改配置文件postgresql.conf,修改完後內容以下:
bash$ cat /var/lib/pgsql/data/postgresql.conf | grep -e listen -e standard_conforming_strings listen_addresses = '*' standard_conforming_strings = off
修改 /var/lib/pgsql/data/pg_hba.conf,添加如下一行內容:
host all all 0.0.0.0/0 trust
啓動數據庫:
bash#配置開啓啓動 $ chkconfig postgresql on $ service postgresql start
安裝jdbc驅動:
bash$ yum install postgresql-jdbc -y $ ln -s /usr/share/java/postgresql-jdbc.jar /usr/lib/hive/lib/postgresql-jdbc.jar
建立數據庫和用戶:
bashbash# su postgres bash$ psql postgres=# CREATE USER hiveuser WITH PASSWORD 'redhat'; postgres=# CREATE DATABASE metastore owner=hiveuser; postgres=# GRANT ALL privileges ON DATABASE metastore TO hiveuser; postgres=# \q; bash$ psql -U hiveuser -d metastore postgres=# \i /usr/lib/hive/scripts/metastore/upgrade/postgres/hive-schema-0.13.0.postgres.sql SET SET ..
注意:
建立的用戶爲hiveuser,密碼爲redhat,你能夠按本身須要進行修改。
初始化數據庫的 sql 文件請根據 cdh 版本進行修改,這裏個人 cdh 版本是5.2.0,對應的文件是 ive-schema-0.13.0.postgres.sql
這時候的hive-site.xml文件內容以下:
xml<configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:postgresql://localhost/metastore</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>org.postgresql.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>hiveuser</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>redhat</value> </property> <property> <name>datanucleus.autoCreateSchema</name> <value>false</value> </property> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>cdh1:8031</value> </property> <property> <name>hive.files.umask.value</name> <value>0002</value> </property> <property> <name>hive.exec.reducers.max</name> <value>999</value> </property> <property> <name>hive.auto.convert.join</name> <value>true</value> </property> <property> <name>hive.metastore.schema.verification</name> <value>true</value> </property> <property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> </property> <property> <name>hive.warehouse.subdir.inherit.perms</name> <value>true</value> </property> <property> <name>hive.metastore.uris</name> <value>thrift://cdh1:9083</value> </property> <property> <name>hive.metastore.server.min.threads</name> <value>200</value> </property> <property> <name>hive.metastore.server.max.threads</name> <value>100000</value> </property> <property> <name>hive.metastore.client.socket.timeout</name> <value>3600</value> </property> <property> <name>hive.support.concurrency</name> <value>true</value> </property> <property> <name>hive.zookeeper.quorum</name> <value>cdh1,cdh2,cdh3</value> </property> <property> <name>hive.server2.thrift.min.worker.threads</name> <value>5</value> </property> <property> <name>hive.server2.thrift.max.worker.threads</name> <value>100</value> </property> </configuration>
默認狀況下,hive-server和 hive-server2 的 thrift 端口都未10000,若是要修改 hive-server2 thrift 端口,請修改 hive.server2.thrift.port
參數的值:
若是要設置運行 hive 的用戶爲鏈接的用戶而不是啓動用戶,則添加:
xml<property> <name>hive.server2.enable.impersonation</name> <value>true</value> </property>
並在 core-site.xml 中添加:
xml<property> <name>hadoop.proxyuser.hive.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hive.groups</name> <value>*</value> </property>
yum方式安裝mysql:
bash$ yum install mysql mysql-devel mysql-server mysql-libs -y
啓動數據庫:
bash#配置開啓啓動 $ chkconfig mysqld on $ service mysqld start
安裝jdbc驅動:
bash$ yum install mysql-connector-java $ ln -s /usr/share/java/mysql-connector-java.jar /usr/lib/hive/lib/mysql-connector-java.jar
我是在 cdh1 節點上建立 mysql 數據庫和用戶:
bash$ mysql -e " CREATE DATABASE metastore; USE metastore; SOURCE /usr/lib/hive/scripts/metastore/upgrade/mysql/hive-schema-0.13.0.mysql.sql; CREATE USER 'hiveuser'@'localhost' IDENTIFIED BY 'redhat'; GRANT ALL PRIVILEGES ON metastore.* TO 'hiveuser'@'localhost'; GRANT ALL PRIVILEGES ON metastore.* TO 'hiveuser'@'cdh1'; FLUSH PRIVILEGES; "
注意:建立的用戶爲 hiveuser,密碼爲 redhat ,你能夠按本身須要進行修改。
修改 hive-site.xml 文件中如下內容:
xml<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://cdh1:3306/metastore?useUnicode=true&characterEncoding=UTF-8</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property>
修改/etc/hadoop/conf/hadoop-env.sh
,添加環境變量 HADOOP_MAPRED_HOME
,若是不添加,則當你使用 yarn 運行 mapreduce 時候會出現 UNKOWN RPC TYPE
的異常
bashexport HADOOP_MAPRED_HOME=/usr/lib/hadoop-mapreduce
在 hdfs 中建立 hive 數據倉庫目錄:
/user/hive/warehouse
,建議修改其訪問權限爲 1777
,以便其餘全部用戶均可以建立、訪問表,但不能刪除不屬於他的表。/user
目錄下,如 root 用戶的爲 /user/root
)/tmp
必須是 world-writable 權限的。建立目錄並設置權限:
bash$ sudo -u hdfs hadoop fs -mkdir /user/hive $ sudo -u hdfs hadoop fs -chown hive /user/hive $ sudo -u hdfs hadoop fs -mkdir /user/hive/warehouse $ sudo -u hdfs hadoop fs -chmod 1777 /user/hive/warehouse $ sudo -u hdfs hadoop fs -chown hive /user/hive/warehouse
啓動hive-server和metastore:
bash$ service hive-metastore start $ service hive-server start $ service hive-server2 start
bash$ hive -e 'create table t(id int);' $ hive -e 'select * from t limit 2;' $ hive -e 'select id from t;'
訪問beeline:
bash$ beeline beeline> !connect jdbc:hive2://localhost:10000 hive hive org.apache.hive.jdbc.HiveDriver
先安裝 hive-hbase:
bash$ yum install hive-hbase -y
若是你是使用的 cdh4,則須要在 hive shell 裏執行如下命令添加 jar:
bash$ ADD JAR /usr/lib/hive/lib/zookeeper.jar; $ ADD JAR /usr/lib/hive/lib/hbase.jar; $ ADD JAR /usr/lib/hive/lib/hive-hbase-handler-<hive_version>.jar # guava 包的版本以實際版本爲準。 $ ADD JAR /usr/lib/hive/lib/guava-11.0.2.jar;
若是你是使用的 cdh5,則須要在 hive shell 裏執行如下命令添加 jar:
ADD JAR /usr/lib/hive/lib/zookeeper.jar; ADD JAR /usr/lib/hive/lib/hive-hbase-handler.jar; ADD JAR /usr/lib/hbase/lib/guava-12.0.1.jar; ADD JAR /usr/lib/hbase/hbase-client.jar; ADD JAR /usr/lib/hbase/hbase-common.jar; ADD JAR /usr/lib/hbase/hbase-hadoop-compat.jar; ADD JAR /usr/lib/hbase/hbase-hadoop2-compat.jar; ADD JAR /usr/lib/hbase/hbase-protocol.jar; ADD JAR /usr/lib/hbase/hbase-server.jar;
以上你也能夠在 hive-site.xml 中經過 hive.aux.jars.path
參數來配置,或者你也能夠在 hive-env.sh 中經過 export HIVE_AUX_JARS_PATH=
來設置。