高可用Hadoop平臺-集成Hive HAProxy

1.概述

  這篇博客是接着《高可用Hadoop平臺》系列講,本篇博客是爲後面用 Hive 來作數據統計作準備的,介紹如何在 Hadoop HA 平臺下集成高可用的 Hive 工具,下面我打算分如下流程來贅述:html

  1. 環境準備
  2. 集成並配置 Hive 工具
  3. 使用 Java API 開發 Hive 代碼

  下面開始進行環境準備。java

2.環境準備

  Hive版本:《Hive-0.14mysql

  HAProxy版本:《HAProxy-1.5.11linux

  注:前提是 Hadoop 的集羣已經搭建完成,若還沒用完成集羣搭建,能夠參考《配置高可用的Hadoop平臺redis

  須要安裝的工具,咱們已經準備好了,接下來給出 Hive 搭建的結構圖,以下圖所示:算法

 

  這裏因爲集羣資源有限,因此將 HAProxy1 配置在 NNA 節點,HAProxy2 配置在 NNS 節點,Hive1,Hive2,Hive3分別配置在 DN1,DN2,DN3 節點。以下表所示:sql

服務器 角色
NNA HAProxy1
NNS  HAProxy2
DN1 Hive1
DN2  Hive2
DN3 Hive3

  咱們將下載好的 Hive 安裝包和 HAProxy 安裝包用 scp 命令,參考上表格分別分發到對應的節點。數據庫

  注:hive 指定的 HDFS 必須是相同的,不然,統計的數據源不一樣,那麼統計是沒有意義的。apache

3.集成並配置 Hive 工具

  HAProxy 是一款提供高可用性、負載均衡以及基於 TCP(第四層)和 HTTP(第七層)應用的代理軟件,HAProxy 是徹底免費的、藉助 HAProxy 能夠快速而且可靠的提供基於TCP 和 HTTP 應用的代理解決方案。HAProxy 在這裏的做用起一個代理功能,讓 Hive Server 負載均衡;這裏咱們分別在 NNA 和 NNS 節點都搭建 HAProxy ,是爲了防止一個 HAProxy 代理容易引起單點問題。考慮到高可用性,這裏咱們多用一個節點來承擔相似於 HDFS HA 方案中的 standby 角色。後端

3.1系統環境

  首先,在 NNA 和 NNS 節點搭建 HAProxy 工具,這裏咱們須要先檢查下系統環境,由於 HAProxy 工具包須要編譯安裝。這裏咱們安裝必要的依賴組建,命令以下所示:

# 安裝 gcc 組件
[hadoop@nna]$ sudo yum -y install gcc*

# 安裝 SSL
[hadoop@nna]$ sudo yum -y install openssl-devel pcre-devel

  而後,解壓並進入到 haproxy 目錄文件中,命令以下:

[hadoop@nna]$ tar -zxvf haproxy-1.5.11.tar.gz && cd haproxy-1.5.11

  接着,咱們開始編譯安裝 haproxy 組件,命令以下所示:

[hadoop@nna]$ make TARGET=linux2628 USE_PCRE=1 USE_OPENSSL=1 USE_ZLIB=1 USE_CRYPT_H=1 USE_LIBCRYPT=1
[hadoop@nna]$ make install

  安裝完成後,咱們輸入以下命令,看是否安裝成功。

[hadoop@nna]$./haproxy -vv

  若現實以下信息,即表示安裝成功。內容以下:

HA-Proxy version 1.5.11 2015/01/31
Copyright 2000-2015 Willy Tarreau <w@1wt.eu>

Build options :
  TARGET  = linux26
  CPU     = generic
  CC      = gcc
  CFLAGS  = -O2 -g -fno-strict-aliasing
  OPTIONS = 

Default settings :
  maxconn = 2000, bufsize = 16384, maxrewrite = 8192, maxpollevents = 200

Encrypted password support via crypt(3): yes
Built without zlib support (USE_ZLIB not set)
Compression algorithms supported : identity
Built without OpenSSL support (USE_OPENSSL not set)
Built without PCRE support (using libc's regex instead)
Built with transparent proxy support using: IP_TRANSPARENT IP_FREEBIND

Available polling systems :
      epoll : pref=300,  test result OK
       poll : pref=200,  test result OK
     select : pref=150,  test result OK
Total: 3 (3 usable), will use epoll.

3.2配置 HAProxy 

  在 haproxy 目錄下,咱們新建一個 config.cfg 的配置文件,填寫以下內容:

global
        daemon
        nbproc 1

defaults
        mode tcp                        #mode { tcp|http|health },tcp 表示4層,http表示7層,health僅做爲健康檢查使用
        retries 2                       #嘗試2次失敗則從集羣摘除
        option redispatch               #若是失效則強制轉換其餘服務器
        option abortonclose             #鏈接數過大自動關閉
        maxconn 1024                    #最大鏈接數
        timeout connect 1d              #鏈接超時時間,重要,hive查詢數據能返回結果的保證
        timeout client 1d               #同上
        timeout server 1d               #同上
        timeout check 2000              #健康檢查時間
        log 127.0.0.1 local0 err #[err warning info debug]

listen  admin_stats                     #定義管理界面
        bind 0.0.0.0:1090               #管理界面訪問IP和端口
        mode http                       #管理界面所使用的協議
        maxconn 10          #最大鏈接數
        stats refresh 30s               #30秒自動刷新
        stats uri /                     #訪問url
        stats realm Hive\ Haproxy       #驗證窗口提示
        stats auth admin:123456         #401驗證用戶名密碼

listen hive             #hive後端定義
        bind 0.0.0.0:10001              #ha做爲proxy所綁定的IP和端口
        mode tcp                        #以4層方式代理,重要
        balance leastconn               #調度算法 'leastconn' 最少鏈接數分配,或者 'roundrobin',輪詢分配
        maxconn 1024                    #最大鏈接數
        server hive_1 10.211.55.18:10000 check inter 180000 rise 1 fall 2
        server hive_2 10.211.55.15:10000 check inter 180000 rise 1 fall 2
        server hive_3 10.211.55.17:10000 check inter 180000 rise 1 fall 2
    #釋義:server 主機代名(你本身能看懂就行),IP:端口 每180000毫秒檢查一次。也就是三分鐘。
    #hive每有10000端口的請求就會建立一個log,設置短了,/tmp下面會有無數個log文件,刪不完。

  接着,咱們在 NNS 也作相同的操做,搭建 HAProxy。

3.3搭建 Hive

  在 DN1 節點上,咱們先配置 Hive 的環境變量,配置內容以下:

export HIVE_HOME=/home/hadoop/hive-0.14.0-bin
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZK_HOME/bin:$HIVE_HOME/bin

  接着,咱們配置3個重要文件。

  • hive-env.sh

# Set HADOOP_HOME to point to a specific hadoop install directory
HADOOP_HOME=/home/hadoop/hadoop-2.6.0
  • hive-log4j.properties

# Define some default values that can be overridden by system properties
hive.log.threshold=ALL
hive.root.logger=INFO,DRFA
hive.log.dir=/home/hadoop/logs/hive
hive.log.file=hive.log
  • hive-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
    <property>
        <name>datanucleus.fixedDatastore</name>
        <value>false</value>
    </property>
    <property>
        <name>hive.metastore.execute.setugi</name>
        <value>true</value>
    </property>
    <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/home/hive/warehouse</value>
        <description>location of default database for the warehouse
        </description>
    </property>
    <!-- metadata database connection configuration -->
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://10.211.55.26:3306/hive?useUnicode=true&amp;characterEncoding=UTF-8&amp;createDatabaseIfNotExist=true</value>
        <description>JDBC connect string for a JDBC metastore</description>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
        <description>Driver class name for a JDBC metastore</description>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
        <description>username to use against metastore database</description>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>root</value>
        <description>password to use against metastore database</description>
    </property>
</configuration>

  注:因爲我這裏配置的 Hive 元數據倉庫地址是 Mysql ,因此咱們在啓動 Hive 以前,得將 Mysql 的驅動包放到 Hive 目錄的 lib 文件夾下。

   而後,在 DN2 和 DN3 節點作相同的操做。

3.4啓動服務

  • 啓動 hive 服務

  這裏,咱們先啓動 Hive 的第三方服務,命令以下所示:

[hadoop@dn1]$hive --service hiveserver &

  注:DN1,DN2 和 DN3 節點都須要啓動該服務。

 

  • 啓動代理服務 haproxy

  在 hive 的服務成功啓動後,咱們在到 NNA 和 NNS 節點分別啓動 HAProxy 代理服務,命令以下所示:

[hadoop@nna haproxy-1.5.11]$ ./haproxy -f config.cfg

  到這裏,若是沒有出錯,整個高可用的 Hive 工具就搭建完成了。

3.5異常

  如果咱們在搭建的過程當中遇到異常怎麼辦?首先,咱們來逐個排查,咱們先啓動 hive 服務,如果在啓動中報錯,或是一直卡在啓動中,我能夠到 hive 的啓動日誌中查看具體緣由,根據拋出的異常,咱們作對應的處理就能夠了;其次,在啓動 haproxy 服務時,如果出現異常,咱們根據它報錯的信息,作對應的處理便可。要冷靜,莫慌!

  • 常見異常:
Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Access denied for user 'root'@'dn1' to database 'metastore'
  • 解決辦法:

  這是由於mysql數據庫用戶root 的權限不足,賦予權限

grant all on metastore.* to 'root'@'dn1' identified by 'root';
flush privileges;

4.Java API使用

  搭建好平臺後,咱們得驗證平臺是否可用,下面,咱們用 Java API 來驗證其 HA 是否可用。下面是寫得一個測試代碼,用來測試平臺是否可用,代碼表達的意圖是:建立表,而後顯示錶結構。代碼以下所示:

/**
 * 
 */
package cn.hdfs.hive.example;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.Statement;

/**
 * @author dengjie
 * @date 2015年3月26日
 * @description 提供一個JDBC訪問hive的原型,若用在實際業務中,可拓展該類。
 */
public class HiveVisit {

    static {
    // 註冊jdbc驅動
    try {
        Class.forName("org.apache.hadoop.hive.jdbc.HiveDriver");
    } catch (ClassNotFoundException e) {
        e.printStackTrace();
    }
    }

    // 設置 NNA 和 NNS 的鏈接信息
    private static String[] url = new String[] { "jdbc:hive://10.211.55.29:10001/default", "jdbc:hive://10.211.55.26:10001/default" };

    public static void main(String[] args) throws Exception {
    System.setProperty("hadoop.home.dir", "/Users/dengjie/HDFS/hadoop-2.5.1");
    Connection conn = null;
    for (int i = 0; i < url.length; i++) {
        try {
        // 建立鏈接
        conn = DriverManager.getConnection(url[i], "", "");
        if (!conn.isClosed()) {// 鏈接成功,即返回鏈接對象
            break;
        }
        } catch (Exception ex) {
        ex.printStackTrace();
        }
    }

    Statement st = conn.createStatement();
    String tableName = "stu";
    // 刪除表
    st.executeQuery("drop table " + tableName);
    // 建立表
    ResultSet rs = st.executeQuery("create table " + tableName + "(" + "id string," + "name string," + "sex string" + ")" + "row format delimited " + "fields terminated by ',' " + "stored as textfile");
    // 顯示全部的表
    String sql = "show tables";
    System.out.println("running:" + sql);
    rs = st.executeQuery(sql);
    if (rs.next()) {
        System.out.println(rs.getString(1));
    }
    // 獲得表信息
    sql = "describe " + tableName;
    System.out.println("running:" + sql);
    rs = st.executeQuery(sql);
    while (rs.next()) {
        System.out.println(rs.getString(1) + "\t" + rs.getString(2));
    }
    // 關閉資源
    rs.close();
    st.close();
    conn.close();
    }

}

  結果展現,內容以下:

running:show tables
stu
running:describe stu
id                      string              
name                    string              
sex                     string  

 

5.總結

  • 在啓動 haproxy 代理服務以前,切記 hive 服務是否正常啓動。
  • 在啓動 hive 服務是,確保 hadoop 集羣運行正常。

6.結束語

  這篇博客就和你們分享到這裏,若在研究的過程中有什麼問題,能夠加羣進行討論或發送郵件給我,我會盡我所能爲您解答,與君共勉!

相關文章
相關標籤/搜索