hive入門

時間 2019-12-21

標籤 hive 入門欄目 Hadoop 简体版

原文原文鏈接

＝＝＝＝＝hive入門＝＝＝＝＝

1. 概念

Apache Hive™數據倉庫軟件有助於使用SQL讀取，寫入和管理駐留在分佈式存儲中的大型數據集。能夠將結構投影到已存儲的數據上。提供了一個命令行工具和JDBC驅動程序來將用戶鏈接到Hive
主要面向查詢操做，通常不進行刪除和更新操做，由於hive處理的數據通常都是歷史數據
hive容許開發者自定義mapreduce處理複雜的分析工做
hive是SQL解析引擎，它將SQL轉換成M/R　程序，而後在hadoop執行
hive的表和數據其實就是hdfs的目錄和文件
hdfs日誌文件（數據源）－－　mapreduce將結構投影到已存儲數據上(解析引擎)　－－　命令行工具和JDBC使用SQL（數據統計）
數據倉庫：數據倉庫是一個面向主題的，集成的，不可更新的，隨時間不變化的數據集合，它用於支持企業或者組織的決策分析處理
hive和hbase區別java
- Hive適合用來對一段時間內的數據進行分析查詢or統計查詢，例如，用來計算趨勢或者網站的日誌。Hive不該該用來進行實時的查詢。由於它須要很長時間才能夠返回結果
- Hbase是一種在Hadoop之上的NoSQL 的Key/vale數據庫。HBase能夠用來進行實時查詢，
- 數據也能夠從Hive寫到Hbase，設置再從Hbase寫回Hive。

2. hive的體系結構

hive的元數據mysql
- hive將元數據存儲在數據庫（metastore）中，支持mysql,derby,oracle數據庫，默認使用內置derby數據庫（只支持單連接）
- hive中的元數據包括表的名字，表的列和分區及其屬性，表的屬性（是否外部表），表的數據所在的目錄等
hadoopweb
- 用hdfs進行存儲，利用mapreduce進行計算

3. hive的安裝

環境要求：sql
- jdk並配置環境變量
- mysql安裝並啓動用來作元數據存儲（內嵌的derby數據庫只支持單連接）
- hadoop安裝並啓動(支持單機環境，僞分佈模式，集羣模式)
下載wget安裝包.tar.gz並解壓tar -zxvf xxx.tar.gz -C /home
將mysql驅動配置到hive的classpath目錄下，上傳放到$HIVE_HOME/lib目錄便可,要注意驅動和mysql版本對應

修改配置文件$HIVE_HOME/conf數據庫

apache

HADOOP_HOME=/home/hadoop-standalone/hadoop-2.9.0
    export HIVE_CONF_DIR=/home/apache-hive-2.3.2-bin/conf

數組

<configuration>
        <property>
            <name>javax.jdo.option.ConnectionURL</name> 
            <value>jdbc:mysql://172.18.113.120:3306/hive?createDatabaseIfNotExist=true</value> 
        </property> 
        <property> 
            <name>javax.jdo.option.ConnectionDriverName</name>
            <value>com.mysql.jdbc.Driver</value>
        </property>
        <property>
            <name>javax.jdo.option.ConnectionUserName</name>
            <value>root</value>
        </property>
        <property>
            <name>javax.jdo.option.ConnectionPassword</name>
            <value>123456</value>
        </property>
        <property>
                <name>hive.server2.webui.host</name>
                <value>master</value>
        </property>
        <property>
                <name>hive.server2.webui.port</name>
                <value>10002</value>
        </property>
    </configuration>

格式化hdfs存儲目錄oracle

$ $HADOOP_HOME/bin/hadoop fs -mkdir       /tmp
$ $HADOOP_HOME/bin/hadoop fs -mkdir       /user/hive/warehouse
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w   /tmp
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w   /user/hive/warehouse

init元數據存儲倉庫分佈式

$ $HIVE_HOME/bin/schematool -dbType <db type> -initSchema

4. hive之CLI命令行方式

兩種啓動方式：函數

1.）直接輸出$HIVE_HOME/bin/hive執行程序
2.）$HIVE_HOME/bin/hive --service cli

（-S 進入靜默模式　-e　＇命令＇不進入交互模式，直接執行命令）

經常使用的CLI命令(每一個命令必須已分號結尾做爲命令結束符,--開頭是註釋)
- 退出命令行　quit
- 查看數據庫　show databases
- 查看錶　　　show tables
- 查看錶結構　desc 表名
- 查看內置函數　show functions
- 查看hdfs上文件　dfs -ls 目錄
- 執行操做系統的命令　！命令
- 執行sql語句　　　　select 語句
- 執行sql腳本文件　　source sql文件
hive遠程服務啓動方式
- 端口號10000
- 啓動方式：hive --service hiveserver2 &
- jdbc或者odbc遠程登陸數據倉庫對數據進行操做，必須啓動遠程服務以供鏈接

5. hive數據類型

hive數據類型有一下5種

* 數字類型
* 時間類型
* 字符串類型
* 其餘類型
* 複雜類型

數字類型
- TINGINT（1字節有符號整數，從-128至127）
- SMALLINT（2字節有符號整數，從-32,768至32,767）
- INT/ INTEGER（4字節有符號整數，從-2,147,483,648到2,147,483,647）
- BIGINT（8字節符號整數，從-9,223,372,036,854,775,808至9,223,372,036,854,775,807）
- FLOAT（4字節單精度浮點數）
- DOUBLE（8字節雙精度浮點數）
- DECIMAL (能夠自定義精度和範圍)
- NUMERIC
日期/時間類型
- TIMESTAMP（注意：只能從Hive 0.8.0開始）
- DATE（注意：只能從Hive 0.12.0開始）
- INTERVAL（注意：只能從Hive 1.2.0開始）
字符串類型
- STRING
- VARCHAR
- CHAR
其餘類型
- BOOLEAN
- BINARY

複雜類型

1. ARRAYS<data_type>  　　　　　數組類型，由一系列相同數據類型元素組成
2. MAPS<primitive_type,data_type>　　　集合類型，包看key-value鍵值對，能夠經過key來訪問元素
3. STRUCT<col_name : data_type [COMMENT col_comment], ...>　結構類型，能夠包含不一樣數據類型元素，經過點語法獲取元素
4. union: UNIONTYPE<data_type, data_type, ...> (Note: Only available starting with Hive 0.7.0.)

建立表，使用數據類型

建立一張表，包含基本數據類型

        create table t_user
            (u_id int,
            u_name string,
            married boolean,
            salary double,
            birthday date
            ); -- 這裏不能建立user表，換個表名t_user

        建立一張表，包含數組類型

        create table student (sid int,sname string,project array<string>); 

        -- {1,"tom",["語文"，＂數學＂，＂英語＂]}

        建立一張表，包含map數據類型

        create table stu2(id int,name string,project map<string,float>);

        -- {1,"tom",<'大學語文',65>}


        建立一張表，用array<map<string,float>>

        create table stu3(id int,name string,grades array<map<string,float>>);

        -- {1,'tom',[<'語文',85>,<'數學',85>]


        建立一張表，包含struct數據類型

            create table stu4(id int,info struct <name:string,age:int,sec:string>);

            --{1,{'tom',10,'男'}}

6. hive的數據存儲

基於hdfs
沒有專門的數據存儲格式
存儲結構主要包括：數據庫，文件，表，視圖
能夠直接加載文本文件（．txt文件等）
建立表時，指定hive數據的列分隔符和行分隔符
表分類:內部表，分區表，外部表，桶表　＋　視圖

內部表
- 概念：
  - 與數據庫中的table在概念上是相似的
  - 每個table在hive中都有一個相應的目錄存儲數據,默認在/usr/hive/warehouse目錄下，能夠指定任何其餘目錄
  - 全部的table不包括外部表，都保存在這個目錄中
- 建立表例子
  - create table t1(id int,name string,age int); -- 默認在/usr/hive/warehouse目錄下
  - create table t1(id int,name string,age int) location '/mytable/hive/t2'; -- 指定數據在hdfs上的存儲位置
  - create table t1(id int,name string,age int) row format delimited fields terminated by ','; -- 指明列分隔符，默認列與列之間沒有任何分隔符
  - create table t1 as select * from t2 row format delimited fields terminated by ','; -- 從一個表中的數據建立表並導入數據
  - alter table t1 add columns(english int); -- 添加列
分區表（partition)
- 概念
  - partition對應於數據庫的partition列的密集索引（例如按照性別男女分紅兩個區）
  - 在hive中，表的一個partition對應與標下的一個目錄，全部的partition的數據都存儲在對應的目錄中
- 案例
  - create table t1(id int,name string) partitioned by (gender string) row format delimited fields terminated by ','; -- 按照gender列分區
  - insert into table t1 partition(gender='nan') select id,name from t2 where gender='nan';
外部表
- 概念
  - 指向已近在hdfs中存在的數據，能夠建立partition
  - 它和內部表在元數據的組織上是相同的，而實際數據的存儲則有較大的差別
  - 外部表只有一個過程，加載數據和建立表同事完成，並不會移動到數據倉庫目錄中，只是與外部數據創建一個連接，當刪除一個外部表時，僅刪除改連接
- 例子
  - create external table t1 (id int,name string) row format delimited fields termicated by ',' location '/input'; //對hdfs中已近存在的目錄和文件建立一個連接

1. Hive入門
2. hive入門
3. [Hive01]Hive入門
4. Hive 入門
5. HIve入門
6. Hive入門篇
7. hive入門(轉)
8. 【Hive】Hive入門解析（五）
9. 【Hive】Hive入門解析（一）
10. 【Hive】Hive入門解析（三）
更多相關文章...
• Memcached入門教程 - NoSQL教程
• Neo4j數據庫入門教程 - NoSQL教程
• YAML 入門教程
• Java Agent入門實戰（一）-Instrumentation介紹與使用

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。