初步認識Hive

初步認識Hivesql

hive是基於Hadoop的一個數據倉庫工具,能夠將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,能夠將sql語句轉換爲MapReduce任務進行運行。其優勢是學習成本低,能夠經過類SQL語句快速實現簡單的MapReduce統計,沒必要開發專門的MapReduce應用,十分適合數據倉庫的統計分析。數據庫

Hive 並不適合那些須要低延遲的應用,例如,聯機事務處理(OLTP)。Hive 查詢操做過程嚴格遵照Hadoop MapReduce 的做業執行模型,Hive 將用戶的HiveQL 語句經過解釋器轉換爲MapReduce 做業提交到Hadoop 集羣上,Hadoop 監控做業執行過程,而後返回做業執行結果給用戶。Hive 並不是爲聯機事務處理而設計,Hive 並不提供實時的查詢和基於行級的數據更新操做。Hive 的最佳使用場合是大數據集的批處理做業,例如,網絡日誌分析。網絡

 

Hive 的設計特色以下:函數

● 支持索引,加快數據查詢。工具

● 不一樣的存儲類型,例如,純文本文件、HBase 中的文件。oop

● 將元數據保存在關係數據庫中,大大減小了在查詢過程當中執行語義檢查的時間。學習

● 能夠直接使用存儲在Hadoop 文件系統中的數據。大數據

● 內置大量用戶函數UDF 來操做時間、字符串和其餘的數據挖掘工具,支持用戶擴展UDF 函數來完成內置函數沒法實現的操做。spa

● 類SQL 的查詢方式,將SQL 查詢轉換爲MapReduce job Hadoop集羣上執行。設計

Hive和傳統數據庫的比較

基本數據類型

hive支持多種不一樣長度的整型和浮點型數據,支持布爾型,也支持無長度限制的字符串類型。例如:TINYINTSMALINTBOOLEANFLOAT

DOUBLESTRING等基本數據類型。這些基本數據類型和其餘sql方言同樣,都是保留字。

Hive基本數據類型:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE

集合數據類型

hive中的列支持使用structmaparray集合數據類型。大多數關係型數據庫中不支持這些集合數據類型,由於它們會破壞標準格式。關係型數據庫中爲實現集合數據類型是由多個表之間創建合適的外鍵關聯來實現。在大數據系統中,使用集合類型的數據的好處在於提升數據的吞吐量,減小尋址次數來提升查詢速度。

 

 1 CREATE TABLE STUDENTINFO
 2 
 3 (
 4 
 5 NAME STRING,
 6 
 7 FAVORITE ARRAY<STRING>,
 8 
 9 COURSE MAP<STRING,FLOAT>,
10 
11 ADDRESS STRUCT<CITY:STRING,STREET:STRING>
12 
13 )

 

查詢語法:SELECT S.NAME,S.FAVORITE[0],S.COURSE["ENGLISH"],S.ADDRESS.CITY FROM STUDENTINFO S;

數據存儲

1.首先,Hive 沒有專門的數據存儲格式,也沒有爲數據創建索引,用戶能夠很是自由的組織 Hive 中的表,只須要在建立表的時候告訴 Hive 數據中的列分隔符和行分隔符,Hive 就能夠解析數據。

2.其次,Hive 中全部的數據都存儲在 HDFS 中,Hive 中包含如下數據模型:表(Table),外部表(External Table),分區(Partition),桶(Bucket)

3.Hive 中的 Table 和數據庫中的 Table 在概念上是相似的,每個 Table 在 Hive 中都有一個相應的目錄存儲數據。例如,一個表 pvs,它在 HDFS 中的路徑爲:/wh/pvs,其中,wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的數據倉庫的目錄,全部的 Table 數據(不包括 External Table)都保存在這個目錄中。

4.Partition 對應於數據庫中的 Partition 列的密集索引,可是 Hive 中 Partition 的組織方式和數據庫中的很不相同。在 Hive 中,表中的一個 Partition 對應於表下的一個目錄,全部的 Partition 的數據都存儲在對應的目錄中。例如:pvs 表中包含 ds 和 city 兩個 Partition,則對應於 ds = 20090801, ctry = US 的 HDFS 子目錄爲:/wh/pvs/ds=20090801/ctry=US;對應於 ds = 20090801, ctry = CA 的 HDFS 子目錄爲;/wh/pvs/ds=20090801/ctry=CA

5.Buckets 對指定列計算 hash,根據 hash 值切分數據,目的是爲了並行,每個 Bucket 對應一個文件。將 user 列分散至 32 個 bucket,首先對 user 列的值計算 hash,對應 hash 值爲 的 HDFS 目錄爲:/wh/pvs/ds=20090801/ctry=US/part-00000hash 值爲 20 的 HDFS 目錄爲:/wh/pvs/ds=20090801/ctry=US/part-00020

6.External Table 指向已經在 HDFS 中存在的數據,能夠建立 Partition。它和 Table 在元數據的組織上是相同的,而實際數據的存儲則有較大的差別。

注意:

Table 的建立過程和數據加載過程(這兩個過程能夠在同一個語句中完成),在加載數據的過程當中,實際數據會被移動到數據倉庫目錄中;以後對數據對訪問將會直接在數據倉庫目錄中完成。刪除表時,表中的數據和元數據將會被同時刪除。

External Table 只有一個過程,加載數據和建立表同時完成(CREATE EXTERNAL TABLE ……LOCATION),實際數據是存儲在 LOCATION 後面指定的 HDFS 路徑中,並不會移動到數據倉庫目錄中。當刪除一個 External Table 時,僅刪除元數據,表中的數據不會真正被刪除。

相關文章
相關標籤/搜索