hive創建表存儲格式

時間 2019-11-17

標籤 hive 創建存儲格式欄目 Hadoop 简体版

原文原文鏈接

hive在建表是，能夠經過‘STORED AS FILE_FORMAT’ 指定存儲文件格式
例如：
java

[plain] view plain copyapache

> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) oop
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 性能
> STORED AS TEXTFILE 編碼
> LOCATION '/data/test'; spa

指定文件存儲格式爲「TEXTFILE」。

hive文件存儲格式包括如下幾類：
.net

TEXTFILEcode
SEQUENCEFILEorm
RCFILEblog
自定義格式

TEXTFIEL
默認格式，數據不作壓縮，磁盤開銷大，數據解析開銷大。
可結合Gzip、Bzip2使用（系統自動檢查，執行查詢時自動解壓），但使用這種方式，hive不會對數據進行切分，從而沒法對數據進行並行操做。
實例：

[plain] view plain copy

> create table test1(str STRING)
> STORED AS TEXTFILE;
OK
Time taken: 0.786 seconds
#寫腳本生成一個隨機字符串文件，導入文件：
> LOAD DATA LOCAL INPATH '/home/work/data/test.txt' INTO TABLE test1;
Copying data from file:/home/work/data/test.txt
Copying file: file:/home/work/data/test.txt
Loading data to table default.test1
OK
Time taken: 0.243 seconds

SEQUENCEFILE:
SequenceFile是Hadoop API提供的一種二進制文件支持，其具備使用方便、可分割、可壓縮的特色。
SequenceFile支持三種壓縮選擇：NONE, RECORD, BLOCK。 Record壓縮率低，通常建議使用BLOCK壓縮。
示例：

[plain] view plain copy

> create table test2(str STRING)
> STORED AS SEQUENCEFILE;
OK
Time taken: 5.526 seconds
hive> SET hive.exec.compress.output=true;
hive> SET io.seqfile.compression.type=BLOCK;
hive> INSERT OVERWRITE TABLE test2 SELECT * FROM test1;

RCFILE
RCFILE是一種行列存儲相結合的存儲方式。首先，其將數據按行分塊，保證同一個record在一個塊上，避免讀一個記錄須要讀取多個block。其次，塊數據列式存儲，有利於數據壓縮和快速的列存取。RCFILE文件示例：

實例：

[plain] view plain copy

> create table test3(str STRING)
> STORED AS RCFILE;
OK
Time taken: 0.184 seconds
> INSERT OVERWRITE TABLE test3 SELECT * FROM test1;

自定義格式
當用戶的數據文件格式不能被當前 Hive 所識別的時候，能夠自定義文件格式。
用戶能夠經過實現inputformat和outputformat來自定義輸入輸出格式，參考代碼：
.\hive-0.8.1\src\contrib\src\java\org\apache\hadoop\hive\contrib\fileformat\base64
實例：
建表

[plain] view plain copy

> create table test4(str STRING)
> stored as
> inputformat 'org.apache.hadoop.hive.contrib.fileformat.base64.Base64TextInputFormat'
> outputformat 'org.apache.hadoop.hive.contrib.fileformat.base64.Base64TextOutputFormat';

$ cat test1.txt
aGVsbG8saGl2ZQ==
aGVsbG8sd29ybGQ=
aGVsbG8saGFkb29w
test1文件爲base64編碼後的內容，decode後數據爲：
hello,hive
hello,world
hello,hadoop
load數據並查詢：

[plain] view plain copy