Hive文件存儲格式的測試比較

時間 2019-11-10

標籤 hive 文件存儲格式測試比較欄目 Hadoop 简体版

原文原文鏈接

整理了一下網上的幾種Hive文件存儲格式的性能與Hadoop的文件存儲格式。javascript

Hive的三種文件格式：TEXTFILE、SEQUENCEFILE、RCFILE中，TEXTFILE和SEQUENCEFILE的存儲格式都是基於行存儲的，RCFILE是基於行列混合的思想，先按行把數據劃分紅N個row group，在row group中對每一個列分別進行存儲。另：Hive能支持自定義格式，詳情見：Hive文件存儲格式java

基於HDFS的行存儲具有快速數據加載和動態負載的高適應能力，由於行存儲保證了相同記錄的全部域都在同一個集羣節點。可是它不太知足快速的查詢響應時間的要求，由於當查詢僅僅針對全部列中的少數幾列時，它就不能跳過不須要的列，直接定位到所需列；同時在存儲空間利用上，它也存在一些瓶頸，因爲數據表中包含不一樣類型，不一樣數據值的列，行存儲不易得到一個較高的壓縮比。RCFILE是基於SEQUENCEFILE實現的列存儲格式。除了知足快速數據加載和動態負載高適應的需求外，也解決了SEQUENCEFILE的一些瓶頸。apache

下面對這幾種幾個做一個簡單的介紹：網絡

TextFile：app

Hive默認格式，數據不作壓縮，磁盤開銷大，數據解析開銷大。
可結合Gzip、Bzip二、Snappy等使用（系統自動檢查，執行查詢時自動解壓），但使用這種方式，hive不會對數據進行切分，從而沒法對數據進行並行操做。oop

SequenceFile：性能

SequenceFile是Hadoop API 提供的一種二進制文件，它將數據以<key,value>的形式序列化到文件中。這種二進制文件內部使用Hadoop 的標準的Writable 接口實現序列化和反序列化。它與Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 繼承自Hadoop API 的SequenceFile，不過它的key爲空，使用value 存放實際的值，這樣是爲了不MR 在運行map 階段的排序過程。測試

SequenceFile的文件結構圖：

spa

Header通用頭文件格式：.net

SEQ	3BYTE
Nun	1byte數字
keyClassName
ValueClassName
compression	（boolean）指明瞭在文件中是否啓用壓縮
blockCompression	（boolean，指明是不是block壓縮）
compression	codec
Metadata	文件元數據
Sync	頭文件結束標誌

Block-Compressed SequenceFile格式

RCFile

RCFile是Hive推出的一種專門面向列的數據格式。它遵循「先按行劃分，再垂直劃分」的設計理念。當查詢過程當中，針對它並不關心的列時，它會在IO上跳過這些列。須要說明的是，RCFile在map階段從遠端拷貝仍然是拷貝整個數據塊，而且拷貝到本地目錄後RCFile並非真正直接跳過不須要的列，並跳到須要讀取的列，而是經過掃描每個row group的頭部定義來實現的，可是在整個HDFS Block 級別的頭部並無定義每一個列從哪一個row group起始到哪一個row group結束。因此在讀取全部列的狀況下，RCFile的性能反而沒有SequenceFile高。

Java代碼

RCFile stores table data in a flat file consisting of binary key/value pairs.
It first partitions rows horizontally into row splits, and then it vertically
partitions each row split in a columnar way. RCFile stores the metadata of a
row split as the key part of a record, and all the data of a row split as the
value part.

下面介紹行存儲、列存儲（詳細參照：Facebook數據倉庫揭祕：RCFile高效存儲結構）

行存儲

HDFS塊內行存儲的例子：

基於Hadoop系統行存儲結構的優勢在於快速數據加載和動態負載的高適應能力，這是由於行存儲保證了相同記錄的全部域都在同一個集羣節點，即同一個 HDFS塊。不過，行存儲的缺點也是顯而易見的，例如它不能支持快速查詢處理，由於當查詢僅僅針對多列表中的少數幾列時，它不能跳過沒必要要的列讀取；此外，因爲混合着不一樣數據值的列，行存儲不易得到一個極高的壓縮比，即空間利用率不易大幅提升。

列存儲

HDFS塊內列存儲的例子

在HDFS上按照列組存儲表格的例子。在這個例子中，列A和列B存儲在同一列組，而列C和列D分別存儲在單獨的列組。查詢時列存儲可以避免讀沒必要要的列，而且壓縮一個列中的類似數據可以達到較高的壓縮比。然而，因爲元組重構的較高開銷，它並不能提供基於Hadoop系統的快速查詢處理。列存儲不能保證同一記錄的全部域都存儲在同一集羣節點，行存儲的例子中，記錄的4個域存儲在位於不一樣節點的3個HDFS塊中。所以，記錄的重構將致使經過集羣節點網絡的大量數據傳輸。儘管預先分組後，多個列在一塊兒可以減小開銷，可是對於高度動態的負載模式，它並不具有很好的適應性。

RCFile結合行存儲查詢的快速和列存儲節省空間的特色：首先，RCFile保證同一行的數據位於同一節點，所以元組重構的開銷很低；其次，像列存儲同樣，RCFile可以利用列維度的數據壓縮，而且能跳過沒必要要的列讀取。

HDFS塊內RCFile方式存儲的例子：

數據測試

源表數據記錄數：67236221

第一步：建立三種文件類型的表，建表語法參考Hive文件存儲格式

Sql代碼

--TextFile
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
INSERT OVERWRITE table hzr_test_text_table PARTITION(product='xxx',dt='2013-04-22')
SELECT xxx,xxx.... FROM xxxtable WHERE product='xxx' AND dt='2013-04-22';
--SquenceFile
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
set io.seqfile.compression.type=BLOCK;
INSERT OVERWRITE table hzr_test_sequence_table PARTITION(product='xxx',dt='2013-04-22')
SELECT xxx,xxx.... FROM xxxtable WHERE product='xxx' AND dt='2013-04-22';
--RCFile
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
INSERT OVERWRITE table hzr_test_rcfile_table PARTITION(product='xxx',dt='2013-04-22')
SELECT xxx,xxx.... FROM xxxtable WHERE product='xxx' AND dt='2013-04-22';