Hive之存儲格式

常用的存儲格式 1.textfile Hive數據表的默認格式,數據不做壓縮,磁盤開銷大,數據解析開銷大。存儲方式:行存儲。 可以使用Gzip壓縮算法,但壓縮後的文件不支持split。 在反序列化過程中,必須逐個字符判斷是不是分隔符和行結束符,因此反序列化開銷會比SequenceFile高几十倍。 2.RCFile 存儲方式:數據按行分塊,每塊按列存儲。結合了行存儲和列存儲的優點: 首先,RCFi
相關文章
相關標籤/搜索