hive存儲格式優化調研報告

寫在前面: hive表的源文件存儲格式有以下幾類:text 、sequence、parquet、rc、orc。下面試着從寫入時間、壓縮比、查詢速度、表結構修改幾個方面對上述存儲方式進行對比說明。 由於orc是對rc格式的改進,各方面相對於rc都有很好的優化和提升,因此暫時不對rc格式進行測試。 新增了兩個關於parquet的對比格式。其中,parquet_gzip是基於gzip壓縮的parquet
相關文章
相關標籤/搜索