存儲格式:parquet和orc對比

Orc格式 Orc (Optimized Row Columnar)是Hive 0.11版裏引入的新的存儲格式。 如下圖所示可以看到每個Orc文件由1個或多個stripe組成,每個stripe一般爲HDFS的塊大小,每一個stripe包含多條記錄,這些記錄按照列進行獨立存儲,對應到Parquet中的row group的概念。每個Stripe裏有三部分組成,分別是Index Data,Row Dat
相關文章
相關標籤/搜索