parqute orc 存儲文件格式

如圖所示: parquet存儲個有一下概念 行組(Row Group):按照行將數據物理上劃分爲多個單元,每一個行組包含一定的行數,在一個HDFS文件中至少存儲一個行組,Parquet讀寫的時候會將整個行組緩存在內存中。 列塊(Column Chunk):在一個行組中每一列保存在一個列塊中,行組中的所有列連續的存儲在這個行組文件中。不同的列塊可能使用不同的算法進行壓縮。 頁(Page):每一個列塊
相關文章
相關標籤/搜索