Parquet格式解析

parquet是列式存儲格式,官方文檔apache

https://parquet.apache.org/documentation/latest/

 一個Parquet文件是由一個header以及一個或多個block塊組成,以一個footer結尾。header中只包含一個4個字節的數字PAR1用來識別整個Parquet文件格式。文件中全部的metadata都存在於footer中。footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及全部block中的metadata信息。footer中最後兩個字段爲一個以4個字節長度的footer的metadata,以及同header中包含的同樣的PAR1。bash

在Parquet文件中,每個block都具備一組Row group,它們是由一組Column chunk組成的列數據。繼續往下,每個column chunk中又包含了它具備的pages。每一個page就包含了來自於相同列的值blog

相關文章
相關標籤/搜索