parquet列式文件實戰

前言 列式文件,顧名思義就是按列存儲到文件,和行式存儲文件對應。保證了一列在一個文件中是連續的。下面從parquet常見術語,核心schema和文件結構來深入理解。最後通過java api完成write和read。   術語 block parquet層面和row group是一個意思   row group 邏輯概念,用於對row進行分區。由數據集中每個column的column chunk組成
相關文章
相關標籤/搜索