Hive parquet數據格式內部結構

parquet是一個列式存儲格式,對於大型查詢、指定列查詢都是高效的,內部由一個header,四個block,一個footer組成。 header中只包含一個4個字節的數字PAR1用來識別整個Parquet文件格式 文件中所有的metadata都存在於footer中 footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及所有block中的meta
相關文章
相關標籤/搜索