大數據文件格式梳理:Parquet、Avro、ORC

掃描優化的列存儲格式,默認是parquet 寫優化的行格式,默認是avro Parquet、Avro、ORC格式 相同點 基於Hadoop文件系統優化出的存儲結構 提供高效的壓縮 二進制存儲格式 文件可分割,具有很強的伸縮性和並行處理能力 使用schema進行自我描述 屬於線上格式,可以在Hadoop節點之間傳遞數據   不同點 行式存儲or列式存儲:Parquet和ORC都以列的形式存儲數據,而
相關文章
相關標籤/搜索