大數據文件格式簡單介紹

大數據文件格式:parquet(column)、 Avro(Row)、 ORC(column) 相同點: 基於hadoop文件系統優化出的存儲結構 提供高效的壓縮 二進制存儲格式 文件可分割 使用schema進行自我描述 列式存儲:跳過不符合條件的數據,只讀取需要的數據,減少了IO
相關文章
相關標籤/搜索