Parquet原理

在互聯網大數據應用場景下,通常數據量很大且字段很多, 但每次查詢數據只針對其中的少數幾個字段,這時候列式存儲是極佳的選擇。 列式存儲要解決的問題: 把IO只給查詢需要用到的數據 只加載需要被計算的列 空間節省 列式的壓縮效果更好 可以針對數據類型進行編碼 開啓矢量化的執行引擎(不再1條1條的處理數據,而是一次處理1024條數據) Parquet和ORC是兩種列式存儲格式 今天主要介紹Parquet
相關文章
相關標籤/搜索