ORC 文件存儲格式

一、orc列式存儲概念html

a)列式存儲:orc並非純粹的列式存儲,也是先基於行對數據表進行分組(行組),而後對行組進行列式存儲。app

b)查詢數據的時候不須要掃描所有數據(磁盤IO),只需查詢指定列便可。3d

c)orc對每一列提供了常規統計信息(min 、 max 、 sum等),加速查詢。例如過濾條件f>10,若是當前分片的max小於10,則直接過濾掉這個分片。htm

d)每一列的數據都是同構的,所以壓縮效率更高。blog

e)讀寫orc文件須要壓縮、解壓,須要消耗額外的cpu資源。索引

以上是orc文件格式的優劣點。ip

 

二、orc文件格式資源

a)orc文件分層:orc -> stripe -> row groupget

b)orc索引分級:file level -> stripe level -> row group levelio

orc reader 根據 search arguments 判斷是否能夠跳過某些數據。

 

三、orc文件讀寫

orc append

a)How to append ORC file

 

參考:

orc文件存儲格式

相關文章
相關標籤/搜索