Parquet與ORC:高性能列式存儲格式

背景 隨着大數據時代的到來,愈來愈多的數據流向了Hadoop生態圈,同時對於可以快速的從TB甚至PB級別的數據中獲取有價值的數據對於一個產品和公司來講更加劇要,在Hadoop生態圈的快速發展過程當中,涌現了一批開源的數據分析引擎,例如Hive、Spark SQL、Impala、Presto等,同時也產生了多個高性能的列式存儲格式,例如RCFile、ORC、Parquet等,本文主要從實現的角度上對
相關文章
相關標籤/搜索