大數據列式存儲 Parquet 和 ORC 簡介

大數據列式存儲 背景 隨着大數據 Hadoop/Spark 生態的不斷髮展和成熟,TextFile、CSV這些文本格式存儲效率低,查詢速度慢,往往不能很好地滿足大數據系統中存儲和查詢的需求,列式存儲也在大數據社區逐漸興起到成熟。目前,使用比較廣泛的列式存儲主要是 Apache Parquet 和 Apache ORC,Parquet 由谷歌的 Dremel 發展而來,由Twitter 貢獻給社區,
相關文章
相關標籤/搜索