基於Hadoop生態系統的一種高性能數據存儲格式CarbonData(性能篇)

一、評測環境 1)網絡拓撲圖 2)配置參數 Ø 服務器配置 二、性能對比 目前主流hadoop的文件存儲格式有行存儲的CSV格式,列式存儲的ORC和Parquet等。本章給出的是Parquet+Spark和CarbonData+Spark在過濾查詢場景和聚合計算場景的性能測試結果。 1)測試數據 創建瀋陽社保的數據倉庫,導入、集成1年的測試數據,如下表: 生成CarbonData格式文件,如下表:
相關文章
相關標籤/搜索