Hive ORC和Parquet

相比傳統數據庫的行式存儲引擎,列式存儲引擎具備更高的壓縮比,更少的IO操做,尤爲是在數據列不少,但每次操做僅針對若干列進行查詢和計算的情景,列式存儲引擎的性價比更高。數據庫 目前在開源實現中,最有名的列式存儲引擎莫過於Parquet和ORC,而且他們都是Apache的頂級項目,在數據存儲引擎方面發揮着重要的做用。apache 本文將重點講解ORC文件存儲格式,Parquet暫不深刻說明,後續抽時間
相關文章
相關標籤/搜索