hive優化-存儲格式

Hive中的文件格式大致上分爲面向行和麪向列兩類: 面向行:同一行的數據存儲在一起,即連續存儲。TextFile,SequenceFile。採用這種方式,如果只需要訪問行的一小部分數據,亦需要將整行讀入內存,推遲序列化一定程度上可以緩解這個問題,但是從磁盤讀取整行數據的開銷卻無法避免。面向行的存儲適合於整行數據需要同時處理的情況。 面向列:整個文件被切割爲若干列數據,每一列數據一起存儲。 RCFi
相關文章
相關標籤/搜索