Hadoop文件格式

1、Hadoop中文件格式大致分爲面向行、面向列兩種方式: 面向行: 同一行數據存儲在一起,如SequenceFile、MapFile、Avro DataFile都是該存儲方式,如果需要訪問同行小部分數據,也需要將整行讀入內存,所以該存儲方式適合整行數據同時處理的情況。 面向列: 整個文件被切割成若干列數據,每列數據一起存儲,RCFile、ORCFile都是該存儲方式,讀取數據時可以跳過不需要的列
相關文章
相關標籤/搜索