Hadoop中的幾種文件格式

Hadoop中的文件格式大體上分爲面向行和麪向列兩類:web 面向行:同一行的數據存儲在一塊兒,即連續存儲。SequenceFile,MapFile,Avro Datafile。採用這種方式,若是隻須要訪問行的一小部分數據,亦須要將整行讀入內存,推遲序列化必定程度上能夠緩解這個問題,可是從磁盤讀取整行數據的開銷卻沒法避免。面向行的存儲適合於整行數據須要同時處理的狀況。apache 面向列:整個文件
相關文章
相關標籤/搜索