Hadoop 壓縮格式

壓縮策略 Hadoop應用處理的數據集非常大,因此需要藉助於壓縮。使用哪種壓縮格式與待處理的文件的大小、格式和所使用的工具相關。下面有一些建議,大致是按照效率從高到低排列的。 使用容器文件格式,例如順序文件、Avro數據文件、ORCFiles或者Parquet文件,所有這些文件格式同時支持壓縮和切分。通常最好與一個快速壓縮工具聯合使用,例如LZO,LZ4,或者Snappy。 使用支持切分的壓縮格式
相關文章
相關標籤/搜索