hadoop文件格式和壓縮算法

需要考慮的因素 文件格式對存儲空間利用率, 程序性能都有很大的影響. 具體表現在: 文件和壓縮算法的組合是否支持可分片, MapReduce在讀取數據的時候需要並行, 這就要求壓縮後的文件可以分片讀取. 在考慮如何壓縮那些將由MapReduce處理的數據時,考慮壓縮格式是否支持分割是很重要的。考慮存儲在HDFS中的未壓縮的文件,其大小爲1GB,HDFS的塊大小爲64MB,所以該文件將被存儲爲16塊
相關文章
相關標籤/搜索