Hadoop-No.5之壓縮

Hadoop存儲數據時需要着重考慮的一個因素就是壓縮.這裏不僅要滿足節省存儲空間的需求,也要提升數據處理性能.在處理大量數據時,消耗最大的是磁盤和網絡的I/O,所以減少需要讀取或者寫入磁盤的數據量就能大大縮短整體處理時間.這包括數據源的壓縮,它也包括數據處理過程(如MapReduce任務)中產生的中間數據的壓縮.儘管壓縮會增加CPU負載,但是大多數情況下,I/O上的節省仍然大於增加的CPU負載 壓
相關文章
相關標籤/搜索