Hadoop-No.5之壓縮

時間 2021-08-15

標籤 hadoop 壓縮存儲欄目 Hadoop 简体版

原文原文鏈接

Hadoop存儲數據時需要着重考慮的一個因素就是壓縮.這裏不僅要滿足節省存儲空間的需求,也要提升數據處理性能.在處理大量數據時,消耗最大的是磁盤和網絡的I/O,所以減少需要讀取或者寫入磁盤的數據量就能大大縮短整體處理時間.這包括數據源的壓縮,它也包括數據處理過程(如MapReduce任務)中產生的中間數據的壓縮.儘管壓縮會增加CPU負載,但是大多數情況下,I/O上的節省仍然大於增加的CPU負載壓

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。