Hadoop - MapRedcue支持的壓縮編碼、壓縮方式選擇、壓縮位置選擇及參數配置

一、爲什麼要使用壓縮? 壓縮技術能夠有效減少底層存儲系統(HDFS)讀寫字節數。壓縮提高了網絡帶寬和磁盤空間的效率。在運行MR程序時,I/O操作、網絡數據傳輸、 Shuffle和Merge要花大量的時間,尤其是數據規模很大和工作負載密集的情況下,因此,使用數據壓縮顯得非常重要。   鑑於磁盤I/O和網絡帶寬是Hadoop的寶貴資源,數據壓縮對於節省資源、最小化磁盤I/O和網絡傳輸非常有幫助。可以在
相關文章
相關標籤/搜索